Die folgende Arbeit zielt darauf ab, ein Verständnis über die Funktionsweise und den Aufbau heutiger Grafikprozessoren zu vermitteln. Hierbei wird exemplarisch für moderne GPU-Architekturen, die auf dem GP100-Chipsatz basierende Nvidia Pascal Architektur der GTX1000 Serie analysiert.

Die Graphics Processing Unit (GPU) hat im Verlauf der letzten fünf Jahrzehnte eine rasanten Entwicklung erfahren. GPUs (auch als Parallelrechner bezeichnet) wurden zu Beginn ihrer Entwicklung als eine Entlastung der Central Processing Unit (CPU) bei der Berechnung von Grafiken konzipiert. Derartige Grafik-Berechnungen (Voxel-Berechnungen, Kalkulationen von dreidimensionalen Volumengrafiken, etc) bestehen heruntergebrochen aus simplen und schrittweise stattfindenden Verrechnungen von Gleitkommazahlen innerhalb einer Fixed-Funciton-Pipeline. Die zunehmenden Anforderungen von Spiele- und Rendering-Engines (Unity, Blender, Cinema4D, etc) sowie eine Erhöhung der Auflösung heutiger Ausgabegeräte erfordern GPU-Architekturen, welche in der Lage sind immer größere Mengen an Daten unter kleinstmöglicher Latenz zu verarbeiten.

Der hohe Durchsatz einer GPU - gemessen in FLOPS (Floating Point Operations per Second) - geht auf die besondere Eigenschaft der GPU zurück, Daten parallelisiert nach dem Single Instruction Multiple Thread (SIMT)-Prinzip verarbeiten zu können. Anspruchsvolle Textur- und Voxel-Berechnungen werden - zunächst vereinfacht betrachtet - als ein teilbares Gesamtproblem auf die vielen Rechenkerne der GPU aufgeteilt, als Bruchstücke berechnet und zuletzt wieder zu einem Ergebnis zusammengefügt. Nicht zuletzt hat diese Art der alternativen Prozessierung (im Vergleich zur Multiple Instruction Multiple Data (MIMD)-basierten Datenverarbeitung einer CPU) auch in vielen anderen Feldern der rechenintensiven Informatik neue Möglichkeiten eröffnet.

Excerpt

Inhaltsverzeichnis

1 Einleitung

2 Einführung in die Parallelisierung anhand des Vergleichs von GPU und CPU

2.1 Befehls-Modell: Single Instruction und Multiple Instruction

2.2 Daten-Modell: Single Data und Multiple Data

2.3 SIMD(T) und MIMD

3 Analyse der Nvidia Tesla P100 Pascal Architektur

3.1 Komponenten des GPU-Rechenclusters

3.1.1 Streaming Prozessoren - CUDA Rechenkerne

3.1.2 Streaming Multiprozessor

3.1.3 Texture Processing Cluster und Graphics Processing Cluster

3.2 Speicher-Struktur der Graphics Processing Unit

3.2.1 Registerspeicher

3.2.2 L1-CACHE und Texturspeicher

3.2.3 L2-CACHE

3.2.4 Der Globale Speicher

3.3 Schnittstellen und Interfaces

3.3.1 PCI Express 3.0 Host Interface

3.3.2 SLI und NVLink

4 Fazit

Zielsetzung & Themen

Das Hauptziel dieser Arbeit ist es, ein tiefgreifendes Verständnis für die Funktionsweise und den strukturellen Aufbau moderner Grafikprozessoren zu vermitteln. Im Fokus der Untersuchung steht dabei die Analyse der Nvidia Pascal Architektur, exemplarisch dargestellt anhand der Nvidia Tesla P100, um die Prinzipien der parallelen Datenverarbeitung und Speicherverwaltung zu verdeutlichen.

Vergleich der Prozess- und Datenmodelle von CPU und GPU (SIMT vs. MIMD).
Technische Analyse der Komponenten moderner GPU-Architekturen (CUDA-Kerne, Streaming Multiprozessoren).
Detaillierte Untersuchung der GPU-Speicherhierarchie von Registern bis zum globalen HBM2-Speicher.
Betrachtung der Verbindungsschnittstellen wie PCIe und NVLink für den Datenaustausch.

Auszug aus dem Buch

3.2.1 Registerspeicher

In Abbildung 6. lässt sich oberhalb der Rechenkerne der 32-bit Registerspeicher (Register File) erkennen. Der Registerspeicher ist die schnellste Form von Speicher innerhalb einer GPU.40 Innerhalb des Registerspeichers werden Informationen über alle auszuführenden und aktiven Warps gespeichert. Sie sind sinngemäß die Referenz für die Warp Scheduler, welche die eigentliche Verteilung der Warps auf die Rechenkerne vornehmen.

Können Threads beispielsweise innerhalb eines Taktes nicht ausgeführt werden (möglicherweise, weil aufgrund parallel ablaufender Speicher-Transaktionen auf einen Speicherzugriff gewartet wird), so muss dies für die Warp Scheduler transparent gemacht werden, da diese andernfalls nicht in der Lage sind eine Planung der nächsten zwei Warps innerhalb des Folgetaktes vorzunehmen. Jeder Warp wird mit einer ID im Speicher hinterlegt, welche diesen eindeutig identifizierbar macht. Der Registerspeicher enthält demnach Zustandsbeschreibungen der einzelnen Warps. Darin enthalten ist auch eine Beschreibung der Threads und der jeweiligen Instruktionen, welche über den Thread an die Rechenkerne übermittelt werden.41

Zusammenfassung der Kapitel

1 Einleitung: Diese Einleitung führt in die historische Entwicklung der GPU vom Grafikbeschleuniger hin zum Parallelrechner ein und definiert das Ziel, die Nvidia Pascal Architektur zu analysieren.

2 Einführung in die Parallelisierung anhand des Vergleichs von GPU und CPU: Hier werden die fundamentalen Unterschiede in den Befehls- und Datenmodellen erläutert, wobei insbesondere das SIMT-Prinzip der GPU dem MIMD-Ansatz der CPU gegenübergestellt wird.

3 Analyse der Nvidia Tesla P100 Pascal Architektur: Dieses Kapitel bildet den Hauptteil der Arbeit und untersucht detailliert die Hardware-Komponenten, die komplexe Speicherhierarchie und die Schnittstellen der gewählten GPU-Architektur.

4 Fazit: Das Fazit fasst die Erkenntnisse über die zunehmende Multifunktionalität und Programmiererorientierung von GPUs zusammen und betont die Bedeutung technischer Architekturkenntnisse für die Softwareentwicklung.

Schlüsselwörter

GPU-Architektur, Parallelisierung, Nvidia Tesla P100, Pascal Architektur, CUDA-Kerne, Streaming Multiprozessor, SIMT, Speicherhierarchie, Registerspeicher, HBM2, PCIe, NVLink, GPGPU, Rendering Pipeline, Datenverarbeitung.

Häufig gestellte Fragen

Worum geht es in dieser wissenschaftlichen Arbeit grundlegend?

Die Arbeit befasst sich mit der Architektur von modernen Grafikprozessoren (GPUs), insbesondere am Beispiel der Nvidia Tesla P100, und deren Funktionsweise als Parallelrechner.

Was sind die zentralen Themenfelder der Arbeit?

Die zentralen Themen umfassen die Parallelisierungskonzepte, den internen Aufbau von Rechenclustern, die Speicherhierarchie sowie die Verbindungsschnittstellen zu Hostsystemen.

Was ist das primäre Ziel der Arbeit?

Das Ziel ist die Vermittlung eines fundierten Verständnisses über den Aufbau und die technischen Prinzipien moderner Grafikprozessoren, um deren Einsatz in rechenintensiven Feldern nachvollziehbar zu machen.

Welche wissenschaftliche Methode wird verwendet?

Die Arbeit nutzt eine deskriptive und analysierende Methode, um basierend auf technischer Fachliteratur die Architektur der Nvidia Pascal-Serie im Detail zu erläutern.

Was wird im Hauptteil behandelt?

Der Hauptteil analysiert Komponenten wie CUDA-Rechenkerne, Streaming Multiprozessoren, die verschiedenen Speicherebenen (von Registern bis HBM2) sowie Schnittstellen wie PCIe und NVLink.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit ist durch Begriffe wie GPU-Architektur, Parallelisierung, SIMT, CUDA, Speicherhierarchie und GPGPU charakterisiert.

Warum ist das HBM2-Speichermodell bei der Pascal-Architektur so signifikant?

HBM2 bietet eine deutlich höhere Bandbreite und wurde direkt auf dem GPU-Chip verbaut, was die Leitungswege verkürzt und eine effizientere Datenanbindung ermöglicht.

Welche Rolle spielen Warp Scheduler in der Nvidia Pascal Architektur?

Sie koordinieren die Verteilung von Threads auf die CUDA-Kerne und stellen sicher, dass Befehle innerhalb eines Taktes effizient abgearbeitet werden, was für den Durchsatz entscheidend ist.

Wie unterscheidet sich die Speicherkohärenz bei einer GPU im Vergleich zu einer CPU?

Die Arbeit verdeutlicht dies am Beispiel des L2-Speichers, der kohärenten Zugriff für alle Streaming Multiprozessoren bietet, ähnlich wie atomare Transaktionen in einem Datenbanksystem.

Excerpt out of 30 pages - scroll top

Details

Title: Grafikprozessoren und deren Architektur. Einblicke in die Parallelisierung und die Funktionsweise von Mehrkernprozessoren
College: University of Applied Sciences Bonn
Course: IT-Infrastruktur
Grade: 1.0
Author: Lars Kaiser (Author)
Publication Year: 2020
Pages: 30
Catalog Number: V1020075
ISBN (eBook): 9783346413123
ISBN (Book): 9783346413130
Language: German
Tags: GPU CPU Architektur GPU Architektur Grafikeinheit Grafikprozessoren Prozessor Architecture Grafik Parallelisierung Rechner
Product Safety: GRIN Publishing GmbH

Quote paper: Lars Kaiser (Author), 2020, Grafikprozessoren und deren Architektur. Einblicke in die Parallelisierung und die Funktionsweise von Mehrkernprozessoren, Munich, GRIN Verlag, https://www.grin.com/document/1020075

Grafikprozessoren und deren Architektur. Einblicke in die Parallelisierung und die Funktionsweise von Mehrkernprozessoren