Zur Ein- und Ausgabe großer Datenmengen auf Parallelrechnern und Cluster-Systemen werden spezielle Dateisysteme eingesetzt, die den parallelen Zugriff von mehreren Rechnern gleichzeitig effizient unterstützen. Beispiele für solche Cluster-Dateisysteme sind
Parallel Virtual File System (PVFS / PVFS2), Oracle Cluster File System (OCFS2), Red Hat Global File System (GFS), IBM General Parallel File System (GPFS) und Lustre.
Diese Arbeit evaluiert die oben genannten Produkte hinsichtlich ihrer Effizienz und praktischen Einsetzbarkeit in einer Parallelrechnerumgebung. Zu Beginn werden die verschiedenen Cluster-Dateisysteme vorgestellt, der Schwerpunkt liegt hier auf frei verfügbaren Dateisystemen. Weiter legt diese Arbeit geeignete Effizienzkriterien und Strategien zur Beurteilung
solcher Dateisysteme fest. Zu den Kriterien zählen neben einer hohen Transferrate auch eine geringe Latenzzeit bei Zugriffen auf kleine Dateien. Ein Benchmark-Programm setzt die festgelegten Kriterien und die Strategie um. Dazu wird ein neues Benchmark-Programm entwickelt, da kein verfügbares Programm alle festgelegten Kriterien untersuchen kann.
Die vorgestellte Auswahl an Cluster-Dateisystemen wird mit dem entwickelten Benchmark-Programm untersucht. Diese Arbeit präsentiert und vergleicht die gewonnenen Ergebnisse. Abschließend werden die resultierenden Leistungsdaten analysiert und darauf aufbauend Empfehlungen gegeben.
Inhaltsverzeichnis
- Einleitung
- Ziel und Motivation dieser Arbeit
- Vorgehensweise
- Abgrenzung
- Dateisysteme für Parallelrechner-Cluster
- Begriffsdefinitionen und Bedeutung
- Cluster
- Cluster-Dateisystem
- Datei-intensive Anwendungen
- Architekturen von Cluster-Dateisystemen
- Shared Storage
- Intelligente Server
- Technische Übersicht
- Parallel Virtual File System 2
- Lustre
- Oracle Cluster File System 2
- General Parallel File System
- Global File System
- Weitere Cluster-Dateisysteme
- Techniken zur Optimierung von Zugriffen
- Kriterien zur Beurteilung von Cluster-Dateisystemen
- Zugriffsmuster wissenschaftlicher Anwendungen
- Festlegung der zu untersuchenden Leistungsdaten
- Erhebung der festgelegten Leistungsdaten in Form von Testszenarien
- Sequentieller Zugriff, gemeinsame Datei
- Sequentieller Zugriff, unterschiedliche Dateien
- Schrittweiser Zugriff
- Metadaten
- Pufferfähigkeit
- Systemauslastung
- Umsetzung der konzipierten Szenarien und Testvorbereitung
- Benchmark-Programm zur Umsetzung der Szenarien
- Anforderungen an ein Benchmark-Programm
- Auswahl eines Benchmark-Programms
- Entwicklung und Umsetzung eines Benchmark-Programms
- Testvorbereitung
- Testumgebung
- Gruppierung der Rechner
- Installation und Konfiguration
- Ergebnisse der Testdurchführung
- Testergebnisse der Szenarien
- Sequentieller Zugriff, gemeinsame Datei
- Sequentieller Zugriff, unterschiedliche Dateien
- Schrittweiser Zugriff
- Metadaten
- Pufferfähigkeit
- Systemauslastung
- Diskussion der Ergebnisse
- Sequentieller Zugriff, gemeinsame Datei
- Sequentieller Zugriff, unterschiedliche Dateien
- Schrittweiser Zugriff
- Metadaten
- Pufferfähigkeit
- Fazit der Untersuchung und Handlungsempfehlungen
- Literaturverzeichnis
- Anhang
Zielsetzung und Themenschwerpunkte
Die vorliegende Bachelorarbeit befasst sich mit der Evaluierung von Cluster-Dateisystemen für den Einsatz auf Parallelrechnern. Ziel ist es, die Effizienz und praktische Einsetzbarkeit verschiedener Cluster-Dateisysteme in einer Parallelrechnerumgebung zu untersuchen. Die Arbeit konzentriert sich dabei auf frei verfügbare Dateisysteme.
- Bewertung der Effizienz von Cluster-Dateisystemen
- Analyse der Leistungsdaten verschiedener Cluster-Dateisysteme
- Entwicklung eines Benchmark-Programms zur Messung der Leistungsdaten
- Festlegung von Kriterien zur Beurteilung der Effizienz von Cluster-Dateisystemen
- Erstellung von Handlungsempfehlungen für die Auswahl und den Einsatz von Cluster-Dateisystemen
Zusammenfassung der Kapitel
Die Einleitung führt in die Thematik der Cluster-Dateisysteme ein und erläutert die Zielsetzung und Motivation der Arbeit. Es werden die Vorgehensweise und die Abgrenzung der Arbeit dargestellt.
Kapitel 2 beschäftigt sich mit den Begriffsdefinitionen und der Bedeutung von Cluster-Dateisystemen. Es werden verschiedene Architekturen von Cluster-Dateisystemen vorgestellt, darunter Shared Storage und Intelligente Server. Im Anschluss werden verschiedene Cluster-Dateisysteme, wie Parallel Virtual File System 2, Lustre, Oracle Cluster File System 2, General Parallel File System und Global File System, detailliert beschrieben.
Kapitel 3 legt die Kriterien zur Beurteilung von Cluster-Dateisystemen fest. Es werden die Zugriffsmuster wissenschaftlicher Anwendungen analysiert und die zu untersuchenden Leistungsdaten definiert. Die Erhebung der Leistungsdaten erfolgt in Form von Testszenarien, die verschiedene Zugriffsmuster simulieren, wie sequentiellen Zugriff, Schrittweisen Zugriff und Metadaten-Zugriff.
Kapitel 4 beschreibt die Umsetzung der konzipierten Testszenarien und die Testvorbereitung. Es wird ein Benchmark-Programm entwickelt, das die definierten Testszenarien ausführt. Die Testumgebung wird beschrieben und die Installation und Konfiguration der Cluster-Dateisysteme erläutert.
Kapitel 5 präsentiert die Ergebnisse der Testdurchführung. Die Testergebnisse der verschiedenen Testszenarien werden dargestellt und analysiert. Die Ergebnisse werden diskutiert und die Stärken und Schwächen der verschiedenen Cluster-Dateisysteme werden herausgestellt.
Schlüsselwörter
Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Cluster-Dateisysteme, Parallelrechner, Benchmark, Effizienz, Leistungsdaten, Testszenarien, Parallel Virtual File System 2, Lustre, Oracle Cluster File System 2, General Parallel File System, Global File System.
- Quote paper
- Ace Crngarov (Author), 2006, Evaluierung von Cluster-Dateisystemen für den Einsatz auf Parallelrechnern, Munich, GRIN Verlag, https://www.grin.com/document/186219