Zunächst werden im allgemeinen Teil der vorliegenden Arbeit das Data-Warehouse-System und die HADOOP-Technologie definiert. Dabei wird auf die Teilbereiche HDFS, Map-Reduce und YARN eingegangen. Daraufhin werden mögliche Gründe für den Einsatz dieser Techniken geliefert. In Kapitel 3 werden dann die Möglichkeiten für einen Einsatz von HADOOP zur Erweiterung der klassischen Data-Warehouse-Architektur aufgezeigt. Abschließend wird die vorliegende Arbeit kurz zusammengefasst und ein Fazit daraus gezogen.
Inhaltsverzeichnis
1 Einleitung
1.1 Motivation
1.2 Zielsetzung und Vorgehensweise
2 Grundlagen
2.1 Definition von Data-Warehouse-Systemen
2.2 Definition der HADOOP-Technologie
2.2.1 HDFS
2.2.2 Map-Reduce
2.2.3 YARN
2.3 Gründe für den Einsatz der HADOOP-Technologie
3 Möglichkeiten zur Erweiterung der klassischen Data-Warehouse-Architektur um HADOOP
3.1 HADOOP als Staging-Area im ETL-Prozess
3.2 HADOOP als ELT-Worker
3.3 HADOOP als Datenbank
3.4 HADOOP als langfristig verfügbares Datenarchiv
5 Fazit
Zielsetzung & Themen
Das Hauptziel dieser Arbeit besteht darin, Möglichkeiten aufzuzeigen, wie die klassische Data-Warehouse-Architektur durch den Einsatz der HADOOP-Technologie erweitert werden kann, um modernen Anforderungen an Datenhaltung und -verarbeitung gerecht zu werden.
- Grundlagen von Data-Warehouse-Systemen
- Architektur und Komponenten von HADOOP (HDFS, Map-Reduce, YARN)
- Einsatzszenarien von HADOOP im Data-Warehouse-Umfeld
- HADOOP als Staging-Area und ELT-Worker
- HADOOP als NoSQL-Datenbank und Datenarchiv
Auszug aus dem Buch
2.2.1 HDFS
Im Gegensatz zu relationalen Datenbanken werden bei HADOOP die Daten ohne Relation zueinander abgelegt. Dieses verteilte System benötigt keine besondere Hardware und setzt auf gängige Dateisysteme wie ext3 von Linux auf. Um allerdings große Dateien verarbeiten zu können, werden nicht wie üblich Dateiblöcke von 1 bis 64 Kilobyte, sondern von bis zu 128 Megabyte verwendet. Dabei ist von sogenannten Flat-Files die Rede.11 Um die große Lese- und Schreiblast und die Hochverfügbarkeit von datenintensiven Verarbeitungsprozessen realisieren zu können, sind bei HDFS verschiedene Rechner-Knoten im Einsatz.
Beim Name-Node handelt es sich um ein zentrales System, welches alle Dateioperationen im HDFS-System kontrolliert und regelt. Es dient allen anderen Data-Nodes als Master-System. In der Standard-Konfiguration werden alle Dateiblöcke auf drei Data-Nodes repliziert, was die Ausfallsicherheit garantiert und die Verarbeitungsgeschwindigkeit der Abfrage erhöht. Da der HDFS-Client seine Anfragen direkt an die Data-Nodes stellt und sich diese untereinander selbstständig replizieren, wird der Datenverkehr im Netzwerk verringert.12
Zusammenfassung der Kapitel
1 Einleitung: Dieses Kapitel erläutert die Motivation für den Einsatz moderner Technologien bei der Datenverwaltung und definiert die Zielsetzung sowie die Vorgehensweise der Arbeit.
2 Grundlagen: Hier werden Data-Warehouse-Systeme definiert und die technologischen Komponenten von HADOOP, insbesondere HDFS, Map-Reduce und YARN, detailliert vorgestellt.
3 Möglichkeiten zur Erweiterung der klassischen Data-Warehouse-Architektur um HADOOP: In diesem Kapitel werden vier konkrete Einsatzszenarien für HADOOP im Kontext von Data-Warehouse-Architekturen erörtert.
5 Fazit: Das Fazit fasst die Ergebnisse zusammen und reflektiert die Rolle von HADOOP als ergänzendes Baukastensystem in einer komplexen IT-Landschaft.
Schlüsselwörter
Data-Warehouse, HADOOP, HDFS, Map-Reduce, YARN, Big Data, ETL-Prozess, ELT-Worker, NoSQL, HBase, Datenarchiv, Datenverarbeitung, Skalierbarkeit, Batch-Jobs, verteilte Systeme.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit untersucht die Integration von HADOOP-Technologien in klassische Data-Warehouse-Architekturen zur effizienten Verarbeitung großer Datenmengen.
Welches sind die zentralen Themenfelder?
Die zentralen Themen sind Data-Warehouse-Strukturen, HADOOP-Komponenten und verschiedene architektonische Einsatzszenarien für HADOOP im Unternehmenskontext.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist es, aufzuzeigen, wie HADOOP als Ergänzung zu bestehenden Systemen eingesetzt werden kann, um deren Funktionalität und Verarbeitungskapazität zu erweitern.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit basiert auf einer theoretischen Literaturanalyse und der Untersuchung technischer Konzepte zur Erweiterung von Data-Warehouse-Architekturen.
Was wird im Hauptteil behandelt?
Der Hauptteil analysiert die Definition von Data-Warehouse-Systemen, die HADOOP-Komponenten und beleuchtet vier Einsatzszenarien von HADOOP, wie etwa als Staging-Area oder als Archivsystem.
Welche Schlüsselwörter charakterisieren die Arbeit?
Charakterisierende Begriffe sind unter anderem Data-Warehouse, HADOOP, Big Data, Skalierbarkeit sowie spezifische HADOOP-Komponenten wie HDFS und Map-Reduce.
Warum reicht ein klassisches Data-Warehouse für heutige Datenmengen oft nicht mehr aus?
Klassische Systeme stoßen bei der Verarbeitung extrem großer, oft unstrukturierter Datenmengen in Bezug auf Lese- und Schreibgeschwindigkeit sowie horizontale Skalierbarkeit an ihre Grenzen.
Welchen Vorteil bietet HADOOP als langfristiges Datenarchiv?
Es bietet die Möglichkeit, kostengünstige Standard-Hardware zu nutzen, statt in teure Storage Area Networks (SAN) zu investieren, und ermöglicht gleichzeitig einen schnellen Zugriff auf große Datenbestände.
- Arbeit zitieren
- Johannes Veeh (Autor:in), 2016, Integration von HADOOP in die Data-Warehouse-Architektur, München, GRIN Verlag, https://www.grin.com/document/431601