Integration von HADOOP in die Data-Warehouse-Architektur


Studienarbeit, 2015
16 Seiten, Note: 2.3

Leseprobe

Inhalt

1. Einleitung
1.1. Einleitung
1.2. Problemstellung
1.3. Ziel
1.4. Vorgehensweise

2. Grundlagen zu Hadoop
2.1. Technische Einführung Hadoop
2.1.1. Hadoop Distributed File System (HDFS)
2.1.2. MapReduce
2.1.3. Yarn (Yet another Resource Negotiator)

3. Einsatzmöglichkeiten von Hadoop
3.1. Einleitung für Einsatzmöglichkeiten Hadoop
3.2. Data Staging
3.3. Datenarchivierung
3.4. Polystrukturierte Daten

4. Integration von Hadoop in ein Data Warehouse
4.1. Integration von Hadoop in ein Data Warehouse
4.1.1. Standalone
4.1.2. Pseudodistributed
4.1.3. Fully Distributed

5. Fazit

6. Quellenangaben
6.1. Onlinequellen
6.2. Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Hadoop-Dateisystem im Architektur-Schema (Eigene Darstellung) 8

1. Einleitung

1.1. Einleitung

Durch den ständig ansteigenden Informationsbedarf in den Unternehmen und das Erkennen der Wichtigkeit der Unternehmensdaten, bauten ins besonders große Unternehmen in den letzten 40 Jahren komplexe und heterogene IT-Infrastrukturen auf.[1] Die zunehmende Globalisierung der Unternehmen, mit der daraus verstärkten Konkurrenzsituation für nationale und international agierende Unternehmen, verstärkte den Bedarf an Informationen und damit auch die Datenmenge die für ein Unternehmen entscheidungsrelevant werden. Diese Situation wird durch die moderne Kommunikationstechnik mit ihren mobilen und internetfähigen Geräten, begünstigt. „Dort, wo Wirtschaft betrieben wird fallen auch Daten an, die gesammelt, gespeichert und verwaltet werden müssen.“[2] Die Unternehmen sind gezwungen, schnelle und richtige Entscheidungen, aufgrund der vergangenheitsbezogenen und zukunftsbezogenen Daten zutreffen. Alle Unternehmen versuchen sich durch eine schnelle Aufbereitung und Analyse der Daten einen Wettbewerbsvorteil zu verschaffen. „Um unternehmensinterne und -externe Veränderungen frühzeitig erkennen und gegebenenfalls sogar prognostizieren zu können, müssen den Entscheidungsträgern aller Unternehmensbereiche zum richtigen Zeitpunkt alle relevanten Daten und Informationen zur Verfügung stehen.“[3] Damit die Entscheidungsprozesse vereinfacht werden, wurden Decision - Support-Systeme (DSS) und Controlling Systeme entwickelt.[4] Durch die meist in den Unternehmen vorhandene heterogene IT Infrastruktur, müssen für die Erstellung der Berichte an das Topmanagement, Datenbestände zusammengeführt und aufbereitet werden.[5]

„Das Data Warehouse ist ein Ansatz zur Lösung dieser Probleme; es bietet eine Entscheidungsdatenbasis für alle Mitarbeiter eines Betriebes.“[6] Die Geschäftsdaten aus allen Datenquellen werden zyklisch in das Data Warehouse geladen. Dadurch sind im Data Warehouse die Geschäftsdaten von einem langen Zeitraum abgelegt. Die Auswertungen in einem Data Warehouse können immer nur bis zum letzten Importzeitpunkt durchgeführt werden. Durch die Steigerung der Datenmenge und die Benutzung von langen vergangenheitsbezogenen Zeiträumen für Prognosen und Berichte, sinkt die Performance und die Zeiträume in dem die Berichte erstellt werden, steigt deutlich an. Bei einem sehr hohen und unstrukturierten, mit nicht standardisierten Datenvolumen, wird die Skalierung eines Data Warehouse sehr problematisch. Daraus entsteht bei einem klassischen Data Warehouse ein weiteres Problem, die Performance, und die damit in Korrelation stehende Verarbeitungsgeschwindigkeit zur Erstellung von unternehmensweiten Analysen und Berichten. „Viele Unternehmen erzeugen heute riesige Mengen an Daten, und die wollen diese viel schneller als früher auswerten. Der klassische Data-Warehouse-Ansatz stößt in diesem Umfeld schnell an seine Grenzen. Big-Data-Technologien versprechen, den neuen Anforderungen gerecht zu werden und bieten vielversprechende Ansätze, um das althergebrachte Data-Warehouse-Konzept zu erweitern und zu modernisieren.“[7] Einer dieser Ansätze ist Hadoop, das seit 2008 überall dort Erfolg hat, wo große, unstrukturierte Datenmengen zu bewegen sind.[8] „[…], denn Hadloop sagt ganz klar, dass es darauf ausgelegt ist, große Datenmengen in geringer Zeit zu verarbeiten.“[9]

1.2. Problemstellung

Die Problemstellung geht aus dem im Kapitel 1.1 aufgeführten Problemen des Data Warehouse hervor, dass vor allem bei hohen unstrukturierten Daten sehr schnell an seine Leistungsfähigkeit stößt und dabei schlecht skaliert werden kann. Ein weiteres Problem entsteht bei der Suche nach den Einsatzmöglichkeiten der Hadoop Lösung, und der Feststellung, dass die bei Hadoop geschaffenen Ansätzen nicht einheitlich und vollständig in der Literatur dargestellt werden. Dies wiederum führt bei Projekten, und Erarbeitung von Lösungen zu Irritationen und unnötigen Kommunikationseinschränkungen. Aus diesen Gründen möchte diese Arbeit dazu beitragen, die verschiedenen Einsatzmöglichkeiten zu erläutern und mögliche Integrationen in ein Data Warehouse aufzeigen.

1.3. Ziel

Das Ziel dieser Arbeit ist es die Grundlagen der Hadoop Technologie darzustellen. Es wird die mögliche Erweiterbarkeit der Data Warehouse Architektur sowie die Einsatzmöglichkeiten durch Hadoop erläutert. Um in einem Fazit der Arbeit, die Hadoop Technologie und ihre Einsatzmöglichkeiten kritisch zu hinterfragen.

1.4. Vorgehensweise

In dieser Arbeit werden zuerst die Grundlagen der Hadoop-Technologie dargestellt. Danach werden die wichtigsten Einsatzmöglichkeiten der Hadoop-Technologie erläutert und begründet. Hiernach werden die Möglichkeiten erarbeitet wie die Data Warehouse Architektur mit der Hadoop – Technologie erweitert werden kann. Am Ende der Arbeit wird in einem Fazit die Hadoop kritisch reflektiert.

2. Grundlagen zu Hadoop

2.1. Technische Einführung Hadoop

Hadoop beginnt dort, wo das Data Warehouse System an seine Grenzen stößt. Denn Hadoop sagt ganz klar, dass es ausgelegt wurde um große Datenmengen in geringer Zeit zu verarbeiten.[10] Entwickelt wurde Hadoop von Herrn Doug Cutting, er extrahierte das verteilte Dateisystem (HDFS) und das MapReduce – Framework in ein eigens separates Framework.[11] Es ist ein freies, Java basiertes Open Source Framework für die Verarbeitung großer Datenmengen. „Technisch gesehen, ist Hadoop ein Java – Framework zum verteilten Speichern von Daten und zu derer parallelen Verarbeitung auf Commodity – Hardware.“[12] Durch den Aufbau, kann Hadoop sehr granuliert skaliert werden und dabei können die Kosten durch Verwendung von unterschiedlicher Standard Server Hardware reduziert werden, noch dazu da es ein Open Source Produkt ist. “Ein Grund für die Beliebtheit von Hadoop ist einfach seine Wirtschaftlichkeit. Die Verarbeitung von großen, umfangreichen Datensätzen setzte bisher Supercomputer und andere teure und spezielle Hardware voraus.“[13] „Es lässt sich horizontal von wenigen auf mehrere tausend Serverknoten skalieren, toleriert Serverausfälle, die in großen Serverfarmen als „Normalzustand“ anzusehen sind, und sorgt für stabile Speicher und Analyseprozesse.“[14] Die Anwendung Hadoop besteht aus mehreren Bestandteilen, hier aufgeführt werden die wichtigsten drei, das verteilte Dateisystem (HDFS) und das MapReduce – Framework, sowie Yarn.[15] „Wichtig ist zu wissen, dass Hadoop erst durch deren Zusammenspiel seine Stärke ausspielen kann.“[16]

Allerdings sind Sie nicht voneinander abhängig, sondern können auch mit anderen Quellen zusammenarbeiten. Die große Effizienz mit der Hadoop mit großen Datenmengen arbeitet, kommt vom Prinzip der Datenteilung, es wird der Programmcode auf alle Knoten verteilt. „Anders als wir es von traditionellen Anwendungen kennen, in denen die Daten dem Programm zur Verfügung gestellt werden, wird bei Hadoop der Programmcode auf dem Cluster verteilt, um die Notwendigkeit des Datentransports minimal zu halten.“[17] Nur den zugewiesenen Bruchteil von den Eingabedaten, verarbeitet ein Knoten im Cluster. Dadurch entstehen zwar redundante Operationen, aber bei der Konsolidierung der Daten werden die Teilergebnisse verwendet die der schnellste Knoten im Cluster zurückliefert.[18]

2.1.1. Hadoop Distributed File System (HDFS)

Das Hadoop Distributed File System wurde aus dem von Google entworfenen GFS entwickelt. Es soll verschiedene Anforderungen erfüllen, wie den Betrieb auf Commodity-Hardware, die Ausfallsicherheit einzelner Knoten, Speicherung und Verarbeitung großer Datenmengen, sowie die einfache Skalierbarkeit.[19] „Statt auf kostspieligen Speichernetzwerken (Storage Attached Network, SAN) kann Hadoop auf kostengünstiger Standardhardware betrieben werden.“[20] Es existieren zwei Arten, NameNode und DataNode, von Diensten, wobei der NameNode den einzigen Masterknoten (Dienst) darstellt. „Die NameNode realisiert einen zentralen Dienst, der alle Dateioperationen in Hadoop – Dateisystem kontrolliert und regelt.“[21]

Im Gegensatz zu einem üblichen Dateisystem ist die normale Blockgröße beim HDFS 64 MB bis maximal 128 MB. Diese Blockgröße erklärt sich durch die gewünschte Eigenschaft zur Verarbeitung sehr großer Dateien.[22] „Erhält der Name-Node nun vom Client eine Datei, die im Dateisystem abgelegt werden soll, benötigt dieser zwei weitere Informationen: erstens die eben genannte Blockgröße, in die er die Datei aufteilen soll, und zweitens die Anzahl der Repliken, die über den Cluster verteilt werden.“[23] Der NameNode sucht so viele DataNote, wie repliziert (mindestens 3) werden heraus, übermittelt die Adressen an den anfordernden Client zurück. Würden bei der Verarbeitung eines datenintensiven Prozesses, zwei der DataNode ausfallen, erkennt dies der NameNode und die Datenverarbeitung wird auf dem verbleibenden DataNode ausgeführt.[24]

Die Hauptaufgabe von DataNode sind, die Verwaltung der einzelnen Dateisystem Blöcke, der Dateitransfer für Replikation der einzelnen

Dateisystem Blöcke und das Bereitstellen von Zusatzinformationen für den NameNode.[25] Den DataNodes sind die Datei oder Verzeichnisnamen unbekannt, sie lesen und schreiben die Datenblöcke für den Client und replizieren ihre Daten eigenständig.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Hadoop-Dateisystem im Architektur-Schema (Eigene Darstellung)

„In der Regel laufen auf einer auch die jeweiligen MapReduce – Jobs, um möglichst nahe an den zu verarbeiteten Daten zu sein und möglichst wenige Daten über das Netzwerk verteilen zu müssen.“[26] (Eigene Darstellung)

[...]


[1] Vgl. Lenz R., Hasenkamp U., Hasselbring W., Reichert M., (2005), Seite 59

[2] Geisler F., (2014), Seite 393

[3] Prof. Dr. Seufert A., Prof. Dr. Lehmann P., Seite 7

[4] Vgl. Geisler F., (2014), Seite 393

[5] Vgl. Hansen H., Mendling J., Neumann P., (2015), Seite 280

[6] Hansen H., Mendling J., Neumann G., (2015), Seite 280

[7] http://www.computerwoche.de/a/hadoop-der-kleine-elefant-fuer-die-grossen-daten,2507037, Aufruf vom 28.07.2015

[8] http://www.heise.de/ix/artikel/Getrennt-marschieren-1919751.html, Aufruf 29.07.2015

[9] Freiknecht J., (2014), Seite 19

[10] Vgl. Freiknecht J., (2014), Seite 19

[11] Vgl. Wartala R., (2012), Seite 20

[12] Freiknecht J., (2014), Seite 20

[13] http://azure.microsoft.com/de-de/solutions/hadoop/, Aufruf vom 05.08.2015

[14] Dorsche J., (2015), Seite 279

[15] Vgl. Freiknecht J., (2014), Seite 20

[16] Freiknecht J., (2014), Seite 20

[17] Freiknecht J., (2014), Seite 20

[18] Vgl. Freiknecht J., (2014), Seite 20

[19] Vgl. Freiknecht J., (2014), Seite 23

[20] Wartala R., (2012), Seite 23

[21] Wartala R., (2012), Seite 24

[22] Wartala R., (2012), Seite 24

[23] Freiknecht J., (2014), Seite 22

[24] Wartala R., (2012), Seite 25

[25] Vgl. Wartala R., (2012), Seite 25

[26] Wartala R., (2012), Seite 26

Ende der Leseprobe aus 16 Seiten

Details

Titel
Integration von HADOOP in die Data-Warehouse-Architektur
Note
2.3
Autor
Jahr
2015
Seiten
16
Katalognummer
V306618
ISBN (eBook)
9783668045002
ISBN (Buch)
9783668045019
Dateigröße
461 KB
Sprache
Deutsch
Schlagworte
HADOOP, Data Warehouse
Arbeit zitieren
Martin Sünder (Autor), 2015, Integration von HADOOP in die Data-Warehouse-Architektur, München, GRIN Verlag, https://www.grin.com/document/306618

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Integration von HADOOP in die Data-Warehouse-Architektur


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden