In der vorliegenden Arbeit soll eruiert werden, was allgemeinhin unter Data Lake verstanden wird. Der Aufbau eines Data Lake, sowie die grundlegende Funktionsweise und Konzepte sollen zusammengefasst und erläutert werden.
Der Begriff Data Lake (Datensee) wurde 2010 geprägt. In diesem Jahr wurde in einer Metapher der Data Mart (Datenmarkt) als Getränkemarkt beschrieben, in welchem das Wasser gereinigt, verpackt und strukturiert wird, zugunsten einfachen Konsums. Hingegen soll der Data Lake ein großes natürliches Gewässer sein, denn die Inhalte werden in Strömen (streams) von der Quelle (source) in den See gespült. Nutzer können hier Daten prüfen, Datenproben nehmen oder in die Daten eintauchen. Durch die Natürlichkeit und Größe des Gewässers ist der Datenkonsum weniger praktisch als beim Data Mart.
Auch wenn diese Erklärung wenig technisch ist und durchaus Lücken aufweist, hilft dieses neue Konzept IT-Abteilungen vieler Unternehmen, große heterogene Datenmengen zu unterhalten. Stetig wird dieses Unterfangen herausfordernder, denn das Volumen der Datenmenge, welche sich auf den Bereich Big Data bezieht, wird für 2021 auf 403 Exabyte prognostiziert. Dies ist eine Steigerung von 225% gegenüber 2018 und 790% gegenüber 2016. Im Kontext von Big Data geht es den Firmen darum, große Mengen an verschiedenartigen Daten zu speichern und Erkenntnisse (Insights) daraus zu extrahieren, um das Unternehmen in der Entscheidungsfindung und Wertschöpfung zu unterstützen. Dieses neue Konzept eines Systems zu Datenspeicherung, welches speziell auf auf die Herausforderungen im Big Data Bereich ausgelegt wurde, ist der Data Lake.
Mit diesem System sollen Daten des gesamten Unternehmens in jedem Format gespeichert und verwaltet werden. Doch die Gestaltung eines Data Lake ist nicht trivial. Denn genau wie die zuvor genannte Metapher als lückenhaft beschrieben wurde, können u.a. widersprüchliche Definitionen, sowie fehlende oder unscharfe Konzepte zu Verzögerungen oder Rückschläge in der praktischen Umsetzung des Data Lake führen.
Inhaltsverzeichnis
1 Einleitung
1.1 Einführung in die Thematik
1.2 Problemstellung und Zielsetzung
1.3 Methodischer Aufbau der Arbeit
2 Begriffsdefinitionen
2.1 Prinzip der Trennung der Verantwortlichkeiten
2.2 Datensilo
2.3 Daten
2.4 NoSQL
2.5 Data Scientist
2.6 Data Swamp
3 Data Warehouse
3.1 Grundlagen
3.1.1 Konzept von Data Warehouse und Data Mart
3.1.2 Extract-Transform-Load und Schema on write
4 Data Lake
4.1 Grundlagen
4.1.1 Konzept
4.1.2 Anforderung
4.1.3 Data Lake Technologien
4.1.4 Extract-Load-Transform und Schema on read
4.2 Funktionsweise
4.2.1 Zonen
4.2.2 Data Ponds
4.3 Aufbau
4.3.1 Lambda Architektur
4.3.2 Speicher
4.3.3 Datenaufnahme
4.3.4 Datenverarbeitung
4.3.5 Metadatenmanagement
4.3.6 Data Governance
5 Schluss
5.1 Grenzen
5.2 Zusammenfassung
5.3 Ausblick
Zielsetzung & Themen
Die vorliegende Arbeit verfolgt das Ziel, das Konzept des Data Lake grundlegend zu erläutern, dessen Aufbau darzustellen und die Funktionsweise im Kontext der modernen Datenverarbeitung zu analysieren, wobei auch der Vergleich zum klassischen Data Warehouse gezogen wird.
- Grundlagen und Definitionen im Bereich Big Data
- Gegenüberstellung von Data Warehouse und Data Lake
- Technische Architektur und Komponenten eines Data Lake
- Datenlebenszyklus sowie Zonen- und Pond-Konzepte
- Herausforderungen in Bezug auf Data Governance und Metadaten
Auszug aus dem Buch
4.3.1 Lambda Architektur
Die Lambda driven Data Lake Architektur beschreibt wie unterschiedliche Einheiten in Bezug auf die Datenverarbeitung des Data Lake kooperieren. Das Lambda Architekturmuster (lambda architecture pattern) definiert diverse Muster (pattern) und Richtlinien im Bereich Big Data. Das Lambda Muster folgt dem Prinzip der Trennung der Verantwortlichkeiten (Vgl. Abschnitt 2.1). Daher ist das Lambda Muster technologieunabhängig, generisch und daher Domänenunabhängig verwendet werden. Die beiden wichtigsten Unterkonzepte einer Data Lake Architektur beschreiben die Verarbeitung der Daten, welche als Datenstrom oder Stapel (batch) verarbeitet werden können. Dies ist ein wichtiger Teil des technischen Datenverarbeitungskonzepts des Data Lake, da es so ermöglicht wird, die Daten als Datenstrom nahe Echtzeit verarbeiten zu können, ohne dass die Daten flüchtig sind. Hierbei werden die ankommenden Daten zur Verarbeitung in die Stapelschicht (batch layer) oder Geschwindigkeitsschicht (speed layer) bzw. in den Datenstrom geleitet. Die Stapelschicht verwaltet das Stammdatensatz (master dataset) mit historischen und unveränderlichen Rohdaten und berechnet Stapelansicht (batch view), für Analysten und Data Scientists vor.
Zusammenfassung der Kapitel
1 Einleitung: Dieses Kapitel führt in die Metapher des Data Lake ein, erläutert die Relevanz im Bereich Big Data und skizziert den methodischen Aufbau der Hausarbeit.
2 Begriffsdefinitionen: Hier werden zentrale Fachbegriffe wie Datensilo, Data Scientist und Data Swamp geklärt, um eine einheitliche terminologische Basis zu schaffen.
3 Data Warehouse: Das Kapitel erläutert das Konzept des Data Warehouse, die Rolle von Data Marts sowie den klassischen ETL-Prozess mit Schema-on-write.
4 Data Lake: Dieses zentrale Kapitel behandelt umfassend das Konzept, die Anforderungen, technologische Grundlagen, die Funktionsweise (Zonen/Ponds) sowie den detaillierten Aufbau inkl. Lambda Architektur und Data Governance.
5 Schluss: Das abschließende Kapitel fasst die Ergebnisse zusammen, diskutiert die Grenzen des Konzepts und gibt einen Ausblick auf zukünftige Entwicklungen wie das Data Mesh.
Schlüsselwörter
Data Lake, Data Warehouse, Big Data, Lambda Architektur, Datenverarbeitung, Datenlebenszyklus, Metadatenmanagement, Data Governance, Schema on read, Extract-Load-Transform, Datensilo, Data Swamp, Stapelverarbeitung, Datenstrom, Apache Hadoop.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt das Konzept des Data Lake als IT-Infrastruktur zur zentralen Speicherung und Aufbereitung großer, heterogener Datenmengen im Unternehmenskontext.
Was sind die zentralen Themenfelder?
Zu den Schwerpunkten gehören der Vergleich zwischen Data Warehouse und Data Lake, die technische Architektur, der Datenlebenszyklus sowie die Herausforderungen der Datenverwaltung.
Was ist das primäre Ziel der Arbeit?
Ziel ist es, den Begriff Data Lake zu definieren, den Aufbau sowie die Funktionsweise zu erläutern und das Konzept kritisch im Vergleich zu bestehenden Systemen zu hinterfragen.
Welche wissenschaftliche Methode wird verwendet?
Es handelt sich um eine Literaturarbeit, die auf einer fundierten Recherche von Fachliteratur, wissenschaftlichen Quellen und Online-Publikationen basiert.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in Begriffsdefinitionen, die Analyse klassischer Data Warehouse Systeme sowie eine tiefgehende Untersuchung des Data Lake Aufbaus und seiner Komponenten.
Welche Schlüsselwörter charakterisieren die Arbeit?
Kernbegriffe sind Data Lake, Lambda Architektur, Big Data, Data Governance, Metadatenmanagement und Datenverarbeitung.
Was unterscheidet das "Schema on read" Prinzip vom klassischen "Schema on write"?
Beim Schema on write (Data Warehouse) wird die Struktur vor dem Speichern festgelegt. Beim Schema on read (Data Lake) werden die Daten in Rohform gespeichert und erst bei der Abfrage eine Struktur definiert, was mehr Flexibilität bietet.
Warum ist das Metadatenmanagement für einen Data Lake so kritisch?
Ohne effizientes Metadatenmanagement besteht die Gefahr, dass ein Data Lake zu einem "Data Swamp" (Datensumpf) verkommt, in dem Daten zwar existieren, aber nicht mehr auffindbar oder interpretierbar sind.
Welche Rolle spielt die Lambda Architektur im Data Lake?
Die Lambda Architektur ermöglicht die Verarbeitung sowohl von historischen Daten via Stapelverarbeitung als auch von aktuellen Datenströmen in Echtzeit, um eine umfassende Datenanalyse zu gewährleisten.
- Citar trabajo
- Dennis Hodapp (Autor), 2022, Data Lake. Grundlagen, Aufbau und Funktionsweise, Múnich, GRIN Verlag, https://www.grin.com/document/1602928