In der vorliegenden Arbeit soll eruiert werden, was allgemeinhin unter Data Lake verstanden wird. Der Aufbau eines Data Lake, sowie die grundlegende Funktionsweise und Konzepte sollen zusammengefasst und erläutert werden.
Der Begriff Data Lake (Datensee) wurde 2010 geprägt. In diesem Jahr wurde in einer Metapher der Data Mart (Datenmarkt) als Getränkemarkt beschrieben, in welchem das Wasser gereinigt, verpackt und strukturiert wird, zugunsten einfachen Konsums. Hingegen soll der Data Lake ein großes natürliches Gewässer sein, denn die Inhalte werden in Strömen (streams) von der Quelle (source) in den See gespült. Nutzer können hier Daten prüfen, Datenproben nehmen oder in die Daten eintauchen. Durch die Natürlichkeit und Größe des Gewässers ist der Datenkonsum weniger praktisch als beim Data Mart.
Auch wenn diese Erklärung wenig technisch ist und durchaus Lücken aufweist, hilft dieses neue Konzept IT-Abteilungen vieler Unternehmen, große heterogene Datenmengen zu unterhalten. Stetig wird dieses Unterfangen herausfordernder, denn das Volumen der Datenmenge, welche sich auf den Bereich Big Data bezieht, wird für 2021 auf 403 Exabyte prognostiziert. Dies ist eine Steigerung von 225% gegenüber 2018 und 790% gegenüber 2016. Im Kontext von Big Data geht es den Firmen darum, große Mengen an verschiedenartigen Daten zu speichern und Erkenntnisse (Insights) daraus zu extrahieren, um das Unternehmen in der Entscheidungsfindung und Wertschöpfung zu unterstützen. Dieses neue Konzept eines Systems zu Datenspeicherung, welches speziell auf auf die Herausforderungen im Big Data Bereich ausgelegt wurde, ist der Data Lake.
Mit diesem System sollen Daten des gesamten Unternehmens in jedem Format gespeichert und verwaltet werden. Doch die Gestaltung eines Data Lake ist nicht trivial. Denn genau wie die zuvor genannte Metapher als lückenhaft beschrieben wurde, können u.a. widersprüchliche Definitionen, sowie fehlende oder unscharfe Konzepte zu Verzögerungen oder Rückschläge in der praktischen Umsetzung des Data Lake führen.
- Quote paper
- Dennis Hodapp (Author), 2022, Data Lake. Grundlagen, Aufbau und Funktionsweise, Munich, GRIN Verlag, https://www.grin.com/document/1602928