Diese Arbeit handelt von der Entwicklung von Big-Data-Anwendungen.
Trotz zahlreicher Definitionsversuche ist der Begriff Big Data noch nicht klar umschrieben und galt lange als Modeerscheinung. Möglicherweise ist das Thema Big Data gerade deshalb so populär wie nie zuvor. Zunehmend wird jedoch vergessen, dass Daten ohne einen konkreten Bezug zu einem Kontext wertlos sind. Erst die zielgerichtete Nutzung macht
aus Daten eine Information, die einen Nutzen oder Mehrwert generieren kann. Jeder hat Berührungspunkte mit Big Data, ob bewusst oder unbewusst. Das macht die Auseinandersetzung mit Big Data unausweichlich, sowohl für den öffentlichen
Sektor, Unternehmen oder Privatpersonen.
Ohne Daten von einzelnen Individuen ist aber eine Umsetzung solcher Berechnungen nicht möglich. Es müssen Daten aus sehr persönlichen Lebensbereichen jedes Einzelnen zur Verfügung stehen. Hier muss zugleich ein Schutz der Daten berücksichtigt werden und Regelungen für den Umgang, sowie die Verarbeitung der Daten vorliegen. Wenn diese rechtlichen Aspekte nicht berücksichtigt werden, kann es schnell zu Misstrauen oder Befürchtungen, sowie im schlimmsten Fall zu Datenmissbrauch kommen. Die Datenspeicherung alleine reicht nicht aus, um komplexe Probleme zu lösen und einen Mehrwert zu generieren.
Die notwendigen Werkzeuge/Anwendungen müssen vorhanden sein, um aus großen Datenmengen die jeweils gewünschte Information auszulesen. Die Entwicklung und der Einsatz von Big-Data-Anwendungen nimmt somit eine zentrale Rolle beim Thema Big Data ein und wird neben den notwendigen Daten zum Hauptantrieb der Entwicklung. Es ist absehbar, dass Big Data in Zukunft immer wichtiger für die Gesellschaft und Unternehmen sein wird. Dementsprechend wird deutlich, dass Big-Data-Anwendungen gebraucht werden, um gesellschaftliche wie auch wissenschaftliche Fortschritte voranzutreiben. Angesichts der Notwendigkeit von Big-Data-Anwendungen ist es entscheidend welche Eigenschaften eine gute Big-Data-Anwendung ausmacht und was bei der Entwicklung beachtet werden soll.
Inhaltsverzeichnis
1 Die Bedeutung von Big Data
1.1 Motivation und Ziel der Arbeit
1.2 Methodischer Aufbau der Arbeit
2 Aspekte der Datenerzeugung und Datenhaltung
2.1 Daten und Informationen
2.1.1 Strukturierte Daten
2.1.2 Unstrukturierte Daten
2.1.3 Datenklassen
2.2 Speichermedien und Datenhaltungssysteme
2.2.1 Speicherkapazität
2.2.2 Computer Cluster
2.2.3 Datenbanksysteme
3 Anforderungen an Big-Data-Anwendungen
3.1 Die 5 V’s
3.1.1 Volume
3.1.2 Veracity
3.1.3 Variety
3.1.4 Velocity
3.1.5 Value
3.2 Notwendige Eigenschaften jeder Anwendung
3.2.1 Allgemeingültigkeit
3.2.2 Belastbarkeit
3.2.3 Skalierbarkeit und Erweiterbarkeit
3.2.4 Fehlertoleranz
3.2.5 Lesen und Aktualisieren mit geringen Latenzzeiten
3.2.6 Ad-hoc-Abfragen und Echtzeitauswertungen
4 Umsetzung von Big-Data-Anwendungen
4.1 Lambda-Architektur
4.1.1 Batch-Layer
4.1.2 Serving-Layer
4.1.3 Speed-Layer
4.2 Datenspeicherung
4.2.1 Rohdaten werden zu Stammdaten
4.2.2 Stammdaten speichern
4.2.3 Datenverteilung
4.3 Big-Data-Analysen
4.3.1 MapReduce Algorithmus
4.3.2 Korrelation und Kausalität
4.3.3 Marktforschung
4.3.4 Verkehrssteuerung
4.3.5 Big Data in der Medizin
4.4 Rechtliche Grundlagen
4.4.1 Privatsphäre
4.4.2 Zweckbindung der Daten
4.4.3 Datensparsamkeit
4.4.4 Social Media Analysen
5 Kernbausteine von Big-Data-Anwendungen
5.1 Technische Notwendigkeiten
5.1.1 Skalierbare Datenverarbeitung
5.1.2 Redundante Datenhaltung
5.1.3 Daten sind unveränderlich
5.1.4 Parallelisierung der Operation
5.1.5 Optimierung der Datenstrukturen
5.2 Konzeptionelle Notwendigkeiten
5.2.1 Datenqualität
5.2.2 Zusammenhänge richtig deuten
5.2.3 Privacy by Design
6 Zusammenfassung und Ausblick
6.1 Zusammenfassung
6.2 Ausblick
Zielsetzung & Themen
Die vorliegende Master-Thesis untersucht die notwendigen technologischen sowie konzeptionellen Anforderungen an moderne Big-Data-Anwendungen. Das zentrale Forschungsziel besteht darin, die essenziellen Grundbausteine zu identifizieren, die für eine effiziente, skalierbare und rechtskonforme Verarbeitung massiver, heterogener Datenmengen erforderlich sind, um aus diesen wertvolle Informationen und Erkenntnisse zu generieren.
- Identifikation der technischen Anforderungen durch die 5 V's (Volume, Veracity, Variety, Velocity, Value).
- Analyse der Lambda-Architektur als theoretischer Rahmen für die Umsetzung.
- Untersuchung von Datenspeicherungskonzepten und -verteilung (HDFS, Stammdaten).
- Methoden der Big-Data-Analyse unter Berücksichtigung von Korrelation, Kausalität und Algorithmen wie MapReduce.
- Diskussion rechtlicher Rahmenbedingungen wie Datenschutz (DSGVO), Zweckbindung und Privacy by Design.
Auszug aus dem Buch
4.1.1 Batch-Layer
Aus Gründen der Zeit- und Ressourcenersparnis nutzt die Lambda-Architektur die Erstellung des sogenannten Batch-View. Dieser ist eine Vorabberechnung der eigentlichen Abfragefunktion. Die Variablen ZBatch steht für das Abfrageergebnis und wird ebenfalls durch eine Funktion, die auf sämtliche Daten zugreift, erzeugt. Als Batch-View Gleichung ergibt sich:
ZBatch = f(XDaten) f(ZBatch) ∈ XDaten (2)
Nun liegen vorab berechnetet Ergebnisse im Batch-View vor. Bei einer Anfrage ist es somit nicht mehr notwendig, das gewünschte Ergebnis im laufenden Betrieb zu berechnen, sondern es kann aus dem vorab berechneten Batch-View entnommen werden. Für die Abfrage YAb f rage entsteht dadurch eine neue Gleichung, die nicht mehr auf alle Daten, sondern nur auf den Batch-View ZBatch zugreift:
YAb f rage = f(ZBatch) f(YAb f rage) ∈ ZBatch (3)
Diese Abfrage ist wiederum indiziert, sodass wahlfrei lesend darauf zugegriffen werden kann.95 Zusammenfassend wird also einmal die Funktion f(XDaten) mit sämtlichen Daten ausgeführt, um die Batch-View ZBatch zu erhalten. Wenn ein konkretes Ergebnis gesucht wird und eine Abfrage YAb f rage ausgeführt, kommt die Funktion f(ZBatch) mit dem Batch-View zum Einsatz. Sie kann die angefragten Werte sehr schnell zur Verfügung stellen, ohne erst sämtliche Werte zu durchsuchen und berechnen zu müssen.
Zusammenfassung der Kapitel
1 Die Bedeutung von Big Data: Einleitung in die Thematik von Big Data mit Fokus auf Datenmengenwachstum und der Notwendigkeit einer zielgerichteten Datennutzung zur Wertschöpfung.
2 Aspekte der Datenerzeugung und Datenhaltung: Untersuchung von Datentypen, Speicherkategorien, der Rolle von Computer-Clustern und der Limitierungen klassischer Datenbanksysteme.
3 Anforderungen an Big-Data-Anwendungen: Detaillierte Betrachtung der 5 V's und Ableitung notwendiger systemischer Eigenschaften wie Belastbarkeit, Skalierbarkeit und Fehlertoleranz.
4 Umsetzung von Big-Data-Anwendungen: Beschreibung der Lambda-Architektur, Datenspeicherung mittels Hadoop/HDFS, Big-Data-Analysen inklusive MapReduce sowie eine Analyse der rechtlichen Grundlagen.
5 Kernbausteine von Big-Data-Anwendungen: Synthese der technischen Anforderungen an die Datenverarbeitung und die konzeptionelle Bedeutung von Datenqualität und Privacy by Design.
6 Zusammenfassung und Ausblick: Retrospektive der erarbeiteten Aspekte und Einschätzung zukünftiger Entwicklungen in Bezug auf Big-Data-Anwendungen in Gesellschaft und Wirtschaft.
Schlüsselwörter
Big Data, Lambda-Architektur, Hadoop, HDFS, Batch-Layer, Speed-Layer, MapReduce, Datenqualität, Korrelation, Kausalität, Datenschutz, DSGVO, Datensparsamkeit, Privacy by Design, NoSQL.
Häufig gestellte Fragen
Worum geht es in dieser Master-Thesis primär?
Die Arbeit behandelt die grundlegenden technischen und konzeptionellen Anforderungen an die Entwicklung von Big-Data-Anwendungen, um massenhafte, heterogene Daten effektiv zu verarbeiten und rechtlich sicher zu nutzen.
Welche zentralen Themenfelder werden abgedeckt?
Die Schwerpunkte liegen auf der Speicherinfrastruktur, der Systemarchitektur (insbesondere der Lambda-Architektur), mathematischen Analyseverfahren und den rechtlichen Rahmenbedingungen beim Umgang mit personenbezogenen Daten.
Was ist das primäre Ziel der Forschungsarbeit?
Das Ziel ist die Erarbeitung von Grundbausteinen für Big-Data-Anwendungen sowie die Beantwortung der Frage, welche technischen und analytischen Aspekte für eine funktionale und rechtskonforme Anwendung zwingend notwendig sind.
Welche wissenschaftlichen Methoden finden Anwendung?
Die Arbeit nutzt eine Kombination aus Literaturrecherche, Internetquellen sowie einen konstruktiven Ansatz unter Verwendung der morphologischen Analyse zur Erarbeitung der Auslöser von Big Data.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die technologische Basis (Datenerzeugung, Speicherhaltung), die Architekturkonzepte (Lambda-Architektur), analytische Methoden (MapReduce) und eine detaillierte Prüfung der rechtlichen Grundlagen, inklusive Datenschutz und Privatsphäre.
Welche Schlüsselbegriffe charakterisieren die Arbeit?
Zentrale Begriffe sind Big Data, Lambda-Architektur, Hadoop, Datenqualität, Kausalität sowie die rechtlichen Konzepte wie Datenschutz-Grundverordnung (DSGVO) und Privacy by Design.
Warum ist die Lambda-Architektur zentral für die Arbeit?
Die Lambda-Architektur dient als theoretischer Rahmen, der sowohl Stapelverarbeitung (Batch-Layer) als auch Echtzeitverarbeitung (Speed-Layer) kombiniert, um die Anforderungen an Skalierbarkeit und geringe Latenzzeiten zu erfüllen.
Wie bewertet die Arbeit den Schutz der Privatsphäre bei Big Data?
Die Arbeit betont, dass Big-Data-Analysen oft in Konflikt mit dem deutschen Datenschutz (BDSG) stehen und fordert eine frühzeitige Implementierung von Datenschutzmaßnahmen mittels "Privacy by Design", da eine rein nachträgliche Sicherung oft unzureichend ist.
- Arbeit zitieren
- Andrea Wist (Autor:in), 2021, Entwicklung von Big-Data-Anwendungen. Aspekte der Datenerzeugung und Datenhaltung, München, GRIN Verlag, https://www.grin.com/document/1172134