Die Verarbeitung und Analyse von großen Datenmengen wird in der heutigen Unternehmenswelt immer wichtiger. Durch Auswerten von Sensoren oder Log-Dateien lassen sich viele aufschlussreiche Informationen gewinnen, die einen enormen Wettbewerbsvorteil für Unternehmen bringen können. Gleichzeitig ist die Verarbeitung dieser Daten aber auch eine Herausforderung für die Unternehmen. Es werden neue, spezielle Technologien benötigt, da herkömmliche Technologien oft nicht mehr ausreichen, um die gewünschten Ziele zu erreichen. Unter Big Data versteht man Daten, die in großer Vielfalt, in großen Mengen und mit hoher Geschwindigkeit anfallen.
Die vorliegende Fallstudie beschäftigt sich mit dem Entwurf einer geeigneten Big-Data-Architektur für die Rotorwind GmbH und der Zuordnung von Big-Data-Tools zu den einzelnen Komponenten derselben. Zudem liegt der Fokus auf dem Erstellen eines Beispiels eines ausgewählten Tools innerhalb der Architektur und der Entwicklung eines funktionierenden Prototyps auf Basis von Docker, Kafka und Python.
Der Hauptteil gliedert sich in drei Teile. Im ersten Teil werden der Fall und die Anforderungen zur Lösung vorgestellt. Danach wird der Begriff der Big-Data-Architektur geklärt. Dabei wird der Unterschied zwischen Lambda- und Kappa-Architektur herausgearbeitet und im Detail geschildert, warum die Lambda-Architektur am besten für das Projekt geeignet ist. Im zweiten Teil wird eine geeignete Systemarchitektur vorgestellt und jedem Bestandteil der Gesamtarchitektur ein Big-Data-Werkzeug zugeordnet. Im letzten Kapitel des Hauptteils wird ein Prototyp erstellt, der die Aufgabe der Verarbeitung von Datenströmen mithilfe von Apache Kafka innerhalb der Gesamtarchitektur zeigt. Die Arbeit schließt mit einer Zusammenfassung und einem Fazit.
Inhaltsverzeichnis
1 Einleitung
1.1 Big Data
1.2 Zielsetzung
1.3 Aufbau der Fallstudie
2 Die Wahl der richtigen Big-Data Architektur
2.1 Die RotorWind GmbH
2.2 Was ist eine Big-Data-Architektur?
2.3 Die Lambda-Architektur
2.4 Die Kappa-Architektur
2.5 Lambda vs. Kappa, ein Vergleich
3 Die Beschreibung der Architektur
3.1 Gesamtarchitektur
3.2 Zuordnung der Architekturbestandteile zu Big-Data-Werkzeugen
4 Apache Kafka als Beispiel eines Werkzeugs in der Gesamtarchitektur
4.1 Das Kafka Topic
4.2 Der Kafka Producer
4.3 Der Kafka Consumer
4.4 Apache Zookeeper
5 Schluss
5.1 Zusammenfassung
5.2 Fazit
Zielsetzung & Themen
Ziel dieser Arbeit ist die Konzeption einer geeigneten Big-Data-Architektur für die RotorWind GmbH, um Sensordaten von Fertigungsmaschinen effizient zu verarbeiten, zu analysieren und für Realtime-Dashboards sowie historische Auswertungen bereitzustellen.
- Entwurf einer performanten Big-Data-Architektur unter Berücksichtigung von Skalierbarkeit.
- Vergleichende Analyse der Lambda- sowie Kappa-Architektur für industrielle Anforderungen.
- Implementierung eines funktionsfähigen Prototyps mittels Docker, Apache Kafka und Python.
- Zuordnung spezifischer Big-Data-Tools zu den Komponenten Datenaufnahme, Verarbeitung und Speicherung.
- Gewinnung von Erkenntnissen zur Maschinenlebensdauer und Fehlervermeidung durch Datenanalyse.
Auszug aus dem Buch
2.4 Die Kappa-Architektur
Die Kappa-Architektur, entworfen von Jay Kreps, stellt eine Alternative zur Lambda-Architektur für die Big-Data-Verarbeitung dar. Im Gegensatz zur Lambda-Architektur, die Batch- und Speed-Layer verwendet, verzichtet die Kappa-Architektur auf einen dedizierten Batch-Layer. Stattdessen besteht sie aus einem Data-Ingestion-Layer, einem Speed-Layer und einem Master Dataset. Alle eingehenden Daten durchlaufen den Speed-Layer, der die berechneten Ergebnisse im Serving-Layer speichert. Dieser Ansatz bietet den Vorteil, dass keine getrennten Programme für Batch- und Speed-Layer entwickelt und gewartet werden müssen. Allerdings entstehen Herausforderungen, wenn sich die Programmlogik im Speed-Layer ändert. In solchen Fällen müssen in der Kappa-Architektur sämtliche im Master Dataset gespeicherte Daten erneut durch den Speed-Layer verarbeitet werden, um die im Serving-Layer gespeicherten Ergebnisse zu aktualisieren (Berle, 2017).
Zusammenfassung der Kapitel
1 Einleitung: Die Einleitung beleuchtet die steigende Bedeutung von Big Data in der Industrie und definiert das Ziel, eine Architektur für die RotorWind GmbH zu entwerfen.
2 Die Wahl der richtigen Big-Data Architektur: Dieses Kapitel vergleicht die Lambda- und Kappa-Architekturen anhand der spezifischen Anforderungen der RotorWind GmbH und begründet die Wahl der Lambda-Architektur.
3 Die Beschreibung der Architektur: Hier wird die geplante Gesamtarchitektur detailliert beschrieben und jedes Modul mit entsprechenden Werkzeugen wie Apache Storm, Kafka und Hadoop verknüpft.
4 Apache Kafka als Beispiel eines Werkzeugs in der Gesamtarchitektur: Das Kapitel bietet einen praktischen Einblick in die Implementierung von Apache Kafka, inklusive Prototyping der Producer- und Consumer-Logik.
5 Schluss: Der Abschluss resümiert die Arbeit und bewertet die architektonischen Entscheidungen im Hinblick auf die Anforderungen an historische Daten und Kostenaspekte.
Schlüsselwörter
Big Data, Lambda-Architektur, Kappa-Architektur, Apache Kafka, Datenverarbeitung, Realtime-Dashboards, Fertigungsmaschinen, Industriedaten, Skalierbarkeit, Data Ingestion, Batch-Layer, Speed-Layer, Monitoring, Sensordaten, Systemarchitektur
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit der Konzeption und dem Entwurf einer geeigneten Big-Data-Architektur für die RotorWind GmbH zur Überwachung von Fertigungsmaschinen.
Was sind die zentralen Themenfelder der Arbeit?
Die zentralen Themen sind Big-Data-Architekturkonzepte (Lambda vs. Kappa), Datenverarbeitung in Echtzeit sowie die technische Umsetzung mittels moderner Big-Data-Tools.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist die Erstellung einer Architektur, die sowohl Echtzeitverarbeitung als auch den Zugriff auf historische Daten ermöglicht, um Fehler frühzeitig zu erkennen.
Welche wissenschaftliche Methode wird verwendet?
Es wird eine fallstudienbasierte Methodik angewandt, in der Anforderungen analysiert, theoretische Konzepte verglichen und eine prototypische Implementierung durchgeführt wird.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in die theoretische Gegenüberstellung von Architekturen, die systemtechnische Planung und die praktische Umsetzung eines Kafka-basierten Prototyps.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die zentralen Begriffe umfassen Big Data, Lambda-Architektur, Apache Kafka, Echtzeit-Monitoring und industrielle Datenverarbeitung.
Warum wurde die Lambda-Architektur der Kappa-Architektur vorgezogen?
Die Entscheidung basiert primär auf der Anforderung, historische Daten für Analysen und Trainingsmodelle bereitzuhalten, was die Lambda-Architektur durch den Batch-Layer besser unterstützt.
Welche Rolle spielt Apache Kafka innerhalb des Prototyps?
Kafka dient als zentrale Data-Ingestion-Komponente, die Datenströme von Sensoren aufnimmt und für die weitere Verarbeitung in den Speed- bzw. Batch-Layer verteilt.
Wie werden die Daten aus den Sensoren im Prototyp simuliert?
Die Daten werden mittels eines in Python geschriebenen Producers erzeugt, der zufällige Temperaturwerte im JSON-Format in Kafka-Topics schreibt.
- Citar trabajo
- Heribert Tellerfink (Autor), 2023, Planung einer Big-Data-Architektur und Entwicklung eines Prototyps für RotorWind GmbH, Múnich, GRIN Verlag, https://www.grin.com/document/1449413