Erstellen und Auswerten von Big-Data-Datensätzen durch moderne Informationstechnologie. Im Beispiel der Studienarbeit ist mit Apache Spark und Selenium gearbeitet worden. Innerhalb der Arbeit wird der Grundsatz und die Anwendung von Big Data behandelt. Es sollen zwei Fragestellungen beantwortet werden: Ist die Richtigkeit / Qualität der Datensätze auf zwei spezifisch ausgewählten Tesla-Webseiten gegeben oder sollte bei der Auswahl der Webseiten der Fokus explizit nur auf einer dieser Webseiten liegen? Welche Distanz wird der Tesla zum 01.01.2025 zurückgelegt haben?
Um an die Informationen zur Beantwortung dieser Fragestellungen zu gelangen, müssen über einen gewissen Zeitraum die benötigten Daten erfasst und gespeichert werden. Die Erfassung kann über viele Wege erfolgen, sofern eine Programmierschnittstelle vorhanden ist (API), sollte diese genutzt werden, eine andere Möglichkeit wäre das Crawlen von Webseiten, also das Auslesen von HTML Elementen einer Webseite. Um sich einen genauen Überblick über die Anzahl der Datensätze zu verschaffen, wird eine Hochrechnung beschrieben.
Inhaltsverzeichnis
1 Vorstellung der Analysefragestellung
2 Aufbau und Vorgehensweise
2.1 Auswahl der genutzten Frameworks
2.2 Architekturbild
2.3 Datenflussbild und Beschreibung des Vorgehens
2.3.1 Datenerhebung und -speicherung in der MongoDB (Daten Crawlen)
2.3.2 Der Datenanalyseworkflow (Laden aller Daten)
2.3.3 Datenauswertung und -visualisierung
3 Durchführung
3.1 Datenspeicherung der Datensätze
3.2 Zugriff auf gespeicherte Datensätze und Analyse der Daten
3.2.1 Zugriff und laden aller Datensätze aus der Datenbank
3.2.2 Analyse der gesamten Datensätze
4 Ergebnisbetrachtung der Analyse unter Berücksichtigung der Datenanalysefragestellungen
4.1 Ergebnisbetrachtung
4.2 Kritische Würdigung des Ergebnisses
5 Zusammenfassung und Ausblick
Zielsetzung & Themen
Die Projektarbeit verfolgt das Ziel, ein durch den Ausfall von Sensordaten entstandenes Datenanalyseproblem zu untersuchen, indem Datensätze von zwei unterschiedlichen Webseiten mittels moderner Big-Data-Frameworks erhoben, gespeichert, analysiert und visualisiert werden, um deren Qualität zu bewerten und eine Distanzprognose für das Jahr 2025 zu erstellen.
- Entwicklung und Einsatz von Web-Crawlern mittels Selenium
- Nutzung der NoSQL-Datenbank MongoDB zur Datenspeicherung
- Performante Datenverarbeitung durch Apache Spark (PySpark)
- Datenaufbereitung und Analyse mit der Pandas-Bibliothek
- Grafische Visualisierung der Analyseergebnisse mit Matplotlib
Auszug aus dem Buch
3.2.2 Analyse der gesamten Datensätze
Aufbauend auf Kapitel 3.2.1 wird mit dem Ergebnis der Datenabfrage von PySpark gearbeitet. Die Ausgangssituation ist das PySpark Dataframe bereits in ein Pandas Dataframe gewandelt wurde. Somit stehen alle Funktionen der Frameworks Pandas und Matplotlib zur Verfügung.
Zuerst wird das Dataframe entpackt und in die einzelnen Spalten zerlegt, so wird aus einem 500.000 x 8 Dataframe, welches alle Informationen erhält, ein 500.000 x 1 Dataframe, welches nur eine Spalte des jeweiligen Ursprungsdataframes beinhaltet. Das Entpacken spielt eine wichtige Rolle für die Übergabe der Werte an Matplotlib, da Matplotlib nur einen Wert pro Reihe als Inputargument verlangt.
Wie in Abbildung 14 ersichtlich ist, wird die visuelle Darstellung konfiguriert, die Konfiguration nimmt wesentlichen Einfluss auf die Darstellung der Auswertungsdaten, ebenfalls werden für die X- und Y- Inputparameter die einzelnen Dataframereihen der Geschwindigkeit und des Zeitstempels eingesetzt.
Dieses Vorgehen ist bei allen Grafiken identisch, jedoch werden die Inputwerte mit anderen Parametern befüllt und die Beschriftungen in den Konfigurationen müssen abgeändert werden.
Wird nun das Programm ausgeführt, wird das Dataframe automatisiert entpackt und die jeweilige Grafik wird dargestellt.
Durch die Auswertung und Darstellung können die Analyseergebnisse untersucht und interpretiert werden. Während der Untersuchung der Analyseergebnisse wird die ursprüngliche Problemfragestellung der Datenqualität und der Prognose der zurückgelegten Wegstrecke bis 2025 aufgegriffen und es werden gezielte Ergebnisse herausgearbeitet.
Zusammenfassung der Kapitel
1 Vorstellung der Analysefragestellung: Das Kapitel führt in das Themenfeld Big Data ein und definiert die spezifische Fragestellung rund um die Analyse der Sensordaten des Tesla Roadster im All.
2 Aufbau und Vorgehensweise: Hier werden die gewählte Systemarchitektur sowie die eingesetzten Frameworks wie Selenium, MongoDB, PySpark, Pandas und Matplotlib detailliert beschrieben.
3 Durchführung: Dieses Kapitel beschreibt die praktische Implementierung des Datencrawlers sowie den Prozess des Datenzugriffs und der Analyse mithilfe der zuvor gewählten Technologien.
4 Ergebnisbetrachtung der Analyse unter Berücksichtigung der Datenanalysefragestellungen: Die erfassten Daten werden in diesem Kapitel verglichen, interpretiert und hinsichtlich ihrer Qualität kritisch bewertet.
5 Zusammenfassung und Ausblick: Das Kapitel reflektiert die Ergebnisse der Arbeit und gibt ein Fazit zur Eignung der untersuchten Datenquellen für zukünftige Analysen.
Schlüsselwörter
Big Data, Datenanalyse, Web-Scraping, Selenium, MongoDB, Apache Spark, PySpark, Pandas, Matplotlib, Datenqualität, Datenvisualisierung, Tesla, Vorhersage, Systemarchitektur, Datenfluss.
Häufig gestellte Fragen
Worum geht es in dieser Projektarbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der praktischen Anwendung von Big-Data-Frameworks zur Lösung eines konkreten Datenanalyseproblems, basierend auf der Untersuchung von Sensordaten eines Objekts im Weltraum.
Was sind die zentralen Themenfelder der Arbeit?
Die Schwerpunkte liegen auf der automatisierten Datenerhebung mittels Web-Crawling, der Speicherung in NoSQL-Datenbanken und der anschließenden performanten Datenverarbeitung und grafischen Analyse.
Was ist das primäre Ziel oder die Forschungsfrage?
Die Arbeit untersucht, ob die Qualität der Daten auf zwei Webseiten in Bezug auf den "Tesla im All" konsistent ist und ob auf Basis dieser Daten eine valide Distanzprognose für das Jahr 2025 möglich ist.
Welche wissenschaftliche Methode wird verwendet?
Es wird ein systematischer Ansatz gewählt, der die Konzeption einer Architektur, die Implementierung von Daten-Crawling-Skripten, die Aggregation durch Big-Data-Frameworks und die statistische Auswertung sowie Visualisierung umfasst.
Was wird im Hauptteil behandelt?
Im Hauptteil werden die Systemarchitektur, der Datenfluss, die praktische Umsetzung der Datenspeicherung und der automatisierte Abfrage- und Analyseprozess der Daten beschrieben.
Welche Schlüsselwörter charakterisieren die Arbeit?
Typische Begriffe sind Big Data, Web-Scraping, MongoDB, PySpark, Datenqualität und Datenvisualisierung.
Warum wurde für die Datenspeicherung die MongoDB gewählt?
Die MongoDB wurde aufgrund ihrer dokumentenbasierten Struktur, der flexiblen Erweiterbarkeit und der Eignung für moderne Big-Data-Anwendungen ausgewählt.
Welches Ergebnis liefern die Webseiten im Vergleich?
Der Vergleich zeigt, dass die Webseite "Tesla Starman" konsistentere und plausiblere Daten liefert, während die Webseite "Tesla Roadster" starke Volatilität aufweist, was sie für verlässliche Analysen ungeeignet macht.
- Arbeit zitieren
- Dennis Kraus (Autor:in), 2021, Auswerten von Big-Data-Datensätzen durch moderne Informationstechnologie und Untersuchung eines Datenanalyseproblems unter Verwendung moderner Frameworks, München, GRIN Verlag, https://www.grin.com/document/1314747