Die Tragödie und der Untergang der „RMS Titanic“ im Nordatlantik in den frühen Morgenstunden des 15. April 1912 bleibt eines der bewegendsten und faszinierendsten Kapitel der modernen Zeit. Dieses Ereignis hat nicht nur in der maritimen Geschichte, sondern auch in der Populärkultur einen nachhaltigen Eindruck hinterlassen. Unter den vielen Aspekten, die dieses Unglück für Historiker, Soziologen und Wissenschaftler interessant machen, sticht eine besondere These hervor: die Annahme, dass bei der Evakuierung der Titanic "Frauen und Kinder zuerst" gerettet wurden. Im Rahmen dieser Arbeit wurde die These, mithilfe des Prozessmodells CRISP-DM, der Programmiersprache R sowie statistischen Methoden, näher untersucht. Die Zielsetzung dieser Arbeit war es, aus Sicht eines fiktiven Versicherungsunternehmens zu untersuchen, ob das Überleben der Passagiere auf der Titanic von ihrem Geschlecht und Alter beeinflusst wurden und inwieweit diese Erkenntnisse die populäre These von "Frauen und Kinder zuerst" letztendlich stützen oder auch weitere Faktoren Relevanz hatten.
Inhaltsverzeichnis
1 Einleitung
1.1 Problemstellung und Relevanz dieser Arbeit
1.2 Ziel und Aufbau dieser Arbeit
2 Theoretische Grundlagen
2.1 Datenanalyse und Data-Mining
2.2 CRISP-DM Modell
2.3 R als Werkzeug für Datenanalyse
3 Datenanalyse des Titanic-Datensatzes mit CRISP-DM
3.1 Business Understanding
3.2 Data Understanding und Data Preparation
3.3 Modeling
3.3.1 Logistische Regression
3.3.2 Entscheidungsbaum
3.3.3 Bewertung der Modelle
3.4 Evaluation
4 Zusammenfassung
4.1 Deployment
4.2 Management Summary
Zielsetzung & Themen
Ziel dieser Arbeit ist es, auf Basis eines Titanic-Passagierdatensatzes zu untersuchen, welche Faktoren das Überleben bei der Katastrophe maßgeblich beeinflusst haben, um die populäre These "Frauen und Kinder zuerst" sowie den Einfluss des sozialen Status empirisch zu überprüfen.
- Anwendung des CRISP-DM-Prozessmodells für strukturierte Datenanalysen.
- Nutzung der Programmiersprache R zur Datenverarbeitung und Modellbildung.
- Durchführung statistischer Analysen mittels logistischer Regression.
- Erstellung und Interpretation von Entscheidungsbäumen zur Klassifizierung.
- Validierung der Modellgüte und Überprüfung auf Overfitting sowie Multikollinearität.
Auszug aus dem Buch
1.1 Problemstellung und Relevanz dieser Arbeit
Die Tragödie und der Untergang der „RMS Titanic“ im Nordatlantik in den frühen Morgenstunden des 15. April 1912 bleibt eines der bewegendsten und faszinierendsten Kapitel der modernen Zeit. Dieses Ereignis hat nicht nur in der maritimen Geschichte, sondern auch in der Populärkultur einen nachhaltigen Eindruck hinterlassen. Unter den vielen Aspekten, die dieses Unglück für Historiker, Soziologen und Wissenschaftler interessant machen, sticht eine besondere These hervor: die Annahme, dass bei der Evakuierung der Titanic Frauen und Kinder zuerst gerettet wurden. Im Rahmen dieses Assignments soll diese These, mithilfe des Prozessmodells CRISP-DM, der Programmiersprache R sowie statistischen Methoden, näher untersucht werden. Zudem soll geprüft werden, ob auch weitere Faktoren von Relevanz waren.
Zusammenfassung der Kapitel
1 Einleitung: Diese Einleitung führt in die historische Problemstellung ein und erläutert die Zielsetzung der Arbeit, die mittels CRISP-DM und statistischer Methoden untersucht werden soll.
2 Theoretische Grundlagen: Das Kapitel bietet einen Einblick in die Konzepte der Datenanalyse und des Data-Minings sowie in das angewendete CRISP-DM-Prozessmodell und die Sprache R.
3 Datenanalyse des Titanic-Datensatzes mit CRISP-DM: Das Kernkapitel beschreibt die schrittweise Analyse des Datensatzes von der Datenaufbereitung über die Modellierung mittels Regression und Entscheidungsbäumen bis zur Evaluation der Ergebnisse.
4 Zusammenfassung: Der abschließende Teil enthält eine kritische Reflexion der durchgeführten Analyse, ein Deployment der Ergebnisse und ein Management Summary für versicherungsmathematische Anwendungskontexte.
Schlüsselwörter
Titanic, Datenanalyse, Data-Mining, CRISP-DM, R, Logistische Regression, Entscheidungsbaum, Überlebenswahrscheinlichkeit, Klassifikation, Modellvalidierung, Statistik, Passagierdaten, Risikobewertung, Signifikanztest, Overfitting.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit analysiert statistisch die Faktoren, die das Überleben der Passagiere beim Untergang der Titanic beeinflussten, um die These "Frauen und Kinder zuerst" zu prüfen.
Was sind die zentralen Themenfelder?
Die zentralen Felder umfassen Data Science Methoden, das CRISP-DM-Prozessmodell, statistische Modellierung und Datenvisualisierung in R.
Was ist die primäre Forschungsfrage?
Die Forschungsfrage lautet, inwieweit Geschlecht, Alter und sozialer Status der Passagiere die Überlebenswahrscheinlichkeit beeinflusst haben und ob die populäre These statistisch haltbar ist.
Welche wissenschaftliche Methode wird verwendet?
Zur Anwendung kommen das CRISP-DM-Modell als Rahmenwerk, sowie logistische Regression und Entscheidungsbäume als statistische Analyse- und Klassifikationsverfahren.
Was wird im Hauptteil behandelt?
Der Hauptteil konzentriert sich auf das Business Understanding, die Datenaufbereitung, die Modellierung und die anschließende Evaluation der Modellgüte inklusive Stabilitätsprüfungen.
Welche Schlüsselbegriffe charakterisieren die Arbeit?
Wichtige Begriffe sind CRISP-DM, Logistische Regression, Entscheidungsbaum, Überlebensrate, Modellvalidierung und R-Programmierung.
Warum wurde eine imputation der fehlenden Werte durch den Median gewählt?
Der Median wurde gewählt, da er robust gegenüber Ausreißern ist und einen guten Kompromiss zwischen Genauigkeit und Einfachheit für den Titanic-Datensatz darstellt.
Welche Erkenntnisse liefert der Entscheidungsbaum bezüglich des Geschlechts?
Der Entscheidungsbaum identifiziert das Geschlecht als stärkste Variable für die Vorhersage des Überlebens, wobei der erste Split im Modell nach diesem Merkmal erfolgt.
Wie sicher ist die Anwendung dieser Ergebnisse auf andere Bereiche?
Das Modell weist derzeit eine gute interne Validität auf, jedoch wird explizit darauf hingewiesen, dass eine externe Validität erst durch Tests an anderen Datensätzen bestätigt werden muss.
- Citar trabajo
- Joerg Walbaum (Autor), 2023, Statistik über die Titanic-Überlebenden, Múnich, GRIN Verlag, https://www.grin.com/document/1447013