Die Zielsetzung dieser Arbeit ist es, aus Sicht eines fiktiven Versicherungsunternehmens zu untersuchen, ob das Überleben der Passagiere auf der Titanic von Geschlecht und Alter beeinflusst wurde und inwieweit diese Erkenntnisse die populäre These von "Frauen und Kinder zuerst" stützen oder auch weitere Faktoren Relevanz hatten. Die Untersuchung erfolgt anhand eines Titanic-Datensatz, welcher im Internet heruntergeladen wurde. Der Datensatz ist eine Sammlung von Daten über die Passagiere des Schiffes. Dabei folgt das Assignment dem Cross Prozessmodell CRISP-DM, einem bewährten Rahmenwerk für solche Analysen und deckt alle Phasen, von Datenaufbereitung bis Modellierung bis hin zur Bewertung und Interpretation der Ergebnisse, ab. Das Assignment gliedert sich in vier Kapitel. Beginnend mit der Problemstellung und Relevanz des Themas folgt das Ziel und der Aufbau des Assignments, welche das erste Kapitel abschließen. Anschließend an die Einleitung erfolgt die Erarbeitung der theoretischen Grundlagen im zweiten Teil dieser Arbeit. In diesem werden wichtige Begrifflichkeiten, Konzepte und Merkmale der Datenanalyse, des Data-Minings, sowie des CRISP-DM Modells definiert. Des Weiteren werden statistische Methoden kurz skizziert. Das dritte Kapitel bildet den inhaltlichen Schwerpunkt dieser Arbeit. In diesem werden aufbauend auf der Zielsetzung der Anwendung des CRISP-DM Modells, die einzelnen Schritte durchgeführt und die Ergebnisse analysiert. Der Schlussteil gibt als Deployment eine kurze Zusammenfassung, eine kritische Reflexion und einen kurzen Ausbli
Der Untergang der "RMS Titanic" im Nordatlantik in den frühen Morgenstunden des 15. April 1912 und die damit zusammenhängende Tragödie bleibt eines der bewegendsten und faszinierendsten Kapitel moderner Zeit. So prägte dieses Ereignis nicht nur die maritime Geschichte, sondern hinterließ auch einen nachhaltigen Eindruck in der Populärkultur. So beschäftigte sich Historiker, Soziologen und Wissenschaftler unter den vielen Aspekten dieses Unglücks auch mit dieser folgenden These: der Annahme, dass bei der Evakuierung der Titanic Frauen und Kinder bevorzugt gerettet wurden. Im Rahmen dieses Assignments soll diese These, mithilfe des Prozessmodells CRISP-DM, der Programmiersprache, sowie statistischer Methoden, näher untersucht werden. Zudem soll geprüft werden, ob auch weitere Faktoren bei der Rettung von Relevanz waren.
Inhaltsverzeichnis
- Abbildungsverzeichnis
- Abkürzungsverzeichnis
- 1. Einleitung
- 1.1 Problemstellung und Relevanz dieser Arbeit
- 1.2 Ziel und Aufbau dieser Arbeit
- 2. Theoretische Grundlagen
- 2.1 Datenanalyse und Data-Mining
- 2.2 CRISP-DM Modell
- 2.3 Datenanalyse mit dem Werkzeug R
- 3. Datenanalyse des Titanic-Datensatzes mit CRISP-DM
- 3.1 Business Understanding
- 3.2 Data Understanding und Data Preparation
- 3.3 Modeling
- 3.3.1 Logistische Regression
- 3.3.2 Entscheidungsbaum
- 3.3.3 Bewertung der Modelle
- 3.4 Evaluation
- 4. Zusammenfassung
- 4.1 Deployment
- 4.2 Management Summary
- Literaturverzeichnis
- Anhang
Zielsetzung & Themen
Die vorliegende Arbeit zielt darauf ab, aus der Perspektive eines fiktiven Versicherungsunternehmens zu untersuchen, inwiefern das Überleben der Titanic-Passagiere durch Faktoren wie Geschlecht und Alter beeinflusst wurde. Weiterhin wird analysiert, ob diese Erkenntnisse die populäre These "Frauen und Kinder zuerst" untermauern oder infrage stellen und ob der soziale Status ebenfalls eine Rolle spielte.
- Analyse der Überlebenswahrscheinlichkeit der Titanic-Passagiere
- Identifikation von Einflussfaktoren wie Geschlecht, Alter und sozialer Status
- Anwendung des CRISP-DM Prozessmodells für die Datenanalyse
- Einsatz statistischer Methoden wie logistische Regression und Entscheidungsbäume
- Nutzung der Programmiersprache R zur Datenanalyse und Visualisierung
- Bewertung und Interpretation der Modellierungsergebnisse hinsichtlich ihrer Plausibilität und Stabilität
Auszug aus dem Buch
3.3.1 Logistische Regression
Die logistische Regression wird verwendet, um die Wahrscheinlichkeit des Überlebens als eine Funktion der erklärenden Variablen zu modellieren. Sie ist robust und liefert quotenbasiert bzw. durch Odd's Ratio¹⁴ klare und direkt interpretierbare Ergebnisse, was ermöglicht, die Stärke des Einflusses jeder Variablen auf die Überlebenswahrscheinlichkeit besser zu verstehen. Da die Zielvariable 'survived' binär ist, erscheint die logistische Regression zudem insgesamt gut geeignet für die Modellierung der Überlebenswahrscheinlichkeit. Sie hat den Vorteil, dass sie Beziehungen zwischen einer binären Zielvariablen und mehreren unabhängigen Variablen untersuchen und dabei lineare Beziehungen abbilden kann. In der Umsetzung wurde mit Trainingsdatensatz 'trainData' ein binomiales Model entwickelt. Ausgehend von abhängigen Variablen 'survived' als binäre Variablen ( 0 = „nicht überlebt“, 1 = „überlebt“) wird die Wahrscheinlichkeit geschätzt, dass die weiteren Beobachtung zur Kategorie „1“ gehören. Der code in R hierfür lautet: logit_model <- glm(Survived ~ Pclass + Sex + Age, data = trainData, family = "binomial")
Als Ergebnis zeigt die Konsole in R Studio: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.418628 0.403589 8.471 < 2e-16 *** Pclass2 -1.130117 0.287787 -3.927 8.6e-05 *** Pclass3 -2.212463 0.264891 -8.352 < 2e-16 *** Sexmale -2.646102 0.207785 -12.735 < 2e-16 *** Age -0.030968 0.008334 -3.716 0.000202 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 948.95 on 712 degrees of freedom Residual deviance: 647.76 on 708 degrees of freedom AIC: 657.76 Number of Fisher Scoring iterations: 4 Abbildung 4: Ergebnis logistische Regression¹⁵
Der Koeffizient für ‘Sexmale’ bzw. Geschlecht ist signifikant negativ mit einem sehr geringen p-Wert, was darauf hindeutet, dass männliche Passagiere eine deutlich geringere Überlebenswahrscheinlichkeit hatten, als weibliche Passagiere. Dieses Ergebnis untermauert die These, dass Frauen eine höhere Priorität beim Zugang zu Rettungsbooten hatten und daraus abgeleitet eine höhere Überlebensrate aufwiesen. Der Koeffizient ‘Age’ bzw. Alter ist ebenfalls negativ und statistisch signifikant, was darauf hindeutet, dass mit jedem zusätzlichen Lebensjahr die Überlebenschancen leicht abnahmen. Dies stützt die Vermutung, dass jüngere Passagiere, insbesondere Kinder, eine höhere Überlebenschance hatten als ältere. Die Koeffizienten der Passagierklassen ‘Pclass2’ und ‘Pclass3’ sind beide negativ und statistisch signifikant, was darauf hinweist, dass Passagiere der 2. und 3. Klasse im Vergleich zu Passagieren der 1. Klasse prinzipiell geringere Überlebenschancen hatten. Der Effekt ist für Passagiere der 3. Klasse stärker, was darauf hindeuten kann, dass neben der hohen Anzahl der Passagiere dieser Klasse ebenfalls soziökonomische Faktoren eine Rolle spielten. Passagiere in höheren Klassen hatten aufgrund der Lage ihrer Kabine, wahrscheinlich im oberen Bereich, besseren Zugang zu Rettungsbooten.
Zusammenfassung der Kapitel
1. Einleitung: Beschreibt die Problemstellung und Relevanz der Titanic-Tragödie und stellt die Forschungsfrage nach den Überlebensfaktoren, insbesondere Geschlecht, Alter und sozialem Status, vor.
2. Theoretische Grundlagen: Erläutert die Konzepte von Datenanalyse und Data Mining, stellt das CRISP-DM Modell als Rahmenwerk vor und führt die Programmiersprache R als Analysetool ein.
3. Datenanalyse des Titanic-Datensatzes mit CRISP-DM: Führt die Datenanalyse des Titanic-Datensatzes mithilfe des CRISP-DM Modells durch, inklusive Datenverständnis, -vorbereitung, Modellierung (logistische Regression, Entscheidungsbaum) und Evaluation der Ergebnisse.
4. Zusammenfassung: Fasst die erzielten Ergebnisse zusammen, bestätigt die These "Frauen und Kinder zuerst" und hebt den Einfluss des sozialen Status hervor, sowie die gute Balance der Modelle zwischen Verständlichkeit und Leistungsfähigkeit.
Schlüsselwörter
Titanic, Überlebensanalyse, Datenanalyse, Data Mining, CRISP-DM, Logistische Regression, Entscheidungsbaum, Geschlecht, Alter, Passagierklasse, R (Programmiersprache), Statistik, Modellierung, Overfitting, Prädiktoren
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Diese Arbeit befasst sich mit der statistischen Analyse der Überlebenswahrscheinlichkeit von Passagieren des Unglücks der RMS Titanic unter Berücksichtigung verschiedener Einflussfaktoren.
Was sind die zentralen Themenfelder?
Die zentralen Themenfelder sind Datenanalyse, Data Mining, CRISP-DM, statistische Modellierung (Logistische Regression, Entscheidungsbäume) und die Analyse von Überlebensfaktoren bei historischen Katastrophen.
Was ist das primäre Ziel oder die Forschungsfrage?
Das primäre Ziel ist es zu untersuchen, ob das Überleben der Titanic-Passagiere von Geschlecht, Alter und sozialem Status beeinflusst wurde und ob die populäre These "Frauen und Kinder zuerst" statistisch gestützt wird.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit verwendet das Cross-Industry Standard Process for Data Mining (CRISP-DM) Modell als methodisches Rahmenwerk, kombiniert mit statistischen Methoden wie logistischer Regression und Entscheidungsbäumen.
Was wird im Hauptteil behandelt?
Der Hauptteil behandelt die konkrete Datenanalyse des Titanic-Datensatzes, beginnend mit dem Datenverständnis und der Datenaufbereitung, gefolgt von der Modellierung mittels logistischer Regression und Entscheidungsbaum sowie der Bewertung der erstellten Modelle.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit wird durch Schlüsselwörter wie Titanic, Überlebensanalyse, Datenanalyse, Data Mining, CRISP-DM, Logistische Regression, Entscheidungsbaum, Geschlecht, Alter und Passagierklasse charakterisiert.
Welche Rolle spielt das CRISP-DM Modell in dieser Arbeit?
Das CRISP-DM Modell dient als bewährtes Rahmenwerk, um die Datenanalyse des Titanic-Datensatzes systematisch und strukturiert durchzuführen, von der Problemstellung bis zur Bewertung der Ergebnisse.
Warum wurde die Programmiersprache R für die Datenanalyse gewählt?
R wurde aufgrund seiner Flexibilität für statistische Datenanalyse und -visualisierung ausgewählt, da es komplexe Rechenoperationen und die Implementierung fortgeschrittener statistischer Modelle ermöglicht.
Welche Faktoren hatten laut der Analyse den größten Einfluss auf die Überlebenswahrscheinlichkeit der Titanic-Passagiere?
Laut der Analyse hatten Geschlecht, Alter und die Passagierklasse (sozialer Status) den größten und statistisch signifikantesten Einfluss auf die Überlebenswahrscheinlichkeit.
Wie wurden fehlende Altersangaben im Datensatz behandelt?
Fehlende Altersangaben wurden durch Imputation mit dem Median ersetzt, da dieser robuster gegenüber Ausreißern ist und eine gute Balance zwischen Genauigkeit und Einfachheit bietet.
- Quote paper
- Anonym (Author), 2024, Statistik über die Titanic-Überlebenden, Munich, GRIN Verlag, https://www.grin.com/document/1487219