Grin logo
de en es fr
Shop
GRIN Website
Publish your texts - enjoy our full service for authors
Go to shop › Computer Science - General

Statistik über die Titanic-Überlebenden

Title: Statistik über die Titanic-Überlebenden

Research Paper (undergraduate) , 2024 , 35 Pages , Grade: 1,3

Autor:in: Anonym (Author)

Computer Science - General
Excerpt & Details   Look inside the ebook
Summary Excerpt Details

Die Zielsetzung dieser Arbeit ist es, aus Sicht eines fiktiven Versicherungsunternehmens zu untersuchen, ob das Überleben der Passagiere auf der Titanic von Geschlecht und Alter beeinflusst wurde und inwieweit diese Erkenntnisse die populäre These von "Frauen und Kinder zuerst" stützen oder auch weitere Faktoren Relevanz hatten. Die Untersuchung erfolgt anhand eines Titanic-Datensatz, welcher im Internet heruntergeladen wurde. Der Datensatz ist eine Sammlung von Daten über die Passagiere des Schiffes. Dabei folgt das Assignment dem Cross Prozessmodell CRISP-DM, einem bewährten Rahmenwerk für solche Analysen und deckt alle Phasen, von Datenaufbereitung bis Modellierung bis hin zur Bewertung und Interpretation der Ergebnisse, ab. Das Assignment gliedert sich in vier Kapitel. Beginnend mit der Problemstellung und Relevanz des Themas folgt das Ziel und der Aufbau des Assignments, welche das erste Kapitel abschließen. Anschließend an die Einleitung erfolgt die Erarbeitung der theoretischen Grundlagen im zweiten Teil dieser Arbeit. In diesem werden wichtige Begrifflichkeiten, Konzepte und Merkmale der Datenanalyse, des Data-Minings, sowie des CRISP-DM Modells definiert. Des Weiteren werden statistische Methoden kurz skizziert. Das dritte Kapitel bildet den inhaltlichen Schwerpunkt dieser Arbeit. In diesem werden aufbauend auf der Zielsetzung der Anwendung des CRISP-DM Modells, die einzelnen Schritte durchgeführt und die Ergebnisse analysiert. Der Schlussteil gibt als Deployment eine kurze Zusammenfassung, eine kritische Reflexion und einen kurzen Ausbli

Der Untergang der "RMS Titanic" im Nordatlantik in den frühen Morgenstunden des 15. April 1912 und die damit zusammenhängende Tragödie bleibt eines der bewegendsten und faszinierendsten Kapitel moderner Zeit. So prägte dieses Ereignis nicht nur die maritime Geschichte, sondern hinterließ auch einen nachhaltigen Eindruck in der Populärkultur. So beschäftigte sich Historiker, Soziologen und Wissenschaftler unter den vielen Aspekten dieses Unglücks auch mit dieser folgenden These: der Annahme, dass bei der Evakuierung der Titanic Frauen und Kinder bevorzugt gerettet wurden. Im Rahmen dieses Assignments soll diese These, mithilfe des Prozessmodells CRISP-DM, der Programmiersprache, sowie statistischer Methoden, näher untersucht werden. Zudem soll geprüft werden, ob auch weitere Faktoren bei der Rettung von Relevanz waren.

Excerpt


Inhaltsverzeichnis

  • Abbildungsverzeichnis
  • Abkürzungsverzeichnis
  • 1. Einleitung
    • 1.1 Problemstellung und Relevanz dieser Arbeit
    • 1.2 Ziel und Aufbau dieser Arbeit
  • 2. Theoretische Grundlagen
    • 2.1 Datenanalyse und Data-Mining
    • 2.2 CRISP-DM Modell
    • 2.3 Datenanalyse mit dem Werkzeug R
  • 3. Datenanalyse des Titanic-Datensatzes mit CRISP-DM
    • 3.1 Business Understanding
    • 3.2 Data Understanding und Data Preparation
    • 3.3 Modeling
      • 3.3.1 Logistische Regression
      • 3.3.2 Entscheidungsbaum
      • 3.3.3 Bewertung der Modelle
    • 3.4 Evaluation
  • 4. Zusammenfassung
    • 4.1 Deployment
    • 4.2 Management Summary
  • Literaturverzeichnis
  • Anhang

Zielsetzung & Themen

Die vorliegende Arbeit zielt darauf ab, aus der Perspektive eines fiktiven Versicherungsunternehmens zu untersuchen, inwiefern das Überleben der Titanic-Passagiere durch Faktoren wie Geschlecht und Alter beeinflusst wurde. Weiterhin wird analysiert, ob diese Erkenntnisse die populäre These "Frauen und Kinder zuerst" untermauern oder infrage stellen und ob der soziale Status ebenfalls eine Rolle spielte.

  • Analyse der Überlebenswahrscheinlichkeit der Titanic-Passagiere
  • Identifikation von Einflussfaktoren wie Geschlecht, Alter und sozialer Status
  • Anwendung des CRISP-DM Prozessmodells für die Datenanalyse
  • Einsatz statistischer Methoden wie logistische Regression und Entscheidungsbäume
  • Nutzung der Programmiersprache R zur Datenanalyse und Visualisierung
  • Bewertung und Interpretation der Modellierungsergebnisse hinsichtlich ihrer Plausibilität und Stabilität

Auszug aus dem Buch

3.3.1 Logistische Regression

Die logistische Regression wird verwendet, um die Wahrscheinlichkeit des Überlebens als eine Funktion der erklärenden Variablen zu modellieren. Sie ist robust und liefert quotenbasiert bzw. durch Odd's Ratio¹⁴ klare und direkt interpretierbare Ergebnisse, was ermöglicht, die Stärke des Einflusses jeder Variablen auf die Überlebenswahrscheinlichkeit besser zu verstehen. Da die Zielvariable 'survived' binär ist, erscheint die logistische Regression zudem insgesamt gut geeignet für die Modellierung der Überlebenswahrscheinlichkeit. Sie hat den Vorteil, dass sie Beziehungen zwischen einer binären Zielvariablen und mehreren unabhängigen Variablen untersuchen und dabei lineare Beziehungen abbilden kann. In der Umsetzung wurde mit Trainingsdatensatz 'trainData' ein binomiales Model entwickelt. Ausgehend von abhängigen Variablen 'survived' als binäre Variablen ( 0 = „nicht überlebt“, 1 = „überlebt“) wird die Wahrscheinlichkeit geschätzt, dass die weiteren Beobachtung zur Kategorie „1“ gehören. Der code in R hierfür lautet: logit_model <- glm(Survived ~ Pclass + Sex + Age, data = trainData, family = "binomial")

Als Ergebnis zeigt die Konsole in R Studio: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) 3.418628 0.403589 8.471 < 2e-16 *** Pclass2 -1.130117 0.287787 -3.927 8.6e-05 *** Pclass3 -2.212463 0.264891 -8.352 < 2e-16 *** Sexmale -2.646102 0.207785 -12.735 < 2e-16 *** Age -0.030968 0.008334 -3.716 0.000202 *** Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for binomial family taken to be 1) Null deviance: 948.95 on 712 degrees of freedom Residual deviance: 647.76 on 708 degrees of freedom AIC: 657.76 Number of Fisher Scoring iterations: 4 Abbildung 4: Ergebnis logistische Regression¹⁵

Der Koeffizient für ‘Sexmale’ bzw. Geschlecht ist signifikant negativ mit einem sehr geringen p-Wert, was darauf hindeutet, dass männliche Passagiere eine deutlich geringere Überlebenswahrscheinlichkeit hatten, als weibliche Passagiere. Dieses Ergebnis untermauert die These, dass Frauen eine höhere Priorität beim Zugang zu Rettungsbooten hatten und daraus abgeleitet eine höhere Überlebensrate aufwiesen. Der Koeffizient ‘Age’ bzw. Alter ist ebenfalls negativ und statistisch signifikant, was darauf hindeutet, dass mit jedem zusätzlichen Lebensjahr die Überlebenschancen leicht abnahmen. Dies stützt die Vermutung, dass jüngere Passagiere, insbesondere Kinder, eine höhere Überlebenschance hatten als ältere. Die Koeffizienten der Passagierklassen ‘Pclass2’ und ‘Pclass3’ sind beide negativ und statistisch signifikant, was darauf hinweist, dass Passagiere der 2. und 3. Klasse im Vergleich zu Passagieren der 1. Klasse prinzipiell geringere Überlebenschancen hatten. Der Effekt ist für Passagiere der 3. Klasse stärker, was darauf hindeuten kann, dass neben der hohen Anzahl der Passagiere dieser Klasse ebenfalls soziökonomische Faktoren eine Rolle spielten. Passagiere in höheren Klassen hatten aufgrund der Lage ihrer Kabine, wahrscheinlich im oberen Bereich, besseren Zugang zu Rettungsbooten.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die Problemstellung und Relevanz der Titanic-Tragödie und stellt die Forschungsfrage nach den Überlebensfaktoren, insbesondere Geschlecht, Alter und sozialem Status, vor.

2. Theoretische Grundlagen: Erläutert die Konzepte von Datenanalyse und Data Mining, stellt das CRISP-DM Modell als Rahmenwerk vor und führt die Programmiersprache R als Analysetool ein.

3. Datenanalyse des Titanic-Datensatzes mit CRISP-DM: Führt die Datenanalyse des Titanic-Datensatzes mithilfe des CRISP-DM Modells durch, inklusive Datenverständnis, -vorbereitung, Modellierung (logistische Regression, Entscheidungsbaum) und Evaluation der Ergebnisse.

4. Zusammenfassung: Fasst die erzielten Ergebnisse zusammen, bestätigt die These "Frauen und Kinder zuerst" und hebt den Einfluss des sozialen Status hervor, sowie die gute Balance der Modelle zwischen Verständlichkeit und Leistungsfähigkeit.

Schlüsselwörter

Titanic, Überlebensanalyse, Datenanalyse, Data Mining, CRISP-DM, Logistische Regression, Entscheidungsbaum, Geschlecht, Alter, Passagierklasse, R (Programmiersprache), Statistik, Modellierung, Overfitting, Prädiktoren

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Diese Arbeit befasst sich mit der statistischen Analyse der Überlebenswahrscheinlichkeit von Passagieren des Unglücks der RMS Titanic unter Berücksichtigung verschiedener Einflussfaktoren.

Was sind die zentralen Themenfelder?

Die zentralen Themenfelder sind Datenanalyse, Data Mining, CRISP-DM, statistische Modellierung (Logistische Regression, Entscheidungsbäume) und die Analyse von Überlebensfaktoren bei historischen Katastrophen.

Was ist das primäre Ziel oder die Forschungsfrage?

Das primäre Ziel ist es zu untersuchen, ob das Überleben der Titanic-Passagiere von Geschlecht, Alter und sozialem Status beeinflusst wurde und ob die populäre These "Frauen und Kinder zuerst" statistisch gestützt wird.

Welche wissenschaftliche Methode wird verwendet?

Die Arbeit verwendet das Cross-Industry Standard Process for Data Mining (CRISP-DM) Modell als methodisches Rahmenwerk, kombiniert mit statistischen Methoden wie logistischer Regression und Entscheidungsbäumen.

Was wird im Hauptteil behandelt?

Der Hauptteil behandelt die konkrete Datenanalyse des Titanic-Datensatzes, beginnend mit dem Datenverständnis und der Datenaufbereitung, gefolgt von der Modellierung mittels logistischer Regression und Entscheidungsbaum sowie der Bewertung der erstellten Modelle.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird durch Schlüsselwörter wie Titanic, Überlebensanalyse, Datenanalyse, Data Mining, CRISP-DM, Logistische Regression, Entscheidungsbaum, Geschlecht, Alter und Passagierklasse charakterisiert.

Welche Rolle spielt das CRISP-DM Modell in dieser Arbeit?

Das CRISP-DM Modell dient als bewährtes Rahmenwerk, um die Datenanalyse des Titanic-Datensatzes systematisch und strukturiert durchzuführen, von der Problemstellung bis zur Bewertung der Ergebnisse.

Warum wurde die Programmiersprache R für die Datenanalyse gewählt?

R wurde aufgrund seiner Flexibilität für statistische Datenanalyse und -visualisierung ausgewählt, da es komplexe Rechenoperationen und die Implementierung fortgeschrittener statistischer Modelle ermöglicht.

Welche Faktoren hatten laut der Analyse den größten Einfluss auf die Überlebenswahrscheinlichkeit der Titanic-Passagiere?

Laut der Analyse hatten Geschlecht, Alter und die Passagierklasse (sozialer Status) den größten und statistisch signifikantesten Einfluss auf die Überlebenswahrscheinlichkeit.

Wie wurden fehlende Altersangaben im Datensatz behandelt?

Fehlende Altersangaben wurden durch Imputation mit dem Median ersetzt, da dieser robuster gegenüber Ausreißern ist und eine gute Balance zwischen Genauigkeit und Einfachheit bietet.

Excerpt out of 35 pages  - scroll top

Details

Title
Statistik über die Titanic-Überlebenden
College
AKAD University of Applied Sciences Stuttgart
Grade
1,3
Author
Anonym (Author)
Publication Year
2024
Pages
35
Catalog Number
V1487219
ISBN (PDF)
9783389044100
ISBN (Book)
9783389044117
Language
German
Tags
R R-Studio Data Science Titanic CRISP DM Datenanalyse Algorithmen Code Statistik Data Mining ggplot
Product Safety
GRIN Publishing GmbH
Quote paper
Anonym (Author), 2024, Statistik über die Titanic-Überlebenden, Munich, GRIN Verlag, https://www.grin.com/document/1487219
Look inside the ebook
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
Excerpt from  35  pages
Grin logo
  • Grin.com
  • Shipping
  • Contact
  • Privacy
  • Terms
  • Imprint