Leseprobe
Inhaltsverzeichnis
Abbildungsverzeichnis
1 Einleitung und Zielsetzung
2 Gang der Arbeit
3 Der Datensatz
3.1 Formatierung des Datensatzes
4 Zu testende Hypothesen
4.1 Zusammenhang Überleben – Geschlecht
4.1.1 Chi Quadrat Test
4.1.2 Feststellung der Anzahl – Überleben Männer und Frauen
4.1.3 Assocstats Befehl
4.2 Abhängigkeit Überleben – Alter
4.2.1 Chi Quadrat Test
4.2.2 Durchschnittsalter Überlebende / Nicht Überlebende
5 Fazit
Quellenverzeichnis
Abbildungsverzeichnis
Abbildung 1: Datensatz in R Studio
Abbildung 2: Datensatz in R Studio nach der Formatierung
Abbildung 3: Zusammenhang Geschlecht und Überleben
Abbildung 4: Numerische Daten Überleben nach Geschlecht
Abbildung 5: GGPlot Überleben - Geschlecht
Abbildung 6: QPlot Überleben - Geschlecht
Abbildung 7: Verteilung des Alters der Überlebenden der Titanic
Abbildung 8: QPlot Überleben nach Alter
Abbildung 9: Altersstruktur Männer und Frauen
Abbildung 10: GGPlot Altersstruktur Männer und Frauen
1 Einleitung und Zielsetzung
Der Untergang der Titanic gilt als größte Tragödie der Schifffahrt. Bei ihrer Jungfernfahrt am 14. April 1912 kollidierte sie, mutmaßlich aufgrund menschlichen Versagens, mit einem Eisberg und kenterte.
Trotz der immensen Größe des Schiffes reichte die Anzahl der Rettungsboote nicht aus, um alle Passagiere zu retten. Nur 16 Boote sollten über 2000 Menschen fassen – im Endeffekt reichten sie nur für die Hälfte der Insassen. Von den 2200 Menschen an Bord verloren 1514 ihr Leben.1
Diese Arbeit stellt eine statistische Untersuchung dazu dar, ob Variablen wie das Alter oder das Geschlecht der Insassen einen Einfluss darauf hatten, ob die Passagiere überleben konnten oder nicht.
Zielsetzung dieser Arbeit ist es zu untersuchen, ob ein Zusammenhang zwischen den oben genannten Variablen und der Überlebenschance der Touristen besteht. So könnte beispielsweise angenommen werden, dass Frauen und Kinder zuerst gerettet werden oder dass ältere Menschen eine geringere Chance hatten, die größte Katastrophe der Seefahrt zu überleben. Diese Zusammenhänge werden in dieser Arbeit untersucht sowie durch Grafiken unterstützt.
2 Gang der Arbeit
Wie schon in der Einleitung erwähnt wird in dieser Arbeit der Zusammenhang zwischen dem Überleben der Passagiere und Variablen wie dem Alter und dem Geschlecht untersucht. Hierzu wird zunächst der Datensatz vorgestellt sowie dessen Formatierung erklärt. Im weiteren Verlauf der Arbeit werden die aufgestellten Hypothesen statistischen Tests unterzogen, sowie die Relation der Variablen durch Abbildungen dargestellt. Am Ende der Arbeit soll wird ein Fazit gezogen.
3 Der Datensatz
Der erste Schritt zur statistischen Untersuchung ist einen geeigneten Datensatz zur Bearbeitung und Analyse zu finden. Dieser Datensatz wurde über den Link https://raw.github.com/vincentarelbundock/Rdatasets/master/csv/carData/TitanicSurvival.csv, welcher im Dokument Einstieg in R enthalten ist, gefunden und lokal unter Dokumenten abgespeichert. Er wird dann durch den Befehl read.csv geöffnet.
Der Datensatz enthält insgesamt Informationen zu 1309 Passagieren. Es sind über die Hälfte der Passagiere im Datensatz eingeschlossen. Dies garantiert, dass repräsentative Untersuchungsergebnisse erzielt werden können.
Es sind Informationen zu fünf Variablen in der Tabelle erfasst. Hierunter die Namen der Passagiere, welche für die statistischen Untersuchungen nicht essentiell sind sowie Informationen darüber, ob die Passagiere überlebt haben, deren Geschlecht, das Alter und die Passagierklasse, in welcher die Insassen mitgefahren sind.
Abbildung 1: Datensatz in R Studio
Abbildung in dieser Leseprobe nicht enthalten
Quelle: R Studio
Für die Auswertung des Datensatzes ist es zunächst nötig, einen Zuweisungsbefehl in R Studio vorzunehmen, um die Arbeit mit dem Datensatz zu vereinfachen. Dieser heißt wie folgt:
Abbildung in dieser Leseprobe nicht enthalten
3.1 Formatierung des Datensatzes
Der nächste Schritt ist es, die Tabelle zu formatieren. Hierzu werden zunächst alle Spaltenüberschriften ins Deutsche übersetzt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2: Datensatz in R Studio nach der Formatierung
Abbildung in dieser Leseprobe nicht enthalten
Quelle: R Studio
Nachdem die Tabelle für die Analyse passend formatiert wurde, werden im Folgenden die zu testenden Hypothesen aufgestellt.
4 Zu testende Hypothesen
4.1 Zusammenhang Überleben – Geschlecht
Die ersten Variablen, die in ihrer Abhängigkeit zueinander getestet werden sollen, sind das Überleben der Passagiere und deren Geschlecht. So kann die H0 Hypothese formuliert werden, dass kein Zusammengang zwischen den beiden Variablen besteht. Die H1 Hypothese beinhaltet, dass ein Zusammenhang besteht und dass Frauen eher überlebt haben als Männer, da die normale Vorgehensweise bei Unglücken ist, dass Frauen und Kinder zuerst gerettet werden.
4.1.1 Chi Quadrat Test
Zur ersten Einschätzung des Zusammenhangs wird in R Studio ein Chi Quadrat Test angewendet. Der Chi Quadrat Test wird für kategorische Variablen verwendet und untersucht, ob zwei Variablen voneinander stochastisch unabhängig sind.
Der Befehl für den Chi Quadrat Test lautet wie folgt:
Abbildung in dieser Leseprobe nicht enthalten
Das Ergebnis beinhaltet folgenden P-Wert:
Abbildung in dieser Leseprobe nicht enthalten
Vom sehr niedrigen P-Wert, welcher unter dem Signifikanzniveau 5% liegt, kann man darauf schließen, dass eine Abhängigkeit zwischen den beiden Variablen besteht und die H0 Hypothese abgelehnt wird.
Zur Unterstützung dieser Hypothese soll in R Studio eine Abbildung zu diesem Sachverhalt erstellt werden. Hierzu wird ein Plot Befehl benutzt.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3: Zusammenhang Geschlecht und Überleben
Quelle: Eigene Darstellung, R Studio
Diese Abbildung unterstreicht die Feststellung der H1 Hypothese, dass mehr Frauen überleben konnten als Männer.
4.1.2 Feststellung der Anzahl – Überleben Männer und Frauen
Um zahlenmäßig festzulegen, wie viele Frauen und Männer jeweils überlebt und nicht überlebt haben, muss ein weiterer Datensatz verwendet werden, um die Informationen filtern zu können.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4: Numerische Daten Überleben nach Geschlecht
Abbildung in dieser Leseprobe nicht enthalten
Quelle: Eigene Darstellung, in Anlehnung an: https://stackoverflow.com/questions/40448988/mosaic-plot-and-text-values
Auch aus dieser Abbildung kann geschlossen werden, dass ein Zusammenhang zwischen den Variablen besteht. Es wird ersichtlich, dass sehr viel mehr Frauen als Männer überleben konnten.
4.1.3 Assocstats Befehl
Wie stark der Zusammenhang zwischen den beiden Variablen ist, kann durch den assocstats Befehl in R bestimmt werden. Hierzu muss das package vcd aktiviert werden.
Abbildung in dieser Leseprobe nicht enthalten
Die Ergebnisse liefern folgende Zahlen:
Abbildung in dieser Leseprobe nicht enthalten
Da die Werte aller unteren Kennzahlen (Phi Koeffizient, Korrelationskoeffizient und Cramers V) um 0,5 liegen, lässt dies auf einen mittleren Zusammenhang zwischen den Variablen Überleben und Geschlecht schließen.
Zusammenfassend ist zu sagen, dass das Geschlecht eine Auswirkung darauf hatte, ob die Insassen die Katastrophe überleben konnten oder nicht. Insgesamt haben mehr weibliche Passagiere überlebt.
[...]
1 Vgl. https://www.br.de/themen/wissen/titanic-untergang-schiff100.html, Zugriff am 25.09.2019.
- Arbeit zitieren
- Melina Helga Richter (Autor:in), 2019, Eine Analyse zu den Überlebenden des Untergangs der Titanik mit "R". Zusammenhang von Alter und Geschlecht, München, GRIN Verlag, https://www.grin.com/document/960111
Kostenlos Autor werden
Kommentare