Leseprobe
Inhaltsverzeichnis
1.Sekundärdatensatz
1.1 Kurzbeschreibung des Sekundärdatensatzes
1.2 Variablen im Sekundärdatensatz
1.2.1 Variablen kategorisch Skaliert
1.2.2 Variablen metrisch Skaliert
2.Datenanalyse mit grafischer Darstellung
2.1 Kategorische Variablen
2.1.1 Variablen Nominalskaliert
2.1.2 Variablen Ordinalskaliert
2.2 Metrischen Variablen
2.2.1 Variablen Intervallskaliert
2.2.2 Variable Verhältnisskaliert
3. Deskriptive Datenanalyse & Statistische Analysen
3.1 Lagemaße der Sekundärdaten
3.2 Streuungsmaße der Sekundärdaten
3.3 Zusammenhangsmaße der Sekundärdaten
3.3.1 Pearsons Korrelationskoeffizient
3.3.2 Chi-Quadrat-Test der Sekundärdaten
3.4 Signifikanztest der Sekundärdaten
3.4.1 Varianzanalyse der Sekundärdaten
3.4.2 Regressionsanalyse der Sekundärdaten
3.4.3 T-Test der Sekundärdaten
4. Interpretation & Diskussion des Datensatzes
Abbildungsverzeichnis
Abbildung 1 Auswertung von R der Variablen seatbelt und sex
Abbildung 2 Darstellung der Variablen sex und seatbelt durch ein Balkendiagramm
Abbildung 3 Auswertung der Variablen injSeverity
Abbildung 4 Auswertung für das Säulendiagramm
Abbildung 5 Visualisierung der Variable injSeverity als Säulendiagramm
Abbildung 6 Auswertung der Variablen airbag
Abbildung 7 Auswertung für die Histogramme
Abbildung 8 Darstellung der Variablen airbag und yearVeh als Histogramm
Abbildung 9 Auswertung der Variablen dvcat und ageOFocc
Abbildung 10 Auswertung für das Streudiagramm
Abbildung 11 Visualisierung der Variablen dvcat und ageOFocc in einem Streudiagramm
Abbildung 12 Auswertung der Variablen dvcat und sex
Abbildung 13 Auswertung für den Boxplot
Abbildung 14 Visualisierung der Variablen sex und dvcat als Boxplot
Abbildung 15 Auswertung aller Variablen
Abbildung 16 Auswertung aller Variablen
Abbildung 17 Auswertung der Varianz von dvcat und ageOFocc
Abbildung 18 Auswertung der Standardabweichung von dvcat und ageOFocc
Abbildung 19 Auswertung der Variablen ageOFocc und dvcat auf Korrelation
Abbildung 20 Auswertung der Variablen seatbelt und dead in einer Kreuztabelle
Abbildung 21 Auswertung der Variablen ageOFocc, injSeverity und seatbelt als Anova
Abbildung 22 Auswertung der Variablen ageOFocc, injSeverity und seatbelt als Mittelwerte
Abbildung 23 Auswertung der Variablen injSeverity auf seatbelt als Standardabweichung
Abbildung 24 Auswertung der Variablen injSeverity und seatbelt als Mengenangabe
Abbildung 25 Auswertung der Variablen ageOFocc und dvcat als Regressionsanalyse
Abbildung 26 Auswertung der Variablen dvcat und sex mit dem t-Test
1. Sekundärdatensatz
1.1 Kurzbeschreibung des Sekundärdatensatzes
Den zu untersuchenden Sekundärdatensatz mit dem Namen „Airbag and other influences on accident fatalities“ beinhaltet Daten, welche aus polizeilichen Berichten von Autounfällen erhoben wurden. Diese Daten wurden in den USA vom Jahr 1997-2002 erfasst und zeigen die Unfallergebnisse von Personen und deren Eigentum auf. Die Daten sind darauf beschränkt, dass mindestens eins der im Unfall verwickelten Autos abgeschleppt worden ist und es sich nur um die Personen der vorderen Sitzplätze handelt.
Die Erhebung der Daten erfolgte durch einen mehrstufigen probabilischen Stichprobenplan und enthält zudem Daten einer Teilmenge von Variablen aus einem „NASS“ Datensatz.
Die Autoren dieses Datensatzes sind unteranderem Meyer, M.C., Finney, T. (2005), Farmer, C.H, Olson, CM, Cummings, P., Rivara, FP. (2006), McKnight, B., Braver, ER., Shardell, M. und Teoh, ER. (2010)
Dieser beschriebene Sekundärdatensatz kann unter folgendem Link gefunden werden: http://vincentarelbundock.github.io/Rdatasets/datasets.html und wie folgt unter URL aufgerufen werden: https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/DAAG/nassCDS.csv Der Datensatz enthält insgesamt 26.217 Zeilen und 15 Variablen. Dies ist zusätzlich als Anhang in der Hausarbeit aufgeführt.
1.2 Variablen im Sekundärdatensatz
Nach der vorhandenen Datei werden alle wichtigen Variablen zur Auswertung des Datensatzes aufgelistet und gegliedert beschrieben.
1.2.1 Variablen kategorisch Skaliert
- „ d e ad “, ist eine aufgeführte nominalskalierte Variable, welche das Überleben der im Vordersitz befindenden Personen beschreibt. (Name in Datensatz „alive“ & „dead“)
- „ airbag “, ist eine aufgeführte nominalskalierte Variable, welche die Ausstattung der Unfallautos mit oder ohne Airbag wiedergibt. (Name in Datensatz „none“ & „airbag“)
- „ S e atbelt “, ist eine aufgeführte nominalskalierte Variable, welche uns mitteilt, ob die Insassen angeschnallt waren oder nicht. (Name in Datensatz „none“ & „belted“)
- „ sex “, ist eine aufgelistete nominalskalierte Variable, über die weiblichen und männlichen Insassen der Unfallautos. (Name in Datensatz „f“=Weiblich & „m“=Männlich)
- „ injSeverity “, ist eine aufgeführte ordinalskalierte Variable, welche einen numerischen
Vektor wiedergibt und der folgend aufgeteilt ist: 0: keine Verletzung der Insassen,
1: mögliche Verletzung der Insassen, 2: keine Arbeitsunfähigkeit der Insassen,
3: Arbeitsunfähigkeit/Invalidität der Insassen, 4: Tötung der Insassen durch Unfall;
5: Unbekanntheit der Verletzung der Insassen, 6: vorheriger Tod der Insassen (Namen in Datensatz „0 = none“, „1 = little injury“, „2 = incapacity for Work“, „3 = incapacity“, „4 = death“, „5 = unknown“, „6 = previous death“)
1.2.2 Variablen metrisch Skaliert
- „ d vcat “, beschreibt eine intervallskalierte Variable, welche die vermutete Aufprallgeschwindigkeit beim Unfall aufzeigt. Die Aufprallgeschwindigkeit ist folgend von eins bis fünf gegliedert: 1 bis 9 km/h, 10 bis 24 km/h, 25 bis 39 km/h, 40 bis 54 km/h und über 55 km/h.
- „ ageOFocc “, beschreibt eine verhältnisskalierte Variable, welche das Alter der Insassen wiedergibt.
- „ yearVeh “, beschreibt eine intervallskalierte Variable, zu dem Herstellungsjahr des Unfallautos.
2. Datenanalyse mit grafischer Darstellung
In dem untersuchten Sekundärdatensatz „Airbag and other influences on accident fatalities“ werden verschiedene Unfalleinflüsse genauer untersucht. Sinnbildliche Darstellungen des Statistikprogramms R, sowie eigene Darstellungen von Grafiken werden zur Vereinfachung des Überblicks und als Informationsträger verwendet.
2.1 Kategorische Variablen
Für die sinnbildliche Darstellung der besseren Visualisierung der nominalskalierten- und ordinalskalierten Variablen, werden vorwiegend Kreis- oder Säulendiagramme verwendet.
2.1.1 Variablen Nominalskaliert
Die nominalskalierte Variable „seatbelt“ ist eine Auflistung der Anzahlen, wieviel Insassen während dem Autounfall ihren Sicherheitsgurt angelegt hatten und wie viele nicht.
Durch die Variable „sex“ wird in dem Datensatz das Geschlecht definiert. Nach der Auswertung in R waren insgesamt 18.573 Insassen angeschnallt und insgesamt 7.644 Insassen hatten Ihren Sicherheitsgurt nicht angelegt.
Von den gesamt 26.217 Insassen waren 12.248 weiblich und 13.969 männlich. Die Verteilung der Insassen ist fast identisch und dadurch fast ausgeglichen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1 Auswertung von R der Variablen seatbelt und sex
Mit der nachfolgenden sinnbildlichen Darstellung wird die Ausprägung von weiblich/männlich und angeschnallt/nicht angeschnallt deutlich.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2 Darstellung der Variablen sex und seatbelt durch ein Balkendiagramm
In der Darstellung wird deutlich, dass über 70 Prozent der weiblichen Unfallinsassen Ihren Sicherheitsgurt angelegt hatten und 65 Prozent der männlichen Insassen. Bei den Unfallinsassen, welche angeschnallt waren, ist das Verhältnis zwischen männlich und weiblich fast ausgeglichen, was man nicht von den unangeschnallten Unfallinsassen sagen kann.
2.1.2 Variablen Ordinalskaliert
Die nominalskalierte Variable „injSeverity“ ist die Aufzählung der Schwierigkeit der Verletzung, welche in verschiedene Kategorien eingeteilt sind. Von den insgesamt 26.271 Insassen wurden 6.479 (24,86%) nicht verletzt. 5.595 (21,47%) der Insassen erlitten kleinere Blessuren und 4.242 (16,28%) wurden während des Unfalls schwerer verletzt, hatten aber keine Invalidität zur Folge. Knapp über das Doppelte, also insgesamt 8.495 (32,59%) Insassen wurde bei dem Unfall so schwer verletzt, dass Sie danach als Invalide
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 3 Auswertung der Variablen injSeverity
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 4 Auswertung für das Säulendiagramm
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 5 Visualisierung der Variable injSeverity als Säulendiagramm
2.2 Metrischen Variablen
Für die Darstellungen der Häufigkeitsverteilung von intervallskalierten- und verhältnisskalierten Variablen, werden vorwiegend Streudiagramme und Boxplots verwendet.
2.2.1 Variablen Intervallskaliert
Die intervallskalierte Variable „airbag“ ist eine Auflistung der Fahrzeugausstattung. Die Variable „yearVeh“ zeigt das Herstellungsjahr des Unfallautos auf.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 6 Auswertung der Variablen airbag
Von den insgesamt 26.217 Unfallfahrzeugen waren 14.419 Fahrzeuge mit einem Airbag und 11.798 Fahrzeuge ohne Airbag ausgestattet gewesen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 7 Auswertung für die Histogramme
[...]