Datenerhebung und Statistik. Analyse des Datensatzes "Airbag And Other Influences On Accident Fatalities" mithilfe des Statistikprogramms R


Hausarbeit, 2018

28 Seiten, Note: 1,3


Leseprobe


Inhaltsverzeichnis

1.Sekundärdatensatz
1.1 Kurzbeschreibung des Sekundärdatensatzes
1.2 Variablen im Sekundärdatensatz
1.2.1 Variablen kategorisch Skaliert
1.2.2 Variablen metrisch Skaliert

2.Datenanalyse mit grafischer Darstellung
2.1 Kategorische Variablen
2.1.1 Variablen Nominalskaliert
2.1.2 Variablen Ordinalskaliert
2.2 Metrischen Variablen
2.2.1 Variablen Intervallskaliert
2.2.2 Variable Verhältnisskaliert

3. Deskriptive Datenanalyse & Statistische Analysen
3.1 Lagemaße der Sekundärdaten
3.2 Streuungsmaße der Sekundärdaten
3.3 Zusammenhangsmaße der Sekundärdaten
3.3.1 Pearsons Korrelationskoeffizient
3.3.2 Chi-Quadrat-Test der Sekundärdaten
3.4 Signifikanztest der Sekundärdaten
3.4.1 Varianzanalyse der Sekundärdaten
3.4.2 Regressionsanalyse der Sekundärdaten
3.4.3 T-Test der Sekundärdaten

4. Interpretation & Diskussion des Datensatzes

Abbildungsverzeichnis

Abbildung 1 Auswertung von R der Variablen seatbelt und sex

Abbildung 2 Darstellung der Variablen sex und seatbelt durch ein Balkendiagramm

Abbildung 3 Auswertung der Variablen injSeverity

Abbildung 4 Auswertung für das Säulendiagramm

Abbildung 5 Visualisierung der Variable injSeverity als Säulendiagramm

Abbildung 6 Auswertung der Variablen airbag

Abbildung 7 Auswertung für die Histogramme

Abbildung 8 Darstellung der Variablen airbag und yearVeh als Histogramm

Abbildung 9 Auswertung der Variablen dvcat und ageOFocc

Abbildung 10 Auswertung für das Streudiagramm

Abbildung 11 Visualisierung der Variablen dvcat und ageOFocc in einem Streudiagramm

Abbildung 12 Auswertung der Variablen dvcat und sex

Abbildung 13 Auswertung für den Boxplot

Abbildung 14 Visualisierung der Variablen sex und dvcat als Boxplot

Abbildung 15 Auswertung aller Variablen

Abbildung 16 Auswertung aller Variablen

Abbildung 17 Auswertung der Varianz von dvcat und ageOFocc

Abbildung 18 Auswertung der Standardabweichung von dvcat und ageOFocc

Abbildung 19 Auswertung der Variablen ageOFocc und dvcat auf Korrelation

Abbildung 20 Auswertung der Variablen seatbelt und dead in einer Kreuztabelle

Abbildung 21 Auswertung der Variablen ageOFocc, injSeverity und seatbelt als Anova

Abbildung 22 Auswertung der Variablen ageOFocc, injSeverity und seatbelt als Mittelwerte

Abbildung 23 Auswertung der Variablen injSeverity auf seatbelt als Standardabweichung

Abbildung 24 Auswertung der Variablen injSeverity und seatbelt als Mengenangabe

Abbildung 25 Auswertung der Variablen ageOFocc und dvcat als Regressionsanalyse

Abbildung 26 Auswertung der Variablen dvcat und sex mit dem t-Test

1. Sekundärdatensatz

1.1 Kurzbeschreibung des Sekundärdatensatzes

Den zu untersuchenden Sekundärdatensatz mit dem Namen „Airbag and other influences on accident fatalities“ beinhaltet Daten, welche aus polizeilichen Berichten von Autounfällen erhoben wurden. Diese Daten wurden in den USA vom Jahr 1997-2002 erfasst und zeigen die Unfallergebnisse von Personen und deren Eigentum auf. Die Daten sind darauf beschränkt, dass mindestens eins der im Unfall verwickelten Autos abgeschleppt worden ist und es sich nur um die Personen der vorderen Sitzplätze handelt.

Die Erhebung der Daten erfolgte durch einen mehrstufigen probabilischen Stichprobenplan und enthält zudem Daten einer Teilmenge von Variablen aus einem „NASS“ Datensatz.

Die Autoren dieses Datensatzes sind unteranderem Meyer, M.C., Finney, T. (2005), Farmer, C.H, Olson, CM, Cummings, P., Rivara, FP. (2006), McKnight, B., Braver, ER., Shardell, M. und Teoh, ER. (2010)

Dieser beschriebene Sekundärdatensatz kann unter folgendem Link gefunden werden: http://vincentarelbundock.github.io/Rdatasets/datasets.html und wie folgt unter URL aufgerufen werden: https://raw.githubusercontent.com/vincentarelbundock/Rdatasets/master/csv/DAAG/nassCDS.csv Der Datensatz enthält insgesamt 26.217 Zeilen und 15 Variablen. Dies ist zusätzlich als Anhang in der Hausarbeit aufgeführt.

1.2 Variablen im Sekundärdatensatz

Nach der vorhandenen Datei werden alle wichtigen Variablen zur Auswertung des Datensatzes aufgelistet und gegliedert beschrieben.

1.2.1 Variablen kategorisch Skaliert

- „ d e ad “, ist eine aufgeführte nominalskalierte Variable, welche das Überleben der im Vordersitz befindenden Personen beschreibt. (Name in Datensatz „alive“ & „dead“)
- „ airbag “, ist eine aufgeführte nominalskalierte Variable, welche die Ausstattung der Unfallautos mit oder ohne Airbag wiedergibt. (Name in Datensatz „none“ & „airbag“)
- „ S e atbelt “, ist eine aufgeführte nominalskalierte Variable, welche uns mitteilt, ob die Insassen angeschnallt waren oder nicht. (Name in Datensatz „none“ & „belted“)
- „ sex “, ist eine aufgelistete nominalskalierte Variable, über die weiblichen und männlichen Insassen der Unfallautos. (Name in Datensatz „f“=Weiblich & „m“=Männlich)
- „ injSeverity “, ist eine aufgeführte ordinalskalierte Variable, welche einen numerischen

Vektor wiedergibt und der folgend aufgeteilt ist: 0: keine Verletzung der Insassen,

1: mögliche Verletzung der Insassen, 2: keine Arbeitsunfähigkeit der Insassen,
3: Arbeitsunfähigkeit/Invalidität der Insassen, 4: Tötung der Insassen durch Unfall;
5: Unbekanntheit der Verletzung der Insassen, 6: vorheriger Tod der Insassen (Namen in Datensatz „0 = none“, „1 = little injury“, „2 = incapacity for Work“, „3 = incapacity“, „4 = death“, „5 = unknown“, „6 = previous death“)

1.2.2 Variablen metrisch Skaliert

- „ d vcat “, beschreibt eine intervallskalierte Variable, welche die vermutete Aufprallgeschwindigkeit beim Unfall aufzeigt. Die Aufprallgeschwindigkeit ist folgend von eins bis fünf gegliedert: 1 bis 9 km/h, 10 bis 24 km/h, 25 bis 39 km/h, 40 bis 54 km/h und über 55 km/h.
- „ ageOFocc “, beschreibt eine verhältnisskalierte Variable, welche das Alter der Insassen wiedergibt.
- „ yearVeh “, beschreibt eine intervallskalierte Variable, zu dem Herstellungsjahr des Unfallautos.

2. Datenanalyse mit grafischer Darstellung

In dem untersuchten Sekundärdatensatz „Airbag and other influences on accident fatalities“ werden verschiedene Unfalleinflüsse genauer untersucht. Sinnbildliche Darstellungen des Statistikprogramms R, sowie eigene Darstellungen von Grafiken werden zur Vereinfachung des Überblicks und als Informationsträger verwendet.

2.1 Kategorische Variablen

Für die sinnbildliche Darstellung der besseren Visualisierung der nominalskalierten- und ordinalskalierten Variablen, werden vorwiegend Kreis- oder Säulendiagramme verwendet.

2.1.1 Variablen Nominalskaliert

Die nominalskalierte Variable „seatbelt“ ist eine Auflistung der Anzahlen, wieviel Insassen während dem Autounfall ihren Sicherheitsgurt angelegt hatten und wie viele nicht.

Durch die Variable „sex“ wird in dem Datensatz das Geschlecht definiert. Nach der Auswertung in R waren insgesamt 18.573 Insassen angeschnallt und insgesamt 7.644 Insassen hatten Ihren Sicherheitsgurt nicht angelegt.

Von den gesamt 26.217 Insassen waren 12.248 weiblich und 13.969 männlich. Die Verteilung der Insassen ist fast identisch und dadurch fast ausgeglichen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1 Auswertung von R der Variablen seatbelt und sex

Mit der nachfolgenden sinnbildlichen Darstellung wird die Ausprägung von weiblich/männlich und angeschnallt/nicht angeschnallt deutlich.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2 Darstellung der Variablen sex und seatbelt durch ein Balkendiagramm

In der Darstellung wird deutlich, dass über 70 Prozent der weiblichen Unfallinsassen Ihren Sicherheitsgurt angelegt hatten und 65 Prozent der männlichen Insassen. Bei den Unfallinsassen, welche angeschnallt waren, ist das Verhältnis zwischen männlich und weiblich fast ausgeglichen, was man nicht von den unangeschnallten Unfallinsassen sagen kann.

2.1.2 Variablen Ordinalskaliert

Die nominalskalierte Variable „injSeverity“ ist die Aufzählung der Schwierigkeit der Verletzung, welche in verschiedene Kategorien eingeteilt sind. Von den insgesamt 26.271 Insassen wurden 6.479 (24,86%) nicht verletzt. 5.595 (21,47%) der Insassen erlitten kleinere Blessuren und 4.242 (16,28%) wurden während des Unfalls schwerer verletzt, hatten aber keine Invalidität zur Folge. Knapp über das Doppelte, also insgesamt 8.495 (32,59%) Insassen wurde bei dem Unfall so schwer verletzt, dass Sie danach als Invalide

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3 Auswertung der Variablen injSeverity

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4 Auswertung für das Säulendiagramm

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5 Visualisierung der Variable injSeverity als Säulendiagramm

2.2 Metrischen Variablen

Für die Darstellungen der Häufigkeitsverteilung von intervallskalierten- und verhältnisskalierten Variablen, werden vorwiegend Streudiagramme und Boxplots verwendet.

2.2.1 Variablen Intervallskaliert

Die intervallskalierte Variable „airbag“ ist eine Auflistung der Fahrzeugausstattung. Die Variable „yearVeh“ zeigt das Herstellungsjahr des Unfallautos auf.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6 Auswertung der Variablen airbag

Von den insgesamt 26.217 Unfallfahrzeugen waren 14.419 Fahrzeuge mit einem Airbag und 11.798 Fahrzeuge ohne Airbag ausgestattet gewesen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7 Auswertung für die Histogramme

[...]

Ende der Leseprobe aus 28 Seiten

Details

Titel
Datenerhebung und Statistik. Analyse des Datensatzes "Airbag And Other Influences On Accident Fatalities" mithilfe des Statistikprogramms R
Hochschule
FOM Essen, Hochschule für Oekonomie & Management gemeinnützige GmbH, Hochschulleitung Essen früher Fachhochschule
Note
1,3
Autor
Jahr
2018
Seiten
28
Katalognummer
V593442
ISBN (eBook)
9783346190413
ISBN (Buch)
9783346190420
Sprache
Deutsch
Schlagworte
Statistik, Auswertung, Datensatz, Analyse, Auto, Airbag, Unfall, Chance
Arbeit zitieren
Marco Gastel (Autor:in), 2018, Datenerhebung und Statistik. Analyse des Datensatzes "Airbag And Other Influences On Accident Fatalities" mithilfe des Statistikprogramms R, München, GRIN Verlag, https://www.grin.com/document/593442

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Datenerhebung und Statistik. Analyse des Datensatzes "Airbag And Other Influences On Accident Fatalities" mithilfe des Statistikprogramms R



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden