Leseprobe
Inhaltsverzeichnis
1 Einleitung
1.1 Quelle der Daten &Einlesen der Datei
1.2 Erster Uberblick der Daten
2 Datenuberblick
2.1 Variable MPG-Miles per Gallon
2.2 Variable Cylinders
2.3 Variable Displacement
2.4 Variable Horsepower
2.5 Variable Weight
2.6 Variable Acceleration
2.7 Variable Model.Year
2.8 Variable Origin
2.2 Variable Car.Name
3 Hypothesen & Analyse
3.1 Hypothese 1- Lineare Regression(Variable Horsepower&MPG)
3.2 Hypothese 2 -Inferenz eines kategorialen Anteilswertes(Variable Origin)
3.3 Hypothese 3 -Lineare Regression(Variablen Weight & MPG)
4 Fazit
1 Einleitung
Die nachfolgende Seminararbeit im Modul „Datenerhebung& Statistik“ befasst sich mit der Forschung der Statlib Library der Carnegie Mellon University aus dem Jahre 1983. Demnach stellt das Ziel der Forschung die Analyse des Benzinverbrauchs im Stadtverkehr von Personen- kraftfahrzeugen in der Einheit miles per gallon dar. Zur Auswertung des Benzinverbrauches wurden verschiedenste Automarken und Modelle hinsichtlich der Kriterien origin, model, acceleration, weight, horsepower, displacement und cylinders betrachtet. Die genannten Kriterien stellen die entsprechenden Variablen des vorliegenden Datensatzes dar.
Insgesamt wurden 398 Stichproben untersucht und nach den oben beschriebenen Kriterien aus- gewertet, sodass der Benzinverbrauch im Stadtverkehr in miles per gallon fur jede einzelne Stichprobe resultiert und somit verglichen werden kann.
1.1 Quelle der Daten &Einlesen der Datei
Der Datensatz „auto-mpg“ ist auf der Homepage von Kaggle unter diesem Link zu finden. https://www.kaggle.com/uciml/autompg-dataset.
Folgendes R-Paket wird benotigt, um die Analyse durchzufuhren, sowie anschauliche Graphi- ken zu erhalten. Diese werden wie folgt installiert:
Abbildung in dieser Leseprobe nicht enthalten
Um den Datensatz einzulesen und zu veranschaulichen sind folgende Befehle erforderlich:
Abbildung in dieser Leseprobe nicht enthalten
1.2 Erster Uberblick der Daten
Durch den Befehl „summary (milespergallon) “ verschafft man sich einen Uberblick uber die Variablen und deren Auspragungen. Man erkennt, dass der Datensatz auf insgesamt neun Variablen basiert, die alle Auspragungen in verschiedenen Hohen aufzeigen.
Abbildung in dieser Leseprobe nicht enthalten
Mit Hilfe des Befehls „str(milespergallon)“ konnen auBerdem die Anzahl der Stichproben, so- wie die Anzahl der Variablen angezeigt werden. Bei diesem Datensatz zahlen wir 398 Stichproben, sowie neun Variablen.
Abbildung in dieser Leseprobe nicht enthalten
AuBerdem zeigt dieser Befehl an, welches Skalenniveau die Variablen besitzen. Der Punkt „int“ steht fur „integer“ (ganze Zahlen), der Punkt „num“ definiert numerische Daten. Der Punkt „Factor“ stellt verschieden Auspragungstypen dar.
2 Datenuberblick
Der Aufbau des Datensatzes wird durch folgende Variablen bestimmt:
1. MPG: Gibt die erreichte Entfernung in Meilen und somit den Benzinverbrauch eines Autos wider.
2. Cylinders: Gibt die Zylinderanzahl der Motoren der verschiedenen Autos an.
3. Displacement: Gibt den Hubraum des Motors in kubikinch an.
4. Horsepower: Gibt die Pferdestarken des Motors in PS an.
5. Weight: Gibt das Gewicht der Autos in Pfund an.
6. Acceleration: Gibt die Beschleunigung des Autos fur 0-60 Meilen pro Stunde in Sekunden an.
7. Model.Year: Gibt das Baujahr des Autos an.
8. Origin: Gibt die Herkunft der Automarke an, wobei 1 fur eine amerikanische Auto- marke steht, 2 fur eine europaische Automarke und 3 fur eine asiatische Automarke.
9. Car.Name: Gibt den Namen der Automarke, sowie den jeweiligen Modellnamen an.
Bei naherer Betrachtung des Datensatzes fallt auf, dass insgesamt sechs Werte der Variablen Horsepower fehlen. Diese wurden durch entsprechendes recherchieren sinnvoll erganzt. Somit befinden sich im vorliegenden Datensatz keinerlei fehlenden Daten mehr.
2.1 Variable MPG-Miles per Gallon
Wie bereits beschrieben zeigt die Variable „mpg“=Miles per Gallon die zuruckgelegte Distanz eines Automobiles mit der Befullung von einem Gallon Benzin und somit den Benzinverbrauch an. Der Befehl „favstats“ ermoglicht einen ersten Uberblick uber die Beobachtungen der Variable „mpg“ zu verschaffen.
Abbildung in dieser Leseprobe nicht enthalten
Es ist erkennbar, dass die Zahl 9 das Minimum und der Wert 46,6 das Maximum darstellen. Daruber hinaus ist auffallend, dass der Median und der Mittelwert sehr nah beieinander liegen, was daraus schliefien lasst, dass es keine grofien AusreiBer gibt. Aufierdem lasst sich der Interquartilsabstand berechnen, indem man Q3 mit Q1 subtrahiert. So kommt man zu dem Ergebnis, dass der IQR 11,5 betragt. Die Standardabweichung wird im output durch sd angezeigt. Dies bedeutet, dass die durchschnittliche Abweichung zum Mittelwert 7,8115984 betragt. Insgesamt sind 398 Stichproben enthalten, wobei kein Wert fehlt.
Mit Hilfe eines Boxplots visualisieren wir nun die Werte des oben generierten outputs.
Dafur benutzt man folgenden Befehl.
Abbildung in dieser Leseprobe nicht enthalten
Mit Hilfe dieses Boxplot kann man feststellen, dass einige Ausreifier in der Stichprobe vorhanden sind. Der Median, der durch den schwarzen Punkt innerhalb der Box dargestellt wird, liegt somit bei 23.
Die Antennen auf der linken und rechten Seit verdeutlichen jeweils den Minimalbetrag, sowie den Maximalbetrag. Der ermittelte Wert fur das IQR von 11,5 gibt den Abstand an, in dem sich die Werte innerhalb der Box befinden.
2.2 Variable Cylinders
Die Variable „cylinders“ gibt die Zylinderanzahl des Motors des Automobils wider. Um uns einen Uberblick zu verschaffen benutzt man den Befehl „favstats“.
Abbildung in dieser Leseprobe nicht enthalten
Hieraus ist ersichtlich, dass das Minimum bei 3 liegt und das Maximum bei einem Wert von 8. Der Median entspricht dem Wert 4, wahrend der Mittelwert 5,45 betragt . Dies bedeutet, dass Ausreifier im dritten und vierten Quartil vorhanden sind. Der Median ist robuster gegen Ausreifier, als der Mittelwert. Um die Variable zu visualisieren wird folgender Befehl verwendet.
Abbildung in dieser Leseprobe nicht enthalten
Bei der Abbildung wurde eine prozentuale Darstellung gewahlt, damit die relative Verteilung besser dargestellt wird.
Mit Hilfe des Befehls „bargraph“ kann nun erkenntlich gemacht werden, dass 50% der Stichproben eine Zylinderanzahl von 4-Zylindern hat. Auberdem ist es ersichtlich, dass nur wenige Stichproben eine ungerade Zylinderanzahl haben.
Abbildung in dieser Leseprobe nicht enthalten
2.3 Variable Displacement
Der Hubraum des Motors wird in diesem Datensatz numerisch in Kubikinches angegeben. Der Befehl „favstats“ ermoglicht erneut einen Uberblick uber die entsprechende Variable.
Abbildung in dieser Leseprobe nicht enthalten
Der Mindestwert fur die Variable „displacement“ betragt 68, wahrend der Maximalwert dem Wert 455 entspricht. Das erste Quartil liegt bei 104.25, wahrend das dritte Quartil bei 262 liegt. Auberdem sind der Median und der Mittelwert nah beieinander, was bedeutet, dass wenige Ausreiber vorzufinden sind.
Das nachfolgende Histogramm illustriert die Variable „displacement“ an Hand der Dichtefunk- tion an. Es lasst sich eine eine linkssteile Verteilung bei der Variable „displacement“ feststellen, was darauf schlieBen lasst, dass ein starker Fokus im niedrigen Wertebereich der Hubraumleis-
Abbildung in dieser Leseprobe nicht enthalten
2.4 Variable Horsepower
Die Variable „horsepower“ zeigt die Leistung des Motors in der Einheit Pferdestarke an. Der Befehl „favstats“ ermoglicht erneut einen Uberblick uber die entsprechende Variable Horsepower.
Abbildung in dieser Leseprobe nicht enthalten
Der verwendete Befehl „favstats“ gibt einen Uberblick uber die Messwerte der Variable. Der Minimalwert betragt 46, wahrend der Maximalwert bei 230 liegt. Der Interquartilabstand(IQR) berechnet sich aus der Differenz des dritten und des ersten Quartils. Bei der Variable Horsepower liegt der IQR bei 49,75. Die Standardabweichung(sd) liegt bei 38,35515. Folglich nimmt die durchschnittliche Abweichung zum Mittelwert die Zahl 38,35515 ein.
Abbildung in dieser Leseprobe nicht enthalten
In einem Boxplot lasst sich der IQR der Variable „horsepower“ visualisieren. AuBerdem er- kennt man mit Hilfe des Boxplots, dass es AusreiBer im oberen Bereich der Stichproben gibt.
Abbildung in dieser Leseprobe nicht enthalten
2.5 Variable Weight
Die Variable „weight“ gibt das Gewicht des jeweiligen Automobils in Pfund an.
Der Befehl „favstats“ ermoglicht erneut einen Uberblick uber die entsprechende Variable „weight“.
Abbildung in dieser Leseprobe nicht enthalten
Der Minimalwert fur die Variable „weight“ liegt bei 1613, der Maximalwert bei 5140. Zur Variable „weight“ fehlt kein Wert, siehe „n missing 0“. Der Median liegt bei 2803,5 und der Mittelwert bei 2970,425. Daraus resultiert, dass bei der Variable „weight“ wenige AusreiBer vorhanden sind. Der folgende Befehl gibt eine Ubersicht uber die Werte der Variable „weight“. Um den prozentualen Anteil darzustellen wird folgender Befehl benutzt.
Abbildung in dieser Leseprobe nicht enthalten
[...]