Der Anschaffungspreises eines Pferdes ist von verschiedenen Faktoren abhängig und kann nicht auf einen festen Preis definiert werden. Daraus leitet sich die Forschungsfrage ab, inwiefern das Alter und die Größe eines Pferdes den Kaufpreis beeinflussen. Hypothese 1"Es gibt einen signifikanten Zusammenhang zwischen der Größe des Pferdes und dem Kaufpreis" und Hypothese 2 "Es gibt einen signifikanten Zusammenhang zwischen dem Alter des Pferdes und dem Kaufpreis" sollen untersucht werden.
Diese Datenanalyse basiert auf den Datensatz horseprices.csv, der von der Internetseite https://vincentarelbundock.github.io/Rdatasets/doc/Stat2Data/ heruntergeladen wurde.
Es wurden Daten zu Preisen von 50 Pferden, die im Internet zum Verkauf angeboten wurden, gesammelt. Prädikatorvariablen des Preises sind das Alter und die Größe des Pferdes. Die Größe des Pferdes (Stockmaß) wird in "hands high" angegeben: Eine Hand entspricht im metrischen Maß 10,16 cm.
Inhaltsverzeichnis
1. Beschreibung des Datensatzes
2. Forschungsfrage
2.1 Hypothese 1
2.2 Hypothese 2
3. Deskriptive Analyse und Visualisierung
3.1 Lagemaße
3.2 Anteile von Daten
3.3 Streumaße
4. Korrelationskoeffizient nach Pearson
5. Regressionsanalyse
5.1 Überprüfung der Annahmen
5.1.1 Ist die Normalverteilung identisch für alle Residuen?
5.1.2 Sind die Residuen normalverteilt?
5.1.3 Sind die Residuen unabhängig voneinander?
5.2 Regressionsgleichung
5.3 Konfidenzintervalle
5.4 Test für Regressionskoeffizienten
6. Bestimmtheitsmaß
Zielsetzung & Themen
Die vorliegende Arbeit zielt darauf ab, die Einflussfaktoren auf den Anschaffungspreis von Pferden durch eine quantitative Datenanalyse zu untersuchen, um statistisch zu belegen, inwieweit physische Merkmale wie Alter und Größe den Kaufpreis bestimmen.
- Deskriptive Datenanalyse der Variablen Preis, Alter und Größe
- Überprüfung von Hypothesen mittels Korrelationsanalyse
- Durchführung einer multiplen Regressionsanalyse
- Visualisierung der Daten durch Boxplots, Histogramme und Streudiagramme
- Statistische Validierung der Modellanahmen
Auszug aus dem Buch
3. Deskriptive Analyse und Visualisierung
Um einen Überblick des Datensatzes zu erhalten, werden die Lagemaße berechnet.
Beim Merkmal Preis werden mehrere Modi erkannt, weil es mehrere Werte gibt, die gleich häufig auftreten (jeweils vier Mal der Preis 12000, 15000, 20000, 25000, 45000 und 50000 Dollar). Dies sind die häufigsten vorkommenden Preisklassen, aus denen ein Pferd gekauft werden kann.
Der Median des Preises liegt bei 25000 Dollar. Das bedeutet, dass 50% der Daten kleiner oder gleich 25000 Dollar sind. Käufer, denen 25000 Dollar zur Verfügung stehen, haben die Möglichkeit aus 50% der angebotenen Pferde zu wählen. Der Median ist unempfindlich gegenüber Extremwerten.
Das arithmetische Mittel lautet 26840 Dollar, d.h. dies ist der Mittelwert des Preises, der als Orientierungswert für den Kaufpreis eines Pferdes gesehen werden kann. Dieser Wert ist jedoch empfindlich gegenüber Extremwerten. Ausreißer innerhalb der Datenreihe können den Mittelwert nach oben oder unten „ziehen“.
Zusammenfassung der Kapitel
1. Beschreibung des Datensatzes: Vorstellung der verwendeten Datenquelle, der betrachteten Variablen (Preis, Alter, Größe) und der Datengrundlage von 50 Beobachtungen.
2. Forschungsfrage: Herleitung der Forschungsfrage sowie Aufstellung zweier Hypothesen bezüglich des Zusammenhangs von Größe bzw. Alter zum Kaufpreis.
3. Deskriptive Analyse und Visualisierung: Statistische Aufbereitung der Daten mittels Lagemaßen, Quantilen und Streumaßen sowie grafische Darstellung durch Boxplots und Histogramme.
4. Korrelationskoeffizient nach Pearson: Untersuchung der linearen Zusammenhänge zwischen den Merkmalen und statistische Prüfung der Signifikanz.
5. Regressionsanalyse: Erstellung eines Regressionsmodells zur Erklärung des Preises, inklusive Prüfung der Residuenannahmen und Berechnung von Konfidenzintervallen.
6. Bestimmtheitsmaß: Bewertung der Güte des Regressionsmodells durch Angabe des R²-Wertes und dessen statistischer Absicherung.
Schlüsselwörter
Datenanalyse, Pferdepreise, Statistik, Deskriptive Statistik, Korrelationsanalyse, Regressionsanalyse, Normalverteilung, Residuen, Boxplot, Signifikanz, Kaufpreis, Varianz, Standardabweichung, Quantile, Hypothesenprüfung.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit einer statistischen Datenanalyse von 50 angebotenen Pferden, um Faktoren zu identifizieren, die deren Verkaufspreis beeinflussen.
Was sind die zentralen Themenfelder?
Der Fokus liegt auf der deskriptiven Datenanalyse, der Überprüfung von Variablenzusammenhängen per Korrelation sowie einer weiterführenden Regressionsanalyse.
Was ist das primäre Ziel der Forschungsarbeit?
Das Ziel ist es, mathematisch zu validieren, ob und wie stark die Merkmale Alter und Stockmaß (Größe) den Anschaffungspreis eines Pferdes korrelieren und vorhersagen.
Welche wissenschaftlichen Methoden werden angewendet?
Es kommen Verfahren der deskriptiven Statistik, der Pearson-Korrelationsanalyse sowie eine multiple lineare Regressionsanalyse zum Einsatz.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die Datenbeschreibung, die explorative Datenvisualisierung und die mathematische Modellierung mittels Regressionsrechnung inklusive der Prüfung von Modellannahmen.
Welche Schlüsselbegriffe charakterisieren die Analyse?
Wichtige Begriffe sind Regressionsanalyse, Residuen, Normalverteilung, Signifikanzniveau und Bestimmtheitsmaß.
Warum wird der Median für die Preisanalyse verwendet?
Der Median wird gewählt, da er im Gegensatz zum arithmetischen Mittel unempfindlich gegenüber Extremwerten in der Datenreihe ist.
Welche Aussage lässt sich über die Modellgüte treffen?
Das Bestimmtheitsmaß (R²) von 0,3532 gibt an, dass etwa 35,32 % der Streuung des Kaufpreises durch das Regressionsmodell erklärt werden können.
- Arbeit zitieren
- Anonym (Autor:in), 2021, Preise für Pferde. Eine Datenanalyse, München, GRIN Verlag, https://www.grin.com/document/1416332