In dieser Seminararbeit wird der zur Verfügung gestellte Datensatz "beauty" unter Verwendung des Statistikprogramms RStudio analysiert. Diese Seminararbeit dient dazu, erste praktische Erfahrungen im Bereich der quantitativen Datenanalyse zu sammeln und die Statistiksoftware RStudio anzuwenden. Das untersuchte Thema lautet: Hat die Hautfarbe eine Auswirkung auf das Gehalt?
Inhaltsverzeichnis
Einleitung
1. Vorstellung des Datensatzes
1.1. Vorgehensweise
2. Explorative Datenanalyse
3. Hypothesen
3.1. T-Test
3.2. Permutationstest
4. Lineare Regression
5. Zusammenfassung
Zielsetzung & Themen der Arbeit
Die vorliegende Arbeit untersucht auf Basis des Datensatzes „beauty“, ob die Hautfarbe einen statistisch signifikanten Einfluss auf die Höhe des Stundenlohns von Arbeitnehmern hat. Hierzu werden deskriptive Analysen mit inferenzstatistischen Verfahren kombiniert.
- Deskriptive Datenanalyse zur Verteilung von Lohn und Hautfarbe
- Formulierung und Überprüfung von Forschungshypothesen
- Einsatz eines T-Tests zum Mittelwertvergleich
- Durchführung eines Permutationstests zur Validierung
- Anwendung einer linearen Regressionsanalyse
Auszug aus dem Buch
3. Hypothesen
Auf Basis des Datensatzes wurde folgende Forschungsfrage formuliert: „Hat die Hautfarbe einen Einfluss auf das Gehalt?“
Daraus ergibt sich die Hypothese: H0: Die Hautfarbe hat keinen Einfluss auf das Gehalt. H1: Die Hautfarbe hat einen Einfluss auf das Gehalt.
Um einen Überblick über die Verteilung des Gehalts nach Hautfarbe zu bekommen wurde für die jeweilige Hautfarbe ein Histogramm über den Stundenlohn erstellt (Abbildung 3). Das Histogramm auf der rechten Seite der Abbildung visualisiert den Stundenlohn der farbigen Teilnehmer und das auf der linken Seite den Stundenlohn der nicht farbigen Teilnehmer. Beide Verteilungen sind rechtsschief. Jedoch kann man erkennen, dass bei den farbigen Teilnehmern ein deutlich höherer Stundenlohn erreicht wurde.
Zusammenfassung der Kapitel
Einleitung: Einführung in das Thema der quantitativen Datenanalyse und Vorstellung des verwendeten Datensatzes „beauty“.
1. Vorstellung des Datensatzes: Herleitung der Datenquelle und Beschreibung der Erstellung des Datensatzes durch Hamermesh und Biddle.
1.1. Vorgehensweise: Darstellung des analytischen Ablaufs von der explorativen Analyse bis zur kritischen Würdigung durch Hypothesentests.
2. Explorative Datenanalyse: Erste statistische Untersuchung der Variablen „wage“ und „black“ unter Verwendung von RStudio.
3. Hypothesen: Festlegung der Null- und Alternativhypothesen bezüglich des Zusammenhangs von Hautfarbe und Entlohnung.
3.1. T-Test: Anwendung des T-Tests zur Prüfung der Signifikanz von Unterschieden zwischen den Mittelwerten der Gruppen.
3.2. Permutationstest: Simulation zur Überprüfung der Hypothesen durch wiederholte zufällige Zuordnung der Werte.
4. Lineare Regression: Modellierung des Einflusses der Hautfarbe auf den Stundenlohn und Interpretation des Bestimmtheitsmaßes.
5. Zusammenfassung: Synthese der Ergebnisse und Diskussion der Limitationen der Analyse, wie etwa fehlende Kontrollvariablen.
Schlüsselwörter
Datensatz beauty, Stundenlohn, Hautfarbe, Quantitative Datenanalyse, RStudio, Hypothesentest, T-Test, Permutationstest, Lineare Regression, Signifikanzniveau, deskriptive Statistik, Mittelwertvergleich, Bestimmtheitsmaß, Arbeitsmarktstudie, statistische Inferenz.
Häufig gestellte Fragen
Worum geht es in dieser Seminararbeit grundsätzlich?
Die Arbeit analysiert mittels quantitativer Methoden, ob die Hautfarbe von Arbeitnehmern einen messbaren Einfluss auf deren Stundenlohn hat.
Welche zentralen Themenfelder werden bearbeitet?
Die Schwerpunkte liegen auf der explorativen Datenanalyse, der statistischen Hypothesenprüfung und der Anwendung einfacher linearer Regressionsmodelle.
Was ist die primäre Forschungsfrage?
Die zentrale Frage lautet: „Hat die Hautfarbe einen Einfluss auf das Gehalt?“
Welche wissenschaftlichen Methoden kommen zum Einsatz?
Es werden deskriptive Kennzahlen, T-Tests, Permutationstests sowie eine einfache lineare Regression unter Verwendung der Software RStudio genutzt.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil umfasst die Vorstellung des Datensatzes, die grafische Aufbereitung der Lohnverteilungen, statistische Tests zur Hypothesenprüfung und eine Regressionsanalyse.
Welche Schlüsselwörter charakterisieren die Untersuchung?
Wichtige Begriffe sind unter anderem Stundenlohn, Hautfarbe, statistische Signifikanz, p-Wert und lineare Regression.
Warum wird zusätzlich zum T-Test ein Permutationstest durchgeführt?
Der Permutationstest dient dazu, eine zufällige Zuordnung zu simulieren, um robustere Aussagen über die Population treffen zu können, da der T-Test bei der vorliegenden Stichprobe zu keinem signifikanten Ergebnis kam.
Wie hoch ist der in der Regressionsanalyse ermittelte Einfluss?
Die lineare Regression zeigt, dass farbige Teilnehmer im Durchschnitt einen niedrigeren Stundenlohn erhalten, wobei das Modell allerdings nur einen sehr geringen Anteil der Varianz (0,35%) erklärt.
Welche Limitationen nennt die Autorin in der Zusammenfassung?
Die Autorin weist darauf hin, dass die ungleiche Verteilung der Stichprobengrößen und das Fehlen weiterer Kontrollvariablen wie Alter, Schulabschluss oder Geschlecht die Ergebnisse beeinflussen könnten.
- Quote paper
- Sophie Schürmann (Author), 2019, Hat die Hautfarbe eine Auswirkung auf das Gehalt? Eine quantitative Datenanalyse mit dem Statistikprogramm RStudio, Munich, GRIN Verlag, https://www.grin.com/document/1252257