Analyse des Datensatzes wage2 mit der Programmiersprache R

Wie wirken sich persönliche Attribute auf das Gehalt eines Angestellten aus?


Seminararbeit, 2021

41 Seiten, Note: 2,0


Leseprobe

Inhaltsverzeichnis

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1. Einleitung zur Ausarbeitung

2. Deskription des Datensatzes

3. Analyse des Datensatzes

4. Fazit zur Ausarbeitung

5. Anhang

6. Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Streudiagramm 'wage'/'lwage' zu 'IQ'

Abbildung 2: Histogramm der Einkommensvariablen

Abbildung 3: Histogramme der relevanten Variablen

Abbildung 4: Boxplots der Ausbildungsniveaus

Abbildung 5: Korrelationsanalyse signifikanter Variablen

Abbildung 6: Visuelles Regressionsmodell 'lwage' zu 'IQ'

Abbildung 7: Quantile-Quantile-Plot der Residuen

Tabellenverzeichnis

Tabelle 1: Beschreibung der Variablen

Tabelle 2: Deskriptivstatistik der Variablen

Tabelle 3: Korrelationskoeffizienten

Tabelle 4: Shapiro-Wilk-Test des Einkommens

Tabelle 5: Deskriptivstatistik der entscheidenden Variablen

Tabelle 6: Deskriptivstatistik der Ausbildungsniveaus

Tabelle 7: Formulierung der Hypothesen

Tabelle 8: Auswertung Multiples Regressionsmodell (1)

Tabelle 9: Auswertung Multiples Regressionsmodell (2)

Tabelle 10: Auswertung Multiples Regressionsmodell (3)

Tabelle 11: Auswertung Shapiro-Wilk-Test & Breusch-Pagan-Test

Tabelle 12: Auswertung der Varianzinflationsfaktoren

Tabelle 13: Auswertung der Konfidenzintervalle

Tabelle 14: Auswertung der Resampling Parameterschätzung

1. Einleitung zur Ausarbeitung

Am 16. April 2018 verkündete Bundesminister für Wirtschaft und Energie Peter Altmaier per Pressemitteilung, dass die berufliche Bildung ein Erfolgsmodell für den deutschen Mittelstand darstellt.1 Dabei ist gerade das duale Ausbildungssystem weitgehend anerkannt und stellt ein Vorbild für viele weitere Länder dar.2 Neben der Berufsausbildung setzt die Bundesregierung auf die Strategie der Weiterbildung.3 Denn hier wird der Schlüssel zur Fachkräftesicherung und demnach zur Innovationsund Wettbewerbsfähigkeit der Bundesrepublik identifiziert.4

Neben den gesamtwirtschaftlichen Faktoren sind die persönlichen Ziele entscheidend. Denn Weiterbildungen oder Aufstiegsfortbildungen ermöglichen generell Sprünge in der beruflichen Karriere.5 Dieser Schritt in der persönlichen Entwicklung ist häufig mit dem Erlangen einer höheren Einkommensstufe verbunden.6 Denn für zukünftige Fach- oder Führungskräfte stellt eine gute Vergütung und absehbare Einkommenssteigerungen grundlegende Rahmenbedingungen dar.7 Dabei führt eine angemessene finanzielle Vergütung nicht nur zur Existenzsicherung, sondern auch zur Entwicklung eines angestrebten Lebensstandards.8 Des Weiteren begründet eine faire Vergütung Wertschätzung und Anerkennung der Leistungen des Arbeitnehmers.

Gerade für Vollzeitbeschäftigte, welche ein zusätzliches Abendstudium mit Präsenzvorlesungen besuchen, entstehen erhöhte Belastungen. Denn der zusätzliche Arbeitsaufwand kann neben der körperlichen Beanspruchung und der sozialen Abgrenzung auch die psychische Gesundheit der Teilnehmer beeinträchtigen.9

Dabei kann ein Studium keine Karrieresprünge oder bedeutende Gehaltserhöhungen garantieren. Daher soll die folgende Ausarbeitung erörtern, wie sich persönliche Attribute auf das künftige Gehalt auswirken und die Relevanz der beruflichen Bildung erörtern. Zu diesem Zweck wird in der folgenden Ausarbeitung ein thematisch passender Datensatz vorerst beschrieben und im Anschluss statistisch ausgewertet. Final werden die Ergebnisse erläutert und die Signifikanz persönlicher Eigenschaften auf das künftige Gehalt konkretisiert.

2. Deskription des Datensatzes

Zur weiteren Ausarbeitung wird der Datensatz 'wage2' aus dem Datenpaket 'wooldridge' verwendet. Dieser Datensatz wurde ursprünglich zur Erforschung von Zusammenhängen des Intelligenzquotienten und des Gehalts erstellt.10 Zur Unterstützung von Studenten bei der Einführung in der Statistik wird der Datensatz als Teil des Datenpakets 'wooldridge' öffentlich bereitgestellt.11

Für die weitere Bearbeitung des Datensatzes wird die frei zugängliche Programmiersprache 'R' verwendet.12 Neben der Berechnung statistischer Auswertung bietet das Programm die Möglichkeit zur grafischen Darstellung und Visualisierung.13 Zur Illustration der Berechnungen und als Benutzeroberfläche wird zusätzlich das ebenfalls frei zugängliche Programm 'RStudio' verwendet.14 Durch die Open-Source-Poli- tik von 'R' und 'RStudio' entsteht der Vorteil, dass die Programmiersprache stets angepasst und aktualisiert wird. Zudem besteht bei der Verwendung die Möglichkeit, das Programm gemäß Anspruch und Zielsetzung individuell zu konfigurieren.15 Zur besseren Visualisierung werden in der folgenden Bearbeitung des Datensatzes die Pakete 'wooldridge', 'mosaic', 'psych', 'ggpubr' und 'car' ergänzt.

Dabei umfasst der Datensatz 'wage2' 935 Beobachtungen mit jeweils 17 Variablen. Ausgenommen des numerischen Werts des logarithmierten Gehalts stellen sich alle Variablen als integer, also in ganzen Zahlen, dar. Zusätzlich lässt sich erkennen, dass bei den Variablen 'brthord', 'meduc' und 'feduc' Beobachtungen fehlen. Dies lässt sich möglicherweise auf mangelnde Kontakte zu den Eltern der Befragten zurückführen. Aufgrund der großen Menge an Beobachtungen und zur besseren Verwendung werden die in Tabelle 1 grau hinterlegten Variablen ignoriert. Zusätzlich bietet Tabelle 1 eine prägnante Erläuterung der Variablen zur besseren Verständlichkeit der bevorstehenden Analysen. Demnach konzentriert sich die Ausarbeitung im Folgenden auf die Einflüsse äußerer Faktoren auf das Gehalt.

Tabelle 1: Beschreibung der Variablen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung

Zu diesem Zweck bietet Tabelle 2 eine prägnante Übersicht über eine vorläufige numerische Auswertung der essenziellen Variablen. Dabei beschreibt die Auswertung die minimalen und maximalen Ergebnisse der Befragung. Des Weiteren werden Kennzahlen für den Zentralwert mittels Median und der mathematische Mittelwert beschrieben. Zusätzlich bietet Tabelle 2 eine Übersicht der Standardabweichung.

Tabelle 2: Deskriptivstatistik der Variablen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung / Berechnung

Dabei lassen sich folgende bedeutende Faktoren beobachten:

- Das Alter der Befragten variiert zwischen 28 und 38 Jahren, wobei das berechnete Durchschnittsalter bei 33,08 Jahren liegt.
- Die Befragten erreichen ein durchschnittliches Gehalt von 957,94 Geldeinheiten. Da die Befragung in den Vereinigten Staaten von Amerika erhoben wurde, geht die Ausarbeitung im Folgenden von US-Dollar aus.
- Im berechneten Durchschnitt haben die Befragten eine mittlere wöchentliche Arbeitszeit von 43,92 Stunden.
- Die durchschnittliche Unternehmenszugehörigkeit der Befragten entspricht 7,23 Jahren, wobei eine Ausbildungsdauer von minimal 9 Jahren und maximal 18 Jahren absolviert wurde.

Da der Datensatz für das Einkommen die Variablen 'wage' und 'lwage' bietet, sollte die aussagekräftigere Variable festgestellt werden. Hierfür werden die Werte in Abbildung 1 mit einem existenziellen numerischen Wert verglichen. Die Streudiagramme in Abbildung 1 visualisieren einen positiven linearen Zusammenhang des berechneten Intelligenzquotienten mit den Variablen 'wage' auf der linken Seite und 'lwage' auf der rechten Seite.

Abbildung 1: Streudiagramm 'wage'/'lwage' zu 'IQ'

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung

Zugleich wird diese Beobachtung durch die berechneten Korrelationskoeffizienten der Tabelle 3 dokumentiert.

Tabelle 3: Korrelationskoeffizienten

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung / Berechnung

Da die bisherigen Analysen kaum Unterschiede in der Auswirkung der Variablen 'wage' und 'lwage' verdeutlichen, sind weitere Untersuchungen nötig. Dazu visual- isiert Abbildung 2 die benannten Variablen in Histogrammen. Zur Verdeutlichung der Abweichungen bietet Abbildung 2 eine rot gefärbte Kurve, welche die Normalverteilung abbildet. Dagegen visualisiert der orange gefärbte Graph die tatsächliche Verteilung der Variable. Dabei lässt sich erkennen, dass die Berechnung des natürlichen Logarithmus des Einkommens deutlich näher der Normalverteilung auftritt.

Abbildung 2: Histogramm der Einkommensvariablen

Abbildung in dieser Leseprobe nicht enthalten

Zur Kontrolle der bisherigen Ergebnisse wird der Shapiro-Wilk-Test verwendet, welcher in diesem Fall, durch geringe Signifikanzwerte, die Normalverteilungsvermutung ablehnt. Dennoch wird in Tabelle 4 verdeutlicht, dass die Abweichung zur Normalverteilung bei der Variable 'lwage', im Vergleich zur Variable 'wage', deutlich geringer ausfällt. Aus diesem Grund fokussiert sich die Ausarbeitung im Folgenden auf die Variable 'lwage'.

Tabelle 4: Shapiro-Wilk-Test des Einkommens

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung / Berechnung

Gemäß der Forschungsfrage erörtert die Ausarbeitung den Einfluss persönlicher Attribute auf das spätere Einkommen. Dementsprechend werden im Folgenden die entscheidenden Spezifika präsentiert. Dafür werden in Abbildung 3 der durchschnittliche Arbeitsaufwand, die Erfahrung, der ermittelte Intelligenzquotient und das Alter der befragten Personen visuell präsentiert.

Abbildung 3: Histogramme der relevanten Variablen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung

Dabei lässt sich die grafische Darstellung in Abbildung 3 mit der quantitativen Auswertung aus T abelle 5 vergleichen. Bei der Beschreibung der Spezifika stellt sich als auffällig dar, dass der Großteil der befragten Personen eine wöchentliche Arbeitszeit von 40 Stunden aufweist.16 Dennoch verdeutlicht die rechtsschiefe Auswertung, dass Wochenarbeitszeiten von über 40 Stunden häufig auftreten. Das symmetrisch verteilte Histogramm der gesamten Beschäftigungszeit verdeutlicht einen Mittelwert von 11,56 Beschäftigungsjahren bei einer Standardabweichung von 4,38. Demnach lässt sich feststellen, dass die Majorität der Beschäftigten zwischen sechs und 16 Jahren berufstätig sind. Hierbei ist zu beachten, dass das Alter der befragten Population zwischen 28 und 38 Jahren liegt. Zudem zeigt die Auswertung des ermittelten Intelligenzquotienten einen mathematischen Mittelwert von 101,28 bei einer

Standardabweichung von 15,05. In diesem Fall beschreibt die grafische Auswertung eine leichte linksschiefe Abweichung zur Normalverteilung.

Tabelle 5: Deskriptivstatistik der entscheidenden Variablen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung / Berechnung

Des Weiteren beschreibt die Analyse des Ausbildungsniveaus der befragten Person in Abbildung 4 eine durchschnittliche Ausbildungsdauer von 13,46 Jahren. Dabei ist auffällig, dass das Bildungsniveau der Eltern mit etwa 3 Jahren deutlich negativ abweicht. Zudem ist feststellbar, dass die Ausbildungszeit der Eltern eine erhöhte Standardabweichung vorweist.

Abbildung 4: Boxplots der Ausbildungsniveaus

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung

Dies wird auch durch die mathematische Auswertung in Tabelle 6 belegt und dargestellt.

Tabelle 6: Deskriptivstatistik der Ausbildungsniveaus

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung / Berechnung

Bislang hat sich die Ausarbeitung auf die Deskription der Variablen fokussiert. Dafür wurde ein aussagekräftiger Wert für die Darstellung des Gehalts erarbeitet und spezifische Beobachtungen charakterisiert. Wie zuvor erläutert, bezieht sich die Forschungsfrage auf die Einflussfaktoren des Gehalts. Zur Inspektion dieser Einflussfaktoren werden im Folgenden Hypothesen entwickelt und analysiert, um die Forschungsfrage zu beantworten.

3. Analyse des Datensatzes

Im Folgenden beschäftigt sich die Ausarbeitung mit der Aufklärung der Forschungsfrage. Demnach soll analysiert werden, welchen Einfluss die Attribute der befragten Personengruppe auf das Gehalt hat. Dazu wird untersucht, inwiefern das Gehalt durch die bisherige Bildung, das Alter, den berechneten Intelligenzquotienten und der Berufserfahrung der befragten Population beeinflusst wird. Hierzu werden, gemäß der bisherigen Visualisierungen, die in Tabelle 7 präsentierten Hypothesen analysiert und geprüft. Zur Hypothesenprüfung wird das Signifikanzniveau auf 0,05 definiert.17

Tabelle 7: Formulierung der Hypothesen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Eigene Darstellung

Zur Prüfung der Einflussfaktoren wird eine Korrelationsanalyse durchgeführt. Dabei beschreibt die Korrelation den mathematischen Zusammenhang zwischen zwei statistisch verteilten Variablen.18 Hierbei lässt sich beschreiben, dass die relevanten Variablen 'IQ', 'educ', 'age', und 'exper' in einer positiven Beziehung zum logarith- mierten Gehalt 'lwage' stehen. Zu diesem Zweck genügt es, die rechte Spalte der Auswertung zu betrachten und mit der dementsprechenden Zeile zu vergleichen. Dabei fällt auf, dass die bisherige Berufserfahrung mit 0,05 den geringsten Wert aufweist und das Gehalt kaum beeinflusst.

Abbildung 5: Korrelationsanalyse signifikanter Variablen

Abbildung in dieser Leseprobe nicht enthalten

Allerdings ist der mathematische Korrelationskoeffizient nicht ausreichend, um die Alternativhypothesen zu bestätigen. Denn eine hohe Korrelation kann keine Kausalbeziehung der beiden Variablen garantieren. Demnach wird die Korrelation der Variablen im Folgenden auf ihren Wahrheitsgehalt geprüft. Dabei zeigt die Visualisierung des linearen Regressionsmodells der Variablen 'lwage' und 'IQ' eine deutliche positive Korrelation.

[...]


1 Vgl. https://www.bmwi.de/Redaktion/DE/Pressemitteilungen/2018/20180416-altmaier-berufliche- bildung-erfolgsmodell-fuer-deutschen-mittelstand.htm\, Zugriff am 19.03.2021.

2 Vgl. https://www.bmwi.de/Redaktion/DE/Pressemitteilungen/2018/20180416-altmaier-berufliche- bildung-erfolgsmodell-fuer-deutschen-mittelstand.html, Zugriff am 19.03.2021.

3 Vgl. Bundesministerium für Arbeit und Soziales, Weiterbildungsstrategie, 2019, S. 2.

4 Vgl. Bundesministerium für Arbeit und Soziales, Weiterbildungsstrategie, 2019, S. 2.

5 Vgl. Flake, R., Werner, D., Zibrowius, M., Einkommensperspektiven, 2016, S. 85.

6 Vgl. Flake, R., Werner, D., Zibrowius, M., Einkommensperspektiven, 2016, S. 85.

7 Vgl. Sass, E., Mitarbeitermotivation, 2019, S. 27.

8 Vgl. Sass, E., Mitarbeitermotivation, 2019, S. 30.

9 Vgl. Eissler, C., Sailer, M., Walter, S., Jerg-Bretzke, L., Gesundheitsförderung, 2020, S. 244

10 Vgl. Blackburn, M, Neumark, D, Wages, 1992, S. 1427.

11 Vgl. Blackburn, M., Neumark, D., Wages, 1992, S. 1427.

12 Vgl. Sauer, S., Datenanalyse, 2019, S. 13.

13 Vgl. Sauer, S., Datenanalyse, 2019, S. 14.

14 Vgl. Sauer, S., Datenanalyse, 2019, S. 14.

15 Vgl. https://www.rstudio.com/about/, Zugriff am 27.03.2021.

16 Vgl. Schuster, T, Liesen, A, Statistik, 2013, S. 59.

17 Vgl. Sauer, S., Datenanalyse, 2019, S. 273.

18 Vgl. Siebertz, K., Bebber, D., Hochkirchen, T., Korrelationsanalyse, 2017, S. 381.

Ende der Leseprobe aus 41 Seiten

Details

Titel
Analyse des Datensatzes wage2 mit der Programmiersprache R
Untertitel
Wie wirken sich persönliche Attribute auf das Gehalt eines Angestellten aus?
Hochschule
FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, München früher Fachhochschule
Note
2,0
Autor
Jahr
2021
Seiten
41
Katalognummer
V1011832
ISBN (eBook)
9783346406071
ISBN (Buch)
9783346406088
Sprache
Deutsch
Schlagworte
wage2, Hausarbeit, Seminararbeit, Quantitative, Datenanalyse, Regression, Multiples Regressionsmodell, Kovarianz, Deskriptiv, Statistik, Auswertung, Analytisch
Arbeit zitieren
Daniel Gatz (Autor:in), 2021, Analyse des Datensatzes wage2 mit der Programmiersprache R, München, GRIN Verlag, https://www.grin.com/document/1011832

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Analyse des Datensatzes wage2 mit der Programmiersprache R



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden