Lohnverteilung in Haushaltsdatensätzen
Inhaltsverzeichnis
Abbildungsverzeichnis II
Abkürzungsverzeichnis III
Symbolverzeichnis IV
1. Einleitung 1
2. Erfassung des Einkommens 1
2.1. Gehalts und Lohnstrukturerhebung 2
2.2. Europäisches Haushaltspanel 3
2.3. Sozioökonomisches Panel 3
3. Bestimmung der wahren Lohnverteilung 4
3.1. Vergleichbarkeit 4
3.2. Messfehler 4
3.2.1. Einführung 4
3.2.2. Bias 5
3.2.2.1. Vorbemerkungen 5
3.2.2.2. Schätzung 6
3.2.2.3. Erwartungstreue 8
3.3. Lohnverteilung 9
3.4. Anwendung 9
4. Nichtparametrische Verfahren 11
4.1. Anpassungstest 11
4.2. Nichtparametrische Dichteschätzung 12
4.2.1. Einführung 12
4.2.2. Univariate Kerndichteschätzung 12
4.2.2.1. Vom Histogramm zur Kerndichteschätzung 12
4.2.2.2. Fehlermaß MISE 14
4.2.2.3. Bandbreite 15
4.2.2.4. Anwendung 16
4.2.3. Erweiterungsmöglichkeiten 20
5. Fazit 20
Literaturverzeichnis i
Anhang iii
I
Lohnverteilung in Haushaltsdatensätzen
Abbildungsverzeichnis
Abbildung 1: Einkommenserhebungen 2
Abbildung 2: Abhängigkeit 7
Abbildung 3: Streudiagramm und Vergleich von kubischer und linearer
Schätzung 10
Abbildung 4: Übersicht der wichtigsten Kernfunktionen 14
Abbildung 5: Histogramm mit h 800 17
ˆ
Abbildung 6: Dichteschätzer 2 f h 800 17
Abbildung 7: Gauß-Kerne einzeln und summiert 18
Abbildung 8: Verschiedene Kerndichteschätzer im graphischen Vergleich 18
Abbildung 9: Kerndichteschätzer mit Gauß-Kern für verschiedene
Bandbreiten 19
Abbildung 10: Verteilungsfunktion 20
II
Lohnverteilung in Haushaltsdatensätzen
Abkürzungsverzeichnis
ALLBUS Allgemeine Bevölkerungsumfrage der Sozialwissenschaft
ASID Studie Alterssicherung in Deutschland
AStA Allgemeines Statistisches Archiv
BMA Bundesministerium für Arbeit
DIW Deutsches Institut für Weltwirtschaft
EHP Europäisches Haushaltspanel
Eurostat Statistisches Amt der Europäischen Gemeinschaften
GLS Gehalts- und Lohnstrukturerhebung
i.d.R. in der Regel
i.i.d. independent and identical distributed (unabhängig und
gleich verteilt)
ISE integrated square error (integrierter quadratischer Fehler)
ME Maßeinheiten
MISE mean integrated square error (mittlerer integrierter quad-
ratischer Fehler)
MSE mean square error (mittlerer quadratischer Fehler)
NIEP Niedrigeinkommenspanel
SOEP Sozioökonomisches Panel
WiSta Wirtschaft und Statistik
ZUMA Zentrum für Umfragen, Methoden und Analysen
III
Lohnverteilung in Haushaltsdatensätzen
Symbolverzeichnis
f(x) Dichte an der Stelle x
β j , β T , γ j , γ T (transponierter) Regressionskoeffizienten(-vektor)
i, j, q, t *
Laufindices (i=1,…,n; j=1,…,k; q ∈ ]0, 100[ , t=0,…,T)
c j
n j
A i , A j
h, h opt
h UB
h NV
t *
K(t)
s 2
µ
Schätzwert für eine Variable v
* Unterschiedliche Verwendung von t in Kapiteln 3 und 4
IV
Lohnverteilung in Haushaltsdatensätzen
1. Einleitung
Ziel der vorliegenden Arbeit ist es, die bei der Erhebung bzw. Auswertung von
Lohndatensätzen entstehenden Probleme zu erläutern. Dazu wird in Kapitel 2
zunächst ein Überblick über die wichtigsten Erhebungen gegeben und auf die 3
im Weiteren zugrunde liegenden Untersuchungen „Lohn- und Gehaltsstruktur-
erhebung“, „Europäisches Haushaltspanel“ und „Sozioökonomisches Panel“
wird kurz näher eingegangen, die Abweichungen zwischen diesen Erhebungen
werden dann in Kapitel 3 analysiert und der systematische Fehler wird heraus-
gefiltert und modelliert. Mit Hilfe der Aufsplittung des Fehlerterms wird es er-
möglicht, für die Jahre, in denen die GLS nicht durchgeführt wird, eine Schät-
zung der tatsächlichen Einkommensverteilung auf Basis des SOEP oder des
EHP vorzunehmen obwohl diese Erhebungen Verzerrungen aufweisen.
Da selbst linkssteile parametrische Verteilungen wie die Lognormal-Verteilung
nur begrenzt dazu in der Lage sind die wahren Werte der Lohnverteilung wie-
derzuspiegeln, werden in Kapitel 4 die Grundlagen der Kerndichteschätzung als
Instrument der nichtparametrischen Ökonometrie vorgestellt. Am Ende von Ka-
pitel 3 und 4 werden die theoretischen Resultate jeweils anhand eines Beispiels
anschaulich dargestellt und in Kapitel 5 werden die wichtigsten Ergebnisse
schließlich nochmals komprimiert wiedergegeben.
2. Erfassung des Einkommens
Bei der Erhebung der Einkommen ist zunächst nach der Erhebungseinheit, die
zum einen die Quelle (Unternehmen) oder andererseits der Empfänger (Indivi-
duen, Haushalte) sein kann, zu unterscheiden. In einem weiteren Schritt kön-
nen diese dann jeweils in Primär- (für diese Untersuchung erhobenes Daten-
material) und Sekundärerhebungen (bereits vorhandenes Datenmaterial) unter-
teilt werden. Abbildung 1 gibt einen Überblick über die Erhebungen zum Ein-
kommen. 2
2 eine detaillierte Beschreibung findet sich z.B. bei Krug et al. (2001, S. 362ff.)
1
Lohnverteilung in Haushaltsdatensätzen
2.1. Gehalts- und Lohnstrukturerhebung
Da die Gehalts- und Lohnstrukturerhebung eine amtliche Erhebung auf Be-
triebsebene ist und 1996 mit 900.000 Personen, die 11,5 Millionen Beschäftigte
repräsentieren, eine sehr große Stichprobe untersucht wurde, kann die empiri-
sche Verteilung der Gehalts- und Lohnstrukturerhebung (GLS) als sehr nah an
der tatsächlichen Einkommensverteilung 3 angenommen werden 4 , zumal die
Unternehmen einer Auskunftspflicht unterliegen. Ein weiteres Indiz für die Ap-
proximierbarkeit der tatsächlichen Verteilung liegt in der auf dem Ziel der Ein-
kommensstrukturermittlung basierenden Genauigkeit der Fragen begründet.
Abbildung 1: Einkommenserhebungen
Quelle: in Anlehnung an Krug et al. (2001), S. 364
3 Der Begriff „Einkommen“ wird in dieser Arbeit als Einkommen aus unselbstständiger Arbeit interpretiert, andere Einkommensarten wie z.B. Einkommen aus selbstständiger Arbeit oder Einkommen aus Kapitalerträgen fallen nicht darunter.
4 vgl. Jacobebbinghaus (2002, S. 210)
2
Lohnverteilung in Haushaltsdatensätzen
Aufgrund des mit einer Erhebung dieses Ausmaßes verbundenen Aufwands
wurde die GLS nur alle 5 Jahre durchgeführt, wird aber seit 2002 in einem 4-
Jahres-Rhythmus durchgeführt. 5
2.2. Europäisches Haushaltspanel
Das Europäische Haushaltspanel (EHP) wird jährlich von Eurostat mit dem Ziel
erhoben international vergleichbare Angaben zur Einkommensentwicklung und
verwandten Themengebieten (Lebensstandard, Armut, etc.) zu erhalten.
Im Gegensatz zur GLS wird das EHP jährlich durchgeführt und liegt im Stich-
probenumfang (rund 5.000 Haushalte) deutlich darunter. Außerdem wird das
Durchschnittseinkommen und nicht das eines bestimmten Monats erfragt.
„Da die Erhebung ohne Auskunftspflicht stattfindet, ergeben sich hohe Non-
response-Raten“ 6 , was durch eine Teilnahmebereitschaft von 49% und unter
den Teilnehmenden durch eine Antwortbereitschaft zum Jahreseinkommen der
hauptsächlich erwerbstätigen Personen von 90% ausgedrückt wird.
2.3. Sozioökonomisches Panel
Das Sozioökonomische Panel (SOEP) umfasste 1996 etwa 7.000 Haushalte
und war damit im Stichprobenumfang auch deutlich kleiner als die GLS. Be-
richtszeitraum des SOEP sind die Monate Januar bis April, wodurch sich ein
Unterschied zu den beiden anderen Untersuchungen, die jeweils im Oktober
durchgeführt werden, ergibt.
Das SOEP ist nicht repräsentativ für die erwerbstätige Bevölkerung sondern für
die Wohnbevölkerung in Deutschland und die zentralen Erhebungsbereiche
sind eher Einkommensmobilität und Arbeitslosigkeitsdynamik als eine valide
Einkommensstruktur wie bei der GLS. 7
5 vgl. Krug et al. (2001, S. 365)
6 Bechtold und Meyer (1996, S. 301)
7 vgl. Hujer et al. (1997, S. 6)
3
Lohnverteilung in Haushaltsdatensätzen
3. Bestimmung der wahren Lohnverteilung
Das Vorgehen zur Bestimmung der tatsächlichen Lohnverteilung für Jahre, in
denen die GLS nicht durchgeführt wird, soll zunächst formal beschrieben wer-
den und wird anschließend anhand eines Beispiels mit teilweise wahren Para-
metern der GLS (für 1995) und des EHP (1995) veranschaulicht und die Lohn-
verteilung für 1996 anhand einer unterstellten Lohnverteilung des EHP (1996)
geschätzt.
3.1. Vergleichbarkeit
Da die GLS von einer anderen Grundgesamtheit (Wirtschaftszweig, Betriebs-
größe, etc.) ausgeht als die beiden anderen Erhebungen, muss zur Vergleich-
barkeit der erhobenen Daten zunächst gewährleistet werden, dass nur die ge-
meinsame Schnittmenge in die Untersuchung einfließt. Außerdem muss den
unterschiedlichen Bezugszeiträumen der Befragungen Rechnung getragen
werden. Dies geschieht in Jacobebbinghaus’ Untersuchung 8 unter anderem
durch die Einbeziehung zweier aufeinander folgender Erhebungen des SOEP
sowie die Beschränkung auf abhängig Beschäftigte ausgewählter Wirtschafts-
zweige. Aufgrund der Modifizierung der Ergebnisse durch Jacobebbinghaus
liegen auch keine verwertbaren Ergebnisse des EHP für 1996 vor, weshalb im
Beispiel eine angegebene Lohnverteilung unterstellt werden muss. Da die
Thematisierung dieses Problems jedoch keinen Schwerpunkt der vorliegenden
Arbeit bilden soll, sei an dieser Stelle lediglich darauf hingewiesen.
3.2. Messfehler
3.2.1. Einführung
Peter Jacobebbinghaus verwendet den Begriff „Messfehler“ als Oberbegriff für
alle Abweichungen. Demgegenüber wird in dieser Arbeit zwischen dem zufälli-
gen Fehler σ und dem systematischen Fehler ε unterschieden. Im systemati-
schen Fehler (Bias, Verzerrung) sind grundsätzlich einige verschiedene Fehler-
quellen zusammengefasst 9 , wovon für uns die Antwortausfälle einerseits und
8 vgl. Jacobebbinghaus (2002, Kap. 1.3 und 1.4)
9 eine Übersicht dazu bietet Krug et al. (2001, Kap. 8.1.1
4
Lohnverteilung in Haushaltsdatensätzen
andererseits die Fehler bei den Auskunftspersonen von besonderer Bedeutung
sind. Zu ersterem zeigt Biewen, dass „[…] results on earnings inequality using
data from the [SOEP] are unlikely to be biased by earnings non-response.“ 10
Aufgrund dessen wird im Weiteren davon ausgegangen, dass die Verzerrung
ausschließlich aus durch von Auskunftspersonen begangenen Fehlern wie z.B.
Rundungen besteht. Damit sich die Fehler nicht gegenseitig aufheben können,
kann für die Aggregation der absolute oder quadratische Fehler verwendet wer-
den, wobei sich auf die letztgenannte Variante beschränkt werden soll.
Sei X i mit i=1,…,n eine Zufallsvariable mit der Stichprobenrealisation x 1 ,…, x n,
dem Stichprobenmittelwert x sowie der Stichprobenvarianz s 2 und seien E(x)=µ
sowie σ 2 die entsprechenden Momente der „wahren“ Verteilung. Der mittlere
quadratische Fehler (MSE) ergibt sich somit als
2 2 2
ε + σ = + =
MSE
Die beiden Fehlerarten unterscheiden sich in einigen Punkten. Während gemäß
dem Gesetz der großen Zahlen sich die zufälligen individuellen Fehler gegen-
seitig aufheben, können systematische Fehler als „Abweichungen gegenüber
der Wirklichkeit, die stets in einer Richtung auftreten, bezeichnet werden“ 11 , d.h.
sie kumulieren sich also. Ein weiteres Kriterium ist die Messbarkeit. Die Stan-
dardabweichung lässt sich einfach ermitteln und für einen hinreichend großen
Stichprobenumfang lässt sich auch der wahre Wert gut schätzen. Demgegen-
über kann der Bias nicht aus der vorhandenen Stichprobe abgeleitet werden,
d.h. man benötigt die wahre Verteilung bzw. eine verlässliche Kontrollerhebung.
Letztere stellt in dieser Untersuchung die GLS dar.
3.2.2. Bias
3.2.2.1. Vorbemerkungen
Geht man davon aus, dass für jeweils alle Antworten x i der Teilnehmer des
SOEP die korrekten Angaben y i aus der GLS bekannt sind, so ergeben sich die
Momente für den systematischen Fehler als
10 Biewen (2001, S. 424)
11 Strecker (1963, S. 133)
5
Lohnverteilung in Haushaltsdatensätzen
=
und das wahre Einkommen kann für jedes Individuum geschrieben werden als
ε + =
y
i i i
Für jene Jahre, in denen die GLS nicht durchgeführt werden kann, die y i also
unbekannt sind, können die ε i nicht berechnet werden. Daher sollen sie zu-
nächst genauer untersucht und schließlich geschätzt werden.
3.2.2.2. Schätzung
Da für amerikanische Einkommen eine positive Korrelation von Einkommen und
Bias nachgewiesen werden konnte (z.B. 0,4 zwischen der Angabe des letzten
erhaltenen Monatslohns 1986 und dem Bias) 12 und Biewen gezeigt hat, dass im
SOEP die Antwortausfälle nicht unabhängig vom Einkommen auftreten 13 , ist
davon auszugehen, dass die Verzerrung und das Einkommen nicht unabhängig
sind. Des Weiteren ist auch der Einfluss weiterer Merkmale wie Alter, Betriebs-
zugehörigkeit, Geschlecht, Bildung, etc. auf den systematischen Fehler nicht a
priori auszuschließen, weshalb diese jeweils auf Unabhängigkeit überprüft wer-
den müssen. Somit ergibt sich bei Unterstellung eines linearen Zusammen-
hangs
T
+ ⋅ γ = + ⋅ γ + + ⋅ γ + γ = ε
ˆ
(5)
U x U x ... x ) x (
i
mit x i1 als der Einkommensangabe im SOEP und x ij (j=2,…,k) als weiteren be-
einflussenden Variablen. γ T ist dabei eine transponierte 1 x k-Matrix und x i ist
eine n x k-Matrix mit x 0i =1 für alle i. Für die Residuen gelten die üblichen An-
nahmen der Unabhängigkeit und Normalverteilung mit Erwartungswert 0, also
U ε ∼N(0, 2
σ ). Das lineare Modell lässt sich nun leicht in ein nichtlineares über-
U ε
führen und man erhält
T
⋅ γ = ε
ˆ
) x ( F ) x ( (6)
i
12 vgl. Rodgers et al. (1993, S. 1213f.)
13 vgl. Biewen (2001, S. 417)
6
Quote paper:
Oliver Heinrichs, 2004, Lohnverteilung in Haushaltsdatensätzen: Schätzung der wahren Lohnverteilung auf Basis verzerrter Daten, Anwendung der Kerndichteschätzung, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Oliver Heinrichs has published the text Lohnverteilung in Haushaltsdatensätzen: Schätzung der wahren Lohnverteilung auf Basis verzerrter Daten, Anwendung der Kerndichteschätzung
Oliver Heinrichs has uploaded a new text
Aktuelle Probleme und Entwicklungen im Internationalen Investitionsrec...
Christina Knahr, August Reinisch
Aktuelle Probleme des Luftverkehrs-, Planfeststellungs- und Umweltrech...
Vorträge auf den Zehnten Speye...
Jan Ziekow
Aktuelle Probleme der Insolvenzanfechtung
- InsO, KO, GesO, AnfG
Reinhard Bork, Markus Gehrlein
0 comments