Statistische Analyse eines Datensatzes


Hausarbeit, 2018
13 Seiten, Note: 1,6

Leseprobe

Inhaltsverzeichnis

A bkürzungsverzeichnis

1. Einleitung (Aufgabe 1)

2. Multivariate Modellschätzung unter Log-Log Spezifikation (Aufgabe 2)

3. Lineare multivariate Analyse (Aufgabe 3)

4. Grafische Überprüfung auf Heteroskedastie (Aufgabe 4)
a. Grafische Analyse multivariates logarithmiertes Modell
b. Grafische Analyse lineares multivariates Modell

5. Breusch-Pagan Test und White Test bei Lin-Lin-Spezifikation (Aufgabe 5)

6. Breusch-Pagan Test und White Test bei Log-Log-Spezifikation (Aufgabe 5)

7. Zusammenfassung (Aufgabe 6)

A. Anhang
i ) Tabellenverzeichnis
ii) A bbildungsverzeichnis
iii) Stata Do-File

Abkiirzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1. Einleitung (Aufgabe 1)

Die vorliegende Arbeit beschäftigt sich mit Determinanten der Fertilität anhand des zugrunde liegenden Datensatzes „swiss2.dta“. Dieser enthält sozio-ökonomische Indikatoren für 47 Regionen in der Schweiz aus dem Jahr 1888. Die abhängige Variable „Fertility“ steht für ein standardisiertes Fertilitätsmaß der Region i. Da der Datensatz in einem zeitlichen Querschnitt erfasst wurde, handelt es sich um eine Untersuchung der Periodenfertilität des Jahres 1888 in unterschiedlichen Regionen i. Das standardisierte Fertilitätsmaß setzt sich aus der abgeschlossenen Kinderanzahl des Geburtenjahrgangs 1888 und der Einwohneranzahl der beobachteten Region i zusammen. Aufgrund dessen kann es bei der Datenerhebung der abhängigen Variable „Fertility“ zu Angaben mit und ohne Bruchanteilen kommen. Die Fertilität ist ein wichtiger Indikator für demografische Betrachtungen. Daher berücksichtigt der Datensatz, um über die Fertilität genaue Aussagen treffen zu können, die Variable „InfMortality“. Diese beschreibt die relative Säuglingssterblichkeit der beobachteten Regionen. Zudem werden die möglichen Einflussvariablen „Agriculture“, „Education“, und „Catholic“ betrachtet. Die Hausarbeit soll untersuchen, inwiefern sich diese drei Determinanten auf das standardisierte Fertilitätsmaß einer Region i auswirken. Um einen deskriptiven Überblick zu erhalten, sind im Anhang in Tabelle 1 aussagekräftige deskriptive Verteilungsmaße dargestellt.

Wie bereits genannt, wurden 47 Regionen in der Schweiz im Jahre 1888 betrachtet. Das durchschnittliche Fertilitätsmaß (Variable „Fertility“) liegt bei einer Anzahl von circa 70,14 Kindern pro beobachtete Region i und bewegt sich damit zwischen der minimalen Anzahl von 35 und einer maximalen Anzahl von 92,5 Kindern. Es wurde folglich im Datensatz keine Region ohne Geburten im Jahr 1888 beobachtet. Zusätzlich wurde die Variable „InfMortality“ betrachtet, um den gegenspielenden Faktor der Säuglingssterblichkeit mit einem durchschnittlichen Wert von 19,95 Prozent zu berücksichtigen. Dieser Wert bewegt sich zwischen 10,8 Prozent und 26,6 Prozent. Unter Einbezug der durchschnittlichen Fertilität und Säuglingssterblichkeit kann gefolgert werden, dass von 70,14 Kindern 13,99 im Säuglingsalter sterben. Eine mögliche erklärende Variable stellt „Agriculture“ dar. Im Durchschnitt sind in einer Region i 50,65 Prozent der Männer im Agrarsektor beschäftigt. Dabei gab es Werte von 1,2 Prozent bis 89,7 Prozent. Die Variable „Education“ beschreibt den Anteil der Personen einer Region mit höherem Bildungsabschluss und kommt auf einen durchschnittlichen Wert von 10,97 Prozent. Aus diesem Wert geht hervor, dass die Erhebung im Jahre 1888 lange vor der Bildungsexpansion der 1950er Jahren vonstattenging. Das Minimum von 1 Prozent verdeutlicht dies. Das Maximum liegt bei 53 Prozent. Zudem wird die Variable „Catholic“ aufgenommen, um den Anteil der Katholiken einer Region zu messen. Hier gibt es sehr extreme Unterschiede: trotz eines Durchschnittes von 41,14 Prozent, schwanken die Werte der Stichprobe zwischen minimalen 2,15 Prozent und maximalen 100 Prozent.

Ob es einen signifikanten Zusammenhang zwischen der abhängigen und den unabhängigen Variablen gibt und wie sich dieser gegebenenfalls äußert, wird im weiteren Verlauf der Hausarbeit behandelt.

2. Multivariate Modellschätzung unter Log-Log Spezifikation (Aufgabe 2)

Im Folgenden wird der Einfluss des Anteils der Beschäftigten in der Landwirtschaft, der Anteil der Personen mit höherem Schulabschluss und der Anteil der Katholiken. jeweils in einer Region i auf die Anzahl der Geburten in dieser Region untersucht. Dazu wird folgendes Modell mittels der KG-Methode geschätzt:

Abbildung in dieser Leseprobe nicht enthalten

Das Modell erklärt 41,13 Prozent der Variation der abhängigen Variable. Das Gesamtmodell ist höchst signifikant, da der p-Wert des F-Tests 0,00 beträgt. Das bedeutet, dass mindestens eine der in das Modell aufgenommenen Variablen einen signifikanten Einfluss hat. Die Variablen besitzen Log-Log-Spezifikationen, welche als Elastizitäten interpretiert werden können. Erhöht man den Anteil der beschäftigten Männer in der Landwirtschaft um ein Prozent, so steigt die Anzahl der Geburten c.p. im Mittel um 0,06 Prozent. Der Zusammenhang ist allerdings statistisch nicht signifikant. Im Vergleich dazu weist die Anzahl der Geburten bei einer Erhöhung des Anteils der Personen mit höherem Schulabschluss um 1 Prozent c.p. im Mittel einen Rückgang um circa 0,10 Prozent auf. Dieser Koeffizient ist auf dem 1%-Niveau statistisch signifikant. Eine einprozentige Erhöhung des Katholikenanteils, führt in der Region zu einer Steigerung der Geburtenanzahl um 0,32 Prozent. Hier ist der Koeffizient auf dem 10%- Niveau statistisch signifikant von Null verschieden.

3. Lineare multivariate Analyse (Aufgabe 3)

Im Vergleich zum Log-Log Modell sind in der linearen multivariaten Analyse:

Abbildung in dieser Leseprobe nicht enthalten

einige Unterschiede auszumachen. Es zeigt sich, dass nun neben Education und Catholic auch die Variable Agriculture einen signifikanten Einfluss auf das Fertilitätsmaß zu haben scheint. Dabei wird den unabhängigen Variablen eine hohe Signifikanz zugeschrieben, da sie jeweils auf dem 1%-Signifikanzniveau von Null verschieden sind. Auch bei den Koeffizienten lässt sich eine Änderung feststellen. Die Werte von Education und Agriculture sinken jeweils, worüber hinaus bei letzterem sogar noch ein Vorzeichenwechsel auszumachen ist und sich bei der Lin-Lin Spezifikation ein negativer Effekt von Männern, die in der Landwirtschaft beschäftigt sind, aufzeigt. Hierbei sinkt das Fertilitätsmaß um 0,2 Prozentpunkte c.p. im Mittel, wenn sich der Anteil der Beschäftigten dieses Berufs um 1 Prozent erhöht. Der Effekt der Bildung nimmt in diesem Modell ebenfalls ab. Wenn der Anteil Personen mit hoher Bildung um 1 Prozent steigt, so sinkt die Anzahl der Geburten c.p. im Mittel. um 1,07. Der Einfluss der Konfession scheint hingegen zuzunehmen. Wenn sich der Anteil der Katholiken um 1 Prozent erhöht, so steigt die Anzahl der Geburten um 0,14 c.p. im Mittel. Auch beim Korrelationskoeffizienten erfolgt eine geringe Änderung. Dieser erhöht sich, was mitunter ein Hinweis auf eine geringere Modelgüte ist. Dies lässt sich auch an den Standardfehlern feststellen, welche sich bei allen Variablen erhöht haben und eine geringere Exaktheit bei den vorhergesagten Ergebnissen vermuten lassen.

4. Grafische Überprüfung auf Heteroskedastie (Aufgabe 4)

a. Grafische Analyse multivariates logarithmiertes Modell

Die grafische Analyse des logarithmierten Modells auf Heteroskedastie, welche die Streuung der Beobachtungseinheiten innerhalb eines Modells aufzeigt, lässt auf kein eindeutiges Ergebnis schließen. Es ist weder eine konstante Streuung, um die Regressionsgerade zu erkennen, was auf Homoskedastie hinweisen würde, noch ist eine eindeutige Streuung nach außen hin nachweisbar. Allerdings ist eine leichte Tendenz zur Heteroskedastie zu vermuten. Dieses Problem ist auf die geringe Fallzahl des Modells zurückzuführen. Bei einer größeren Untersuchungseinheit wäre eine Aussage einfacher zu vollziehen.

b . Grafische Analyse lineares multivariates Modell

Auch beim einfachen linearen Modell spiegelt sich das Problem der geringen Fallzahlen wieder. Es lässt sich kein Eindeutiges Ergebnis feststellen. Allerdings lässt in diesem Modell, im Gegensatz zum logarithmierten Modell, eher die Annahme der Homoskedastie vermuten. Um eine eindeutige Aussage darüber treffen zu können, werden im Folgenden statistische Tests durchgeführt, um diese Annahmen zu überprüfen und damit zu einem aussagekräftigen Ergebnis zu gelangen.

5. Breusch-Pagan Test und White Test bei Lin-Lin-Spezifikation (Aufgabe 5)

In Bezug auf das lineare Modell ergibt der Breusch-Pagan-Test auf Heteroskedastizität kein signifikantes Ergebnis. Dies lässt zunächst vermuten, dass die Nullhypothese, welche Homoskedastie impliziert, nicht verworfen werden kann.

Auch der White-Test liefert ein nicht signifikantes Ergebnis, weshalb die Homoskedastizitätsannahme nicht verworfen werden kann.

6. Breusch-Pagan Test und White Test bei Log-Log-Spezifikation (Aufgabe 5)

Aus dem logarithmierten Modell dagegen, lassen sich andere Schlüsse ziehen. Der Breusch- Pagan-Test weist ein ��2 -Wert von 11,21 auf und ist am 5%-Niveau signifikant von null verschieden. Das heißt für dieses Regressionsmodell liegt Heteroskedastizität vor. Der White- Test zeigt einen ��2 -Wert von 21,09 bei 44 Freiheitsgraden an, sodass Homoskedastizität ausgeschlossen werden kann. Sowohl die graphische Analyse als auch die durchgeführten Testverfahren deuten auf ein Heteroskedastizitätsproblem hin. Folglich ist die Gauß-Markow- Annahme 3 verletzt. Der KQ-Schätzer ist nicht mehr effizient und damit nicht mehr der BLUE, da mit steigendem X die Fehlertermvarianz ansteigt.

7. Zusammenfassung (Aufgabe 6)

Die Untersuchungen in dieser Arbeit zeigen, dass das Fertilitätsmaß von unterschiedlichen signifikanten Einflüssen abhängig ist. Bis auf Agriculture im Log-Log Modell konnten alle in das Modell aufgenommenen unabhängige Variablen einen signifikanten Einfluss ausüben. Zudem lag im Modell mit Lin-Lin-Spezifikation kein Heteroskedastizitätsproblem vor, welches mittels Transformieren durch Anwendung des Logarithmus beseitigt werden sollte. Im Vergleich lag ein Heteroskedastizitätsproblem im Modell mit Log-Log-Spezifikation vor. Aufgrund dessen wird das homoskedastische lineare Modell bevorzugt, da hier die Gauß- Markow-Annahme 3 nicht verletzt wird. Urn allerdings zu iiberprufen, ob der Schiitzer tatsiichlich BLUE ist, miissten weitere GauB-Markow-Annahmen betrachtet werden. Im Vergleich spricht fUr das Modell mit Log-Log-Spezifikation allerdings die aussagekriiftigere prozentuale Interpretationsmoglichkeit in Hinsicht auf die abhiingige Variable der Fertilitat.

[...]

Ende der Leseprobe aus 13 Seiten

Details

Titel
Statistische Analyse eines Datensatzes
Hochschule
Friedrich-Alexander-Universität Erlangen-Nürnberg  (Statistik und empirische Wirtschaftsforschung)
Veranstaltung
Ökonometrie
Note
1,6
Autor
Jahr
2018
Seiten
13
Katalognummer
V495180
ISBN (eBook)
9783346001986
Sprache
Deutsch
Schlagworte
Ökonometrie, Statistik, statistische Analyse, Datensatz, Modellschätzung, Multivariat, Heteroskedastie, Preusch-Pagan, White-Test
Arbeit zitieren
Simone Merkle (Autor), 2018, Statistische Analyse eines Datensatzes, München, GRIN Verlag, https://www.grin.com/document/495180

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Statistische Analyse eines Datensatzes


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden