Die Abhängigkeit der Todesrate von Faktoren des ökologischen und sozialen Umfelds

Eine statistische Untersuchung mithilfe der freien Programmiersprache R


Hausarbeit, 2018

41 Seiten, Note: 2,0

Anonym


Leseprobe

Inhaltsverzeichnis

Inhaltsverzeichnis

Abkürzungsverzeichnis

Abbildungsverzeichnis

1 Einleitung

2 Theoretische Grundlagen
2.1 Grundlagen der Regressionsdiagnostik
2.1.1 BLUE-Eigenschaften
2.2.2 Statistische Annahmen

3 Forschungsansatz
3.1 Datenbasis
3.2 Modell und Hypothesen

4 Ergebnisse der Regressionsdiagnostik
4.1 R1: Stabilität/ Robustheit
4.2 A5: Keine Multikollinearität
4.3 A1: kein Spezifikationsfehler
4.4 A3: Keine Autokorrelation der Residuen
4.5 A4: Homoskedastizität
4.6 A6: Residuen nicht normalverteilt
4.7 A2: Erwartungswert der Residuen = 0
4.8 A7: Keine Korrelation zwischen den Residuen und den unabhängigen Variablen

5 Fazit

Literaturverzeichnis

Anhang

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1: Statistische Annahmen

Abbildung 2: Die Sterberate und ihre im Basisdatensatz enthaltene Determinanten

Abbildung 3: Das Grundmodell der multiplen linearen Regression

Abbildung 4: Konkretes Modell für den vorhandenen Datensatz

Abbildung 5: Distribution of Death Rate Values, Grafik zur Robustheit

Abbildung 6: Box Plot on Death Rate Values, Grafik zur Robustheit

Abbildung 7: VIF der Regression ‚Karl‘

Abbildung 8: VIF der Regression ‚Elli‘

Abbildung 9: Korrelationsmatrix der Determinanten

Abbildung 10: RESET-Test auf Fehlspezifikation

Abbildung 11: Residuals against Fitted Values, Grafik zur Linearität

Abbildung 12: Durbin-Watson-Test auf Aurokorrelation

Abbildung 13: Residuals against Time, Grafik zur Autokorrelation

Abbildung 14: Correlogramme, Grafik zur Autokorrelation

Abbildung 15: Breusch-Pagan-Test auf Homoskedastizität

Abbildung 16: Vergleich der ursprünglichen und der korrigierten Standardfehler

Abbildung 17: Vergleich der Normalverteilung und der tatsächlichen Verteilung

Abbildung 18: Jarque-Bera-Test auf Normalverteilung der Residuen

Abbildung 19: Finale Werte der Regression ‚Elli‘ zur Überprüfung der Hypothesen

1 Einleitung

Im Zeitalter der digitalen Medien ist die Masse der Daten so unermesslich, dass man gemeinhin von einer Daten- oder Informationsflut spricht. Nach kurzer Suche im Internet lassen sich zahlreiche Datensätze - also Gruppen zusammengehöriger Daten - zu allen möglichen Themen finden. Gerade bei einer solch großen Grundgesamtheit an verfügbaren Informationen ist es jedoch oft schwierig, den Überblick zu behalten und sich nicht in der Flut zu verlieren. Zu diesem Zweck wurden zahlreiche Tools, also Werkzeuge entwickelt, die systematisch bei der Organisation und Untersuchung der Daten helfen sollen.

Im Folgenden soll eine ganz bestimmte Art der Datenanalyse durchgeführt und das Vorgehen sowie die Ergebnisse dabei detailliert erläutert werden. Der Fokus liegt dabei nicht vornehmlich auf der inhaltlichen Datenanalyse, sondern vielmehr auf der Methodik und Regressionsdiagnostik, welche zur inhaltlichen Untersuchung angewendet wurde.

Die Auswertung des im Rahmen dieser Arbeit verwendeten Datensets erfolgte dabei mithilfe der kostenfreien Software RStudio, welche ein benutzerfreundliches User-Interface für die Bedienung der freien Programmiersprache R für statistische Berechnungen und Grafiken darstellt. RStudio setzt hierbei in R verfasste Codings um und fährt die entsprechend eingegebenen Auswertungen nach den vom Programmierer festgelegten Vorgaben. Das für diese Arbeit verwendete Coding ist im Anhang einzusehen.

Im Folgenden soll ein im Internet frei zugänglicher Datensatz untersucht werden, der die Abhängigkeit der Todesrate von ausgewählten Faktoren zeigt (vgl. Kapitel 3.1). Der genaue Einfluss der Variablen auf die Todesrate im Einzelnen und gemeinsam soll dabei genauer untersucht werden.

2 Theoretische Grundlagen

2.1 Grundlagen der Regressionsdiagnostik

Zur Analyse der zugrundeliegenden Daten bedarf es zunächst der Erstellung eines Modells (mehr dazu vgl. Kapitel 3.2), das zwingend bestimmte Eigenschaften aufweisen muss, um die einzelnen Variablen und deren Verhältnisse untereinander korrekt und genau erfassen zu können. Inhalt der Regressionsdiagnostik ist es, das Vorhandensein und die Ausprägung dieser Voraussetzungen für das Modell der multiplen linearen Regression zu untersuchen.

2.1.1 BLUE-Eigenschaften

Nach dem Satz von Gauß und Markov1 verletzt das Auftreten einer oder mehrerer bestimmter Eigenschaften (vgl. Kapitel 2.2.2) die sogenannten BLUE-Eigenschaften, die das Modell

folgendermaßen definieren:

- Best - beste: geringste Streuung der Residuen
- Linear - lineare: Linearität zwischen den unabhängigen und der abhängigen Variablen
- Unbiased - unverzerrte: schätzen den Erwartungswert der Residuen im Mittel richtig
- Estimator - Schätzer

Insofern die BLUE-Eigenschaften nicht auf ein Modell zutreffen, so ist mindestens eine der vorausgesetzten statistischen Annahmen verletzt worden, die im folgenden Kapitel vorgestellt werden.

2.2.2 Statistische Annahmen

Um die Passgenauigkeit der in das Modell aufgenommenen Schätzer und somit die Genauigkeit und Anwendbarkeit des Modells im Sinne der BLUE-Eigenschaften zu gewährleisten, ist die Verletzung folgender statistischer Annahmen in Bezug auf das Modell zu prüfen:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: eigene Darstellung in Anlehnung an Backhaus et al. (2011), S. 85f

Abbildung 1: Statistische Annahmen

Inwiefern eine Verletzung in den Annahmen für das in dieser Arbeit konkret aufgestellte Modell vorliegt, wird in Kapitel 4 Ergebnisse der Regressionsdiagnostik beleuchtet.

3 Forschungsansatz

Um ein Grundverständnis für die eigentliche Analyse in Kapitel 4 zu legen, soll nun zunächst auf die Daten eingegangen werden, die der Analyse als Basis dienen. Weiterhin sollen das Modell sowie seine Prämissen vorgestellt und im weiteren Verlauf der Analyse auf Güte bzw. Gültigkeit getestet werden. Schlussendlich werden diejenigen Hypothesen vorgestellt, die der Regressionsanalyse zugrunde liegen.

3.1 Datenbasis

Den inhaltlichen Input für diese Arbeit lieferte ein frei zugänglicher Datensatz aus dem Internet (genaue Quelle siehe Literaturverzeichnis). Es handelt sich hierbei um sechzig Datenzeilen, in denen die Sterberate die unabhängige Variable B darstellt. Neben dem Index I, der lediglich der Auflistung dient und keine weitere Beachtung finden soll, beinhaltet der Datensatz noch fünfzehn weitere Variablen. Diese sind unabhängig und sollen weiterhin als Regressoren im Modell auftreten (mehr dazu vgl. Kapitel 3.2).

Abbildung in dieser Leseprobe nicht enthalten

Quelle: eigene Darstellung auf Basis des Datensatzes

Abbildung 2: Die Sterberate und ihre im Basisdatensatz enthaltene Determinanten

3.2 Modell und Hypothesen

Es soll untersucht werden, ob sich der Einfluss der Determinanten auf die abhängige Variable, namentlich die Sterberate, in Form einer multiplen linearen Regression darstellen lässt. Hierzu sollen die in Kapitel 3.1 festgelegten Determinanten einzeln oder kombiniert als Regressoren auftreten. Da die Determinanten hierbei metrisch skaliert sind, wird entsprechend die OLS-Methode (engl. Ordinary Least Squares, dt. Methode der kleinsten Quadrate) angewendet, wodurch grafisch gesprochen genau die Regressionsgerade erstellt wird, zu der die Summe der quadrierten Abweichungen der einzelnen Werte am geringsten ist. Dieses Modell wird allgemein beschrieben durch folgende Gleichung:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: allgemeine Gleichung, eigene Darstellung

Abbildung 3: Das Grundmodell der multiplen linearen Regression

Unter Einbeziehung der für diese Arbeit festgelegten Variablen ergibt sich dementsprechend das zu untersuchende Modell wie folgt:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: eigene Darstellung

Abbildung 4: Konkretes Modell für den vorhandenen Datensatz

Das Modell enthält somit alle fünfzehn im Datensatz vorhandenen Regressoren, die jedoch aller Wahrscheinlichkeit nach nicht jeweils denselben Einfluss auf die abhängige Variable ausüben. Aufgrund dieser Vermutung werden beispielhaft folgende zu überprüfende Hypothesen formuliert:

H1: Die umweltbedingten Faktoren üben einen signifikanteren Einfluss auf die abhängige Variable aus als die sozioökonomischen Faktoren.

H2: Ein Großteil der Determinanten hat einen positiven Einfluss auf die Sterberate.

H3: Das Einkommen und die Bildung üben einen stärkeren Einfluss aus als der Anteil ‚NichtWeißer‘ und der Anteil der Büroarbeiter.

4 Ergebnisse der Regressionsdiagnostik

Dieses Kapitel beleuchtet die konkreten Ergebnisse der am Basisdatensatz durchgeführten Regressionsdiagnostik. Die Reihenfolge der Prüfung der statistischen Annahmen (vgl. Kapitel 2.2.2) wurde dabei abgeändert, um die Prüfung und Korrektur des Modells zu erleichtern.

4.1 R1: Stabilität/ Robustheit

Zunächst soll die Robustheit untersucht werden, da bei Vorhandensein von Ausreißern eventuell die Daten angepasst werden müssen, indem die Ausreißer entfernt werden. Die Robustheit lässt sich am besten grafisch darstellen, u. a. mithilfe eines Streudiagramms der Werte von B, also der abhängigen Variablen als Punktewolke und als Boxplot.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung in dieser Leseprobe nicht enthalten

Quelle: R-Output

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Distribution of Death Rate Values, Grafik zur Robustheit

Ergebnisse der Regressionsdiagnostik

Abbildung in dieser Leseprobe nicht enthalten

Quelle: R-Output

Abbildung 6: Box Plot on Death Rate Values, Grafik zur Robustheit

Zwar lässt das Streudiagramm einige Ausreißer vermuten, z. B. bei den Zeitindexwerten 38 und 49. Jedoch kann dies nicht durch den Boxplot bestätigt werden. Das Modell ist dementsprechend ausreichend stabil und robust.

4.2 A5: Keine Multikollinearität

Zu erkennen ist Multikollinearität durch die Berechnung der Variance Inflation Factors (VIF), welche gleichzeitig als Grundlage genutzt werden kann, um bestimmte Variablen - nämlich jene, die einen Outputwert von 5 oder größer erzeugen, was einem Bestimmtheitsmaß von 80% entspricht - aus dem Modell zu entfernen, was die Modellgüte entsprechend verbessern sollte.

Die Hauptregression Karl, die alle unabhängigen Variablen enthält, ergibt folgende VIF-Werte:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: R-Output

Abbildung 7: VIF des Modells ‚Karl‘

Die Variablen mit den größten Werten wurden dementsprechend aus dem Modell entfernt und eine neue, bereinigte lineare Regression durchgeführt, die im Folgenden unter dem Namen Elli läuft. Ihre VIF-Faktoren sehen nun wie folgt aus:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: R-Output

Abbildung 8: VIF des Modells ‚Elli‘

Zur weiteren Verdeutlichung dient eine Korrelationsmatrix:

Abbildung in dieser Leseprobe nicht enthalten

Quelle: R-Output

Abbildung 9: Korrelationsmatrix der Determinanten

Da hier keine Korrelationen außerhalb des Intervalls [-1;1] aufgezeigt werden, bestätigt dies die Annahme, dass keine Multikollinearität im Modell vorliegt.

[...]


1 Vgl. Verbeek, S. 15

Ende der Leseprobe aus 41 Seiten

Details

Titel
Die Abhängigkeit der Todesrate von Faktoren des ökologischen und sozialen Umfelds
Untertitel
Eine statistische Untersuchung mithilfe der freien Programmiersprache R
Hochschule
FOM Hochschule für Oekonomie & Management gemeinnützige GmbH, Düsseldorf früher Fachhochschule
Note
2,0
Jahr
2018
Seiten
41
Katalognummer
V424385
ISBN (eBook)
9783668699694
ISBN (Buch)
9783668699700
Dateigröße
2327 KB
Sprache
Deutsch
Schlagworte
ökonometrie, todesrate, r, programmiersprache, software, analyse, lineare regression, multiple regression
Arbeit zitieren
Anonym, 2018, Die Abhängigkeit der Todesrate von Faktoren des ökologischen und sozialen Umfelds, München, GRIN Verlag, https://www.grin.com/document/424385

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Die Abhängigkeit der Todesrate von Faktoren des ökologischen und sozialen Umfelds



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden