Leseprobe
Inhaltsverzeichnis
1 Einleitung
2 Theorie
3 Beispiel
4 Fazit
5 Literatur
6 Anhang
6.1 Beispieldaten
6.2 R-Code
6.3 R-Graphiken
1 Einleitung
Wenn danach gefragt wird, ob eine ausgewogene Ernährung das Herzinfarktrisiko reduziert, Führungskräfte überdurchschnittlich gut aussehen oder Kinder aus zerrütteten Familienverhältnissen häufiger zur Flasche greifen als andere, dann kann im Rahmen der Beantwortung dieser Frage eine Regressionsanalyse nützlich sein. Die Regressionsanalyse modelliert Zusammenhänge zwischen einer abhängigen Variable (aV) und einer (einfache Regressionsanalyse) oder mehreren (multiple Regressionsanalyse) unabhängigen Variablen (uV). Ein solches Modell wird auch häufig dafür verwendet, Vorhersagen über die Werte einer abhängigen Variable auf Grundlage der Werte der unabhängigen Variablen zu treffen oder um die Intensität der Beziehung zwischen den Variablen zu identifizieren. Wie auch bei der Korrelationsrechnung bedeutet ein Zusammenhang zwischen abhängiger und unabhängigen Variablen bei der Regressionsanalyse nicht gleichzeitig eine Kausalität. Im Rahmen der Regression wird zwar gegebenenfalls vor Beginn der Rechnung eine Kausalitätsvermutung aufgestellt; ob die unabhängige Variable allerdings als Ursache tatsächlich vor der Wirkung (auf die abhängige Variable) steht, kann lediglich schlüssig argumentiert werden. Stellt sich die Regressionsgleichung als geeigneter Schätzer für die abhängige Variable heraus, so bedeutet das nur, dass mithilfe der unabhängigen Variablen die abhängige Variable hinreichend gut geschätzt werden kann. Eine Form der multiplen Regression ist die multiple lineare Regression, auf deren Theorie im Folgenden kurz eingegangen und die anschließend an einem Beispiel demonstriert wird. Die Herleitung der multiplen Regression folgt einer Vorlesungsmitschrift im Fach Statistik II an der ITÜ Istanbul[1], ergänzt um eigene Recherchen und Erichson et. al, 2010[2].
2 Theorie
Eine Frage, die mithilfe der multiplen Regression gelöst werden könnte, wäre z.B., ob bzw. wie und wie stark das Bruttoinlandsprodukt pro Einwohner (uV), die Zahl der Küstenkilometer (uV) eines Landes und dessen Menge der Treibhausgasemission (uV), die Anzahl der Arztbesuche (aV) der Bevölkerung dieses Landes beeinflusst.[1] Im Rahmen der linearen multiplen Regression gilt es nun die Beziehung zwischen den Variablen mithilfe einer linearen mathematischen Funktion zu formulieren. Durch das Einsetzen der unabhängigen Variablen in die aufgestellte Funktion (Regressionsgerade) und Lösen einer Optimierungsaufgabe[2], können die Parameter ermittelt und die abhängige Variable vorhergesagt (geschätzt) werden. In einem weiteren Schritt kann die Güte dieser Vorhersagen identifiziert werden. Die vorherzusagende, abhängige Variable wird im Rahmen der multiplen Regressionsanalyse als Kriterium[3] bezeichnet. Die erklärenden, unabhän-
gigen Variablen werden Prädiktoren[4] genannt. Mathematisch kann der Zusammenhang zwischen Kriterium (y) und Prädiktoren (x), der bei der multiplen linearen Regression angenommen wird, mit der linearen Funktion y = ß0 + ß1x1 + · · · + ßmxm dargestellt werden. Die multiple lineare Modellgleichung ist dann entsprechend
Abbildung in dieser Leseprobe nicht enthalten
Die Beta-Werte, bei denen die beobachteten Kriteriumswerte yi möglichst gering von den vorhergesagten Werten yi abweichen, können mit der Methode der kleinsten Quadrate ermittelt werden. Dabei werden die Parameter der Regressionsgleichung so gewählt, dass die Quadratsumme des Schätzfehlers (Residuum) QSe minimiert wird
Abbildung in dieser Leseprobe nicht enthalten
In Matrixschreibweise und durch Einsetzen von Formel 4 in Formel 5 erhält man als Minimierungsproblem
Abbildung in dieser Leseprobe nicht enthalten
Um die Quadratsumme der Residuen zu minimieren, werden die partiellen Ableitungen der Quadratsumme nach den einzelnen Regressionsparametern gleich Null gesetzt. Also[6]
und damit
Abbildung in dieser Leseprobe nicht enthalten
bzw. nach linksseitiger Multiplikation mit (XTX)-1
Abbildung in dieser Leseprobe nicht enthalten
Ein Kennwert der multiplen Regressionsanalyse ist der multiple Korrelationskoeffizient R. Dieser repräsentiert die Korrelation zwischen Kriterium und allen Prädiktoren.7Er berechnet sich folgendermaßen8
Abbildung in dieser Leseprobe nicht enthalten
Ein weiterer Kennwert der multiplen Regression ist der Determinationskoeffizient (Bestimmtheitsmaß) R2. Das Bestimmtheitsmaß ist ein Maß dafür, wie stark sich der durchschnittliche quadratische Vorhersagefehler reduziert, wenn man anstatt des arithmetischen Mittels der beobachteten Kriterien9 die Regressionsgerade als Schätzer verwendet. Der Determinationskoeffizient repräsentiert also die Varianzaufklärung der Prädiktoren
Abbildung in dieser Leseprobe nicht enthalten
Daneben existiert ein korrigiertes Bestimmtheitsmaß, welches eine um die Anzahl der Prädiktoren bereinigte Aussage trifft; dieses korrigiert bei der Schätzung der Varianzen um die entsprechenden Freiheitsgrade und nutzt daher n - p - 1 statt der Fallzahl n im Zähler sowie n — 1 statt n im Nenner.
3 Beispiel
Mithilfe der multiplen linearen Regression soll geklärt werden, ob die Anzahl der Küstenkilometer eines Landes ein starker Prädiktor für die durchschnittliche Anzahl der Arztbesuche pro Kopf dieses Landes ist. In die Rechnung miteinbezogen werden außerdem die Treibhausgasemission und das Bruttoinlandsprodukt pro Kopf des Landes. Im Folgenden gilt:
X1 - Küsten-km[3]
X2 - BIP pro Kopf in Euro, Wert in 2011[4]
X3 - Treibhausgasemission, Indikator (Basisjahr 1990 = 100), Wert in 2011[4]
Y - Durchschnittliche Anzahl der Arztbesuche pro Kopf, Wert in 2011[5]
Die gesamte Schätzung wurde in R mittels eingebauter Prozeduren sowie zur Veranschaulichung der Formeln des vorigen Teils zusätzlich manuell mittels Matrixoperationen durchgeführt (vgl. Anhang). Für die Beta-Werte und deren Standardabweichungen ergeben sich:
Abbildung in dieser Leseprobe nicht enthalten
[...]
[1] Hier wurde eine Vermutung über den kausalen Zusammenhang zwischen der abhängigen Variable ’Anzahl der Arztbesuche’ und den unabhängigen Variablen BIP, Küstenkilometer und Treibhausgasemission angestellt.
[2] Minimierung der quadrierten Residuen.
[3] Das Kriterium wird auch als Regressand oder Response bezeichnet.
[4] Die Prädiktoren werden auch als Regressoren bzw. Faktoren oder Kovariaten bezeichnet.
[5] Im letzten Schritt wird das Ergebnis von yTXß und βτXTy zu 2βτXTy zusammengefasst. Dies ist möglich, weil es sich bei dem Ergebnis beider Terme um Skalare handelt, weshalb yTXß = (yTXß)T. Mit Anwendung der Rechenregeln für das Transponieren wird aus (yTXß)T dann ßTXTy.
[6] Denn δβ X y = XTy und δβ X χβ = 2XTXß. Wobei letzteres eine Vereinfachung ist, die möglich