Multiple lineare Regression - Theorie und Beispiel


Hausarbeit, 2015
17 Seiten, Note: 1,3

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Theorie

3 Beispiel

4 Fazit

5 Literatur

6 Anhang
6.1 Beispieldaten
6.2 R-Code
6.3 R-Graphiken

1 Einleitung

Wenn danach gefragt wird, ob eine ausgewogene Ernährung das Herzinfarktrisiko re­duziert, Führungskräfte überdurchschnittlich gut aussehen oder Kinder aus zerrütteten Familienverhältnissen häufiger zur Flasche greifen als andere, dann kann im Rahmen der Beantwortung dieser Frage eine Regressionsanalyse nützlich sein. Die Regressions­analyse modelliert Zusammenhänge zwischen einer abhängigen Variable (aV) und einer (einfache Regressionsanalyse) oder mehreren (multiple Regressionsanalyse) unabhängi­gen Variablen (uV). Ein solches Modell wird auch häufig dafür verwendet, Vorhersagen über die Werte einer abhängigen Variable auf Grundlage der Werte der unabhängigen Variablen zu treffen oder um die Intensität der Beziehung zwischen den Variablen zu identifizieren. Wie auch bei der Korrelationsrechnung bedeutet ein Zusammenhang zwi­schen abhängiger und unabhängigen Variablen bei der Regressionsanalyse nicht gleich­zeitig eine Kausalität. Im Rahmen der Regression wird zwar gegebenenfalls vor Beginn der Rechnung eine Kausalitätsvermutung aufgestellt; ob die unabhängige Variable aller­dings als Ursache tatsächlich vor der Wirkung (auf die abhängige Variable) steht, kann lediglich schlüssig argumentiert werden. Stellt sich die Regressionsgleichung als geeigne­ter Schätzer für die abhängige Variable heraus, so bedeutet das nur, dass mithilfe der unabhängigen Variablen die abhängige Variable hinreichend gut geschätzt werden kann. Eine Form der multiplen Regression ist die multiple lineare Regression, auf deren Theo­rie im Folgenden kurz eingegangen und die anschließend an einem Beispiel demonstriert wird. Die Herleitung der multiplen Regression folgt einer Vorlesungsmitschrift im Fach Statistik II an der ITÜ Istanbul[1], ergänzt um eigene Recherchen und Erichson et. al, 2010[2].

2 Theorie

Eine Frage, die mithilfe der multiplen Regression gelöst werden könnte, wäre z.B., ob bzw. wie und wie stark das Bruttoinlandsprodukt pro Einwohner (uV), die Zahl der Küstenkilometer (uV) eines Landes und dessen Menge der Treibhausgasemission (uV), die Anzahl der Arztbesuche (aV) der Bevölkerung dieses Landes beeinflusst.[1] Im Rah­men der linearen multiplen Regression gilt es nun die Beziehung zwischen den Variablen mithilfe einer linearen mathematischen Funktion zu formulieren. Durch das Einsetzen der unabhängigen Variablen in die aufgestellte Funktion (Regressionsgerade) und Lösen einer Optimierungsaufgabe[2], können die Parameter ermittelt und die abhängige Variable vorhergesagt (geschätzt) werden. In einem weiteren Schritt kann die Güte dieser Vor­hersagen identifiziert werden. Die vorherzusagende, abhängige Variable wird im Rahmen der multiplen Regressionsanalyse als Kriterium[3] bezeichnet. Die erklärenden, unabhän-

gigen Variablen werden Prädiktoren[4] genannt. Mathematisch kann der Zusammenhang zwischen Kriterium (y) und Prädiktoren (x), der bei der multiplen linearen Regression angenommen wird, mit der linearen Funktion y = ß0 + ß1x1 + · · · + ßmxm dargestellt werden. Die multiple lineare Modellgleichung ist dann entsprechend

Abbildung in dieser Leseprobe nicht enthalten

Die Beta-Werte, bei denen die beobachteten Kriteriumswerte yi möglichst gering von den vorhergesagten Werten yi abweichen, können mit der Methode der kleinsten Quadrate ermittelt werden. Dabei werden die Parameter der Regressionsgleichung so gewählt, dass die Quadratsumme des Schätzfehlers (Residuum) QSe minimiert wird

Abbildung in dieser Leseprobe nicht enthalten

In Matrixschreibweise und durch Einsetzen von Formel 4 in Formel 5 erhält man als Minimierungsproblem

Abbildung in dieser Leseprobe nicht enthalten

Um die Quadratsumme der Residuen zu minimieren, werden die partiellen Ableitungen der Quadratsumme nach den einzelnen Regressionsparametern gleich Null gesetzt. Also[6]

und damit

Abbildung in dieser Leseprobe nicht enthalten

bzw. nach linksseitiger Multiplikation mit (XTX)-1

Abbildung in dieser Leseprobe nicht enthalten

Ein Kennwert der multiplen Regressionsanalyse ist der multiple Korrelationskoeffizient R. Dieser repräsentiert die Korrelation zwischen Kriterium und allen Prädiktoren.7Er berechnet sich folgendermaßen8

Abbildung in dieser Leseprobe nicht enthalten

Ein weiterer Kennwert der multiplen Regression ist der Determinationskoeffizient (Be­stimmtheitsmaß) R2. Das Bestimmtheitsmaß ist ein Maß dafür, wie stark sich der durch­schnittliche quadratische Vorhersagefehler reduziert, wenn man anstatt des arithmeti­schen Mittels der beobachteten Kriterien9 die Regressionsgerade als Schätzer verwendet. Der Determinationskoeffizient repräsentiert also die Varianzaufklärung der Prädiktoren

Abbildung in dieser Leseprobe nicht enthalten

Daneben existiert ein korrigiertes Bestimmtheitsmaß, welches eine um die Anzahl der Prädiktoren bereinigte Aussage trifft; dieses korrigiert bei der Schätzung der Varianzen um die entsprechenden Freiheitsgrade und nutzt daher n - p - 1 statt der Fallzahl n im Zähler sowie n — 1 statt n im Nenner.

3 Beispiel

Mithilfe der multiplen linearen Regression soll geklärt werden, ob die Anzahl der Küs­tenkilometer eines Landes ein starker Prädiktor für die durchschnittliche Anzahl der Arztbesuche pro Kopf dieses Landes ist. In die Rechnung miteinbezogen werden außer­dem die Treibhausgasemission und das Bruttoinlandsprodukt pro Kopf des Landes. Im Folgenden gilt:

X1 - Küsten-km[3]

X2 - BIP pro Kopf in Euro, Wert in 2011[4]

X3 - Treibhausgasemission, Indikator (Basisjahr 1990 = 100), Wert in 2011[4]

Y - Durchschnittliche Anzahl der Arztbesuche pro Kopf, Wert in 2011[5]

Die gesamte Schätzung wurde in R mittels eingebauter Prozeduren sowie zur Veran­schaulichung der Formeln des vorigen Teils zusätzlich manuell mittels Matrixoperatio­nen durchgeführt (vgl. Anhang). Für die Beta-Werte und deren Standardabweichungen ergeben sich:

Abbildung in dieser Leseprobe nicht enthalten

[...]


[1] Hier wurde eine Vermutung über den kausalen Zusammenhang zwischen der abhängigen Variable ’Anzahl der Arztbesuche’ und den unabhängigen Variablen BIP, Küstenkilometer und Treibhausga­semission angestellt.

[2] Minimierung der quadrierten Residuen.

[3] Das Kriterium wird auch als Regressand oder Response bezeichnet.

[4] Die Prädiktoren werden auch als Regressoren bzw. Faktoren oder Kovariaten bezeichnet.

[5] Im letzten Schritt wird das Ergebnis von yTXß und βτXTy zu 2βτXTy zusammengefasst. Dies ist möglich, weil es sich bei dem Ergebnis beider Terme um Skalare handelt, weshalb yTXß = (yTXß)T. Mit Anwendung der Rechenregeln für das Transponieren wird aus (yTXß)T dann ßTXTy.

[6] Denn δβ X y = XTy und δβ X χβ = 2XTXß. Wobei letzteres eine Vereinfachung ist, die möglich

Ende der Leseprobe aus 17 Seiten

Details

Titel
Multiple lineare Regression - Theorie und Beispiel
Hochschule
Brandenburgische Technische Universität Cottbus
Note
1,3
Autor
Jahr
2015
Seiten
17
Katalognummer
V292971
ISBN (eBook)
9783656903574
ISBN (Buch)
9783656903581
Dateigröße
791 KB
Sprache
Deutsch
Reihe
Aus der Reihe: e-fellows.net stipendiaten-wissen
Schlagworte
multiple, regression, theorie, beispiel
Arbeit zitieren
Sibylle Weiss (Autor), 2015, Multiple lineare Regression - Theorie und Beispiel, München, GRIN Verlag, https://www.grin.com/document/292971

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Multiple lineare Regression - Theorie und Beispiel


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden