Leseprobe
Inhaltsverzeichnis
1 Die einfache lineare Regression
1.1 Ziel / Anwendungsbereich
1.2 Anwendungsvoraussetzung
1.3 Theoretische Grundlage des Verfahrens
1.4 Verwandte Verfahren / Abgrenzung
2 Lineare Regression an einem Beispiel
2.1 Einfache lineare Regression in SPSS
3 Schlusswort
4 Literatur
1 Die einfache lineare Regression
Nachfolgend wird die einfache lineare Regression theoretisch erklärt und an einem Beispiel verdeutlicht. Hierfür werden zu Beginn auf die Ziele und den Anwendungsbereich dieser Methode eingegangen. In einem zweiten Schritt werden die Anwendungsvoraussetzungen und die mathematischen Hintergründe diskutiert. In einem letzten Schritt wird dann die lineare Regression mit verwandten Verfahren verglichen, bevor sie im nächsten Kapitel anhand eines konkreten Beispiels veranschaulicht wird.
1.1 Ziel / Anwendungsbereich
Variablen hängen voneinander ab, wenn anhand einer Variabel eine andere vorhergesagt werden kann. Je höher dieser Zusammenhang ist, desto genauer wird die Vorhersage (vgl. Eid, 2010, S. 560). Bei einer Korrelation von Rxy = 1 können alle Werte genau vorhergesagt werden. Dies ist allerdings nur sehr selten der Fall. Die Frage ist nun, wie Werte bei einem Korrelationswert von R ≠ 1 möglichst genau vorhergesagt werden können? Die Regression ist eine solche Methode, durch die der Vorhersagefehler möglichst minimiert wird (vgl. Eid, 2010, S. 560). Regression kann so verstanden werden, dass eine abhängige Variabel (wird auch Kriterium oder Regressand genannt) auf eine unabhängige Variable (auch Prädikator oder Regressor genannt) zurückgeführt wird (a.a.O.). Somit kann für jeden Wert von X ein Wert von Y erwartet werden (vgl. Eid, 2010, S. 562). In unserem Beispiel (siehe Kapitel 2) wird beispielsweise durch die Deutschnote am Ende der obligatorischen Schulzeit die Deutschnote in der Berufsschule vorauszusagen versucht.
1.2 Anwendungsvoraussetzung
Eine wichtigste Voraussetzung bei der linearen Korrelation ist jene, dass die benutzen Variablen metrisch skaliert sein müssen (vgl. Eid, 2010, S. 560). Zudem muss eine lineare Beziehung zwischen den beiden Variablen vorliegen. Des Weiteren muss die Homoskedastizität (Varianzgleichheit), die Normalverteilung der Fehlervariablen und die Unabhängigkeit der Fehler gewährleistet sein (vgl. Niederhauser, 2012).
1.3 Theoretische Grundlage des Verfahrens
Wie bereits erwähnt, hängen im Idealfall Prädikator und Kriterium linear zusammen. In Wahrheit ist dies allerdings nur selten der Fall. Vielmehr herrscht in den meisten Fällen eine unpräzise lineare Beziehung. Das bedeutet, dass nicht jeder Punkt durch eine lineare Gleichung beschrieben werden kann. Ein Beispiel hierfür wäre, wenn anhand des Alters versucht wird, die Körpergrösse vorauszusagen. Diese zwei Variablen hängen nicht perfekt linear zusammen. So kann auch nicht gesagt werden, dass jeder 18-Jährige genau 180cm misst (vgl. Eid, 2010, S. 562).
Die Regressionsanalyse versucht dennoch, eine solche Gerade (lineare Gleichung) zu finden, die den Gesamttrend aller Punkte am genausten wiederspiegelt (vgl. Bortz, 1999, S. 176). Es wird also versucht, eine Gerade zu zeichnen, die den Abstand zu allen Punkten möglichst zu minimieren versucht. Diese Gerade, die durch die verschiedenen Punkte gelegt wird, wird Regressionsgerade genannt (vgl. Eid, 2010, S. 560).
Kleinste Quadrate Kriterium Das Kleinste-Quadrate-Kriterium besagt, dass „die Regressionsgerade so in den Punkteschwarm zu legen [ist], dass die Summe der quadrierten Abstände der beobachteten Kriteriumswerte von der Regressionsgeraden ein Minimum ergibt“ (Bortz, 1999, S 176). Um eine möglichst genaue Vorhersage mittels der Regressionsmethode zu machen, werden die quadrierten Differenzen „zwischen den anhand der unabhängigen Variablen X vorhergesagten Werten und den beobachteten Y -Werten“ verwendet (Eid, 2010, S. 563). Die Differenz wird quadriert, da es positive wie auch negative Abweichungen geben kann, die durch die Quadrierung aufgehoben werden (vgl. Bortz, 1999, S 176). Zudem bekommen grössere Abweichungen dadurch mehr Gewicht. Die Entsprechende Formel hierfür ist:
SAQ = Summer der Abweichungsquadrate
Die Regressionsgleichung
Die Beziehung zwischen dem vorhergesagtem Wert und dem Wert der unabhängigen Variabel kann mathematisch wie folgt berechnet werden:
Regressionsgewicht b1: Das Regressionsgewicht ist eine konstante Grösse. Es besagt, um wie viel ein Y-Wert grösser wird, wenn X um genau eine Einheit vergrössert wird (vgl. Eid, 2010, S 567). Sie bezeichnet die Steigung der Regressionsgeraden. „Es lässt sich zeigen, dass diejenige Gerade das Kleinste-Quadrat-Kriterium am besten erfüllt, deren Steigung b1 in folgender Beziehung zum Produkt-Moment-Korrelationskoeffizienten steht“ (Eid, 2010, S. 566):
Achsenabschnitt b0: Dieser Koeffizient bezeichnet den Schnittpunkt der Regressionsgeraden mit der Ordinate (Y-Achse). Er bezeichnet jenen Wert, der zu erwarten ist, wenn X = 0 ist (vgl. Eid, 2010, S. 567). Er lässt sich berechnen, indem die Regressionsformel umgewandelt wird.
Regressionsresidiuum
Die Differenz zwischen einem geschätzten (vorhergesagten) Wert und einem tatsächlichen Wert nennt man Residiuum oder Fehlerwert (vgl. Eid, 2010, S. 567). Er wird mit „e“ gekenntzeichnet. Wenn man also einen Wert vorhersagen möchte, so zeigen die Residuen den Fehlerwert an. Die Grösse dieses Wertes beschreibt die Abweichung zum tatsächlichen Wert. Ein Wert von 0 würde somit bedeuten, dass der beobachtete Wert auf der Regressionsgeraden liegt. Perfekt wäre natürlich, wenn bei allen Vorhersagen ein Fehlerwert von 0 errechnet werden würde. Die y-Werte bilden sich aus der Addition den vorhergesagten -Werten und den Vorhersagefehlern.
Definition von Residuen:
Die Y-Werte lassen sich nach folgender Formel durch die Vorhersagefehler zusammensetzen:
1.4 Verwandte Verfahren / Abgrenzung
Es liegt nahe, die einfache lineare Regression mit der Korrelation zu vergleichen. Beide Verfahren haben zum Ziel, den Zusammenhang zwischen zwei Variablen zu beschreiben. In diesem Sinne können diese Verfahren Aufschluss darüber geben, in welche Richtung (positiv, negativ) der Zusammenhang besteht. Auch bezüglich der Voraussetzungen gibt es Gemeinsamkeiten. Beide Verfahren benötigen metrisch skalierte Daten.
Ziel der Korrelation ist es, den Zusammenhang zwischen den Variablen zu quantifizieren. Sie gibt an, wie stark/schwach die Variablen zusammenhängen. Die Regression hat zusätzlich das Ziel, Aufschluss über die Vorhersage (Prädiktion) nicht vorhandener Daten einer abhängigen Variable (Y) durch das Auftreten einer unabhängigeren Variablen (X) zu geben (vgl. Niederhauser, 2012).
Eine Weiterführung der einfachen linearen Regression ist die multiple lineare Regression. Bei ihr wird versucht, anhand zwei oder mehreren Variablen eine Voraussage zu tätigen. Der Unterschied zur einfachen Regression liegt also in der Anzahl unabhängiger Variablen.
[...]