Excerpt
Inhaltsverzeichnis
A. Einleitung
B. Regressionsanalyse
1. Deterministische und stochastische Beziehungen
2. Regressionsgerade
3. Interpretation und Regressionskoeffizienten
4. Residuen
5. Standartschätzfehler
6. Determinationskoeffizient
C. Statistische Absicherung
1. Modell der linearen Regression
2. Signifikanztest für β
3. Konfidenzintervall für β
4. Konfidenzintervall für den Erwartungswert
5. Residuenanalyse
D. Nicht-lineare Zusammenhänge
1. Polynomiale Regression
2. Linearisierende Transformation
E. Literaturverzeichnis
A. Einleitung
Regression ist die „Aufteilung einer Variablen in einen systematischen und einen zufälligen Teil zur angenäherten Beschreibung einer Variablen als Funktion anderer‘[1]. Die Realität liefert uns oftmals Messwerte zu Einzelbeobachtungen. Wenn man zum Beispiel mit einem Trainingsplan beginnt und man jedes Mal die gelaufene Zeit für dieselbe Strecke aufschreibt, sieht man, dass die Bestzeiten vielleicht auch mal irgendwo dazwischengelegen haben müssen, man weiß es aber nicht. Die Einzelbeobachtungen sind „diskrete“ Messwerte, mit Lücken, die in einem Streudiagramm[2] veranschaulicht werden können. Wenn man sich bei seinem Trainingsplan aber fragt, zu welchem Zeitpunkt man am schnellsten oder langsamsten war, stoßt man schnell an seine Grenzen. Dinge wie Extremwerte, Steigungsraten, Wendepunkte, etc. kennt man noch aus der Oberstufe aus Mathematik. Diese Funktionen nennt man stetige Funktionen, ohne Lücken und Sprünge. Stetige Funktionen sind das Gegenteil von diskreten Messungen, also von dem, was wir von der Realität bekommen. Die Regressionsanalyse ist das Bindeglied zwischen diskreten Messungen und der für die Analyse wichtigen Stetigkeit.
„Erst wenn wir wissen, dass zwei Merkmale miteinander zusammenhängen, kann das eine Merkmal zur Vorhersage des anderen eingesetzt werden.“ [3] Besteht beispielsweise zwischen der Disziplin in der Erziehung und der Disziplin im Einhalten eines Trainingsplans ein gesicherter Zusammenhang, könnte die sportliche Disziplin aufgrund der disziplinierten Erziehung vorhergesagt werden. Je höher der Zusammenhang ist, desto genauer wird die Vorhersage sein. Denn je deutlicher die Merkmale zusammenhängen, desto größer wird die Wahrscheinlichkeit einer richtigen Vorhersage.[4]
In dieser Arbeit wird die einfache lineare Regression zur Merkmalsvorhersage bearbeitet. Hierfür wir der Inhalt in drei Kapitel aufgeteilt. Das erste Kapitel beschäftigt sich mit der Regressionsanalyse, das zweite mit der statistischen Absicherung und zum Schluss werden nicht-lineare Zusammenhänge geklärt.
B. Regressionsanalyse
Die Vorhersage einer Variable ist möglich, wenn zwei stochastisch abhängige Variablen x und y durch eine Regressionsgleichung miteinander verbunden sind. So kann die eine Variable zur Vorhersage der anderen Variable eingesetzt werden. Es wird zwischen Prädiktorvariablen und Kriteriumsvariablen unterschieden. Prädiktorvariablen werden zur Vorhersage eingesetzt und Kriteriumsvariablen sollen vorhergesagt werden.[5] Anhand des Prädiktors wird demzufolge das Kriterium vorhergesagt. Prädiktorvariablen sind einfacher und billiger messbar. Sie können früher als das eigentliche Kriterium erfasst werden. Psychologische oder medizinische Tests, in denen Interessen, Leistungen, Begabungen etc. vorhergesagt werden sollen, sind typische Prädiktoren. Wenn ein Test ein brauchbarer Prädiktor ist, bezeichnet man ihn als „valide“. Die Regressionsgleichung sollte vorher unbedingt an einer repräsentativen Stichprobe ermittelt worden sein, damit ein Test im Einzelfall sinnvoll als Prädiktor eingesetzt werden kann. Nur so kann die in der „Eichstichprobe“[6] ermittelte Beziehung zwischen Prädiktor und Kriterium auch auf einen konkret untersuchten Einzelfall angewandt werden.[7]
Die allgemeine Gleichung der linearen Beziehung wird wie folgt beschrieben:
y = a x + b.
Wird die Gleichung graphisch dargestellt, ergibt sie eine Gerade. y kennzeichnet die abhängige Variable, x die unabhängige Variable, b die Steigung der Geraden und a die Höhenlage, den Schnittpunkt der Geraden mit der y-Achse. Die Steigung einer Geraden kann positiv oder negativ sein. Bei einer positiven Steigung werden bei steigenden x-Werten alle y-Werte ebenfalls größer. Bei einer negativen Steigung werden bei steigenden x-Werten alle y-Werte kleiner.[8]
1. Deterministische und stochastische Beziehungen
Deterministische Modelle sind Entscheidungsmodelle, d.h. es sind Modelle, in denen Beziehungen eindeutig bestimmt sind. Es existieren im Gegensatz zum stochastischen Modell keine Zufallsvariablen und dadurch auch keine wahrscheinlichkeitstheoretischen Bezüge. Alle Informationen, die dem Modell zugrunde liegen sind mit Sicherheit bekannt, d.h. sie sind deterministisch.[9] Deterministische Prädiktoren kommen nur in bestimmten Ausprägungen vor, z.B. „unterschiedliche Dosierung eines Medikaments, systematisch variierte Bedingungen in psychologischen Lernexperimenten etc.“[10]. Ein stochastisches Modell liegt vor, wenn verschiedene Wahlmöglichkeiten zur Entscheidung stehen und diese Wahlmöglichkeiten verschiedene Konsequenzen haben. Es lassen sich zahlenmäßige Angaben über die Wahrscheinlichkeit der Konsequenzen machen. Im Gegensatz zum deterministischen Modell enthält das stochastische Modell ein oder mehrere Zufallsvariablen und somit auch wahrscheinlichkeitstheoretische Bezüge.[11] Ein Beispiel für stochastische Prädiktoren wäre z.B. Leistungen im Schulreifetest. „Stochastische Prädiktoren sind [...] Variablen, die zusammen mit der Kriteriumsvariablen an einer Zufallsstichprobe von Individuen erhoben werden, sodass jedem Individuum ein Messwertpaar als Realisierung der gemessenen Zufallsvariablen zugeordnet werden kann.“[12]
Es seien die Leistungen von Versuchspersonen in zwei äquivalenten Tests x und y durch die Beziehung y = l,5x + 20 miteinander verbunden. Anhand dieser Gleichungen lassen sich Vorhersagen machen. Eine Person mit einer Leistung von x = 30 erzielt im Test y den Wert y = 1,5 ■ 30 + 20 = 65. Alle x-Werte müssen für eine Transformation zunächst mit dem Steigungsfaktor 1,5 multipliziert werden. Daraus lässt sich schließen, dass die y-Werte eine geringere Streuung als x-Werte aufweisen. Bei der Umrechnung von x -Werten in y -Werte schreibt die additive Konstante von 20 vor, dass zusätzlich zu jedem Wert 20 Testpunkte hinzuaddiert werden müssen. Dabei ist egal, welche Leistung die Versuchsperson im Test x erzielt hat. Das könnte bedeuten, dass Test y leichter ist als Test x, weil Personen, die im Test x0 Punkte erzielt haben, in Test y immerhin noch 20 Punkte hinzuaddiert bekommen haben.[13] Eine Gerade ist z.B. durch zwei Punkte eindeutig festgelegt. Wenn zwei Punkte der Geraden bekannt sind, kennt man die Koordinaten aller Punkte der Geraden. Geht man von der funktionalen Beziehung im obigen Beispiel aus, kann im Rahmen des Gültigkeitsbereiches der Gleichung für jeden x-Wert ein y-Wert und für jeden y-Wert ein x-Wert bestimmt werden. Man spricht von einer deterministischen
Beziehung. Trägt man die Messpunkte von zwei verschiedenen Versuchspersonen aus dem obigen Beispiel in ein Koordinatensystem ein und verbindet diese beiden Punkte, erhält man eine Gerade, deren Funktionsgleichen identisch der oben aufgeführten ist. Untersucht man mehrere Versuchspersonen und trägt deren Messwerte in das Koordinatensystem ein, liegen diese bei einer deterministischen Beziehung auf der gefundenen Gerade. Bei einer stochastischen Beziehung ist das anders. Die Motivation, Ermüdungseffekte und die Tatsache, dass beide Tests unterschiedlich sind führen dazu, dass es Versuchspersonen gibt, deren x - und y - Werte von der Geraden abweichen.[14] Das Ergebnis von n Beobachtungen ist folglich ein Punkteschwarm. In diesem Fall weist er eine positive lineare Beziehung auf. Anhand der Regressionsrechnung kann man die Gerade ermitteln, die den Gesamttrend aller Punkte am besten wiedergibt. „Im Rahmen einer Regressionsanalyse, die auf der Gleichung y = a + b · x basiert, spricht man auch von der Regression von „y auf x‘“.[15]
2. Regressionsgerade
Eine Regressionsgerade ist eine Gerade, „die die stochastische Beziehung zwischen zwei Merkmalen kennzeichnet“.[16] Die Konstanten а und b der Regressionsgeraden sind die Regressionskoeffizienten. Sobald die Regressionskoeffizienten а und b bekannt sind, kann eine Funktionsgleichung für die Regressionsgerade aufgestellt werden. Es werden die Koeffizienten gesucht, die den Punkteschwarm am besten repräsentieren. Darum ist die Regressionsgerade auch eine „Ausgleichsgerade, d.h. eine Gerade, die so nahe wie möglich an allen tatsächlichen Beobachtungen liegt“.[17]
In der linken Abbildung sieht man zwei Streudiagramme und die dazu passenden Regressionsgeraden. Rechts kann man eine positive lineare Beziehung sehen und rechts eine negative. Regressionsgeraden kann man nur in Streudiagramme einzeichnen, wenn genug Datenpunkte vorhanden sind.
Das Problem, eine Gerade rechnerisch zu finden, kann mit der Methode der kleinsten
Quadrate gelöst werden. Die Gerade ist danach so bestimmt, dass „die Summe der vertikalen Abweichungen der empirischen Werte von der Geraden gleich Null und die Summe der quadrierten Abweichung ein Minimum ist.“[18] Wie oben schon erwähnt, kann die Gerade durch y, = a + b · x ausgedrückt werden. Die Koeffizienten aund b werden dabei so bestimmt, dass E(y¿ _ y¿)2 = min minimal wird. Anhand der Differenzialberechnung lässt sich die Regressionsgerade mathematisch bestimmten. Die erste Ableitung der Funktion wird auf 0 gesetzt und nach а und b aufgelöst.
Dies ergibt dann für[19]
Abbildung in dieser Leseprobe nicht enthalten
Ein Beispiel zur Berechnung der Regressionsgeraden[20]:
Fünf Studenten haben die Klausuren in den Vorlesungen „Geschichte der Pädagogik“ und „Anthropologie der Pädagogik“ geschrieben. Sie erzielten die folgenden Punktzahlen:
Abbildung in dieser Leseprobe nicht enthalten
[...]
[1] http://www.duden.de/rechtschreibung/Regression
[2] „Der Zusammenhang zwischen zwei Variablen X und Y kann mit Hilfe eines Streudiagramms graphisch dargestellt werden. I.d.R. dient die horizontale (X-)Achse zur Repräsentation der unabhängigen und die vertikale (Y-)Achse zur Repräsentation der abhängigen Variablen. Trägt man alle Beobachtungen eines Datensatzes ein, so wird die Art des Zusammenhangs in Form einer Punktewolke sichtbar“ Quelle: Statistische Analyseverfahren I, Skript, Nicole Saam, WS 16/17, Vorlesung 11, Folie 3
[3] Bortz 7. Auflage S. 183
[4] Vgl. Bortz 7. Auflage S. 183
[5] Vgl. Bortz 7. Auflage S. 183
[6] „Unter einer Eichstichprobe oder auch Normstichprobe versteht man in der empirischen Psychologie jene bei der Entwicklung eines Tests herangezogenen ProbandInnen, auf deren Grundlage die Vergleichsmaßstäbe bzw. Bewertungsmaßstäbe eines normierten Tests berechnet werden. “ Quelle: http://lexikon.stangl.eu/11167/eichstichprobe/ © Online Lexikon für Psychologie und Pädagogik
[7] Vgl. Bortz 7. Auflage S. 184
[8] Vgl. Bortz 6. Auflage S. 183
[9] http://www.wirtschaftslexikon24.com/d/deterministische-modelle/deterministische-modelle.htm
[10] Bortz 6. Auflage S. 182
[11] http://www.wirtschaftslexikon24.com/d/stochastisches-modell/stochastisches-modell.htm
[12] Bortz 7. Auflage S. 182
[13] Vgl. Bortz 6. Auflage S. 183
[14] Vgl. Bortz 6. Auflage S. 183f
[15] Bortz 7. Auflage S. 185
[16] Bortz 7. Auflage S. 185
[17] Statistische Analyseverfahren I, Skript, Nicole Saam, WS 16/17, Vorlesung 11, Folie 6
[18] Statistische Analyseverfahren I, Skript, Nicole Saam, WS 16/17, Vorlesung 11, Folie 9
[19] Statistische Analyseverfahren I, Skript, Nicole Saam, WS 16/17, Vorlesung 11, Folie 10
[20] Vgl. Beispiel aus „Begleitübung zur Vorlesung - Statistische AnalyseverfahrenI“, WS 16/17, Lösungen 11
- Quote paper
- Isabella Schmid (Author), 2017, Die einfache lineare Regression zur Merkmalsvorhersage, Munich, GRIN Verlag, https://www.grin.com/document/375003
Publish now - it's free
Comments