Lineare Einfachregression und Multiple Regression


Hausarbeit (Hauptseminar), 2007
13 Seiten, Note: 2

Gratis online lesen

Inhaltsverzeichnis

1. Was ist Regression?

2. Lineare Regression
2.1 Berechnung mit Formel
2.2 Berechnung mit Excel

3. Multiple Regression
3.1 Was ist die multiple Regressionsanalyse?
3.2 Berechnung mit der vorwärtsgerichteten Variablenauswahl
3.3 Berechnung mit der rückwärtsgerichteten Variablenauswahl
3.4 Berechnung mit SPSS

Literaturverzeichnis

Einleitung

Im Anschluss an die Thematik der Korrelation der vorangegangenen Arbeit wird nun die Regression behandelt. Diese Arbeit beschreibt zunächst die Regression und ihren Unterschied zur Korrelation (Kap. 1), bevor die lineare Einfachregression und ihre rechnerische Bestimmung anhand von Beispielen erklärt wird (Kap. 2). Zuletzt wird anhand eines Rechenbeispiels und Hinweisen auf den Einsatz von EDV-Systemen die darauf aufbauende, kompliziertere multiple Regression bearbeitet (Kap. 3).

1. Was ist Regression?

Der direkte Vergleich zwischen der Korrelation und der zu behandelnden Regression zeigt interessante Gemeinsamkeiten in den Zielen, Voraussetzungen und Methoden; jedoch bestehen auch deutliche Unterschiede. Die Grundidee der Korrelation, die in der Bestimmung des Zusammenhangs zwischen zwei oder mehr Variablen besteht, ist auch das Ziel der Regression. Eine weitere Gemeinsamkeit ist die Voraussetzung an das Skalenniveau der auszuwertenden Daten: sowohl Korrelation wie auch Regression benötigen intervall- oder rational skalierte Daten.

Der wichtigste Unterschied zwischen Korrelation und Regression besteht darin, dass die Korrelation den Zusammenhang zwischen je zwei Variablen lediglich zu quantifizieren versucht und somit seine Stärke bestimmt. Die Regression versucht zusätzlich, durch die Regressionsgerade ein Mittel der gestreuten Werte zu finden, das sich auch außerhalb der vorhandenen Daten prognostizieren lässt. Die Prognose nicht vorhandener Daten ist ein zentraler Teil der Regression: ist beispielsweise ein X-Wert bekannt und dessen zugehöriger wahrscheinlichster Y-Wert zu ermitteln, kann er anhand der Regressionsgeraden auf einem hohen Wahrscheinlichkeitsniveau geschätzt werden (siehe Abb. 1).

Abbildung in dieser Leseprobe nicht enthalten

Die Regressionsgerade wird mathematisch durch die Gleichung y = bx + a ausgedrückt. Demnach wird sie durch ihre Steigung b und den Y-Achsenabschnitt a definiert. Die Regressionsgerade macht also keine Aussage über die Stärke des Zusammenhangs zwischen den Werten einer Punktwolke. Dieser wesentliche Unterschied bzw. diese gegenseitige Notwendigkeit von Korrelation und Regression wird neben Abb. 1 auch in Abb. 2 ausgedrückt: Die Stärke des Zusammenhangs kann maximal sein (links oben), sie kann nur groß oder sogar nur mäßig sein (rechts oben) – die Regressionsgerade wird bei entsprechender Punkteverteilung stets die selbe Formel haben. Nur die Korrelation quantifiziert das Punkteverhältnis. Lediglich, wenn der Zusammenhang gleich Null ist (rechts unten), stellt die Regressionsgleichung diesen Umstand ebenso fest wie die Korrelationsformel.

Abbildung in dieser Leseprobe nicht enthalten

2. Lineare Regression

2.1 Berechnung mit Formel

Die lineare Regression versucht, mathematisch eine Punktwolke durch eine Gerade bestmöglich anzunähern. Diese Punktwolke entsteht durch Eintragen der Variablenwerte in ein Streudiagramm. Bei der Berechnung der Regressionsgeraden wird versucht, die Punkte innerhalb des Streudiagramms optimal zu repräsentieren, indem mathematisch der Abstand sämtlicher Punkte zu ihr minimiert wird. Dies geschieht mit Hilfe des Prinzips der kleinsten Quadrate: Die summierten Quadrate der Residuen, also der senkrechten (Y-Achsen-parallelen) Abweichungen der Werte von der Schätzgeraden, werden minimiert (siehe Abb. 3). Ein Residuum gibt somit die Differenz zwischen der Regressionsgeraden bxi + a und den Messwerten yi an.

Abbildung in dieser Leseprobe nicht enthalten

Mit Hilfe einer einfachen Formel, für die zunächst die arithmetischen Mittelwerte von x und y benötigt werden, können die Regressionskoeffizienten der Geraden bestimmt werden. Zuerst wird die Steigung b der gesuchten Regressionsgeraden bestimmt. Dazu wird die Kovarianz von x und y durch die Varianz von x dividiert (siehe Abb. 4).

Zur Erinnerung:

Die Varianz ist der Erwartungswert der quadrierten Abweichung vom Erwartungswert. Die Kovarianz ist der Erwartungswert des Produkts der Abweichungen zweier Zufallsvariablen von ihrem Erwartungswert.

Abbildung in dieser Leseprobe nicht enthalten

Ist b ermittelt, wird es im zweiten Schritt in die allgemeine Geradengleichung eingesetzt, wobei die arithmetischen Mittelwerte von x und y verwendet werden (siehe Abb. 5). Dadurch wird der Y-Achsenabschnitt a der Regressionsgeraden bestimmt.

Abbildung in dieser Leseprobe nicht enthalten

Die Regressionsgerade mit der Gleichung y = bx + a ist damit ermittelt. Dies soll nun anhand eines kleinen Beispiels vorgerechnet werden.

Rechenbeispiel:

Ein Weinhändler verkauft in sechs Geschäften Wein zu unterschiedlichen Preisen, um den besten Preis zu ermitteln. Sein Ergebnis sieht nach einiger Zeit folgendermaßen aus:

Abbildung in dieser Leseprobe nicht enthalten

Zuerst werden die arithmetischen Mittelwerte für x und y bestimmt. Diese lauten: Abbildung in dieser Leseprobe nicht enthalten und Abbildung in dieser Leseprobe nicht enthalten. Nun wird die Geradensteigung b mit Hilfe der in Abb. 4 dargestellten Formel ermittelt, indem die Formelteile einzeln errechnet werden.

Abbildung in dieser Leseprobe nicht enthalten

Durch die errechneten Einzelwerte lässt sich nun die Steigung der Regressionsgeraden bestimmen: Abbildung in dieser Leseprobe nicht enthalten

Durch Einsetzen von b in die Geradengleichung ergibt sich für den Y-Achsenabschnitt a:

a = 5 + 0,98 x 15 = 19,7

Die Regressionsgerade für das Beispiel lautet also y = -0,98 + 19,7

2.2 Berechnung mit Excel

Dieser Teil soll hier nur kurz beschrieben werden. Im Referat wurde anhand eines Beispiels die Möglichkeit vorgeführt, von Microsoft Excel Regressionsgeraden berechnen, darstellen und auch für weitere Werte prognostizieren zu lassen.

Mit Hilfe des integrierten Diagramm-Assistenten lässt sich von Excel für zwei Variablen, im vorgeführten Beispiel den Werten von Körpergröße und Lebensalter der deutschen Männer, ein Diagramm darstellen. Im Fall des Beispiels ist ein Streudiagramm mit einfacher Einzeichnung der Punkte sinnvoll. Klickt man einen der Punkte mit der rechten Maustaste an und klickt dann auf „Trendlinie hinzufügen“, kann man im folgenden Fenster unter „Trend-/Regressionstyp“ das Feld „Linear“ auswählen. Dies ist die einfachste Variante der Regressionsgeraden, deren Berechnung auch in Kap. 2.1 aufgezeigt wurde. Mit Hilfe der Registerkarte „Optionen“ lassen sich nun die Gleichung der Regressionsgeraden und das Bestimmtheitsmaß im Diagramm darstellen und unter „Trend“ auch Prognosen außerhalb des gegebenen Wertebereichs fortführen. Mit einem Klick auf „OK“ kann die fertige Regressionsgerade in Excel betrachtet werden.

3. Multiple Regression

3.1 Was ist die multiple Regressionsanalyse?

Die multiple Regressionsanalyse hat zum Ziel, den Einfluss mehrerer unabhängiger Variablen X auf eine abhängige Variable Y zu bestimmen. Sie stellt also eine Erweiterung der linearen Regressionsanalyse dar, da sie nicht nur eine, sondern beliebig viele unabhängige Variablen einbeziehen kann. Die unabhängigen Variablen beeinflussen dabei jedoch stets nur eine abhängige. Bei zwei unabhängigen Variablen kann demnach anstelle einer Geraden eine Regressionsfläche als Ergebnis ausgegeben werden (siehe Abb. 6); bei noch mehr unabhängigen Variablen ist eine grafische Darstellung aufgrund der Vieldimensionalität nicht mehr möglich; in diesem Fall spricht man von einer Hyperfläche.

Abbildung in dieser Leseprobe nicht enthalten

Die Formel der multiplen Regressionsfläche/Hyperfläche lautet allgemein:

Abbildung in dieser Leseprobe nicht enthalten

Im Gegensatz zur linearen Regression werden hier griechische Buchstaben verwendet. Diese entsprechen jedoch den lateinischen Buchstaben der linearen Regression: Alpha als Y-Achsenabschnitt bzw. Regressionskonstante entspricht a, Beta den partiellen Regressionskoeffizienten ihrer jeweiligen X und damit in der Summe b. Epsilon taucht in der linearen Gleichung in der Regel nicht auf; auch in der multiplen Regressionsanalyse lässt es sich nicht quantifizieren. Es stellt den Zufallsfehler dar, der beispielsweise durch Messungenauigkeiten bei der Datenaufnahme oder zufälligen Abweichungen bei kleinen Stichproben das Ergebnis verändern kann.

Ziel der multiplen Regressionsanalyse ist also die Bestimmung von Alpha sowie der einzelnen Beta. Epsilon wird nicht rechnerisch bestimmt. Im Folgenden werden zwei Möglichkeiten vorgestellt, Alpha und Beta zu berechnen.

3.2 Berechnung mit der vorwärtsgerichteten Variablenauswahl

Ein Verfahren zur Bestimmung der multiplen Regressionsgleichung ist die vorwärtsgerichtete Variablenauswahl. Bei ihr werden nach und nach die unabhängigen Variablen mit dem größten Einfluss auf die abhängige Variable ausgewählt, bis von den verbleibenden ein selbst gewähltes Signifikanzniveau nicht mehr erreicht wird.

Im Referat wurde ein Beispiel von Bahrenberg (1990) verwendet, um die vorwärtsgerichtete Variablenauswahl vorzuführen. In diesem Beispiel beeinflussen sieben Variablen, darunter beispielsweise die Arbeitslosigkeit in einem bestimmten Zeitraum, den Wanderungssaldo eines Teils von Norddeutschland. Die Variablenwerte liegen auf der Ebene der Landkreise vor; hier wird jedoch aufgrund der rein mathematischen Zielsetzung nicht weiter auf ihre Bedeutung eingegangen, sondern sie lediglich mit X1 bis X7 angesprochen.

Im ersten Schritt wird die partielle Korrelation jedes einzelnen X mit Y bestimmt, wenn alle sieben X einbezogen werden. Es ergeben sich folgende Werte:

Abbildung in dieser Leseprobe nicht enthalten

[Abbildung in dieser Leseprobe nicht enthalten] hat demnach die stärkste partielle Korrelation mit Y. Es wird daher als erste Variable in die Regressionsgleichung aufgenommen. Nun wird anstelle des Korrelationskoeffizienten von [Abbildung in dieser Leseprobe nicht enthalten] dessen Regressionskoeffizient mit der in Kap. 2 eingeführten Formel errechnet. Die entstehende Regressionsgleichung, die noch eine Gerade darstellt, lautet nun:

Y = 36,62 – 0,08[Abbildung in dieser Leseprobe nicht enthalten]

Im folgenden Schritt werden erneut die partiellen Korrelationskoeffizienten aller X berechnet, allerdings ohne [Abbildung in dieser Leseprobe nicht enthalten]. Dadurch ergeben sich folgende, stark veränderte Werte:

Abbildung in dieser Leseprobe nicht enthalten

Der Vergleich der partiellen Korrelationskoeffizienten aller X mit und ohne den Einfluss von X5 deuten auf ein wichtiges Phänomen der multiplen Regression: Multikollinearität heißt der Einfluss der X untereinander (siehe Abb. 7). X5 erklärt bereits große Teile des Einflusses der Variablen X1, X4, X6 und X7, so dass deren partielle Korrelationskoeffizienten ohne den Einfluss von X5 stark absinken.

Abbildung in dieser Leseprobe nicht enthalten

Die zweite Berechnung der partiellen Korrelation der X ergibt für X3 den höchsten Koeffizienten. Deshalb kann X3 als zweites X in die Regressionsgleichung aufgenommen werden, die nun eine Regressionsfläche darstellt:

Y = 52,76 – 0,08X5 – 1,06X3

Man beachte hier auch die Veränderung der Regressionskonstanten. Ebenso besteht die Möglichkeit, dass sich bei Hinzunehmen weiterer X in die Regressionsgleichung auch die Regressionskoeffizienten der bisherigen X verändern; dies ist ebenfalls durch die Multikollinearität zu erklären. Bei erneuter partieller Korrelation der verbleibenden X mit Y, die hier nicht dargestellt wird, ergeben sich veränderte Koeffizienten, bei denen nun X2 am stärksten ist. X2 wird ebenso in die Regressionsgleichung aufgenommen, welche nun eine Hyperfläche darstellt und folgendermaßen lautet:

Y = 53,63 – 0,08X5 – 0,92X3 + 0,82X2

Eine letzte partielle Korrelation der verbleibenden X ergibt für alle sehr geringe Werte. Daher kann die Regressionsgleichung ohne sie mit fast gleich hohem Bestimmtheitsmaß die Werte erklären. Das Bestimmtheitsmaß der oben genannten Gleichung beträgt bereits 66,92%, d.h. dass auch die Gleichung 66,92% der Werte erklärt. Das Verfahren ist an dieser Stelle abgeschlossen, da die Regressionsgleichung auf selbst gewähltem Signifikanzniveau bestimmt wurde. In Textform gefasst, ließe sie sich beispielsweise folgendermaßen interpretieren: Hält man X2 und X3 konstant und erhöht X5 um eine Einheit, nimmt Y um 0,08 Einheiten ab. Dies lässt sich ähnlich mit allen anderen X fortsetzen.

3.3 Berechnung mit der rückwärtsgerichteten Variablenauswahl

Im Gegensatz zur vorwärtsgerichteten werden bei der rückwärtsgerichteten Variablenauswahl zunächst alle unabhängigen Variablen Xn in die Analyse mit einbezogen. Das bedeutet, dass im ersten Schritt die Regressionsgleichung mit allen unabhängigen Variablen berechnet wird. Danach werden schrittweise einzelne Variablen eliminiert, deren Regressionskoeffizienten nicht signifikant von null verschieden sind. Dieses Verfahren wird so lange wiederholt, bis die Regressionskoeffizienten aller noch in der Gleichung vorhandenen unabhängigen Xn nach dem vom Anwender gewählten Signifikanzniveau signifikant sind (Bahrenberg 1990: 35ff). Aufgrund des Umfangs der Berechnungen für diese Variablenauswahl wird es hier nicht am Beispiel vorgeführt. Es würde jedoch im für die vorwärtsgerichtete Auswahl verwendeten Beispiel zum gleichen Endergebnis für die Regressions-Hyperfläche führen.

Als Fazit für die Variablenauswahlverfahren wäre also festzuhalten, dass beide meist zum gleichen Ergebnis führen, was aber nicht zwingend ist. In einigen Fällen kann die Wahl des Verfahrens von Bedeutung sein, da sich die Ergebnisse unterscheiden. Der Anwender sollte sich in keinem Fall von sich von Schritt zu Schritt verändernden Regressionskoeffizienten und Bestimmtheitsmaß verwirren lassen, was immer dann geschieht, wenn Multikollinearität im Spiel ist. Die Wahl des Signifikanzniveaus, das letztendlich über die Anzahl der miteinbezogenen X entscheidet, ist natürlich in beiden Verfahren subjektiv, daher können die Ergebnisse bei unterschiedlichen Versuchen voneinander abweichen.

3.4 Berechnung mit SPSS

In diesem Kapitel wird kurz abschließend erklärt, wie SPSS selbsttätig und ohne aufwändige Bestimmung von Variablen mittels Auswahlverfahren bei richtiger Bedienung den Regressionskoeffizienten von je zwei Variablen ermittelt, was auch mit drei oder mehr Variablen gleichzeitig stattfinden kann. Im Referat wurde ein Beispiel mit fünf Studierenden aus dem Kurs vorgeführt, in dem zu den beiden aus Kap. 2.2 bekannten Variablen Lebensalter und Körpergröße auch noch das Gewicht hinzukam. Mit Hilfe von SPSS sollte nun nach willkürlicher Festsetzung des Gewichts als abhängiger Variable bestimmt werden, welche der beiden anderen, also der Körpergröße oder des Lebensalters, einen größeren Einfluss auf die abhängige Variable hat.

Nach Eintragen der empirischen Werte in SPSS kann im Menü „Analysieren“ und in dessen Untermenü „Regression“ auf „Linear“ geklickt werden. Im nun erscheinenden Fenster muss an oberster Stelle die abhängige Variable in ein Feld eingefügt werden, was mit Hilfe eines einfachen Klicks auf einen Pfeil geschieht. Die übrigen Variablen, deren Einflüsse auf die abhängige bestimmt werden sollen, werden mit einem anderen Pfeil in das Feld der unabhängigen Variablen eingefügt. Nach einem Klick auf „OK“ gibt der SPSS-Prozessor zahlreiche Berechnungen in Tabellenform aus, wobei für die multiple Regression besonders die Tabelle „Koeffizienten“ wichtig ist. Hier werden standardisierte und unstandardisierte Koeffizienten ausgegeben. Im Beispiel konnte unter „Unstandardisierte Koeffizienten“ und dessen Unterfeld „B“ die Steigung der jeweiligen Einzel-Regressionsgeraden abgelesen werden. Es ergab sich in der kleinen Personenauswahl eine Steigung von -1,28 für das Alter und +0,98 für die Körpergröße. Dies entspricht dem logischen Empfinden der Realität: die Körpergröße hat einen fast linearen Einfluss auf das Gewicht einer Person, während das Alter in der Regel in keinem Zusammenhang damit steht. SPSS berechnet also wie andere Statistikprogramme die Regressionskoeffizienten, ohne dass man selbst zu tief in die langwierigen Formeln einsteigen muss. Die elektronische Datenverarbeitung stellt damit eine wesentliche Erleichterung bei der Erledigung statistischer Aufgaben dar.

Literaturverzeichnis

Bahrenberg, G. et al. (1990): Statistische Methoden in der Geographie 3., überarbeitete Auflage. Stuttgart: Teubner Studienbücher.

Rosner, H.-J. (2001): Verarbeitung geographischer Daten. Methodische Bausteine zu Statistik und GIS. 3., ergänzte und verbesserte Auflage. Tübingen: Selbstverlag des Geographischen Instituts der Universität Tübingen.

1 von 13 Seiten

Details

Titel
Lineare Einfachregression und Multiple Regression
Hochschule
Eberhard-Karls-Universität Tübingen  (Geographisches Institut)
Veranstaltung
Verarbeitung Geographischer Daten
Note
2
Autor
Jahr
2007
Seiten
13
Katalognummer
V111289
Dateigröße
486 KB
Sprache
Deutsch
Schlagworte
Lineare, Einfachregression, Multiple, Regression, Verarbeitung, Geographischer, Daten
Arbeit zitieren
Benjamin Pape (Autor), 2007, Lineare Einfachregression und Multiple Regression, München, GRIN Verlag, https://www.grin.com/document/111289

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Lineare Einfachregression und Multiple Regression


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden