Regressionsanalyse


Skript, 2001

26 Seiten, Note: ohne Bewer


Gratis online lesen

Autor: Dirk Lange

Regressions- und Korrelationsanalyse

Betrachtung von Zusammenhängen, also von Ursache -> Wirkung

Regression: Besteht überhaupt ein Zusammenhang (positiv oder negativ)?
Korrelation: Wie stark ist der Zusammenhang?

Problem: Quantifizierung des kausalen Zusammenhangs (Differenzierung von Variablen)

Beispiele Werbung  Umsatz
Investition  Gewinn
Zinsen  Investition

Problem der Multikolliniarität, d.h. keine Abhängigkeit unter den unabhängigen Variablen sollte gegeben sein

a) einfache Regression: y = f(x)
b) multiple Regression: y = f(x1, x2, x3, ... xn)
c) partielle Regression: y = f(x1| x2, x3, x4)
d.h. x1 wird zuerst auf y getestet, der Rest bleibt konstant
dann wird x2 auf y getestet, der Rest bleibt konstant, usw... bis x4

Die Summe der Abweichungen (von der Geraden) muß gleich 0 sein
di = Abweichung; a = absolutes Glied; b = Steigung
Verteilung über jedem Alter = interne Streuung
gesamte Verteilung = externe Streuung

Berechnung der Regressionsgeraden

Methode der kleinsten Quadrate yi = a + bxi

a und b sind (unbekannte) Regressionskoeffizienten

Summe der quadratischen Abweichungen = 

Die Minimierung von S bezüglich der Regressionskoeffizienten a und b erfolgt durch partielle Ableitung von S nach a und b und Nullsetzen der 1. Ableitung, d.h. erst nach a ableiten, dann einsetzen und nach b ableiten.

Regressionsgerade:

Regressionsgerade:

Bsp.: 6 Personen werden zu ihrem Alter und ihrem Einkommen befragt:


Nettoeinkommen

yi
500
600
1100
1500
2200
3100

Alter

xi
20
21
25
28
36
44

Die Regressionsfunktion lautet:   y = -1.606 + 107,1x

für die Zeichnung:

x = 0, also y = -1.606

x = 40, also y = 2.678

y = 0, also x = 15 (ab 15 Jahren kommt man ins plus)

P (29 | 1500) als ( x y - Punkt)

2. Beispiel: 

Eine Firma hat ein neues Reinigungsmittel entwickelt. Bevor es auf den Markt kommt, wird auf 15 Testmärkten geprüft, wie der Verkaufspreis den Absatz des Produktes beeinflusst.

Zielgröße: Absatzquote in % = y

Instrumentvariable: Verkaufspreis / Packung = x

Absatzquote = f (Verkaufspreis)

Gesucht ist, wie stark der Verkaufspreis die Absatzquote beeinflusst!

Arbeitstabelle zur Berechnung der Regressionskoeffizienten

Test-
Nr:.
Verkaufs
preis x (xi)
Absatzquote
in % (yi)
xi2
xi · yi
xi -x
 
yi -y
Summe
1
170
62
28900
10540
-50
2500
20
-1000
2
170
65
28900
11050
-50
2500
23
-1150
3
180
46
32400
8280
-40
1600
4
-160
4
180
42
32400
7560
-40
1600
0
0
5
180
55
32400
9900
-40
1600
13
-520
6
190
55
36100
10450
-30
900
13
-390
7
190
50
36100
9500
-30
900
8
-240
8
190
57
36100
10830
-30
900
15
-450
9
220
50
48400
11000
0
0
8
0
10
230
44
52900
10120
+10
100
2
+20
11
250
45
62500
11250
+30
900
3
+90
12
270
12
72900
3240
+50
2500
-30
-1500
13
280
20
78400
5600
+60
3600
-22
-1320
14
290
13
84100
3770
+70
4900
-29
-2030
15
310
14
96100
4340
+90
8100
-28
-2520
n = 15
3300
630
758.600
127.430
0
32600
0
-11170
 
Ø = 220 Pf.
Ø = 42
           

Arbeitsschritte:

1) y bestimmen (Ø Absatzquote) = Summe %/n = 42%

2) x bestimmen (Ø Verkaufspreis) = Summe x/n = 3300/15 = 220

3) b bestimmen

4) a bestimmen

5) Die Regressionsgerade/-funktion lautet: y = 117,38 - 0,34264x

Frage: Wie hoch ist die Absatzquote bei einem Verkaufspreis von a) 2 DM und b) 2,50 DM bei der Funktion:

y = 117,38 - 0,34264x · f(200) = 48,852%, f(250) = 31,72%

y = 117,38 - 0,34264x · f(200) = 48,852%, f(250) = 31,72%

Ausssage über die Verteilung der Abweichungen · Korrelationsanalyse

4.2 Der Korrelationskoeffizient

Frage: Wie "stark" ist der Zusammenhang zwischen den beobachteten Variablen ausgeprägt? Also die Intensität des Zusammenhangs?

Diesen Zusammenhang drückt der Korrelationskoeffizient r aus

0 < r < +1 bzw. -1 < r < 0 mit den verschiedenen Möglichkeiten:

Zwei Streuungen (Abweichungen) sind zu betrachten:

1) interne Streuung (in der vertikalen Richtung), sollte möglichst klein sein

2) externe Streuung (in der horizontalen Richtung), möglichst groß

4.2.1 Bravair - Pearson´scher Korrelationskoeffizient

Bsp.: Arbeitstabelle zur Berechnung der Regressions-/Korrelationskoeffizienten

Arbeiter
yi
xi
yi - y
xi - x
(yi - y) · (xi - x)
(xi - x)2
(yi - y)2
1
5
20
-10
-9
90
81
100
2
6
21
-9
-8
72
64
81
3
11
25
-4
-4
16
16
16
4
15
28
0
-1
0
1
0
5
22
36
7
7
49
49
49
6
31
44
16
15
240
225
256
 
90
(y = 15)

174
(x = 29)

0
0
467
436
502

Interpretation:

Zwischen dem Nettoeinkommen und dem Alter besteht ein sehr hoher korrelativer Zusammenhang (r ist signifikant von Null verschieden).

Die Signifikanz hängt von der Art der Untersuchung ab; von den Anforderungen an das Modell. Es gibt eine Vorgabe eines kritischen Wertes, der erreicht werden muß.

Bestimmungsmaß:

ist ein relatives Maß für die Güte der Analyse. Es mißt die Stärke des Anteils der Streuung der abhängigen Variablen an der Gesamtstreuung.

B = r2 = 0,998212 = 0,9964 = 99,64%

Interpretation: 99,64% der Streuung der Nettoeinkommen der befragten Arbeiter ist durch die lineare Streuung der Regression mit dem Alter zu erklären. 0,4% der Streuung ist durch das Modell nicht geklärt (kann andere Zusammenhänge haben)

2. Beispiel: vergl. Tabelle "Reinigungsmittel"

Frage: Wie stark beeinflußt der Verkaufspreis die Absatzquote der Reinigungsmittel?

Interpretation: Zwischen der Absatzquote und dem Verkaufspreis besteht ein relativ enger (negativer) Zusammenhang.

Arbeitstabelle

Test-
Nr:.
Verkaufs
preis x (xi)
Absatzquote
in % (yi)
xi2
xi · yi
xi -x
(xi -x)2
yi -y
(yi -y)2
Summe
1
170
62
28900
10540
-50
2500
20
400
-1000
2
170
65
28900
11050
-50
2500
23
 
-1150
3
180
46
32400
8280
-40
1600
4
 
-160
4
180
42
32400
7560
-40
1600
0
 
0
5
180
55
32400
9900
-40
1600
13
 
-520
6
190
55
36100
10450
-30
900
13
 
-390
7
190
50
36100
9500
-30
900
8
 
-240
8
190
57
36100
10830
-30
900
15
 
-450
9
220
50
48400
11000
0
0
8
 
0
10
230
44
52900
10120
+10
100
2
 
+20
11
250
45
62500
11250
+30
900
3
 
+90
12
270
12
72900
3240
+50
2500
-30
 
-1500
13
280
20
78400
5600
+60
3600
-22
 
-1320
14
290
13
84100
3770
+70
4900
-29
 
-2030
15
310
14
96100
4340
+90
8100
-28
84
-2520
n = 15
3300
630
758.600
127.430
0
32600
0
4.658
-11170
 
Ø = 220 Pf.
Ø = 42
             

Interpretation: 82% der Absatzquote sind durch den Preis erklärt. Zwischen der Absatzquote und dem Verkaufspreis besteht ein relativ enger negativer Zusammenhang

Rangkorrelation: Man ersetzt die Beobachtungen (xi, yi) durch Paare von Rang-ahlen (xi*, yi*), die man durch fortlaufende Nummerierung der x bzw. y-Werte ihrer Größe nach erhält und errechnet für diese Rangpaare den Korrelationskoeffizient.

1. Beispiel: Studenten veranstalten am Ende ihres Skiurlaubs ein Wettrennen als Abfahrtslauf und als Slalom und erreichen dabei folgende Platzierungen:


Studenten
A
B
C
D
E
F
 

Abfahrt (x)
2
1
3
4
5
6
y von x abhängig

Slalom (y)
2
3
1
5
4
6

Gegeben sind die Rangzahlen R (xi) = xi* und R (yi) = xi*
der Beobachtungen und die Rangdifferenzen di = xi* - yi*, so gilt:

heißt Rangkorrelationskoeffizient (nach Pearson) und ist ein Maß für die Ausgeprägtheit des Zusammenhangs

Studenten
Abfahrt
R (xi) = xi*
Slalom
R (yi) = yi*
di
di²
A
2
2
0
0
B
1
3
-2
4
C
3
1
2
4
D
4
5
-1
1
E
5
4
1
1
F
6
6
0
0
Summe:
-
-
 
10

Interpretation: Es besteht ein relativ starker korrelativer (positiver) Zusammenhang

2. Beispiel: Beim Eiskunstlauf werden für 9 Läufer A und B - Noten festgehalten. Es ergeben sich dafür folgende Werte:


Läufer
1
2
3
4
5
6
7
8
9

A-Note (x)
5,3
5,6
5,0
5,3
4,9
4,6
5,3
5,0
5,2

B-Note (y)
5,4
5,4
5,1
5,2
5,0
4,5
5,5
4,8
5,1

Arbeitstabelle zur Berechnung der Rangkorrelationskoeffizienten

Läufer
A-Note
xi
B-Note
yi
R (xi) = xi*
R (yi) = yi*
di
di²
1
5,3
5,4
3
2,5
0,5
0,25
2
5,6
5,4
1
2,5
-1,5
2,25
3
5,0
5,1
6,5
5,5
1
1
4
5,3
5,2
3
4
-1
1
5
4,9
5,0
8
7
1
1
6
4,6
4,5
9
9
0
0
7
5,3
5,5
3
1
2
4
8
5,0
4,8
6,5
8
-1,5
2,25
9
5,2
5,1
5
5,5
-0,5
0,25
Summe:
   
lt. Rangfolge
1 bis 9 bzw. Mitte
0
12

Interpretation: Zwischen den Bewertungen der Läufer in der A-Note und in der B-Note besteht ein relativ hohe (positive) Korrelation, d.h. derjenige, der eine hohe A-Note erhält, erreicht i.d.R. auch eine hohe Bewertung in der B-Note.

5 Analyse von Zeitreihen

Zeitreihenanalyse

a) Querschnittsanalyse b) Längsschnittanalyse

zu a) Analyse der Struktur ökonomischer Zusammenhänge, bezogen auf den Zeitpunkt. Sie liefert Zustandsbilder zu bestimmten Zeitpunkten und ist nicht für Prognosezwecke geeignet.

zu b) Beschreibung der Merkmale innerhalb eines Zeitraums. Sie ist für Prognosezwecke geeignet. (Analyse von Zeitreihen)

Modell: y = f(t) y = Umsatz / Lohn / Produktionsentwicklung

f(t) = Periode, Tage, Wochen, Monate, Jahre,...

Definition Zeitreihen: Unter einer Zeitreihe versteht man die Entwicklung eines bestimmten Merkmals, dessen Werte im Zeitablauf zu bestimmten Zeitpunkten erfaßt und dargestellt werden.

Komponenten einer Zeitreihe: y = f (T, Z, S, R)

1) Trend (T), langfristig
2) Konjunktur (Z), mittelfristig
3) saisonale Einflüsse (S), kurzfristig
4) Restkomponente (R), zufällig

Für bestimmte Zwecke werden nur die Trendkomponente und die Saisonkomponente erfaßt und berechnet. S(t) und R(t) werden aus dem Vergleich der Daten ermittelt.

Beispiel: Der Umsatz entwickelte sich in den letzten 9 Jahren wie folgt:

 
Umsatz in Mio
y
5-Jahres-Werte
Trendwerte
1
4,8
 
-
2
5,2
 
-
3
5,6

26,7 / 5 = 5,34 = T1
5,34
4
4,9
x = T2 = 5,50
5,50
5
6,2
x = T3 = 5,62
5,62
6
5,6
x = T4 = 5,78
5,78
7
5,8
x = T5 = 5,98
5,98
8
6,4
 
-
9
5,9
 
-
 
50,4
immer ungerade Jahre
gilt für die Mitte der Periode

Nachteile:

1) Die ersten und letzten beiden Jahre der Zeitreihe werden in der
Trendkomponente nicht berücksichtigt (= Informationsverlust)
2) eine völlige Ausschaltung der Schwankungen ist nicht möglich
3) Da die Trendwerte schon vor dem Ende der Zeitreihe abbrechen ist die Methode für Prognosezwecke ungünstig

2) Die Methode der kleinsten Quadrate (vergl. Seite 2, Regressionsgerade)
Beispiel: Umsatzzahlen, quartalsweise

Quartale
1996
1997
1998
1999
2000
1
168
179
185
191
201
2
210
223
231
233
245
3
190
195
210
220
?
4
298
315
340
356
?
 
866
912
966
1000
 

Arbeitsschritte:

1) y bestimmen (Ø Umsatz) = Summe Quartale / n = 232,777

2) x bestimmen (_ Quartal) = Summe x / n = 171/18 = 9,5

3) b bestimmen

4) a bestimmen

5) Die Regressionsgerade/-funktion lautet: y = 3,2941177 x + 201,4836

Berechnung der Umsatztrendwerte (vergl. Tabelle S. 14 in rot)

mit I / 1996 x = 1 Trendwert = 201,4836 +(1 * 3,2941) = 204,77

II / 1996 x = 2 Trendwert = 201,4836 +(2 * 3,2941) = 208,06

II / 2000 x = 18 Trendwert = 201,4836 +(18 * 3,2941) = 260,77

Erstellen von Trendprognosen

III / 2000 x = 19 Trendwert = 201,4836 +(19 * 3,2941) = 264,072

IV / 2000 x = 20 Trendwert = 201,4836 +(20 * 3,2941) = 267,366

IV / 2001 x = 24 Trendwert = 201,4836 +(24 * 3,2941) = 280,542

(ist nur der Trend ohne Saisonkomponente)

Interpretation:

Wenn die ökonomischen Bedingungen gleich bleiben und die Komponenten der Zeitreihe dieselbe Wirkung auf die Entwicklung ausüben wie bisher, so kann das Unternehmen im 4. Quartal 2001 einen Umsatz von 280,542 Mio. DM erwarten.

Die Ermittlung des Saisoneinfluß

Der Saisonindex (Saisonquotient, ist die prozentuale Abweichung der ursprünglichen, saisonbeeinflussten Werte einer Reihe von der saisonal unbeeinflussten Reihe)

Berechnungsschritte: 1) Ermittlung einer Vergleichsreihe

Interpretation (S1): Der tatsächlich eingetretene Wert (Ursprungswert) ist gegenüber dem saisonfreien Trendwert um 18% (1-0,82) abgeschwächt, d.h. im 1. Quartal 1996 liegt ein saison-schwächender Einfluß mit einer Wirkung von 18% vor. 

oder: Wenn es keine saisonalen Schwankungen gegeben hätte, wäre der Umsatz in diesem Quartal um 21,89% höher gewesen (verminderte Basis von 0,82 !)

Interpretation (S4): Im 4. Quartal 1996 liegt ein saisonverstärkender Einfluß von ca. 39% vor 

oder: Wenn keine saisonalen Einflüsse zur Wirkung gekommen wären, hätte der Umsatz im 4 Quartal 1996 um ____ % niedriger gelegen

Prognose über die Entwicklung des Umsatzes

Der erwartete Umsatz (y Dach = Schätzwerte) setzt sich aus den beiden Komponenten "Trend" und "Saisoneinfluß" zusammen.

= Trendwert (Trendfunktion) · Saisoneinfluß (im Durchschnitt)

6) Bsp.: Quartalsumsätze

(III, 2000) = 201,48 +(19·3,2941) · 0,893 = 235,813

Interpretation: Im 3. Quartal 2000 ist zu erwarten, dass der Umsatz saisonbedingt ca. 235,813 Mio. DM beträgt.

(IV, 2000) = 201,48 +(19·3,2941) · _______ 2,7443 = 373,24

(IV, 2001) = 201,48 +(24·3,2941) · 1,396 = 391,63 

the very end

26 von 26 Seiten

Details

Titel
Regressionsanalyse
Hochschule
Hochschule Fulda
Note
ohne Bewer
Autor
Jahr
2001
Seiten
26
Katalognummer
V101869
Dateigröße
589 KB
Sprache
Deutsch
Anmerkungen
Vorlesungsmitschrift mit vielen Beispielen und Grafiken
Schlagworte
Regressionsanalyse
Arbeit zitieren
Dirk Lange (Autor:in), 2001, Regressionsanalyse, München, GRIN Verlag, https://www.grin.com/document/101869

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Regressionsanalyse



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden