Die optimale Wahl des Komplexitätsparameters bei der Ridge-Schätzung


Bachelorarbeit, 2012

63 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

1. Einführung

2. Theoretische Grundlagen
2.1. Modellannahmen
2.2. Multikollinearität
2.2.1. Arten der Multikollinearität
2.2.2. Diagnose
2.3. Ridge-Schätzung
2.4. Ridge-Schätzer
2.4.1. Subjektive Schätzer
2.4.2. Objektive Schätzer

3. Simulation
3.1. Modell
3.2. Durchführung
3.2.1. Variation der Stichprobengröfie
3.2.2. Variation der Variablenanzahl
3.2.3. Variation der Korrelationsstärke
3.2.4. Variation des Korrelationsfaktors
3.2.5. Variation der wahren Parameter
3.3. Auswertung

4. Der optimale Komplexitätsparameter
4.1. Durchführung
4.1.1. Variation der Stichprobengröfie
4.1.2. Variation der Variablenanzahl
4.1.3. Variation der Korrelationsstärke
4.1.4. Variation des Korrelationsfaktors
4.1.5. Variation der wahren Parameter
4.2. Auswertung

5. Zusammenfassung

A. R-Code

Abstract

Der erste Teil dieser Arbeit beschäftigt sich mit den Modellannahmen der Kleinst- Quadrate-Schätzung. Multikollinearität als Annahmeverletzung sowie deren Diagno- semögiiehkeiten und Konsequenzen fiir das Schätzergebnis werden untersucht. Das Ridge-Schätzverfahren bietet Möglichkeiten, die durch Multikollinearität auftretenden Nachteile zu vermindern. Verschiedene Ridge-Verfahren werden vorgestellt. Danach wer­den mittels der Software R verschiedene Daten mit künstlicher Multikollinearität simu­liert. Unter dreistufiger Variation fünf verschiedener Modellparameter werden die Ridge- Schätzer auf ihre Güte untersucht. Der beste Ridge-Schätzer wird ermittelt. Im letzten Teil der Arbeit wird der optimale Komplexitätsparameter berechnet. Ein unerwartetes Untersuchungsergebnis ist der Nachweis der Existenz negativer optimaler Komplexitäts­parameter bei der Ridge-Schätzung in R

Abbildungsverzeichnis

3.1. Datengeneration für n = 20, p = 2 und ? = 5

3.2. Exemplarische Verteilung der Ridge-Schätzer

3.3. Verlauf der GR über alle Parametervariationen

3.4. Kumuliertes Gütemaß SGR

4.1. Mittlerer quadratischer Fehler einer Realisation in Abhängigkeit von ? . .

5.1. Schätzergebnisse mit kopt

Tablellenverzeichis

3.1. Exemplarische Auswertung der Beispieldaten aus Kapitel 3.1

3.2. Datengeneration unter Variation der Stichprobengröfie

3.3. Ergebnisse unter Variation der Stichprobengröfie

3.4. Datengeneration unter Variation der Variablenanzahl

3.5. Ergebnisse unter Variation der Variablenanzahl

3.6. Datengeneration unter Variation der Korrelationsstärke

3.7. Ergebnisse unter Variation der Korrelationsstärke

3.8. Datengeneration unter Variation des Korrelationsfaktors

3.9. Ergebnisse unter Variation der Korrelationsstärke

3.10. Datengeneration unter Variation des Korrelationsfaktors

3.11. Ergebnisse unter Variation der Korrelationsstärke

3.12. Güteauswertung und -ranking der untersuchten Schätzverfahren

4.1. Verteilung der optimalen Komplexitätsparameter unter Variation der Stichprobengröfie

4.2. Verteilung der optimalen Komplexitätsparameter unter Variation der Va­riablenanzahl

4.3. Verteilung der optimalen Komplexitätsparameter unter Variation der Kor­relationsstärke

4.4. Verteilung der optimalen Komplexitätsparameter unter Variation des Komplexitätsparameters

4.5. Verteilung der optimalen Komplexitätsparameter unter Variation der wahren Parameter

1. Einführung

Dem Problem der Multikollinearität kann mit unterschiedlichen Verfahren begegnet werden. Eines davon ist die verbesserte Schätzung der Parameter mittels der Ridge- Schätzung. Die Idee dabei ist. die Kleinst-Quadrate-Schätzung zu stabilisieren, indem die Hauptdiagonale stärker gewichtet wird. Fiir diese Gewichtung wird der Komplexitätspa­rameter eingefiihrt. Neben der subjektiven Ridge-Spur, bei der aus dem stabilen Bereich fiir unterschiedliche Komplexitätsparameter der Ridge-Schätzer anhand einer Grafik ge­wählt wird, existieren auch objektive Verfahren zur Schätzung jenes Parameters. Erste Ziele dieser Arbeit sind. Modellannahmen zu formulieren, um danach die verschiede­nen Methoden fiir die Wahl des optimalen Komplexitätsparameters des Ridge-Schätzers vorzustellen.

2. Theoretische Grundlagen

Diese Arbeit setzt sich mit einem Spezialgebiet der Ökonometrie auseinander. Ökonome­trische Grundkenntnisse, einschließlich Kenntnisse der Methode der kleinsten Quadrate, können bei Bedarf in geeigneter Literatur nachgeschlagen werden1.

2.1. Modellannahmen

Ausgehend von folgendem multiplen linearen Regressionsmodell

Abbildung in dieser Leseprobe nicht enthalten

in welchem K die Anzahl der Parameter, T die Anzahl der Beobachtungen darstellt und welches auch in kompakter Matrixschreibweise ausgedrückt werden kann:

Abbildung in dieser Leseprobe nicht enthalten

ergibt sich nach der Methode der kleinsten Quadrate der Schätzer ß durch

Abbildung in dieser Leseprobe nicht enthalten

dessen Eigenschaften aus spezifischen Bedingungen resultieren, die nach funktionaler Spezifikation, Störgrößenspezifikation und Eigenschaften der exogenen Variablen durch die A-, B- und C-Annahmen kategorisiert werden2:

Annahme Al In Gleichung 2.2 fehlen keine relevanten exogenen Variablen und die darin benutzten exogenen Variablen sind nicht irrelevant.

Annahme A2 Der wahre Zusammenhang zwischen X und y ist linear.

Annahme A3 Die Parameter ß sind für alle T Beobachtungen (xt,yt) konstant.

Annahme Bl (Unverzerrt heit) Die Störgröße ut hat für alle Beobacht ungen t einen Er­wartungswert von ü:

Abbildung in dieser Leseprobe nicht enthalten

für t = 1, 2,..., T. Daraus folgt: E[u} = 0 und

Abbildung in dieser Leseprobe nicht enthalten

mit der Varianz-Kovarianz-Matrix

Abbildung in dieser Leseprobe nicht enthalten

Annahme B2 (Homoskedastizität) Die Störgröße ut hat für alle Beobacht ungen t eine konstante Varianz:

Abbildung in dieser Leseprobe nicht enthalten

für t = 1, 2,..., T.

Annahme B3 (Freiheit von Autokorrelation) Die Störgröße ist nicht korreliert:

Abbildung in dieser Leseprobe nicht enthalten

für alle t = s sowie t,s = 1,...,T. Wenn B2 und B3 gilt, dann ergibt sich die

Annahme B4 (Normalverteilung) Die Störgröße ut ist normalverteilt:

Abbildung in dieser Leseprobe nicht enthalten

Die vier B-Annahmen können wie folgt zusammengefasst werden:

Abbildung in dieser Leseprobe nicht enthalten

Die Residuen sind also unabhängig normalverteilt / multivariat normalverteilt3 um den Erwartungswert 0 mit der konstanten Varianz s4.

Annahme CI (Exogene Variablen fix) Die exogenen Variablen x1t, x2t,..., xKt sind keine Zufallsvariablen, sondern können wie in einem Experiment kontrolliert werden. Das heißt: Keines der Elemente der[Abbildung in dieser Leseprobe nicht enthalten]ist eine Zufallsvariable.

Annahme C2 (Freiheit von perfekter Multikollinearität) Es existieren keine Parameter­werte[Abbildung in dieser Leseprobe nicht enthalten](wobei mindeste ns ein 7k = 0), sodass zwischen den exogenen Variablen [Abbildung in dieser Leseprobe nicht enthalten] die folgende lineare Beziehung gilt:

Abbildung in dieser Leseprobe nicht enthalten

beziehungsweise

Abbildung in dieser Leseprobe nicht enthalten

2.2. Multikollinearität

Treffen alle Annahmen zu, erhält man aus 2.3 den besten linear unverzerrten Schätzer ß. Die BLUE Eigenschaft5 impliziert, dass die aus wiederholten Stichproben gewonnenen Schätzer ß im Mittel den realen Wert ß treffen würden. Der Schätzer aus der Klasse der unverzerrten Schätzer mit der kleinsten Streuung var(ß) heißt effizient6.

Die Verletzung der Annahme C2 nennt man Kollinearität, wenn eine Spalte der Matrix X als Vielfaches oder Teil einer anderen Spalte ausgedrückt werden kann. Multikollinea­rität weist auf eine Linearkombination mehrerer Spalten hin. In dieser Arbeit wird der Begriff Kollinearität als im Begriff Multikollinearität enthalten verwendet und im Fol­genden nicht gesondert benutzt.

2.2.1. Arten der Multikollinearität

Perfekte Multikollineariät

Abbildung in dieser Leseprobe nicht enthalten

Problematisch an dieser Form der Kollinearität oder Multikollinearität ist die Existenz mindestens einer perfekten linearen Abhängigkeit zwischen zwei oder mehreren Spalten: Mindestens eine Spalte von X ist als Linearkombination von anderen Spalten darstell­bar7. In diesem Fall verliert die Matrix X'X ihren vollen Spaltenrang und ihre Inverse ist nicht definiert, was eine weitere Schätzung der Parameter unmöglich macht.

Imperfekte Multikollinearität

Abbildung in dieser Leseprobe nicht enthalten

Im Unterschied zur perfekten Multikollinearität treten hier nur nahezu lineare Abhän­gigkeiten auf. Diese beeinflussen den Rang zwar nicht aber relativ kleine Änderungen in X'X sorgen für relativ große Veränderungen in (X'X)-1. Dies führt aufgrund von

Abbildung in dieser Leseprobe nicht enthalten

zu großen Varianzen einiger KQ-Sehätzcr und damit übergroßen Konfidenzintervallen. Somit verschlechtert Multikollinearität die Qualität der KQ-Sehätzcr.

2.2.2. Diagnose

Da Multikollinearität in der Regel nicht auf den ersten Blick anhand der Matrix X erkennbar ist. sollten vor allem nicht-simulierte Daten auf Multikollinearität getestet werden'. Dazu eignen sich zum Beispiel folgende Indikatoren:

Die Korrelationsmatrix R: Ist X zentriert und auf Einheitslänge skaliert, ergibt sich die Korrelationsmatrix

Abbildung in dieser Leseprobe nicht enthalten

Während ein hoher Korrelationskoeffizient zwischen zwei erklärenden Variablen in der8

Tat auf ein mögliches Kollinearitätsproblem hinweist, kann die Abwesenheit hoher Kor­relationskoeffizienten nicht als Beweis keines Problèmes betrachtet werden9. Wie oben gezeigt, kann eine Multikollincarität zwischen mehreren Variablen gleichzeitig auftreten und ist somit nicht garantiert durch diese Betrachtung der ersten Ebene erkennbar.

Die Konditionszahl misst die Sensitivität der Rcgrcssionssehätzcr zu kleinen Ände­rungen an den Daten10. Sie ist definiert als das Verhältnisses des größten zum kleinsten Eigenwert ? fe quadratischen Matrix X'X:

Abbildung in dieser Leseprobe nicht enthalten

Je näher die Konditionszahl an 1 ist, desto besser ist der Zustand im Hinblick auf Multikollincarität. Die Messung dieses Verhältnisses kann im Gegensatz zur Messung ei­ner absoluten Kenngröße in Bewertungsgrenzen gefasst werden. Empirisch wurde gezeigt, dass schwache Abhängigkeiten mit Konditionszahlen bis lüü und moderate Abhängigkei­ten mit Konditionszahlen von lüü bis lüüü verbunden sind11 12. Höhere Konditionszahlen weisen auf die Existenz starker Multikollincarität hin.

Die Korrelationsmatrix und die Konditionszahl sind beide in Kombination die Mittel der Wahl, wenn ohne großen Aufwand auf Multikollincarität untersucht werden soll.

Korrelationsmaße Bei Modellen mit zwei zu schätzenden Variablen stellt

Abbildung in dieser Leseprobe nicht enthalten

mit den Variationen

Abbildung in dieser Leseprobe nicht enthalten

ein geeignetes Maß für deren Abhängigkeit dar11. Je kleiner der Abstand zwischen R2-2

und 1 ist, desto stärker tritt die Korrelation auf. Bei mehr als 2 erklärenden Variablen können jedoch Abhängigkeiten zwischen mehr als zwei Variablen gleichzeitig auftreten. So könnte beispielsweise x1 sowohl von x2, als auch von x3 abhängen. Ist K = 4, sollten zunächst mittels der Hilfsregressionen

Abbildung in dieser Leseprobe nicht enthalten

die Bestimmtheitsmaße R2 = aiáMíchtoraataMan ^er Hilfsregressionen errechnet wer­den. Diese werden als die einfachen Korrelationsmaße R2^2, R\-3 uncl R2·? bezeichnet. Von Auer zeigt, dass die daraus gewonnenen Informationen nicht ausreichen, da sie zu relativ kleinen Korrelationsmaßen trotz perfekter Multikollinearität führen können. Es ist also notwendig, alle K Vektoren von X auf wechselseitige Abhängigkeiten zu untersuchen.

Abbildung in dieser Leseprobe nicht enthalten

Der Zustand K = 4 bedingt 6, der Zustand K = 5 bereits 22 Hilfsregressionen - eigentlich sind es 28, jedoch verringert sich die Anzahl durch Identitäten erster Ebene wie R|3 = R^2. Die benötigte Anzahl der Hilfsregressionen CHR kann man als Summe verschiedener Kombinationen ohne Zurücklegen ermitteln.

Definiert man als und a! als ? ft, ergibt sich CHR aus

Abbildung in dieser Leseprobe nicht enthalten

Die so cnstchcndcn Korrelationsmafie können als genaueste Analyse von Multikollinea- rität betrachtet werden. Um diesen Rechenaufwand zu vermeiden, existieren jedoch einfachere Alternativen.

Der Varianz-Inflations-Faktor ist definiert als13

Abbildung in dieser Leseprobe nicht enthalten

wobei R der quadratische multiple Korrelationskoeffizient zwischen xi und den anderen erklärenden Variablen ist. Der VIF beschreibt das Verhältnis der tatsächlichen Varianz zur Varianz, die aufträte, wenn xi mit den anderen x-i unkorreliert wäre, also mit einer idealen Situation. Ein hoher VIF impliziert ein R2 nahe 1 und deutet deshalb auf Kollinearität hin. Die Schwächen dieses Verfahrens, wie die der Korrelationmatrix R, liegen in der Unfähigkeit, zwischen verschiedenen koexistierenden fast perfekten Ab­hängigkeiten zu unterscheiden und im Fehlen einer verlässlichen Grenze, um zwischen hohen und niedrigen Werten des VIF zu differenzieren.

Theils Maß ist definiert als14:

Abbildung in dieser Leseprobe nicht enthalten

Wenn alle x unkorreliert sind, dann wird m = 0 sein, weil sich die inkrementeilen Beiträge (R2 — R— ) zu R2 addieren werden. In anderen F allen kann m sowohl positive als auch negative Werte annehmen.

Das Problem bei der Messung von Multikollincarität ist, dass sich die Interkorrelatio­nen der Variablen mit einer Redefinition jener verändern.15 Darum sollte man Multikol­lincarität in jenem Modell messen, welches tatsächlich geschätzt werden soll.

2.3. Ridge-Schätzung

Aus vorstehenden Betrachtungen ist bekannt, dass der KQ-Schätzer ß = (X'X)-1X'y kein präziser Schätzer ist, wenn fast lineare Abhängigkeiten zwischen Spalten der Ma­trix X existieren16. Im Falle auftretender Kollinearität entstehen die Probleme durch das Verhalten der Inversen der Matrix X'X: Kleine Änderungen in der Matrix X'X resultie­ren in großen Änderungen in (X'X)-1. Dies führt zu großen (Co-)Varianzen, verbreitert die Konfidenzintervalle und reduziert so die Qualität der ? Q-Schätzung gegenüber einer solchen Schätzung in Abwesenheit von Multikollincarität.

Die Ridge-Schätzung versucht, den Einfluss von Multikollincarität zu verringern, in­dem sie die Hauptdiagonalelemente von X'X um den Wert des Komplexitätsparameters k erhöht und verzichtet auf das Kriterium der Unverzerrtheit zugunsten eines verbes­serten Schätzergebnisses. In der Realität, das heißt in nicht simulierten Daten, sind die wahren Werte der ß-Parameter unbekannt. Folglich kann das optimale k nicht errechnet, sondern muss geschätzt werden.

2.4. Ridge-Schätzer

Wenn k nicht stochastisch ist, ergibt sich der Ridge-Schätzer

Abbildung in dieser Leseprobe nicht enthalten

als homogener linearer Schätzer mit

Abbildung in dieser Leseprobe nicht enthalten

und

Abbildung in dieser Leseprobe nicht enthalten

Nach Grofi17 kann man folgende Ridge-Schätzer unterscheiden:

2.4.1. Subjektive Schätzer

Die Ridge-Spur bildet alle K Elemente von ßk in Abhängigkeit von k ab. Der Be­trachter entscheidet sich dann auf dieser Basis für ein k = ktr, unter welchem sich die Funktionen zu stabilisieren beginnen.

Abbildung in dieser Leseprobe nicht enthalten

Die Aussagekraft der Ridge-Spur hängt sowohl von der Erfahrung des Betrachters, als auch vom Intervall ks ab, in dem die Funktionen gezeigt werden. So könnte man bei größerem Intervall dazu verleitet werden, ein ktr > kopt zu wählen. Es existieren allerdings Vorschläge zur Anwendung verschiedener Skalen18. Als optimales k in obiger Grafik wurde später k,ypt = 0.9561 errechnet.

2.4.2. Objektive Schätzer

Schätzer nach Hoerl, Kennard und Baldwin schätzen wie folgt19:

Abbildung in dieser Leseprobe nicht enthalten

Seit der Originalvcröffcntlichung von Hoerl und Kennard im Jahre 1970 hat es eine große Anzahl von Veröffentlichungen anderer Autoren zu diesem Thema gegeben. [Hoc85] und [Vin78] bieten einen breiten Literaturiiberblick an.

Schätzer von Lawless und Wang: Es wird vom reparametrisierten Modell

Abbildung in dieser Leseprobe nicht enthalten

ausgegangen, welches der Bedingung Z'Z = IK genügt. In diesem Modell ist der zuge­hörige Schätzer kHKB gegeben durch

Abbildung in dieser Leseprobe nicht enthalten

Schätzer von Lindley und Smith: Dieser Schätzer unterscheidet sich von kLW durch den Faktor, mit dem k2/(ß'ß) multipliziert wird.

Abbildung in dieser Leseprobe nicht enthalten

Iterativer Schätzer von Hoerl und Kennard: Es wurde die Erfahrung gemacht, dass der Schätzer kHKB häufig auf einen zu kleinen Wert für k weist. Eine Möglichkeit, den Schätzer zu erhöhen, ist durch Iteration des Schätzprozesses gegeben.

Abbildung in dieser Leseprobe nicht enthalten

Die Iteration wird fortgesetzt, bis die Differenz zwischen kffKB und klHKB kleiner ist als eine bestimmte Grenze. Ebenso wie kHKB können auch die Schätzer kLW und kLs als Ausgangswerte fiir einen Iterationsprozess benutzt werden.

3. Simulation

Wie bereits vorbemerkt, ist das Ziel dieser Arbeit der Gütevergleich verschiedener Ridge- Schätzer. Dies soll mittels Simulationen auf Basis des Open-Source-Programms R ge­schehen20. In R wird die Programmiersprache S zur Lösung ökonometrischer Probleme genutzt. Im Folgenden werden die Schritte dieser Simulation erklärt. Der Quellcode der Simulation befindet sich im Anhang.

3.1. Modell

Zuerst werden die allgemeinen Modellparameter festgelegt. Um eine bessere Nachvoll­ziehbarkeit des Quellcodes zu ermöglichen, werden ab jetzt an Stelle von T und K die Notationen n und p verwendet. Ausgangspunkt sind demnach «Beobachtungen von p Variablen eines Modells ohne absoluten Parameter.

Abbildung in dieser Leseprobe nicht enthalten

[...]


1 Siehe dazu [Gre03] oder [Guj03]

2 “siehe [AueOT] S. 140ff

3 Fiir eine genaue Definition der liier verwendeten Begriffe siehe [Jud88]

4 BLUE: Best Linear Unbiased Estimator

5 “siehe [Aue07] S. 71 - 76

6 (>sielie [Schli] S. 75

7 siehe [Jud88] S. 902ff

8 siehe [Bel80] S. 92f

9 siehe [Bel9lj S. 173

10 “'siehe [Bel80] S. 1041'

11 in Anlehnung an [Aue07], S. 4861'

12 siehe [Mad92] S. 274

13 siehe [TlieTl] S. 164-166

14 sielie weit.erlülirend [Mad92] S. 276-280

15 siehe [Gro03] S. 571'

16 siehe [Gro03] S. 123-128

17 siehe [Vin81] Abschnitt 7.2.5

18 sielie [Hoe75] S. 127f

19 Programm erhältlich auf http://cran.r-project.org/. siehe auch [Horli]

Ende der Leseprobe aus 63 Seiten

Details

Titel
Die optimale Wahl des Komplexitätsparameters bei der Ridge-Schätzung
Hochschule
Technische Universität Dresden  (Professur für Quantitative Verfahren, insb. Ökonometrie)
Note
1,3
Autor
Jahr
2012
Seiten
63
Katalognummer
V202749
ISBN (eBook)
9783656289005
ISBN (Buch)
9783656289579
Dateigröße
2277 KB
Sprache
Deutsch
Anmerkungen
Schlagworte
Ridge, Schätzung, Ökonometrie, Statistik, Komplexitätsparameter, negative k, negativ, OLS, KQ, KQ Schätzung, Kleinste Quadrate, Hendrik, Rausch, Grid-Search, Dresden, TU, Simulation, Trace, Hoerl, Kennard, Baldwin, HKB, Lawless, Wang, Lindley, Smith, LW, LS, Modell, iterativ, k<0
Arbeit zitieren
Hendrik Rausch (Autor), 2012, Die optimale Wahl des Komplexitätsparameters bei der Ridge-Schätzung, München, GRIN Verlag, https://www.grin.com/document/202749

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Die optimale Wahl des Komplexitätsparameters bei der Ridge-Schätzung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden