INHALTSVERZEICHNIS
ii
3 Regressionsmodelle mit linearen Parameterrestriktionen 22
3.1 Restriktionen in Gleichungsform 23
3.1.1 Die restringierten Schätzer 24
3.1.2 Die Varianz-Kovarianz-Matrix 26
3.1.3 Konsequenzen inkorrekter Bedingungen 27
3.1.4 Der RLSE bei Verletzung der Rangbedingungen 29
3.1.5 Beispiel aus der Mikroökonomik 35
3.2 Restriktionen in Ungleichungsform 37
3.2.1 Die Optimalitätsbedingungen 38
3.2.2 Spezialfälle für eine geschlossene Lösung 39
3.2.3 Ansätze für eine geschlossene Form 39
3.2.4 Asymptotische Eigenschaften des ICLSE 42
3.2.5 Beispiele: Lösungsvergleich Kuhn-Tucker versus
geschlossene Form 43
3.2.6 Der zweistuge Ansatz 49
3.3 Stochastische Restriktionen 50
3.3.1 Der Mixed Estimator 50
3.3.2 Die Varianz-Kovarianz-Matrix 52
3.3.3 Spezialfälle 52
3.4 Mischformen 52
3.5 Der Pretest Schätzer 53
4 Multikollinearität 55
4.1 Exakte Multikollinearität 55
4.1.1 Beispiel 56
4.2 Beinahe Multikollinearität 56
4.2.1 Beispiel 57
5 Fazit 59
Literaturverzeichnis 60
Abbildungsverzeichnis
2.1 geschätzte Nachfragefunktion 21
3.1 Einfache Regression mit PR 46
4.1 Exakte Kollinearität 56
4.2 Beinahe Kollinearität 58
iii
Tabellenverzeichnis
3.1 Datentabelle für Beispiel 3.1.5 36
3.2 Datentabelle zu Beispiel 1 44
3.3 Datentabelle zu Beispiel 2 48
iv
Abkürzungsverzeichnis
API A-priori-Informationen BLUE Best Lineare Unbiased Estimator bzgl. bezüglich bzw. beziehungsweise d.h. das heiÿt engl. englisch f. und folgende (bei Seitenangaben) . und fortfolgende (bei Seitenangaben) i.A. im Allgemeinen ICLSE Inequality Constrained Least Squares Estimator KT Kuhn-Tucker KQ Kleinst-Quadrate LSE Least Squares Estimator ML Maximum-Likelihood MSE(M) Mean Squared Error (Matrix) PR Parameterrestriktion RM Regressionsmodell RLSE Restricted Least Squares Estimator S. Seite SSE Sum of Squared Errors SSR Sum of Squared Residuals TSE Two Step Estimator vgl. vergleiche z.B. zum Beispiel
v
Symbolverzeichnis
rg min x ff @xAg a x min Das Argument x, das die Funktion f minimiert Cov@Z; Y A Kovarianz der Zufallsvariablen Z und Y det@AA Determinante der Matrix A E@ZA Erwartungswert der Zufallsvariablen Z exp@xA a e (x ) eulersche Exponentialfunktion
I T Einheitsmatrix mit T Zeilen und Spalten log e a a ln a natürlicher Logarithmus von a
lim f @xA Grenzwert der Funktion f , wenn x gegen x 0 geht
x3 x 0
N@; 2 A Normalverteilung
Rg@XA Rang der Matrix X
V ar@ZA
X 1 inverse Matrix von X X H transponierte Matrix von X %
ungefähr, approximativ
mathematisches "und"
W
Es gibt ein, Es existiert ein
n
a i Produkt von a k ; a k+1 ; : : : ; a n
i=k
x Xa y x ist deniert als y $
ist verteilt als
@x a f H @xA @f (x ) Dierentialquotient, erste Ableitung von f nach x A A B
Aus A folgt B, A ist hinreichend für B oder A impliziert B
vi
Kapitel 1
Einleitung
1.1 Problemstellung
Die Regressionsanalyse ist eine äuÿerst vielseitig anwendbare und daher bedeutende statistische Methodik. Sie ndet neben der Ökonomie in zahlreichen anderen Wissenschaftsgebieten wie etwa der Soziologie und Psychologie, der Politologie aber auch in der experimentellen Forschung der naturwissenschaftlichen Disziplinen Verwendung (Gruber, 1997, S. 3).
Regressionsmodelle dienen ganz allgemein zur Untersuchung von Beziehungen, die zwischen irgendwelchen beobachtbaren Gröÿen bestehen bzw. bestehen können. Es wird eine Masse an Daten gebraucht, um die Existenz der vermuteten Zusammenhänge zwischen den Variablen nachzuweisen. Dabei wird auf Einzelphänomene in der Datenmasse keine Rücksicht oder Bezug genommen. Im Gegensatz zur Korrelationsanalyse, welche die Stärke des Zusammenhangs zweier Variablen erfaÿt ohne eine Aussage bzgl. einer Wirkungsrichtung zu treen, baut die Regressionsanalyse auf der Annahme über eine einseitig funktionale Beziehung auf, deren Herleitung es in der Praxis sachlogischer Überlegungen bedarf (Fahrmeier, 1999, S. 152). Ein sogenanntes ökonometrisches Modell ergibt sich somit durch die wirtschaftstheoretische Fundierung eines rein formalen Regressionsmodells (vgl. Gruber (1997, S. 2 f.)) oder anders herum gesehen durch die Ausstattung eines Theoriegerüstes ökonomischer Kausalbeziehungen mit diversen stochastischen Prämissen (vgl. Judge (1988, S. 175)). Die Arbeit widmet sich dem Fall der verallgemeinerten, multiplen Regression
1
KAPITEL 1
2
bei dem nur eine abhängige Variable 1 y sich als eine Funktion mehrerer erklärender Variablen 2 x ausdrücken lässt, von der im übrigen davon ausgegangen werden soll, dass sie linear ist. Das Adjektiv multipel bringt zum Ausdruck, dass
die Funktion mehrere Regressoren hat, und nicht wie bei der einfachen Regression nur durch eine unabhängige Variable determiniert wird. Bei den Ausprägungen der erklärten Variablen handelt es sich in aller Regel um kardinal skalierte Werte.
Binäre 3 Werte für y würden in den Bereich der logistischen Regression führen, wobei als Wahrscheinlichkeit denierte y Werte den Probitmodellen zugeordnet
werden können. Die beiden letztgenannten Möglichkeiten für die Ausprägung des Regressanden werden hier nicht behandelt, weil sie nicht zum zentralen Thema der Arbeit gehören. Im Unterschied dazu ist es bei der Auswahl der Regressoren durchaus üblich, neben den kardinal auch binär skalierte Variablen zu berücksichtigen.
Diese Diplomarbeit behandelt das Problem der Einbringung von a- priori-Informationen 4 (API) in das lineare Regressionsmodell (RM). Hierbei handelt es sich um einen Spezialfall der linearen Regression, da Vorinformationen für die Schätzung der Koezienten nicht zwangsläug existieren müssen. In einigen Fällen ist aber die Beachtung von Zusatzinformationen aus Gründen der Modellspezikation absolut notwendig, um nicht interpretierbare Lösungen, die sich aus Fehlern im Datenmaterial ergeben würden, von vornherein auszuschliessen. 5 Restriktionen kommen auch in Fällen zur Anwendung, in denen sich Erfahrungswerte für die Koezientenschätzer aus vorhergehenden empirischen Untersuchungen gebildet haben. Eine rein empirisch begründete Vorinformation hat den Nachteil, dass die Untersuchungen häug nicht vergleichbar sind, auch wenn dieselbe Problemstellung zugrunde liegt (Stahlecker, 1987, S. 18). Es ist folglich eine Entscheidung zu treen, ob die Koezienten nach dem restriktiven Modell oder dem nichtrestriktiven Modell geschätzt werden sollen. Diese Entscheidung hängt von der jeweiligen Güte der Schätzung ab. Dabei wird erwartet, dass die Einbringung 1 y wird auch Regressand, endogene oder erklärte Variable genannt.
2 x wird auch Regressor, exogene oder erklärende Variable genannt.
3 Nur zwei Ausprägungsmöglichkeiten zumeist 0 und 1
4 Synonym für Vorinformationen, Zusatzinformationen
5 Allerdings wird eine empirische Überprüfung der verwendeten Restriktionen im nachhinein
nicht mehr möglich sein.
KAPITEL 1
3
von Vorinformationen zusammen mit den Beobachtungsdaten in den eigentlichen Schätzvorgang zu verbesserten Schätzergebnissen führt. Dies erscheint recht einleuchtend, wenn man überlegt, dass API neben dem Datenmaterial als zusätzliche Information in den Schätzprozess einwirken. API entstehen aus technologischen oder sachlogischen Einschränkungen, und treten in LRM als Restriktionen unterschiedlichster Form auf. Da in dieser Arbeit nur lineare Parameterrestriktionen (PR) behandelt werden, sind diese entweder in Gleichungsform mit oder ohne stochastischem Glied oder in Ungleichungsform vorzunden.
1.2 Struktur der vorliegenden Arbeit
Zum Einstieg wird dem Leser das Grundmodell erläutert, um die Voraussetzungen zur Betrachtung des Modells mit Parameterrestriktionen (PR) zu schaen. Die Koezienten und die Varianz der Störvariablen werden nach dem Prinzip der Kleinsten-Quadrate und nach der Maximum-Likelihood-Methode für das unrestringierte Modell geschätzt. Die Eigenschaften der Schätzer werden aufgezeigt, und zum Abschluÿ veranschaulichen Zahlenbeispiele die zuvor behandelte Theorie.
Im darauolgenden Kapitel werden die verschiedenen Erscheinungsformen von PR nacheinander aufgeführt. Es wird auf die Schreibweise, und darauf wie Restriktionen in den Schätzprozess eingebaut werden können, eingegangen. Soweit
möglich, werden die Schätzer in einer geschlossenen Form 6 angegeben. Wie im
vorhergehenden Kapitel werden die Eigenschaften von jedem Schätzer analysiert. Besonderes Augenmerk fällt dabei auf den Erwartungswert und die Varianz des Schätzers. Der Lageparameter gibt an, ob die geschätzte Gröÿe im Mittel dem wahren Wert entspricht, und der Streuungsparameter wird für den Vergleich der Güte der verschiedenen Schätzer (Wirksamkeitsbetrachtung) benötigt. Das Theoriengerüst wird, wann immer sich die Möglichkeit dazu ergibt, mit praktischen Beispielen unterstützt.
In Kapitel 4 wird auf die Bedingungen für Multikollinearität und die sich daraus ergebenden Besonderheiten eingegangen.
6 Die geschlossene Form oder Lösung ist die Bezeichnung für eine allgemeine Gleichung, nach
der die Schätzer bestimmt werden können.
KAPITEL 1
4
In Kapitel 5 werden die Ergebnisse der gesamten Arbeit zusammengefasst.
1.3 Zielsetzung
Dem interessierten Leser sollen Unterschiede in der Koezientenschätzung zwischen dem linearen RM ohne Restriktionen und dem linearen RM mit PR veranschaulicht werden. Bemerkbar machen sich diese Unterschiede letztendlich in der Schätzfunktion. Die Schätzungen werden auf ihre Güte hin überprüft und verglichen. Es wird erörtert, inwiefern Restriktionen zur Verbesserung des Schätz- ergebnisses beitragen können.
Kapitel 2
Spezikation der restriktionsfreien
Modelle
In diesem Kapitel gehen die statistischen Schätzverfahren davon aus, dass keiner-lei Vorinformationen über die unbekannten Parameter vorliegen. Alles, was man
über die Parameter in Erfahrung bringen kann, soll allein aus den der Schätzung zugrundeliegenden Beobachtungsdaten entnommen werden.
2.1 Das multiple lineare Regressionsmodell
2.1.1 Skizzierung des Regressionsmodells
Das multiple, lineare RM beschreibt Abhängigkeitsbeziehungen zwischen mehre-ren unabhängigen Variablen x k mit k a I; P; :::; K und einer abhängigen Variablen y. Diese Abhängigkeitsbeziehungen werden in additiv verknüpften Gleichungssystemen mit einer stochastischen Komponente e dargestellt. Formal lässt sich dies
folgendermaÿen ausdrücken:
Vt a I; :::; T: y t a 1 x t1 C 2 x t2 C ::: C K x tK C e t (2.1)
In Matrixnotation:
y 1 x 11 x 12 : : : x 1K 1 e 1
KAPITEL 2
6
Nach entsprechender Denition:
y a X C e: (2.3)
Die Gleichungen (2.1)-(2.3) sind identisch. Sie unterscheiden sich lediglich in ih-
rer Darstellungsform. In (2.3) repräsentiert y einen Vektor von T beobachteten
Zufallsvariablen. Das heiÿt in einer Stichprobe werden aus T verschiedenen Perioden (im Falle einer Zeitreihenanalyse) bzw. von T unterschiedlichen Elementen (Querschnittsstudie) Daten erhoben.
X ist eine deterministische @T ¢KA-Matrix. Die einzelnen Elemente der Matrix
sind also bekannt. In den meisten Fällen ist die erste Spalte, eine Spalte aus 1ern,
so dass x 11 a x 21 a : : : a x T 1 a I und 1 eine Niveaugröÿe ist (vgl. Greene
(2003, S. 10)). Man spricht dann von einer inhomogenen Regression. Bei der homogenen Regression wird das Fehlen der Konstanten unterstellt, so dass die
geschätzte Ebene stets den Ursprung enthält. 1 Da aufgrund dieser Vorgabe der wahre Zusammenhang möglicherweise nicht korrekt wiedergegeben wird, werden
wir immer von einem inhomogenem RM ausgehen. Die Gröÿe @K IA gibt dann
die Anzahl der Regressoren an. 2
ist ein @K ¢ IA-Koezientenvektor, der den Erklärungsbeitrag der unabhängigen Variablen angibt. Allerdings sind die konstanten Gröÿen 1 ; :::; K un-
bestimmt und müssen mit einem geeigneten Schätzverfahren ermittelt werden.
Als Letztes wäre da noch der Vektor der Störvariablen e 3 . Die Störvariable ist
eine Zufallsvariable, die die an sich stabile Beziehung zwischen Regressand und Regressor stört (siehe Greene (2003, S. 8)). Sie schlieÿt alle nicht unmittelbar
beobachtbaren Einüsse (z.B. Messfehler) auf y in das Modell mit ein. Insbeson-dere die Tatsache, dass nicht alle exogenen Variablen, die einen Einuÿ auf die
abhängige Variable haben, in die Gleichung eingegangen sind. Da e ein Vektor ist, haben wir es mit T verschiedenen Zufallsvariablen zu tun. e fügt sich additiv
in das Modell ein. Das ist keine Selbstverständlichkeit. Ein multiplikativer Zusammenhang wäre ebenso vorstellbar. Auf diese Tatsache sei hiermit hingewiesen, sie wird in dieser Arbeit aber nicht eigens diskutiert.
1 Beweis folgt später
2 Wenn K = 2 ist, nennt man es einfaches inhomogenen RM.
3 e steht für das engl. Wort error was übersetzt Fehler heiÿt.
KAPITEL 2
7
Würde die Störgröÿe in unserem Modell fehlen, dann hätten wir ein lineares Gleichungsystem, bei dem die Koezienten z.B. mit dem Determinantenverfah-ren berechnet werden könnten. y wäre keine Zufallsvariable mehr, und alle Punkte würden dann in einer Hyperebene liegen. 4 Die eben beschriebenen Vektoren und die Matrix X sind in (2.2) im Ganzheitlichen zu betrachten.
Bevor wir zum klassischen linearen RM übergehen, erscheint es mir wichtig, die für den Modellrahmen in Anspruch genommene Linearität genauer zu denieren. Wenn die Rede von einem linearen Regressionsmodell ist, so ist zwischen der Linearität in den Variablen und der Linearität in den Parametern zu dierenzieren. Die Hauptprämisse für die Linearität besteht darin, dass die verwendeten Parameter mit einem Exponenten von eins und in ausschlieÿlich additiver Form in die Regressionsgleichung eingehen (vgl. Makridakis (1983, S. 221 f.)). Nicht unbedingt vorausgesetzt ist dagegen ein linearer Zusammenhang zwischen den zu untersuchenden Regressoren, solange sich die Originaldaten durch Logarithmieren, Wurzelziehen und so weiter in den oben beschriebenen formalen Rahmen einfügen lassen. Obwohl in der Ökonomie häug Kausalitätsbeziehungen quadratischer, exponentieller oder sonstiger nicht-linearer Natur vermutet werden, ist die Linearitätsbedingung aufgrund vielfältiger Transformationsmöglichkeiten keine derart einengende Restriktion bzgl. der Anwendbarkeit, wie vielleicht vermutet wird (vgl. Greene (2003, S. 11 .)).
2.1.2 Varianz-Kovarianz-Matrix versus Mittlerer
Quadratischer Fehler-Matrix
Es soll aufgezeigt werden, inwiefern die Varianz-Kovarianz-Matrix 5 und die mittlere quadratische Fehler-Matrix 6 sich unterscheiden. Eine Varianz- Kovarianz-Matrix entsteht aus der Varianz eines Zufallsvektors a P R T . Die Varianz von a
4 In der zweidimensionalen Darstellung ist die Hyperebene eine Gerade (siehe Abbildung (2.1)).
5 Wird auch nur Kovarianz-Matrix genannt.
6 engl.: Mean Squared Error Matrix (MSEM)
KAPITEL 2
8
ist deniert durch den Ausdruck:
V ar@aA a E
@a 1 E@a 1 AA 2 : : : @a 1 E@a 1 AA@a T E@a T AA
a E
a
Die Kovarianz-Matrix ist stets quadratisch und wegen Cov@a i ; a j A a Cov@a j ; a i A für alle i T a j auch stets symmetrisch. Ihre Diagonalelemente geben die quadra-tischen Abweichungen vom Erwartungswert an.
Die Matrix des mittleren quadratischen Fehlers hingegen ist deniert als
@a A@a A H ; MSEM@aA a E (2.4)
wobei die wahre Gröÿe des Schätzers a ist. Die Diagonalelemente der MSE-Matrix hingegen beschreiben die quadratischen Abweichungen vom wahren Wert. Beide Matrizen haben die gleiche Anzahl an Zeilen und Spalten und dienen auf-grund ihrer Beschreibung der Streuung als Maÿ für die Güte einer Schätzung.
Sie stimmen überein, wenn E@aA a , also a eine erwartungstreue Schätzfunktion für darstellt. Handelt es sich bei a um eine verzerrte Schätzfunktion, ist
zur Bestimmung der Güte die MSE-Matrix der Kovarianz-Matrix vorzuziehen. Dies lässt sich daraus begründen, dass in so einem Fall die Kovarianz-Matrix die Streuung um einen falschen Koezienten angibt.
2.1.3 Das klassische lineare Regressionsmodell
Einer der wichtigsten Begrie im Rahmen der Regressionsanalyse ist der des
klassischen linearen Regressionsmodells. Dahinter verbirgt sich ein lineares Mo-dell wie es im vorherigen Abschnitt beschrieben wurde. Der Unterschied besteht darin, dass im allgemeinen RM notwendige Angaben fehlen, um die Beziehungen
Arbeit zitieren:
Ronny Schönborn, 2006, Lineare Regression mit linearen Parameterrestriktionen, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
BWL - Allgemeines: neuer Titel erschienen: Lineare Regression mit linearen Parameterrestriktionen
BWL - Allgemeines: neuer Titel erschienen: Lineare Regression mit linearen Parameterrestriktionen
Ronny Schönborn hat einen neuen Text hochgeladen
Übungsbuch zur Linearen Algebra und analytischen Geometrie
Aufgaben mit Lösungen
Dietlinde Lau
Unterrichtspraxis S II Mathematik: Lineare Algebra / Analytische Geome...
Koordinatendarstellung einer E...
Werner Mayers, Dietrich Pohlmann
Nonparametric Regression and Generalized Linear Models
P. J. Green, Bernard W. Silverman, B. W. Silverman
Regression Methods in Biostatistics
Linear, Logistic, Survival, an...
Eric Vittinghoff, Charles E. McCulloch, David V. Glidden, Stephen C. Shiboski
0 Kommentare