Inhaltsverzeichnis
Seite
I Einleitung. 1
II Der verwendete Datensatz. 2
III Der lineare Ansatz 2
1 Programmaufbau/Auswertung der Ergebnisse 2
1.1 Die verwendeten Variablen 2
1.1.1 Die Variablen des Datensatzes 2
1.1.2 Die Generierung neuer Variablen. 3
1.2 Die Auswahl der Stichprobe. 3
1.3 Die Auswahl der Referenzgruppe. 4
1.4 Grundlagen der statistischen Untersuchungen 4
1.4.1 Der Ansatz 4
1.4.2 Der erweiterte Ansatz 5
1.4.3 Die Tests 5
1.4.3.1 Der Jarque-Bera-Test 6
1.4.3.2 Der Test auf Heteroskedastie 6
1.4.3.3 Der Test auf korrekte funktionale Form 7
1.4.3.4 Der Test auf die statistische Signifikanz einer Gruppe von Variablen. 7
1.4.4 Die Wahl des Signifikanzniveaus / der p-Value. 8
1.4.5 Die Behandlung von Ausreißern 8
1.5 Statistiken zu den verwendeten Variablen. 8
1.6 Die Ermittlung der Ausreißer 10
1.7 Die ols-Schätzung des linearen Ansatzes 10
1.7.1 Die Schätzung der Ausgangsfunktion 11
1.7.1.1 Die Schätzung mit Ausreißern. 11
1.7.1.1a) Die Ergebnisgleichung 11
1.7.1.1b) Die Testergebnisse 11
1.7.1.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 12
1.7.1.2 Die Schätzung nach dem Ausschluss der Ausreißer. 12
1.7.1.2a) Die Ergebnisgleichung 12
1.7.1.2b) Die Testergebnisse 13
1.7.1.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 13
1.7.2 Die Schätzung der erweiterten Funktion 14
1.7.2.1 Die Schätzung mit Ausreißern. 14
1.7.2.1a) Die Ergebnisgleichung 14
1.7.2.1b) Die Testergebnisse 15
1.7.2.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 16
1.7.2.2 Die Schätzung nach dem Ausschluss der Ausreißer. 17
1.7.2.2a) Die Ergebnisgleichung 17
1.7.2.2b) Die Testergebnisse 18
1.7.2.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 19
2 Fazit der Schätzung mit dem linearen Ansatz 19
iii
IV Die nichtlinearen Ansätze. 20
1 Die Auswahl der nichtlinearen Ansätze 20
2 Programmaufbau. 21
2.1 Die verwendeten Variablen 21
2.2 Die Auswahl der Stichprobe und der Referenzgruppe 22
2.3 Grundlagen der statistischen Untersuchungen 22
2.3.1 Die Ansätze 22
2.3.2 Die Tests 22
2.3.3 Die Wahl des Signifikanzniveaus. 22
3 Die ols-Schätzungen des ersten nichtlinearen Ansatzes. 22
3.1 Der Ansatz 22
3.2 Der erweiterte Ansatz 23
3.3 Statistiken zu der neuen Variablen 23
3.4 Die Ermittlung der Ausreißer 24
3.5 Die Schätzung der Ausgangsfunktion 24
3.5.1 Die Schätzung mit Ausreißern 24
3.5.1a) Die Ergebnisgleichung 24
3.5.1b) Die Testergebnisse 25
3.5.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 26
3.5.2 Die Schätzung nach dem Ausschluss der Ausreißer 26
3.5.2a) Die Ergebnisgleichung 26
3.5.2b) Die Testergebnisse 26
3.5.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 27
3.6 Die Schätzung des erweiterten Ansatzes 27
3.6.1 Die Schätzung mit Ausreißern 27
3.6.1a) Die Ergebnisgleichung 27
3.6.1b) Die Testergebnisse 28
3.6.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 29
3.6.2 Die Schätzung nach dem Ausschluss der Ausreißer 30
3.6.2a) Die Ergebnisgleichung 30
3.6.2b) Die Testergebnisse 30
3.6.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 31
3.7 Fazit der Schätzung mit dem ersten nichtlinearen Ansatz. 32
4 Die ols-Schätzungen des zweiten nichtlinearen Ansatzes 32
4.1 Der Ansatz 32
4.2 Der erweiterte Ansatz 33
4.3 Statistiken zu der neuen Variablen 33
4.4 Die Ermittlung der Ausreißer 33
4.5 Die Schätzung der Ausgangsfunktion 34
4.5.1 Die Schätzung mit Ausreißern 34
4.5.1a) Die Ergebnisgleichung 34
4.5.1b) Die Testergebnisse 35
4.5.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 35
4.5.2 Die Schätzung nach dem Ausschluss der Ausreißer 36
4.5.2a) Die Ergebnisgleichung 36
4.5.2b) Die Testergebnisse 36
4.5.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix 37
4.5.2d)Die Veränderungen bei einem Ausreißerausschluss für „Umsatz 97 “ 37
4.6 Die Schätzung des erweiterten Ansatzes 38
4.6.1 Die Schätzung mit Ausreißern 38
iv
4.7
V Gesamtfazit der Aufgabe.................................................... 44
VI Literaturverzeichnis ........................................................... 45
Anhang:
I Einleitung
Die folgenden Ausführungen beziehen sich auf eine Hausarbeit im Rahmen des Seminars „Empirische Mittelstandsforschung“. In dieser Hausarbeit wird untersucht, ob ein statistisch signifikanter Zusammenhang zwischen der Wachstumsrate des Umsatzes von 1997 bis 1998 in Prozent (im Folgenden kurz „Wachstumsrate“) und dem Kreis, in dem ein Betrieb 1997 seinen Sitz hatte (im Folgenden kurz „Kreis“), besteht. Dabei soll die Kontrolle für den Einfluss des Umsatzes im Jahr 1997 stattfinden.
Die Untersuchung findet anhand eines einfachen linearen Ansatzes und anhand von nichtlinearen Ansätzen statt. Um die Betrachtung übersichtlicher zu gestalten, werden die Ausführungen zu diesen Ansätzen getrennt voneinander dargestellt. Zunächst wird der lineare Ansatz im Anschluss daran die nichtlinearen Ansätze betrachtet.
In der Darstellung wird anfangs auf die in den Programmen 1 verwendeten Variablen, auf notwendige Ein- und Ausgrenzungen sowie auf den Programmaufbau eingegangen. Anschließend findet eine Betrachtung der Testergebnisse statt, anhand welcher eine Überprüfung der Ergebnisse der ols-Schätzungen vorgenommen wird. Die benötigten Untersuchungen werden mit dem Programm „Shazam“ 2 in der Version 7.0 vom August 1993 durchgeführt.
Der für die Aufgabe verwendete Datensatz wird im folgenden Gliederungspunkt genauer beschrieben.
Die Programmdateien sowie die Ergebnisse der Programme sind in ausgedruckter Form im Anhang dieser Hausarbeit enthalten 3 . Hier können auch die genauen Werte (in der Arbeit wird auf drei Nachkommastellen gerundet) eingesehen werden. Weiterhin beinhaltet dieser auch verschiedene Ausdrucke von in Shazam durchgeführten Berechnungen. Das Literaturverzeichnis befindet sich am Ende dieser Arbeit.
1 Aus Übersichtlichkeitsgründen wird das Programm dreigeteilt, wobei das erste Programm den linearen Ansatz und die beiden weiteren Programme je einen nichtlinearen Ansatz betreffen.
2 Ausführliche Informationen zu shazam und der aktuellen Version 10.0 können unter http://shazam.econ.ubc.ca/, 01.09.2004 eingesehen werden.
3 Dabei wurden geringe formale Anpassungen im Vergleich zur Datei vorgenommen.
1
II Der verwendete Datensatz
Aus Datenschutzgründen ist die Auswahl an Datensätzen mit Betriebsdaten sehr begrenzt.
Aufgrund von Kooperationsprojekten externer Wissenschaftler mit einigen Statistischen Landesämtern sind unter strenger Beachtung von datenschutzrechtlichen Vorschriften Einzeldaten zu Industriebetrieben zugänglich 4 . Diese Betriebsdaten sind dabei anonymisiert. Die Betriebsnummer, die Angaben zum Sitz des Betriebes und zu der Industrie, in der der Betrieb seinen Tätigkeitsschwerpunkt hat, sind durch fiktive Angaben ersetzt worden. Hinzu kommt, dass in den Datensätzen nicht alle Betriebe, sondern nur eine Zufallsauswahl enthalten sind.
Solch ein Datensatz wurde hier gewählt. Der Datensatz enthält Angaben zu 100 niedersächsischen Industriebetrieben für die Jahre 1995 bis 1999. Er beinhaltet Informationen über die Beschäftigtenzahl, den Umsatz (in 1.000 DM) eines jeden Jahres, den Kreis, in dem der Betrieb seinen Sitz hat, und zur Industrie, in der der Betrieb tätig ist. Die letzten beiden Informationen wurden dabei anonymisiert. Die Stichprobe für den Datensatz wurde aus dem Totalerhebungspanel 5 gewählt und aufbereitet. Der verwendete Datensatz kann beim Verfasser dieser Arbeit auf Anfrage erhalten werden.
III Der lineare Ansatz
1 Programmaufbau/Auswertung der Ergebnisse
Aus Vereinfachungsgründen werden sämtliche Variablen des Datensatzes für alle Jahre, die vom Datensatz betrachtet werden, eingelesen. Da die hier vorgenommene Untersuchung die Jahre 1997 und 1998 betrifft, werden aber nur Variablen, die diese Jahre
4 Siehe hierzu: Wagner, J., Firm Panel Data from German Official Statistics, Schmollers Jahrbuch - Zeitschrift für Wirtschafts- und Sozialwissenschaften / Journal of Applied Social Science Studies 120 (2000), S.143-150.
5 Eine Beschreibung des Totalerhebungspanels findet sich ebenfalls in Wagner (2000).
2
betreffen, verwendet. Weiterhin findet keine Betrachtung der Beschäftigtenzahlen statt und somit wird auch diese Variable nicht verwendet.
Es verbleiben die Variablen „Betr97“ und „Betr98“, welche die Betriebsnummer angeben, „Jahr97“ und „Jahr98“, die das jeweilige Jahr angeben, „Kreis97“ und „Kreis98“ mit der Angabe des Sitzkreises, „Indust97“ und „Indust98“, die die Industrie, in der der Betrieb tätig ist, wiedergeben, sowie die Variablen „Umsatz97“ und „Umsatz98“ mit der Angabe des jeweiligen Umsatzes. Zu beachten ist dabei, dass, wie schon unter II erwähnt, aus den Angaben zum Sitzkreis und zur Industrie keine Rückschlüsse auf den konkreten Sitzkreis der Betriebe sowie auf die konkreten Industrien, in denen die Betriebe ihren Tätigkeitsschwerpunkt haben, getroffen werden können.
1.1.2 Die Generierung neuer Variablen
Da in der hier vorgenommenen Untersuchung die Wachstumsrate des Umsatzes von 1997 bis 1998 in Prozent betrachtet wird und diese nicht im Datensatz enthalten ist, muss sie generiert werden. Die Formel für die Generierung der Wachstumsrate stellt sich wie folgt dar:
Zusätzlich zu dieser Variablen müssen zur Feststellung des Einflusses des jeweiligen Sitzkreises im Jahr 1997 auf die Wachstumsrate des Umsatzes Dummy-Variablen für die Variable „kreis97“ generiert werden. Dabei bekommen diese Veränderlichen jeweils den Wert „1“ zugewiesen, wenn ein Betrieb in dem jeweiligen Kreis seinen Sitz hat. Andernfalls nimmt die Variable die Ausprägung „0“ an. Insgesamt werden 31 Dummy-Variablen (für jeden Kreis, in dem ein Betrieb seinen Sitz haben könnte) generiert. Die Veränderlichen tragen die Bezeichnung „k50297“ bis „k53497“.
1.2 Die Auswahl der Stichprobe
In der Auswahl der Stichprobe werden alle Betriebe, die aufgrund ihrer Angaben nicht für die Untersuchung relevant sind, ausgeschlossen (siehe Anhang 1, S.1). Dabei werden zunächst alle Betriebe, die keine Angaben zu den Umsätzen in den Jahren 1997 und 1998 gemacht haben, ausgeschlossen. Zusätzlich müssen die Betriebe ausgegrenzt wer-
6 AusDarstellungsgründen wurde die Bezeichnung der Wachstumsrate im Vergleich zum Programm (siehe Anhang 1, S.1) angepasst. Dort lautet die Bezeichnung der Variablen „wachs97“.
3
den, deren Umsatz im Jahr 1997 oder 1998 Null war. Es werden somit alle Beobachtungen ausgeschlossen, die für die Veränderlichen „Umsatz97“ und „Umsatz98“ die Ausprägungen „0“ oder „-999“ haben.
Eine Ausgrenzung muss außerdem bei den Betrieben erfolgen, die keine Angabe zu dem Kreis, in dem sie ihren Sitz im Jahr 1997 hatten, gemacht haben. Daher werden die Betriebe, die bei der Veränderlichen kreis97 die Ausprägung „-999“ haben, ausgeschlossen.
Durch die vorgenommenen Ausgrenzungen reduziert sich die Stichprobe von ursprünglich 100 auf 91 Beobachtungen.
1.3 Die Auswahl der Referenzgruppe
Da in der hier vorgenommenen Untersuchung Dummy-Variablen verwendet werden, muss für diese eine Referenzgruppe ausgewählt werden. Diese Referenzgruppe wird in die ols-Schätzung nicht mit aufgenommen. Die geschätzten Koeffizienten für die Dummy-Variablen, die in die ols-Schätzung mit aufgenommen wurden, geben dann die Abweichung dieser Variablen von der Referenzgruppe in Prozentpunkten wieder. Für gewöhnlich wird die am dichtesten besetzte Gruppe als Referenzgruppe ausgewählt. Es ist demnach zu prüfen, in welchem Kreis 1997 die größte Anzahl von Betrieben ihren Sitz hat. Dieses ist mit 13 Betrieben der Kreis „533“ 7 , welcher damit als Referenzgruppe ausgewählt wird.
Zur Untersuchung, ob ein statistisch signifikanter Einfluss von dem Sitz eines Betriebes in einem bestimmten Kreis im Jahr 1997 auf die Wachstumsrate des Umsatzes von 1997 bis 1998 in Prozent bei einer Kontrolle für den Umsatz 1997 ausgeht, wird eine Regressionsanalyse durchgeführt. Die Analyse wird dabei anhand der Methode der kleinsten
7 Eine Auflistung aller Kreise mit der Anzahl der Betriebe, die in ihnen ihren Sitz haben, findet sich in Tabelle 2.
4
Quadrate 8 (engl.: ordinary least squares - im Folgenden kurz „ols“ genannt) vorgenommen.
Als Basis der Analyse dient die folgende lineare Funktion:
β 0 stellt die geschätzte Konstante und β 1 den geschätzten Koeffizienten dar, der den Einfluss der Variablen Umsatz97 auf die Wachstumsrate angibt. U ist der verbleibende Störterm, der nicht vom Modell erklärt werden kann.
1.4.2 Der erweiterte Ansatz
Zum Testen auf einen signifikanten Einfluss, der vom Kreis, in dem ein Betrieb 1997 seinen Sitz hat, auf die Wachstumsrate ausgeht, muss die in Gleichung 2 dargestellte Funktion um die Dummy-Variablen erweitert werden. Dabei ist darauf zu achten, dass sowohl die Referenzgruppe (Kreis „533“) als auch Kreise, in denen kein Betrieb seinen Sitz hat (Kreis „521“), nicht mit in die ols-Schätzung aufgenommen werden. Es ergibt sich die folgende Funktion:
Die Koeffizienten vor den Dummy-Variablen geben dabei nicht den Einfluss der Variablen auf die Wachstumsrate, sondern die Prozentpunkte an, um die die Wachstumsrate eines Betriebes höher bzw. geringer im Vergleich zur Referenzgruppe ist.
1.4.3 Die Tests
Im Anschluss an die ols-Schätzung müssen verschiedene Tests durchgeführt werden. Dazu sollen im Folgenden einige Angaben gemacht werden. Die Null-Hypothesen der
8 Für eine genaue Beschreibung der Methode siehe unter anderem: Studenmund, A.H., Using Econometrics - A Practical Guide, Fourth Edition, Boston 2001, S.34-56.
9 Auch hier wurde die Bezeichnung der Variablen für die Wachstumsrate im Vergleich zum Programm angepasst.
5
jeweiligen Tests müssen abgelehnt werden, wenn die empirischen Werte über den Tabellenwerten liegen bzw. der mit Shazam errechnete prob-Values (im Folgenden kurz „p-value“) unter dem Signifikanzniveau liegt. Da die p-Values genauer als die Tabellenwerte sind, wird in dieser Arbeit immer ein Vergleich der errechneten Werte mit dem Signifikanzniveau vorgenommen.
1.4.3.1 Der Jarque-Bera-Test
Anhand des „Jarque-Bera-Asymptotic-LM-Normality-Test“ (im Folgenden kurz „Jarque-Bera-Test“) findet eine Untersuchung auf die Normalverteilung der Störgröße statt. Dabei wird von dem Test der χ²-Wert des Modells angegeben. Die Nullhypothese sagt aus, dass eine Normalverteilung vorliegt.
Wird mit dem Test festgestellt, dass keine Normalverteilung vorliegt, so ist dieses auf-grund des zentralen Grenzwertsatzes, laut dem die unbekannte Verteilung der Normalverteilung entgegenstrebt, bei einem Stichprobenumfang, der über 30 liegt, unproblematisch. Somit kann auch in diesen Fällen eine Normalverteilung angenommen werden 10 .
1.4.3.2 Der Test auf Heteroskedastie
Heteroskedastie 11 liegt vor, wenn keine konstante Varianz der Störgröße besteht. In diesem Fall muss die Schätzung mit der Heteroskedastie-konsistenten Kovarianzmatrix nach White (im Folgenden kurz „Hetcov“) durchgeführt werden, um keine verzerrten Varianzschätzungen zu erhalten. Da die hier durchgeführten sieben Tests nicht alle Formen der Heteroskedastie abdecken, wird grundsätzlich auch eine Schätzung mit der Hetcov-Matrix durchgeführt. Weichen die mit der Hetcov-Matrix ermittelten Werte für die prob-Values der Variablen dabei von der „normalen“ Schätzung ab, so liegt Heteroskedastie vor.
Die Heteroskedastie-Tests geben χ²-Werte aus. Die Nullhypothese des Tests auf Heteroskedastie sagt aus, dass Homoskedastie, also eine konstante Varianz der Störgröße, vorliegt.
10 Siehe: Merz, J., Statistik II (Skriptum), 4.Auflage, Lüneburg 1999, S.80.
11 Ausführliche Informationen zur Heteroskedastie finden sich unter: Studenmund, A.H., a.a.O. S. 345-375.
6
1.4.3.3 Der Test auf korrekte funktionale Form
Anhand des „Ramsey-Regression-Specification-Error-Tests 12 “ (im Folgenden kurz „RESET“) wird die Korrektheit der funktionalen Form des Modells getestet. Die Nullhypothese dieses Tests besagt, dass die funktionale Form des Modells korrekt spezifiziert ist. Der Test fügt dem Modell drei Potenzen der geschätzten endogenen Variablen hinzu. Diese Potenzen stehen für jede beliebige unbewusst nicht in das Modell einbezogene Variable oder nicht korrekt spezifizierte Form. Die von dem Test ausgegebenen Werte stellen Werte der F-Verteilung dar. Wenn die Nullhypothese und damit die korrekt spezifizierte funktionale Form des Modells abgelehnt wird, ist eine richtige Interpretation des Modells nicht möglich.
1.4.3.4 Der Test auf die statistische Signifikanz einer Gruppe von Variablen Die statistische Signifikanz einer Gruppe von Variablen wird mit Hilfe eines F-Tests untersucht 13 . Die Nullhypothese des Tests besagt, dass kein signifikanter Einfluss der Dummy-Variablen, also des Kreises, in dem ein Betrieb 1997 seinen Sitz hat, auf die Wachstumsrate des Umsatzes von 1997 bis 1998 (in Prozent) besteht.
Zu beachten ist, dass im Falle der Schätzung mit der Hetcov-Matrix eine Durchführung des Tests innerhalb des Programms nicht möglich ist. In diesem Fall muss die Berechnung mit der folgenden Formel „per Hand“ durchgeführt werden:
Da sich das von Shazam berechnete Ergebnis der Tests bei einer „normalen“ Schätzung von dem „per Hand“-berechneten Ergebnis bei einer Hetcov-Schätzung nur aufgrund von Rundungsdifferenzen marginal unterscheidet 14 und hier generell zunächst eine „normale Schätzung“ durchgeführt wird, kann auf eine Berechnung „per Hand“ verzichtet werden.
12 Für ausführliche Informationen zum Testverfahren siehe: Studenmund, A.H., a.a.O. S.193-195.
13 Für genaue Angaben zum Testverfahren siehe: Studenmund, A.H., a.a.O. S.142-145.
14 Dieses ist so, da in der Formel keine Variablen enthalten sind, die sich zwischen der „normalen“ und der Hetcov-Schätzung unterscheiden.
7
1.4.4 Die Wahl des Signifikanzniveaus / der p-Value
Als Signifikanzniveau wird die Irrtumswahrscheinlichkeit bzw. der p-Value bezeichnet, der maximal noch akzeptiert wird. Als Irrtumswahrscheinlichkeit wird die Wahrscheinlichkeit, einen Fehler erster Art zu begehen, bezeichnet. Ein Fehler erster Art bedeutet, dass die Nullhypothese abgelehnt wird, obwohl sie wahr ist. Dabei sagt die Hypothese hier aus, dass das geschätzte β Null ist, und somit kein Einfluss von der exogenen auf die endogene Variable ausgeht. Für gewöhnlich wird in statistischen Untersuchungen ein Signifikanzniveau von einem oder fünf Prozent gewählt. In seltenen Fällen wird ein Niveau von zehn Prozent akzeptiert. In der hier durchgeführten Untersuchung wird das Signifikanzniveau auf fünf Prozent festgelegt.
1.4.5 Die Behandlung von Ausreißern
Extremfälle in statistischen Untersuchungen werden als Ausreißer bezeichnet. Sie weichen stark vom Durchschnitt ab. Ausreißer entstehen häufig durch falsche Angaben. In den hier betrachteten Variablen ist dies allerdings unwahrscheinlich, da der Datensatz aus amtlichen Statistiken generiert wurde. Somit ist sehr wahrscheinlich, dass die anfallenden Extremfälle für die Wachstumsrate oder auch den Umsatz des Jahres 1997 auf Sonderfälle zurückzuführen sind. Bei diesen Sonderfällen kann es sich entweder um besondere Gegebenheiten der jeweiligen Betriebe oder aber um besondere Geschäfts-vorfälle in den betrachteten Jahren handeln.
Der Ausschluss von Ausreißern wird so vorgenommen, dass Werte, die besonders stark vom Durchschnitt abweichen, von der Betrachtung ausgegrenzt werden.
1.5 Statistiken zu den verwendeten Variablen
In den folgenden Tabellen werden die Mittelwerte ( x ), Minima (Min.), Maxima (Max.) und Standardabweichungen (St. Dev.) der verwendeten Variablen dargestellt. Auf eine Darstellung dieser Werte für die Dummy-Variablen wird verzichtet. Stattdessen zeigt Tabelle 2 die Häufigkeitsverteilung der Dummy-Variablen.
8
Bei einer Betrachtung der Statistiken zu der Variablen für die Wachstumsrate und den Umsatz 1997 fällt auf, dass sehr große Spannweiten zwischen den Minima und Maxima besteht. Dagegen ist die Standardabweichung 16 mit 25,233 Prozent bei der Wachstumsrate und 178.610 TDM beim Umsatz verhältnismäßig gering, was ein erstes Anzeichen dafür sein könnte, dass es erforderlich sein könnte, Ausreißer aus der Betrachtung auszuschließen.
Aus der oben dargestellten Häufigkeitsverteilung für die Dummy-Variablen wird deutlich, dass der Kreis „533“ die meisten Betriebe beheimatet und er damit die Referenzgruppe darstellt (siehe III.1.3). Weiterhin ist zu beachten, dass im Kreis „521“ kein Betrieb seinen Sitz hat und dieser Kreis daher nicht mit in die ols-Schätzung und die Tests einbezogen werden muss.
15 Für genaue Informationen und Definitionen der hier betrachteten statistischen Werte siehe: Merz, J., Statistik I (Deskription), 5.Auflage, Lüneburg 1999.
16 Die Standardabweichung gibt die durchschnittliche Abweichung der Werte vom arithmetischen Mittel an.
9
1.6 Die Ermittlung der Ausreißer
Aus den unter III.1.4.5 erwähnten Gründen ist es sinnvoll, zu überprüfen, ob bei den Variablen für die Wachstumsrate des Umsatzes von 1997 bis 1998 und den Umsatz des Jahres 1997 Ausreißer vorhanden sind. Zu diesem Zweck wird zunächst ein Scattergram der beiden Variablen erstellt (siehe Anhang 2, S.8). Anhand dieser Grafik ist bereits zu erkennen, dass sowohl bei der Wachstumsrate als auch beim Umsatz einige Werte stark vom Durchschnitt abweichen. Um genau festzustellen, um welche Werte es sich hier handelt, werden Statistiken zu beiden Variabeln erstellt (siehe Anhang 2, S.8ff.). Anhand der Statistik für den Umsatz 1997 wird ersichtlich, dass die drei größten Werte mehr als doppelt so hoch sind wie der nächsthöchste Wert. Daher wird die Obergrenze für den Umsatz auf 250.000 TDM gesetzt. Durch diese Wahl der Obergrenze werden die drei bereits erwähnten höchsten Werte aus der Betrachtung ausgeschlossen. Eine Untergrenze für den Umsatz muss nicht festgelegt werden, da kein Wert deutlich von der Masse der Werte abweicht.
Die Statistik für das Wachstum lässt zunächst erkennen, dass zwei Werte sehr stark negativ vom Durchschnitt abweichen. Daher wird eine Untergrenze für das Umsatzwachstum von 1997 bis 1998 in Prozent bei -35 Prozent festgelegt. Bei einer Betrachtung der höchsten Wachstumsraten sind erneut zwei Werte auffällig. Diese haben zur Folge, dass die Obergrenze für die Wachstumsrate auf 50 Prozent festgelegt wird.
Beim Ausschluss der Ausreißer muss beachtet werden, dass unter Umständen damit in einigen Kreisen keine Betriebe mehr sitzen, was hier den Kreis „509“ betrifft. Anzumerken ist, dass die Wahl der auszuschließenden Werte natürlich subjektiv ist.
1.7 Die ols-Schätzung des linearen Ansatzes
Zunächst wird eine ols-Schätzung der Ausgangsfunktion (siehe III.1.4.1) durchgeführt, um Werte zu erhalten, die mit den Werten der erweiterten Funktion verglichen werden können. Diese wird im Anschluss an die erste Schätzung ermittelt.
10
1.7.1 Die Schätzung der Ausgangsfunktion
Im Folgenden wird zunächst auf die Schätzung der Ausgangsfunktion ohne Berücksichtigung der Ausreißerproblematik eingegangen. Daran anschließend wird die Schätzung unter Beachtung dieser Problematik durchgeführt.
Als Ergebnis der Schätzung des linearen Ansatzes ergibt sich die folgende Gleichung (siehe Anhang 2, S.3):
Der p-Value der Variablen „Umsatz97“ liegt dabei bei 55,4 Prozent. Somit kann die
) gleich Null ist, nicht abgelehnt werden. Daher wird
β Nullhypothese, die aussagt, dass 1
auch keine Interpretation des geschätzten Wertes für den Koeffizienten vorgenommen. Die Zahl der Beobachtungen liegt bei 91, die der Freiheitsgrade bei 89. Das Bestimmtheitsmaß R² hat einen Wert von 0,004. Somit werden nur 0,4 Prozent der Varianz der Wachstumsrate 97/98 von dem Modell erklärt. Der nicht erklärte Teil der Varianz entfällt auf die Störgröße.
1.7.1.1b) Die Testergebnisse
Mit dem Jarque-Bera-Test wird ein Wert für χ² von 891,786 bei zwei Freiheitsgraden ermittelt. Der anhand dieses Wertes berechnete p-Value liegt bei Null (siehe Anhang 7). Somit liegt dieser Wert unter dem Signifikanzniveau. Daher müsste davon ausgegangen werden, dass die Störgröße nicht normalverteilt ist. Aufgrund des zentralen Grenzwertsatzes kann aber trotzdem von einer Normalverteilung ausgegangen werden, da der Umfang der Stichprobe deutlich über 30 liegt (siehe III.1.4.3.1).
Die aus den Ergebnissen der Heteroskedastie-Tests (siehe Anhang 2, S.4) ermittelten p-Werte liegen alle deutlich über dem Signifikanzniveau von fünf Prozent (siehe Anhang 21). Die Nullhypothese, die aussagt, dass die Störgröße homoskedastisch ist, muss
17 Um einen möglichst einfachen Vergleich mit den Ausdrucken im Anhang zu gewährleisten, werden sehr kleine und sehr große Zahlen wie in Shazam dargestellt. E-01 bedeutet dabei eine Verschiebung der Zahlen um eine Stelle nach rechts, E02 eine Verschiebung um zwei Stellen nach links.
11
daher nicht abgelehnt werden. Da aber nicht alle Formen der Heteroskedastie getestet wurden, wird trotzdem eine Schätzung mit der Hetcov-Matrix vorgenommen (siehe III.1.4.3.2).
Der Ramsey-RESET-Test ergibt Werte für die F-Verteilung von 0,653 (bei einem und 88 Freiheitsgraden), 0,387 (zwei und 87 Freiheitsgrade) und 0,761 (drei und 86 Freiheitsgrade). Daraus ergeben sich p-Values von 0,421; 0,68 und 0,519 (siehe Anhang 35). Deshalb kann die Nullhypothese „eine korrekt spezifizierte funktionale Form liegt vor“ angenommen werden.
1.7.1.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix
Die Koeffizienten der Variablen und das Bestimmtheitsmaß verändern sich bei einer Schätzung mit der Hetcov-Matrix im Vergleich zu der „normalen“ Schätzung nicht 18 . Dagegen sinkt der p-Value der Variablen „Umsatz97“ auf 39,7 Prozent (siehe Anhang 2, S.4). Dieses ist ein Anzeichen dafür, dass Heteroskedastie vorliegt. Allerdings liegt der p-Value auch nach dem Sinken noch deutlich über dem Signifikanzniveau, und die Nullhypothese, dass kein Einfluss des Umsatzes in 1997 auf die Wachstumsrate des Umsatzes von 1997 bis 1998 ausgeht, kann nicht abgelehnt werden.
Nach dem Ausschluss der Ausreißer aus der Untersuchung ergibt sich die folgende Ergebnisgleichung für die Schätzung der Ausgangsfunktion (siehe Anhang 2, S.12):
Der p-Value der Variablen Umsatz97 ist durch Ausschluss der Ausreißer auf 9,4 Prozent gesunken. Dieser Wert liegt aber immer noch über dem gewählten Signifikanzniveau von fünf Prozent. Damit kann die Nullhypothese, die besagt, dass kein Einfluss des Umsatzes von 1997 auf die Wachstumsrate des Umsatzes von 1997 bis 1998 ausgeht, nicht abgelehnt werden. Würde, wie gelegentlich in statistischen Untersuchungen vorgenommen, ein Signifikanzniveau von zehn Prozent gewählt, so könnte die Null-
18 Dadies generell so ist, wird im Folgenden nur noch auf Veränderungen der p-Values eingegangen.
12
hypothese abgelehnt werden. In diesem Fall wäre die Gleichung so zu interpretieren, dass die Wachstumsrate des Umsatzes um 0,00006 Prozent pro Tausend DM höheren Umsatzes steigt.
Der Stichprobenumfang ist auf 84 Beobachtungen gesunken. Dagegen ist R² auf 3,37 Prozent gestiegen.
1.7.1.2b) Die Testergebnisse
Der χ²-Wert, der im Jarque-Bera-Test ermittelt wird, liegt bei 9,873 (mit zwei Freiheitsgraden) und damit der p-Value mit 0,007 (siehe Anhang 8) unter dem Signifikanzniveau. Aus den oben bereits erwähnten Gründen kann aber trotzdem von einer Normalverteilung der Störgröße ausgegangen werden.
Die anhand der Werte aus Heteroskedastie-Tests (siehe Anhang 2, S.13) berechneten p-Werte liegen mit Ausnahme des Glejser-Tests deutlich über dem Signifikanzniveau (siehe Anhang 22). Der Wert des Glejser-Tests ist 0,08 und damit zwar über einem Signifikanzniveau von fünf Prozent, würde aber innerhalb eines Signifikanzniveaus von zehn Prozent liegen. Da hier generell eine Schätzung mit der Hetcov-Matrix vorgenommen wird, braucht hierauf nicht näher eingegangen zu werden.
Der Ramsey-RESET-Test ergibt nach der Umrechnung Werte (siehe Anhang 2, S.13) für p von 0,3686; 0,3757 und 0,329 (siehe Anhang 36). Damit kann von einer korrekt spezifizierten funktionalen Form ausgegangen werden.
1.7.1.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix
Der p-Value der Veränderlichen „Umsatz97“ sinkt bei einer Schätzung mit der Hetcov-Matrix auf 0,9 Prozent (siehe Anhang 2, S.13). Damit kann auch auf dem hier gewählten Signifikanzniveau von fünf Prozent die Nullhypothese abgelehnt und eine Interpretation des Koeffizienten vorgenommen werden 19 .
19 Da sich die Interpretation durch eine Anwendung der Hetcov-Matrix bei der Schätzung nicht ändert, wird hierzu auf III.1.7.1.2a) verwiesen.
13
1.7.2 Die Schätzung der erweiterten Funktion
Im Folgenden soll eine Auswertung der ols-Schätzung mit der um die Kreisdummies erweiterten linearen Funktion stattfinden. Dabei wird ein besonderes Augenmerk auf das für die Aufgabenstellung wichtigste Thema des signifikanten statistischen Einflusses des Kreises, in dem ein Betrieb 1997 seinen Sitz hat, auf die Wachstumsrate des Umsatzes von 1997 bis 1998, gelegt.
Aus Übersichtlichkeitsgründen wird darauf verzichtet, die Ergebnisse der ols-Schätzung
) )
in einer Gleichung darzustellen. Stattdessen werden die geschätzten Koeffizienten ( β und die prob-Values (P) der Variablen in Tabellenform dargestellt 20 .
Bei einer Betrachtung der in Tabelle 3 dargestellten Ergebnisse der Schätzung fällt zunächst auf, dass mit Ausnahme der Variablen „K50497“ und „K50997“ alle Variablen p-Values haben, die außerhalb des Signifikanzniveaus liegen. Damit kann für diese Variablen die Nullhypothese, die aussagt, dass kein signifikanter Einfluss der Variablen auf die Wachstumsrate ausgeht, nicht abgelehnt werden. Daher wird hier keine Interpretation der Werte für die Koeffizienten dieser Variablen vorgenommen. Auffällig ist, dass die beiden Kreise, deren p-values unter dem Signifikanzniveau liegen, diejenigen Kreise mit den höchsten bzw. geringsten geschätzten Betas sind, was vor dem Hinter-grund der Tatsache, dass dieses die These, dass ein Einfluss von dem Sitzkreis auf die
20 Eine Darstellung der allgemeinen Gleichungsform findet sich unter III.1.4.2.
14
Wachstumsrate ausgeht, unterstützt, logisch erscheint. Es ist zu erwarten, dass sich die p-values dieser beiden Kreise durch den Ausschluss der Ausreißer stark ändern, da es sehr wahrscheinlich ist, dass Betriebe aus beiden Kreisen von der Betrachtung ausgeschlossen werden.
Der Koeffizient der Variablen „K50497“ sagt aus, dass die Betriebe, die im Kreis 504 sitzen, eine um 47,795 Prozentpunkte geringere Wachstumsrate als die, die deren Sitz in der Referenzgruppe liegt(Kreis 533), haben. Dagegen haben die Betriebe mit dem Sitz in Kreis 509 eine um 75,18 Prozentpunkte höhere Wachstumsrate des Umsatzes im Jahr 1997 als die Betriebe mit Hauptsitz in Kreis 533. Auffällig ist, dass wie schon in der Ausgangsfunktion (siehe III.1.7.1.1a)) auch hier der p-Value der Veränderlichen „Um-satz97“ deutlich über dem Signifikanzniveau liegt und daher nicht von einem Einfluss des Umsatzes in 1997 auf die Wachstumsrate von 1997 bis 1998 ausgegangen werden kann.
Ein Großteil der Koeffizienten der Dummy-Variablen ist negativ. Dieses würde, wenn eine Interpretation möglich wäre (also geringe p-Values gegeben wären), bedeuten, dass in vielen Kreisen ein geringeres Umsatzwachstum der Betriebe als im Referenzkreis zu beobachten wäre. Das könnte einen Hinweis darauf sein, dass im Referenzkreis gerade aus diesem Grund so viele Betriebe beheimatet sind. Da aufgrund der Anonymisierung der Daten keine genauen Angaben zu den Kreisen vorhanden sind, kann keine weitere Interpretation und Untersuchung, ob etwa eine besondere Infrastruktur in Kreis 533 vorhanden ist, erfolgen.
Das Bestimmtheitsmaß R² hat einen Wert von 0,4128. Somit werden 41,28 Prozent der Varianz der Wachstumsrate von dem hier geschätzten Modell erklärt. Dieser Wert ist durch die Einbeziehung der Dummy-Variablen in die Schätzung deutlich gestiegen. Der Stichprobenumfang liegt unverändert bei 91 Beobachtungen. Die Anzahl der Freiheitsgrade ist durch die größere Anzahl an Variablen auf 58 gesunken.
1.7.2.1b) Die Testergebnisse
Der Jarque-Bera-Test ergibt einen χ²-Wert von 1092,337 bei zwei Freiheitsgraden. Der aus diesem Wert berechnete p-Value liegt bei Null (siehe Anhang 9), und damit muss die Nullhypothese abgelehnt werden. Da der Stichprobenumfang bei 91 liegt, wird auf-grund des zentralen Grenzwertsatzes trotzdem eine Normalverteilung der Störgröße angenommen.
15
Von den sieben durchgeführten Heteroskedastie-Tests ergeben drei Werte (siehe Anhang 2, S.6), die unter dem Signifikanzniveau liegen (siehe Anhang 23). Daher ist die Störgröße heteroskedastisch und es muss eine Schätzung mit der Hetcov-Matrix vorgenommen werden.
Der χ²-Wert des Harvey-Tests wird von Shazam nicht korrekt angegeben, da er zu viele Vorkommastellen hat. Diesem Problem kommt hier keine Bedeutung zu, da zum einen bereits festgestellt wurde, dass Heteroskedastie vorliegt, zum anderen bei großen Werten für χ² eine Annäherung des p-values an Null stattfindet 21 und daher davon ausgegangen werden kann, dass der p-Value, der anhand des Harvey-Tests ermittelt worden wäre, unter dem Signifikanzniveau gelegen hätte.
Anhand des Ramsey-RESET-Tests (siehe Anhang 2, S.6) werden p-values von 0,03; 0,007 und 0,002 ermittelt (siehe Anhang 37). Sie liegen unter dem Signifikanzniveau und daher muss die Nullhypothese, die besagt, dass eine korrekt spezifizierte funktionale Form vorliegt, abgelehnt werden. Damit kann keine sinnvolle Auswertung der Ergebnisse des Modells vorgenommen werden.
Der Test auf statistische Signifikanz einer Gruppe von Variablen, der hier mit den Kreisdummies durchgeführt wird, ergibt einen p-Value von 0,19 (siehe Anhang 2, S.6). Dieser liegt deutlich über dem maximal zu akzeptierenden Wert von 0,05. Damit müsste die Hypothese, dass kein Einfluss von dem Kreis, in dem ein Betrieb 1997 seinen Sitz hat, auf die Wachstumsrate des Umsatzes von 1997 bis 1998 ausgeht, angenommen werden. Allerdings kann keine sinnvolle Interpretation vorgenommen werden, da nicht davon ausgegangen werden kann, dass die funktionale Form des Modells korrekt spezifiziert ist.
1.7.2.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix
Die durch die Schätzung mit der Hetcov-Matrix entstehenden Veränderungen der pvalues der einzelnen Variablen werden in der folgenden Tabelle dargestellt. Dabei stel- 21 ZuTestzwecken wurden Berechnungen der p-Values für χ²-Werte von 100 und 200 bei 32 Freiheitsgraden vorgenommen. Hierfür ergab sich ein Wert für P von annähernd Null bzw. Null (siehe Anhang 23).
16
len die blauen Werte für die p-values diejenigen Werte dar, die mit der Hetcov-Matrix ermittelt wurden.
In der Tabelle ist zu erkennen, dass ein Großteil der Variablen bei einer Durchführung der Schätzung mit der Hetcov-Matrix geringere p-Values hat. Auf einem Signifikanzniveau von fünf Prozent sind nun Koeffizienten von neun Variablen signifikant von Null verschieden. Auf eine weitere Interpretation soll hier in Anbetracht der Tatsache, dass die funktionelle Form des Modells nicht korrekt spezifiziert ist, verzichtet werden.
Nach dem Ausschluss der unter III.1.6 ermittelten Ausreißer ergibt sich die folgende erneut in einer Tabelle dargestellte Ergebnisgleichung der „normalen“ ols-Schätzung:
Die Auflistung der p-Values macht deutlich, dass nach dem Ausschluss der Ausreißer bei vier Dummy-Variablen die Hypothese, dass von ihnen kein Einfluss auf die Wachs-
17
tumsrate ausgeht, abgelehnt werden kann. Wie erwartet (siehe III.1.7.2.1a)) hat sich der p-Value der Variablen „k50497“ deutlich erhöht. Die Variable „k50997“ ist durch den Ausschluss der Ausreißer nicht mehr in der Schätzung enthalten. Der p-Value der Variablen „Umsatz97“ liegt wie schon bei der Schätzung des Ausgangsmodells ohne Ausreißer und bei der Schätzung des erweiterten Ansatzes mit Ausreißern über dem Signifikanzniveau. Er ist im Vergleich zur Schätzung mit Ausreißern gesunken, liegt aber immer noch deutlich über dem Wert der Ausgangsfunktion ohne Ausreißer. Das Bestimmtheitsmaß R² liegt bei 43,47 Prozent und ist nach der Ausgrenzung der Ausreißer um 2,19 Prozent gestiegen. Die Anzahl der Beobachtungen umfasst nun 84 Betriebe. Daraus ergibt sich eine Anzahl von 52 Freiheitsgraden. Auch nach dem Ausschluss der Ausreißer ist ein Großteil der Koeffizienten der Dummy-Variablen negativ.
1.7.2.2b) Die Testergebnisse
Der für den aus dem Jarque-Bera-Test erhaltenen χ²-Wert (siehe Anhang 2, S.14) ermittelte p-Value ist annähernd Null (siehe Anhang 10) und somit muss erneut die Nullhypothese, dass eine Normalverteilung der Störgröße vorliegt, abgelehnt werden. Dieses hat, wie schon mehrfach erwähnt, keine Konsequenzen für die Auswertung der Ergebnisse.
Die Heteroskedastie-Tests ergeben Werte (siehe Anhang 2, S.15), aus denen sich p-Values errechnen lassen (siehe Anhang 24), die über dem Signifikanzniveau liegen. Demnach bestünde kein Anzeichen für ein Vorliegen von Heteroskedastie. Allerdings gibt Shazam erneut keinen Wert für den Harvey-Test aus. Dies ist aus den unter I-II.1.7.2.1b) aufgeführten Gründen ein Anzeichen für Heteroskedastie. Hinzu kommt, dass, wie bereits erwähnt, nicht auf alle Formen der Heteroskedastie getestet wurde. Daher wird eine Schätzung mit der Hetcov-Matrix vorgenommen.
Die aus den Ergebnissen des Ramsey-Tests (siehe Anhang 2, S.15) ermittelten p-Values liegen bei 9; 21 und 37 Prozent (siehe Anhang 38). Damit kann die Hypothese, dass die funktionelle Form des Modells korrekt spezifiziert ist, auf dem hier gewählten Signifikanzniveau von fünf Prozent angenommen werden. Würde allerdings ein Signifikanzniveau von zehn Prozent gewählt, so müsste die Hypothese abgelehnt werden.
18
Der für die Schätzung durchgeführte Test auf die statistische Signifikanz der Gruppe von Dummy-Variablen ergibt einen p-Value von 0,25 (siehe Anhang 2, S.15). Damit würde mit 25-prozentiger Wahrscheinlichkeit ein Fehler gemacht, wenn davon ausgegangen würde, dass ein Einfluss von dem Kreis, in dem ein Betrieb 1997 seinen Sitz hat, auf die Wachstumsrate des Umsatzes von 1997 bis 1998 ausgeht. Diese Wahrscheinlichkeit liegt über dem maximal zu akzeptierenden Fehlerniveau. Daher kann kein Einfluss festgestellt werden.
1.7.2.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix
Auch hier sollen erneut die bei einer Durchführung der ols-Schätzung des erweiterten linearen Ansatzes mit einer Hetcov-Matrix veränderten p-Values in einer Tabelle dargestellt werden:
Die in der Tabelle zu erkennende Veränderung der p-Values ist ein eindeutiger Hinweis darauf, dass Heteroskedastie vorliegt. Wie schon beim Modell mit Ausreißern erhöht sich die Anzahl der Variablen, die einen Koeffizienten haben, der signifikant von Null verschieden ist, bei einer maximal akzeptierten Fehlerwahrscheinlichkeit von fünf auf neun Prozent.
2 Fazit der Schätzung mit dem linearen Ansatz
Eine Auswertung der Ergebnisse der ols-Schätzung des erweiterten linearen Ansatzes inklusive der Ausreißer ist nicht sinnvoll, da für dieses Modell keine korrekt spezifizierte funktionale Form vorliegt (siehe III.1.7.2.1b)).
19
Diese ist bei einer Schätzung der Funktion ohne die Ausreißer gegeben. Da Heteroskedastie vorliegt, muss das Augenmerk bei einer Interpretation der Ergebnisse auf die Schätzung mit der Hetcov-Matrix gelegt werden. Betrachtet man die p-Values der Dummy-Variablen, so kann anhand dieser keine klare Entscheidung getroffen werden, ob ein Einfluss von ihnen auf die endogene Variable vorliegt, da zwar einige Variablen p-Values haben, die in dem Signifikanzniveau liegen, aber eine Großteil der Variablen p-Values über fünf Prozent hat.
Eine endgültige Entscheidung der Frage, ob ein statistisch signifikanter Einfluss des Sitzkreises in 1997 auf die Wachstumsrate des Umsatzes von 1997 bis 1998 ausgeht, kann anhand des Tests auf die Signifikanz einer Gruppe von Variablen getroffen werden. Dieser Test ergibt, dass kein Einfluss angenommen werden kann, da ansonsten mit einer Wahrscheinlichkeit von 25 Prozent ein Fehler begangen würde. Damit bleibt festzuhalten, dass bei Signifikanzniveaus, die unter 25 Prozent liegen, beim linearen Ansatz unter Beachtung der Ausreißerproblematik kein Einfluss der oben genannten Art festgestellt werden kann.
IV Die nichtlinearen Ansätze
Zunächst soll im Folgenden eine Auswahl der zu schätzenden nichtlinearen Modelle vorgenommen werden. Im Anschluss daran gleicht der Aufbau dem der Schätzung des linearen Ansatzes.
1 Die Auswahl der nichtlinearen Ansätze
Als Basis für die Auswahl dienen acht nichtlineare Gleichungen zusammen mit den zugehörigen Funktionsplots 22 . Eine Darstellung dieser Funktionsplots mit den Gleichungen findet sich in Anhang 50.
Bei einer Betrachtung der linearisierten Formen dieser Funktionen
23
fällt auf, dass aus mathematischen Gründen nicht alle Funktionen mit den hier betrachteten Variablen ge-
22 Entnommenaus: Daniel, C. and Wood, F. S., Fitting Equations to Data, New York, etc.: Wiley 1980, p 20ff.
23 Auf eine Darstellung der nichtlinearen Formen wird hier verzichtet und auf Anhang 50 verwiesen.
20
= Y ln
scheiden aus der Betrachtung aus, da die Wachstumsrate des Umsatzes von 1997 bis 1998 den Wert Null annehmen kann und eine Division durch Null bzw. eine Logarithmierung des Wertes Null nicht möglich ist. Damit verbleiben noch die linearen Trans- + = + + = 2 formationen und als mögliche zu schätzende Funkti- (ln X b a Y cX bX a Y ) onen.
Zur Auswahl einer Transformation wird ein Funktionsplot des linearen Ausgangsansatzes erstellt (siehe Anhang 2, S.8). Dieser Funktionsplot wird mit den Scattergrammen der beiden linearen Transformationen verglichen.
Da anhand dieses Vergleichs keine Entscheidung für einen der Ansätze getroffen werden kann, werden im Folgenden ols-Schätzungen für beide Transformationen durchgeführt.
2 Programmaufbau
Die folgenden allgemeinen Angaben zum Programmaufbau sowie zur Auswertung der Ergebnisse gelten für beide nichtlinearen Ansätze. Da viele Angaben denen des linearen Ansatzes gleichen, werden diese nicht erneut aufgeführt. Aus dem gleichen Grund weicht der Aufbau des Punktes IV.2 geringfügig von dem des Punktes III.2 ab.
2.1 Die verwendeten Variablen
Die aus dem Datensatz verwendeten Variablen entsprechen denen des linearen Ansatzes (siehe III.1.1.1). Dagegen werden zusätzlich zu der Variablen für Wachstumsrate des Umsatzes von 1997 bis 1998 (in Prozent) und den Kreis-Dummies zwei weitere Variablen, die für die Schätzung mit den linearisierten Formen der nichtlinearen Ansätze benötigt werden, generiert. Die Gleichungen zur Ermittlung der beiden Variablen sehen wie folgt aus:
24 Aus Darstellungsgründen wurde auch hier eine Anpassung der Bezeichnung der Variablen vorgenommen. Im Programm lautet die Bezeichnung „lnums97“.
25 Auch die Bezeichnung dieser Variablen wurde angepasst. Die Originalbezeichnung lautet „ums97q“.
21
2.2 Die Auswahl der Stichprobe und der Referenzgruppe
Die Auswahl der Stichprobe und der Referenzgruppe unterscheidet sich nicht von der des linearen Ansatzes. Daher wird hier nur auf die Punkte III.1.2 bzw. 3 verwiesen.
Auch bei den nichtlinearen Ansätzen werden die Ergebnisse anhand von ols-Schätzungen ermittelt. Aus Gründen der Übersichtlichkeit werden die konkreten Ansätze zu den beiden linearen Transformationen zu Beginn der Darstellung der ols-Schätzung unter IV.3.1 bzw. 2 erläutert.
2.3.2 Die Tests
Es werden die gleichen Tests wie beim linearen Ansatz durchgeführt (siehe III.1.4.3). Deshalb wird auf eine erneute allgemeine Erläuterung der einzelnen Tests verzichtet.
2.3.3 Die Wahl des Signifikanzniveaus
Wie schon beim linearen Ansatz wird ein Signifikanzniveau von fünf Prozent gewählt.
3 Die ols-Schätzungen des ersten nichtlinearen Ansatzes
Im Folgenden soll zuerst eine kurze Darstellung der Ansätze der ersten nichtlinearen Form stattfinden. Im Anschluss daran werden Statistiken zu der neu in die Schätzung aufgenommenen Variablen ausgewertet und anhand dieser die Ausreißer ermittelt. Darauf folgen die ols-Schätzungen der Ausgangsfunktion sowie des um die Kreis-Dummies erweiterten Ansatzes.
3.1 Der Ansatz
Im Vergleich zum unter III.1.4.1 dargestellten Ansatz wird die Variable „Umsatz97“ durch die Variable „ln Umsatz97“ ersetzt. Damit stellt sich die Ausgangsfunktion wie folgt dar:
22
Da das Austauschen der Variablen die einzige Veränderung zur Ausgangsfunktion des linearen Ansatzes darstellt, wird hier auf eine genaue Erläuterung des Ansatzes verzichtet und auf III.1.4.1 verwiesen.
3.2 Der erweiterte Ansatz
Auch beim erweiterten Ansatz ist die einzige Veränderung zum linearen erweiterten Ansatz, dass die Variable „Umsatz97“ durch „ln Umsatz97“ ersetzt wird. Damit hat der erweiterte Ansatz die folgende zu schätzende Funktionsgleichung:
Zu weiterführenden Ausführungen zum Ansatz wird ebenfalls auf III.1.4.2 verwiesen.
3.3 Statistiken zu der neuen Variablen
Im Vergleich zur Schätzung des linearen Ansatzes wird bei der Schätzung der ersten linearen Transformation eine neue Variable verwendet. Diese Variable, die die Bezeichnung „ln Umsatz97“ trägt, wurde, wie unter IV.2.1 beschrieben, generiert. In der folgenden Tabelle werden einige Statistiken zu dieser Variablen aufgeführt.
Auch bei dieser Variablen ist eine große Spannweite zwischen dem Minimum und dem Maximum bei einer geringen Standardabweichung auffällig. Dies ist erneut ein Anzeichen dafür, dass Ausreißer vorliegen.
23
3.4 Die Ermittlung der Ausreißer
Die Ausreißer der Variablen für die Wachstumsrate des Umsatzes von 1997 bis 1998 müssen an dieser Stelle nicht ermittelt werden, da keine Veränderung der Variablen im Vergleich zur Schätzung des linearen Ansatzes vorgenommen wurde. Daher werden die Ergebnisse aus III.1.6 übernommen und die Untergrenze bei -35 Prozent sowie die Obergrenze bei 50 Prozent festgelegt.
Zur Ermittlung der Ausreißer für die Variable „ln Umsatz97“ ist zunächst anzumerken, dass nicht die für die Variable „Umsatz97“ ermittelten Ausreißer übernommen werden können, auch wenn die Variablen aufeinander basieren. Durch die Logarithmierung werden die Abstände zwischen den Werten sehr viel geringer, so dass es durchaus möglich ist, dass keine Ausreißer bei der hier betrachteten Variablen vorliegen 26 . Nach der Erstellung eines Funktionsplots (siehe Anhang 4, S.7) wird deutlich, dass wie bei der Variablen für den Umsatz des Jahres 97 auch hier drei Werte für die Variable „ln Umsatz97“ positiv von der Masse der Werte abweichen. Nach der genauen Feststellung dieser Werte anhand einer Darstellung der Häufigkeitsverteilung der Variablen (siehe Anhang 4, S.7f), wird eine Obergrenze für die Variable bei 12,5 festgelegt. Diese Grenze wird gewählt, da alle Werte unter ihr Abstände von nur wenigen Zehnteln zu-einander haben. Die drei größten Werte liegen aber um 0,9 über dem nächstgrößten Wert.
Wie beim Ausschluss der Ausreißer im linearen Modell entfällt der Kreis „509“ durch die Ausgrenzung.
Die Ergebnisgleichung der Schätzung der Ausgangsfunktion mit Ausreißern stellt sich wie folgt dar (siehe Anhang 4, S.2f):
26 Das ist der Grund, weswegen ols-Schätzungen häufig mit logarithmierten Variablen vorgenommen werden.
24
Nach dieser Funktion steigt die Wachstumsrate des Umsatzes von 1997 bis 1998 bei einer Erhöhung des logarithmierten Umsatzes des Jahres 1997 um eins, um 1,5597. Um diese Steigerung der Wachstumsrate zu bewirken müsste demnach der Umsatz im Jahr 1997 um 2,72 TDM steigen 27 .
Das Bestimmtheitsmaß des Modells liegt bei einem Prozent. Es wird also nur ein sehr geringer Teil der Varianz der Wachstumsrate von dem ersten nichtlinearen Ansatz (ohne Dummies) erklärt.
Zu beachten ist, dass der p-Value der Variablen „ln Umsatz97“ mit 33,8 Prozent deutlich über dem Signifikanzniveau liegt und daher nicht davon ausgegangen werden kann, dass ein Einfluss des logarithmierten Umsatzes in 1997 auf die Wachstumsrate des Umsatzes von 1997 bis 1998 ausgeht.
3.5.1b) Die Testergebnisse
Der mit dem aus dem Jarque-Bera-Test erhaltenen Wert für χ² (siehe Anhang 4, S.3) ermittelte p-Value liegt bei Null (Siehe Anhang 11). Daher muss die Begründung für die Annahme einer Normalverteilung der Störgröße erneut über den zentralen Grenzwertsatz geführt werden.
Die auf Basis der in den Heteroskedastie-Tests berechneten χ²-Werte (siehe Anhang 4, S.3) liegen mit 0,03; 0,008; 0,08; 0,03; 0,9; 0,01 und 0,0005 mit Ausnahme des Wertes für den Arch-Test unter dem Signifikanzniveau. Damit ist eine Ablehnung der Hypothese, dass die Störgröße homoskedastisch ist, nötig, und es wird eine Schätzung mit der Hetcov-Matrix durchgeführt.
Die Hypothese, dass eine korrekt spezifizierte funktionale Form vorliegt, kann angenommen werden, da die p-Values (siehe Anhang 39), die sich aus den F-Werten des Ramsey-RESET-Tests (siehe Anhang 4, S.3) ergeben, deutlich außerhalb des Signifikanzniveaus liegen.
x e 27 Der logarithmierte Wert (1) wurde nach der Formel „ -1“ umgerechnet.
25
Im Vergleich zu den Ergebnissen der Tests für die Ausgangsfunktion des linearen Ansatzes (siehe III.1.7.1.1b)) liegt ein Unterschied bei den Heteroskedastie-Tests vor, nach denen hier eine Ablehnung der Nullhypothese vorgenommen werden muss. Im Ergebnis besteht allerdings kein Unterschied, da auch bei der Ausgangsfunktion des linearen Ansatzes Heteroskedastie vorlag, was sich an der Veränderung der p-Values bei einer Schätzung mit der Hetcov-Matrix zeigte (siehe III.1.7.1.1c)).
3.5.1c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix
Wie erwartet zeigt sich bei einer Durchführung der Schätzung mit der Hetcov-Matrix eine Veränderung der p-Values. Dies hat keine Auswirkungen auf die Interpretation, da die Irrtumswahrscheinlichkeit bei einer Ablehnung der Nullhypothese für die Variable „ln Umsatz97“ mit 48,8 Prozent noch höher ist.
Nach dem Ausschluss der Ausreißer ergibt sich die folgende Ergebnisgleichung:
Nach dem Ausschluss der Ausreißer erhöht sich das Bestimmtheitsmaß auf 6,75 Prozent. Wie beim linearen Ansatz erhöht sich auch hier durch den Ausschluss der Ausreißer der Erklärungsgrad der abhängigen Variablen durch das Modell. Der p-Value für „ln Umsatz97“ liegt nun bei 1,7 Prozent. Eine Ablehnung der Hypothese, dass kein Einfluss von dieser Variablen auf die Wachstumsrate des Umsatzes von 1997 bis 1998 ausgeht, ist daher möglich. Der Einfluss des Umsatzes auf die Wachstumsrate liegt bei einer Erhöhung der Wachstumsrate um 2,558, wenn der Umsatz 1997 um 2,72 TDM erhöht wird.
3.5.2b) Die Testergebnisse
Der χ²-Wert des Jarque-Bera-Tests liegt bei 9,157 (bei zwei Freiheitsgraden). Daraus ergibt sich eine Fehlerwahrscheinlichkeit von einem Prozent (siehe Anhang 12) bei einer Ablehnung der Hypothese, dass die Störgröße normalverteilt ist,. Erneut muss diese
26
also abgelehnt und die Normalverteilung anhand des zentralen Grenzwertsatzes angenommen werden.
Die Werte der Heteroskedastie-Tests (siehe Anhang 4, S.11) ergeben p-Values (siehe Anhang 26), die über dem Signifikanzniveau liegen. Daher könnte von einer Homoskedastie der Störgröße ausgegangen werden; aus den oben erwähnten Gründen wird dennoch eine Schätzung mit der Hetcov-Matrix durchgeführt.
Die Ermittlung der p-Values für die F-Werte des Ramyes-RESET-Tests (siehe Anhang 4, S.11) ergibt Werte von 0,63; 0,79 und 0,72 (siehe Anhang 40). Damit kann die Hypothese, dass die funktionale Form des Modells korrekt spezifiziert ist, angenommen werden.
Ein Vergleich zu den Tests des linearen Ausgangsansatzes ohne Ausreißer zeigt, dass die Ergebnisse sich zwischen dem linearen und dem nichtlinearen Ansatz nicht unterscheiden. Im Gegensatz zum Ansatz mit den Ausreißern ergibt sich aus den Heteroskedastie-Tests kein Anzeichen für das Vorliegen von Heteroskedastie. Die anderen Tests ergeben die gleichen Ergebnisse.
3.5.2c) Die Ergebnisse der Schätzung mit der Hetcov-Matrix
Nach der Schätzung mit der Hetcov-Matrix kann festgestellt werden, dass die p-Values gesunken sind. Diese Veränderung bedeutet, dass die Störgröße heteroskedastisch ist. Der p-Value der Variablen „ln Umsatz97“ liegt nun bei 0,4 Prozent. Da bereits der p-Value der „normalen“ Schätzung ohne Ausreißer innerhalb des Signifikanzniveaus lag, ergibt sich für die Interpretation keine Veränderung.
Wie schon beim linearen erweiterten Ansatz wird auch beim nichtlinearen erweiterten Ansatz eine Tabellenform für die Darstellung der Ergebnisse der ols-Schätzung gewählt.
27
Arbeit zitieren:
Patrick Wendlandt, 2004, Der Zusammenhang zwischen der Wachstumsrate des Umsatzes von 1997 bis 1998 und dem Kreis, in dem ein Betrieb 1997 seinen Sitz hatte, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
The Winner’s Curse bei Auktionen: Gewonnen und doch verloren
Herkunft und die Ursachen des ...
BWL - Investition und Finanzierung
Seminararbeit, 22 Seiten
Konfliktlösungsstrategien in Organisationen: der Konflikt als Chance
BWL - Unternehmensführung, Management, Organisation
Hausarbeit, 20 Seiten
Wirkungsabschätzung einer Tobin-Steuer auf die Devisen- und Kapitalmär...
VWL - Geldtheorie, Geldpolitik
Hausarbeit, 36 Seiten
Spekulative Attacken bei fixen Wechselkursen und die Tobin-Steuer
VWL - Geldtheorie, Geldpolitik
Seminararbeit, 25 Seiten
Untersuchung des Einflusses der beruflichen Stellung von vollzeitberuf...
VWL - Mikroökonomie, allgemein
Hausarbeit (Hauptseminar), 29 Seiten
Arbeiten zufriedene Arbeiter besser? Zum Zusammenhang von Arbeitszufri...
BWL - Unternehmensführung, Management, Organisation
Seminararbeit, 20 Seiten
Schlechtleistung des Arbeitnehmers als Haftungsgrund und als Grund für...
Hausarbeit, 16 Seiten
Untersuchung der Unterschiede im Einkommen zwischen den Branchen
VWL - Fallstudien, Länderstudien
Hausarbeit, 47 Seiten
Das Phänomen Overconfidence in Verhandlungs- und Entscheidungssituatio...
Seminararbeit, 19 Seiten
Die Privatisierung des Briefmonopols der Deutschen Post AG und ihre Ko...
VWL - Wettbewerbstheorie, Wettbewerbspolitik
Hausarbeit, 26 Seiten
Vergleich von Konzepten der deskriptiven und präskriptiven Entscheidun...
BWL - Unternehmensführung, Management, Organisation
Diplomarbeit, 76 Seiten
Daseinsvorsorge in der Europäischen Union und die Freie Wohlfahrtspfle...
Pflegemanagement / Sozialmanagement
Hausarbeit, 22 Seiten
Die Haftung des Arbeitnehmers bei Pflichtverletzungen
Jura - Zivilrecht / Arbeitsrecht
Seminararbeit, 14 Seiten
Patrick Wendlandt's Text Der Zusammenhang zwischen der Wachstumsrate des Umsatzes von 1997 bis 1998 und dem Kreis, in dem ein Betrieb 1997 seinen Sitz hatte ist nun auf dem Buchmarkt erhältlich
Patrick Wendlandt hat den Text Der Zusammenhang zwischen der Wachstumsrate des Umsatzes von 1997 bis 1998 und dem Kreis, in dem ein Betrieb 1997 seinen Sitz hatte veröffentlicht
Patrick Wendlandt hat einen neuen Text hochgeladen
Ausgewählte Beiträge zum Innovationsmanagement, zur empirischen Mittel...
Wilhelm Schmeisser, Hermann Mohnkopf
Ökonomische Analysen zu den Effekten von Aufsichtsrats- und Betriebsra...
Schmollers Jahrbuch, 131. Jg. ...
Joachim Wagner
Georges Vantongerloo und seine Kreise von Mondrian bis Bill
"Für eine neue Welt" 1886 -196...
Christoph Brockhaus, Hans Janssen
E. T. A. Hoffmanns Marchenschaffen: Kaleidoskop Der Verfremdung in Sei...
Gisela Vitt-Maucher
Perspektiven Transzendental-PH Nomenologischer Forschung: F R Ludwig L...
K. Held, U. Claesges
0 Kommentare