Dummy-Variablen und Interaktionseffekte

Zusammenhang und Einsatzmöglichkeiten


Seminararbeit, 2011

19 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

Abkürzungsverzeichnis

1. Einleitung.
1.1 Untersuchungsgegenstand

2. Dummy Variablen
2.1 Regression mit qualitativen Faktoren
2.2 Beeinflussung des Niveauparameters
2.3 Dummy Variablen im Log Linearem Modell
2.4 Anwendung der Dummy- Variablen bei ordinalskalierten Merkmalen
2.5 Stata Beispiel

3. Interaktionseffekte
3.1 Interaktionseffekte zwischen qualitativen Informationen
3.2 Beeinflussung der Steigung und des Niveauparameters
3.3 Chow - Test

4.Schlussbetrachtung

Literaturverzeichnis

Anhang

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1. Einleitung

1.1 Untersuchungsgegenstand

Die Regressionsanalyse wird als die Analyse von Beziehungen zwischen Variablen definiert und ist das weitverbreitetste statistische Werkzeug.1 Die Variablen, welche normalerweise in einer Regression enthalten sind, können beliebige Werte annehmen. Es gibt aber auch Anläs- se, bei welchen Variablen eingefügt werden müssen, die nur wenige Werte annehmen können. Die Problematik der quantitativen Variablen besteht darin, dass diese keinen Vergleich zwi- schen mehreren Gruppen oder Eigenschaften ermöglichen.2 Die Regressionsanalyse löst diese Problematik durch den Einsatz von sogenannten Dummy - Variablen. Eine DV steht in der Regressionsanalyse für eine bestimmte Gruppe oder Eigenschaft und stellt in der empirischen Forschung ein häufig genutztes Instrument für die Berücksichtigung qualitativer Eigenschaf- ten dar.3 In dieser Seminararbeit wird der Einsatz von DV erklärt und ihr unterschiedlicher Einsatz erläutert. Weiter wird auch auf die möglichen Interaktionen zwischen einer DV und einer anderen unabhängigen Variablen hingewiesen.

2. Dummy - Variablen

2.1 Regression mit qualitativen Faktoren

Die typische Regressionsanalyse wird mit quantitativen erklärenden Variablen durchgeführt.4 Um jedoch die qualitativen Merkmale wie das Geschlecht, Familienstand oder die Religions- zugehörigkeit in der Regressionsanalyse zu berücksichtigen, muss eine DV benutzt werden.5 Diese binären oder dichotomen Variablen nehmen zwei Werte an. Diese sind 1 und 0. Der Grund warum man qualitative Informationen mit den Werten 1 und 0 beschreibt, ist vor allem die einfache Interpretation der Werte in der Regressionsanalyse.6 Dabei steht die Null für die Basisgruppe oder für das Nichteintreten der untersuchten qualitativen Eigenschaft. Die Eins steht dagegen für das Eintreten der qualitativen Eigenschaft. Die Wahl der Basisgruppe kann beliebig gewählt werden. Eine DV kann leicht in eine Regression eingefügt werden und ist ein häufig angewandtes Instrument in der empirischen Forschung. Dies kann man an der folgenden Lohnregression demonstrieren. Dabei ist von Interesse, ob Männer im Durchschnitt mehr verdienen als Frauen. Das Geschlecht wird dabei durch eine DV erfasst. Die Variable wird folgendermaßen definiert: male = 1 wenn männlich und male = 0 wenn weiblich. In diesem Beispiel wurden Frauen als die Basisgruppe gewählt. Einfachheitshalber wird im Folgenden zusätzlich zum Geschlecht nur die Ausbildungsdauer als eine weitere erklärende Variable in die Regression aufgenommen. Damit ergibt sich die folgende Gleichung:

Abbildung in dieser Leseprobe nicht enthalten

Das γ0 stellt dabei den Lohnunterschied zwischen Männer und Frauen bei gleichem Bildungstand dar. Die Null - Hypothese, welche keinen Unterschied zwischen den Einkommen propagiert, ist: H0: γ0 = 0. Die alternative Hypothese ist H1: γ0 > 0. Da die DV nichts an den Vorgängen des OLS - Schätzers ändert, liefert die t - Statistik die Antwort auf die von den Hypothesen aufgestellten Fragen.7 Der Grund warum man nicht zusätzlich eine DV für Frauen mit: female = 0 wenn männlich und female = 1 wenn weiblich in die Regression einbaut, liegt in der daraus folgenden exakten Kollinearität. Bei exakter Kollinearität liefert der OLS - Schätzer verzerrte Werte. Diese sogenannte Dummyvariablenfalle entsteht vor allem dann, wenn zu viele DV eine mögliche Eigenschaft beschreiben.8

2.2 Beeinflussung des Niveauparameters

Wie man an der Gleichung (1) sehen kann wird im Fall: γ0 > 0 Der Niveauparameter der Regressionsgeraden verschoben. Dies kann man an der folgenden Gleichung betrachten.

Abbildung in dieser Leseprobe nicht enthalten

Damit ist der Niveauparameter für die Basisgruppe Frauen =[Abbildung in dieser Leseprobe nicht enthalten] und für die Männer[Abbildung in dieser Leseprobe nicht enthalten] Aus der Differenz der beiden Gleichungen erhält man den Koeffizienten γ0, welcher den Unterschied zwischen den Geschlechtern widergibt. Gilt γ0 > 0, so wird die Regressionsgera- de parallel verschoben und zeigt die Lohndiskriminierung zwischen den Geschlechtern.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 19

Abbildung 1 zeigt den grafischen Verlauf der Regressionsgeraden. In diesem Beispiel wurde nur eine quantitativ erklärende Variable educ in die Regression aufgenommen. Es können aber auch weitere quantitative Variablen zur Produktivitätsmessung in die Regression aufge- nommen werden. Manche Forscher verzichten auf den Niveauparameter und fügen für jede Gruppe oder Eigenschaft eine DV in die Regresssion ein. Dadurch entgeht man der Dummyvariablenfalle, weil es dadurch keinen allgemeinen Niveauparameter gibt. Diesem möglichen Vorteil stehen jedoch größere Nachteile entgegen. Zum einen wird der Unterschied zwischen den Gruppen nicht mehr so deutlich ersichtlich wie bei der Methodik mit dem all- gemeinem Niveauparameter. Zum anderen hat diese Methodik keinen allgemein anerkannten Weg, das empirische Bestimmtheitsmaß R² zu berechnen.10 Im Folgenden wird diese Metho- dik nicht angewandt.

2.3 Dummy - Variablen im Log Linearem Modell

Oft wird in der Praxis die abhängige Variable in logarithmischer Form aufgeführt. Der Dum- my-Variablen-Koeffizient wird in diesem Fall näherungsweise als Prozentsatz interpretiert.

Bei kleinen Werten von [Abbildung in dieser Leseprobe nicht enthalten]gilt, dass [Abbildung in dieser Leseprobe nicht enthalten] Damit kann auf die Umrechnung verzichtet werden. Hat der Koeffizient einen zu großen Wert, so ist er aufgrund der näherungsweisen Bestimmung ungenau. Um einen genauen Wert zu bestimmen, kann man zur Hilfe die Semielastizität Berechnung nehmen.

Abbildung in dieser Leseprobe nicht enthalten

Bei der Berechnung in Formel (3) ist es wichtig, das Vorzeichen des Koeffizienten in die Gleichung einzubeziehen. Weiter sollte bei der exakten Berechnung die gewählte Basisgruppe nicht aus den Augen verloren werden. Wird die Basisgruppe ungeachtet getauscht, so ist der exakte Koeffizient dafür nicht mehr geeignet.11 Im Schrifttum werden weitere Methoden zur Berechnung eines exakten Wertes diskutiert. Eine davon berücksichtigt, dass bei der Normal-

verteilung des Zufallsfehlers[Abbildung in dieser Leseprobe nicht enthalten] da[Abbildung in dieser Leseprobe nicht enthalten]dem exp[Abbildung in dieser Leseprobe nicht enthalten] entspricht und in diesem ଶ Fall bei der Berechnung angewandt werden kann.12

2.4 Anwendung der Dummy- Variablen bei ordinalskalierten Merkmalen

Qualitative Faktoren können nominal- oder ordinalskaliert sein. Häufig werden ordinalskalierte Merkmale in Intervallskalen transferiert um diese für die Regression zu ver- wenden. Dabei werden die Merkmalsausprägungen entsprechend der Rangordnung kodiert. Die Problematik dabei ist, dass bei ordinalskalierten Merkmalen die Abstände zwischen den Ausprägungen nicht als gleich groß interpretiert werden können. Die DV bieten aber auch für ordinalskalierte Merkmale wie Noten und Handelsklassen eine Möglichkeit, diese in der Regressionsanalyse zu berücksichtigen. Dabei wird für jede mögliche Ausprägung eine DV generiert. Zu beachten ist hier, dass bei n Ausprägungen n - 1 DV generiert werden dürfen da man sonst aufgrund der perfekten Kolliniarität in die bekannte Dummyvariablenfalle tritt. Somit muss eine Gruppe oder Eigenschaft als die Basisgruppe definiert werden. Eine Proble- matik bei den ordinalskalierten Merkmalen ist der Umstand zu vieler Ausprägungen. Dadurch wird es schwer für jeden Wert eine DV zu generieren und anzuwenden. Trotz dieser Schwie- rigkeit bietet die DV dennoch eine gute Möglichkeit auch ordinalskalierte Merkmale in die Regressionsanalyse aufzunehmen.13

2.5 Stata Beispiel

Im Folgenden wird mit dem Datensatz Soep.200514 eine Regression durchgeführt. Dabei soll die mögliche Lohndiskriminierung zwischen Männer und Frauen untersucht werden. In dieser Regression wird nur die DV male berücksichtigt. Als quantitative Variablen werden Ausbildungsdauer, Erfahrung und Unternehmenszugehörigkeit in die Regression eingefügt. Die Regression liefert folgende Daten:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2

Der Koeffizient von male impliziert, dass bei gleichem Niveau von Ausbildung, Erfahrung und Betriebszugehörigkeit die Männer durchschnittlich 26,5% mehr als Frauen verdienen. Die hohen t-Statistiken der Koeffizienten weisen eine hohe Signifikanz der Koeffizienten auf. Dieses Beispiel zeigt die einfache Möglichkeit die DV in eine Regression einzufügen. Zu beachten ist jedoch, dass hier keine Überlegungen zu möglichen Interaktionen angestellt wurden.

3. Interaktionseffekte

3.1 Interaktionseffekte zwischen qualitativen Informationen

Interaktionseffekte stellen in der multiplen Regression die gegenseitigen Einflüsse von mehre- ren erklärenden Variablen dar. Mögliche Interaktionseffekte sollten somit in einer Regression berücksichtigt werden. Interaktionseffekte können als das Produkt von zwei quantitativen Variablen, zwei DV oder einer quantitativen Variable und einer DV definiert werden.15 Die Interaktionseffekte, welche zwischen einer DV und einer quantitativen Variablen entstehen, ermöglichen zudem eine Analyse von marginalen Effekten.16 In den Beispielen zuvor wurde bei der Regression nur eine DV berücksichtigt. Es ist aber auch problemlos möglich weitere DV in die Regression einzufügen.17 So könnte zusätzlich zum Geschlecht eine zusätzliche DV married in die Regression eingefügt werden, um zu prüfen, ob die sogenannte Heiratsprämie existiert. Bei dieser Regression sollte nicht vergessen werden, dass es mögliche Interaktionen zwischen den gewählten DV geben kann. Interaktion wird in diesem Fall als die gegenseitige Beeinflussung zwischen den erklärenden Variablen verstanden.18 Diese Interaktionen werden jedoch nicht durch die DV berücksichtigt. Dies erfolgt durch die Multiplikation von Ge- schlecht und Heiratsprämie. Bei mehr als zwei DV muss auch die gemeinsame Interaktion berücksichtigt werden, welche durch die gegenseitige Multiplikation durchgeführt wird. Die zusätzliche DV married erweitert die Regression (1) auf:

Abbildung in dieser Leseprobe nicht enthalten

Die Interaktion zwischen den qualitativen Merkmalen führt zu keiner Veränderung in der Steigung der Regressionsgeraden sondern zu einer Verschiebung des Niveauparameters. Die Regression mit dem Datensatz Soep. 2005 zeigte, dass es einen statistisch signifikanten Interaktionseffekt zwischen dem Geschlecht und dem Beziehungsstatus gibt. Die Regression liefert folgendes Ergebnis:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung in dieser Leseprobe nicht enthalten

Die Werte in den Klammern stellen t-Statistiken dar. Bei der Auswertung der Regression sollte beachtet werden, welche Gruppe untersucht werden soll. Die Basisgruppe stellen hier unverheiratete Frauen dar. Setzt man für male = 1 und married = 1 so werden verheiratete Männer betrachtet. Der erwartete Unterschied zwischen verheirateten Männern und verheira- teten Frauen liegt somit bei 0,15 +0,24 = 0,39 = 39%. Die Heiratsprämien sind bei Männern durchschnittlich um 24% höher als bei Frauen.

3.2 Beeinflussung der Steigung und des Niveauparameters

Bei einer Regression gibt es auch Anlässe bei denen die Interaktion zwischen einer DV und einer quantitativen Variablen untersucht werden sollen.19 Diese sogenannte Slope - Dummy - Variable erlaubt unterschiedliche Steigungen der Regressionsgeraden.20 Bei der Betrachtung des Lohnbeispiels ist somit durch die DV möglich zu überprüfen, ob die marginale Entlohnung der Ausbildung bei Männern höher ausfällt als bei Frauen. Für diese Betrachtung wird das Modell folgenderweise erweitert:

Abbildung in dieser Leseprobe nicht enthalten

Die Basisgruppe bei dieser Regression stellen die Frauen dar. Die DV lässt in diesem Beispiel unterschiedliche Steigungen und unterschiedliche Niveauparameter zu. Setzen wir für male = 0 so wird der Niveauparameter für Frauen β0 und die Steigung der Regressionsgeraden β1. Setzt man für male = 1 so bekommt man den Niveauparameter für den Mann mit (β0 + γ0) und die Steigung mit (β1 + γ1). Abbildung 3 verdeutlicht die unterschiedlichen Steigungen bei Interaktion einer DV mit einer quantitativen Variablen und die Unterschiede im Niveauparameter beim Einsatz der DV.21

[...]


1 Vgl. Chatterjee et al. (2002), S.1.

2 Vgl. Draper Smith (1998), S. 299.

3 Vgl. Jaccard Turrisi (2003), S. 12.

4 Vgl. Hardy (1993), S.1.

5 Vgl. Wooldridge (2009), S. 226.

6 Vgl. Hill et al. (2007), S. 171.

7 Vgl. Wolldridge (2009), S. 227-228.

8 Vgl. Hill et al. (2007), S. 172.

9 Vgl. Hill et al. (2007), S. 171.

10 Vgl. Wooldridge (2009), S. 227. ; Hill et al. (2007) S. 171.

11 Vgl. Wooldridge (2009), S. 233.

12 Vgl. Garderer /Shah (2002), S. 150. ; Winkelmann (2001), S. 422.

13 Vgl. Götze et al. (2002), S. 336.

14 Es handelt sich um Daten des Deutschen Sozio-ökonomischen Panels für das Jahr 2005, diese wurden mir freundlicherweise vom Lehrstuhl für Statistik und Ökonometrie zur Verfügung gestellt.

15 Vgl. Hardy (1993), S. 30.

16 Vgl. Wooldridge (2009), S. 197.

17 Vgl. Kennedy (2001), S. 225.

18 Vgl. Wooldridge (2009), S. 238.

19 Vgl. Wolldridge (2009), S. 239.

20 Vgl. Hill et al. (2007), S. 172.

21 Vgl. Wolldridge (2009), S. 240.

Ende der Leseprobe aus 19 Seiten

Details

Titel
Dummy-Variablen und Interaktionseffekte
Untertitel
Zusammenhang und Einsatzmöglichkeiten
Hochschule
Universität Hohenheim
Note
1,3
Autor
Jahr
2011
Seiten
19
Katalognummer
V212308
ISBN (eBook)
9783656400608
ISBN (Buch)
9783656401247
Dateigröße
975 KB
Sprache
Deutsch
Schlagworte
dummy, variablen, interaktionseffekte
Arbeit zitieren
Waldemar Kessel (Autor), 2011, Dummy-Variablen und Interaktionseffekte, München, GRIN Verlag, https://www.grin.com/document/212308

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Dummy-Variablen und Interaktionseffekte



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden