1 EINLEITUNG 2
2 VARIANZANALYSE 4
2.1 Die Logik der Varianzanalyse 5
2.1.1 Gruppenmittelwerte in Stichprobe und Grundgesamtheit 6
2.1.2 Die eigentliche Varianzanalyse 7
2.1.3 Voraussetzungen 8
2.1.4 Die Stärke des Zusammenhangs 10
2.2 Multifaktorielle Varianzanalyse 11
2.2.1 Varianzanalyse mit einem Faktor 11
2.2.2 Varianzanalyse mit zwei Faktoren 12
2.2.3 Varianzanalyse mit drei Faktoren 15
3 REGRESSIONSANALYSE 19
3.1 Einfache Regressionsanalyse 22
3.1.1 Regressionskoeffizient und Konfidenzintervall 23
3.1.2 Fit der Regressionsgleichung und PRE-Logik 23
3.1.3 Überprüfung der Residuen 24
3.2 Multiple Regressionsanalyse 24
3.2.1 Die einbezogenen Variablen 25
3.2.2 Prüfung auf Multikollinearität 26
3.2.3 Die multiple Regressionsanalyse 26
3.2.4 Überprüfung der Residuen 28
3.2.5 Zusammenfassung 28
4 LITERATURVERZEICHNIS 30
5 ANLAGEN 32
1
1 Einleitung
Meine Hausarbeit beschäftigt sich mit multivariaten Analyseverfahren. So werden Verfahren bezeichnet, in denen mindestens drei Merkmale bzw. Variablen statistisch analysiert werden (Ludwig-Mayerhofer 1999a). 1 Ich stelle hier nur Modelle mit einer abhängigen und mehreren unabhängigen Variablen vor.
Man kann allgemein zwischen strukturen-entdeckenden bzw. datenreduzierenden Verfahren einerseits und strukturen-prüfenden bzw. hypothesentestenden Verfahren andererseits unterscheiden (Ludwig-Mayerhofer 1999a u. Backhaus u.a. 1990: XIVf). Faktoren- und Clusteranalysen sind Beispiele für strukturen-entdeckende Verfahren. Ziel dieser Verfahren ist es in erster Linie, Zusammenhänge zwischen Variablen zu entdecken. Und zwar ohne, dass theoretische oder sachlogische Vorstellungen über Beziehungszusammenhänge zwischen den Variablen bereits vorher vorliegen. (Backhaus u.a. 1990: XIVf).
Strukturen-prüfende Verfahren dienen dazu, Hypothesen zu testen. Der Anwender besitzt damit bereits eine auf sachlogischen oder theoretischen Überlegungen basierende Vorstellung über mögliche Zusammenhänge zwischen den Variablen und möchte diese Zusammenhänge empirisch anhand eines Datensatzes überprüfen (Backhaus u.a. 1990: XV). Regressionsanalysen, Varianzanalysen, Diskriminanzanalysen und Kausalanalysen sind Beispiele für hypothesentestende statistische Verfahren. In meiner Hausarbeit beschränke ich mich auf die Darstellung von Varianz- und Regressionsanalysen als zwei wichtige und häufig in der empirischen Sozialforschung angewandte statistische Verfahren. Mir geht es in erster Linie darum, die Anwendung der statistischen Verfahren als solche zu demonstrieren und ihre zu Grunde liegende Logik herauszuarbeiten. Es kommt mir hier also weder auf die sachlogische oder theoretische Fundierung der zu testenden Hypothesen noch auf die Aktualität des Datensatzes an.
Als Beispiel-Datensatz dient mir die „Allgemeine Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1996. Seit 1980 wird im Rahmen von ALLBUS alle
2 Jahre ein repräsentativer Bevölkerungsquerschnitt der Bundesrepublik Deutschland
1 Manchmal werden nur solche Verfahren als „multivariat“ bezeichnet, in denen mehrere abhängige
Variablen simultan analysiert werden. Modelle mit nur einer abhängigen Variablen werden in diesem
Sprachgebrauch dann als „multiple“ bezeichnet (Ludwig-Mayerhofer 1999a).
2
mit einem teils sich wiederholenden, teils aber auch variablen Fragenprogramm befragt. Den entsprechenden Datensatz 2 , den Methodenbericht, den Codeplan und den Fragenkatalog habe ich auf der Internet-Seite der „Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen e.V. (GESIS)“ herunter geladen (http://www.gesis.org/Datenservice/ALLBUS/index.htm).
Als Software habe ich das in der Soziologie sehr gebräuchliche Datenverarbeitungsprogramms SPSS (Statistical Package for Social Sciences) in der Version „SPSS for windows. Release 6.0“ verwendet.
2 Der ALLBUS-Datensatz von 1996 liegt mir nur in reduzierter Form als ALLBUScompact-Datensatz
vor.
3
2 Varianzanalyse
Ein wichtiges Verfahren der multivariaten Datenanalyse ist die Varianzanalyse. Für die unabhängigen Variablen wird dabei mindestens Nominalskalierung, für die abhängigen Variablen mindestens Intervallskalierung vorausgesetzt (Backhaus u.a.1990: 43). Die unabhängigen Variablen werden dabei auch als „Gruppierungsvariablen“ oder „Faktoren“ bezeichnet.
Der Grundgedanke der Varianzanalyse besteht darin, die gesamte Varianz (Streuung) des zu erklärenden Merkmals der abhängigen Variablen (oder mehrerer solcher Variablen) aufzuteilen (zu "zerlegen"): In die Varianz zwischen den einzelnen Gruppen
- die Abweichung der Gruppenmittelwerte vom Gesamtmittelwert über alle Gruppen bzw. Untersuchungseinheiten - und in die Varianz innerhalb der Gruppen 3 (Ludwig-Mayerhofer 1999b). Voraussetzung für die Anwendung der Varianzanalyse ist eine theoretisch begründete Vermutung über die Wirkungsrichtung der zu untersuchenden Variablen (Backhaus u.a.1990: 44 u. 64). Mit anderen Worten: Der Ursache-Wirkungszusammenhang muss sich sachlogisch oder theoretisch begründen lassen und die als unabhängig bezeichneten Variablen müssen den (der) abhängigen Variablen zeitlich vorausgehen.
Man spricht von einfaktorieller univariater Varianzanalyse, wenn die Untersuchungsobjekte lediglich hinsichtlich eines Merkmals (Faktors) in Gruppen eingeteilt werden und nur eine abhängige Variable in die Untersuchung einbezogen wird. In SPSS steht dafür die Prozedur „Compare means//One-Way ANOVA“ zur Verfügung. 4 Werden mehrere Gruppierungsmerkmale (Faktoren) und eine abhängige Variable untersucht, wird dies als mehrfaktorielle univariate Varianzanalyse bezeichnet. Bei der mehrfaktoriellen Varianzanlyse können auch Interaktionseffekte geprüft werden, d.h. unterschiedliche Wirkungen eines Faktors in Abhängigkeit von den Ausprägungen eines anderen Faktors oder mehrerer anderer Faktoren. In SPSS lässt sich die mehrfaktorielle univariate Varianzanalyse über „ANOVA Models//Simple Factorial“ berechnen.
3 Die Abweichung der einzelnen Messwerte innerhalb der Gruppen vom Gruppenmittelwert wird dabei
auch als „Residualvarianz“ oder „Fehlervarianz“ bezeicnet.
4 „ANOVA“ steht dabei für “ANalysis Of VAriance“.
4
Werden mehrere Gruppierungsmerkmale und mehrere abhängige Variable simultan geprüft, wird von einer multivariaten bzw. mehrdimensionalen Varianzanalyse gesprochen. SPSS berechnet diese über die Prozedur „ANOVA Models//Multivariate“. (Ludwig-Mayerhofer 1999b; Backhaus u.a. 1990: 45).
Ich beschränke mich in meiner Hausarbeit auf Berechnung und Interpretation einer mehrfaktoriellen univariaten Varianzanalyse. Zunächst arbeite ich aber im folgenden Abschnitt die Logik der Varianzanalyse im einzelnen anhand eines einfaktoriellen Beispiels heraus.
2.1 Die Logik der Varianzanalyse
In dem mir zur Verfügung stehenden Datensatz „allbus96“ habe ich eine Variable „eink_k“ erzeugt, die das in einem Haushalt pro Kopf zur Verfügung stehende monatliche Einkommen in DM angibt. 5 In „eink_k“ sind sowohl Ein- als auch Mehrpersonenhaushalte erfasst. In meinem Anwendungsbeispiel soll es sich bei „eink_k“ um die abhängige Variable handeln. Bei „eink_k“ handelt es sich um eine Ratioskala: Die Einkommensangaben in DM informieren über die Abstände zwischen den gemessenen Ausprägungen 6 und es ist gleichzeitig ein sinnvoll interpretierbarer Nullpunkt vorhanden. Die Bedingung eines mindestens intervallskalierten Messniveaus für die abhängige Variable ist damit erfüllt.
Es lässt sich theoretisch begründbar die Hypothese aufstellen, dass der erreichte allgemeinbildende Schulabschluss zumindest teilweise die Unterschiede bzw. die Varianz des pro Kopf zur Verfügung stehenden Einkommens erklärt. Mit Hilfe der Variablen „schule“ und „eink_k“ soll diese Hypothese überprüft werden. 7 Da die Befragten aus den neuen Bundesländern in der Allbus-Studie aus statistischen Gründen deutlich überrepräsentiert sind (Gabler u.a. 1996: 61), gewichte die Fälle mit Hilfe der Variablen „gewicht“, so dass sich sämtliche Ergebnisse im Kapitel über die Varianzanalyse auf Gesamtdeutschland beziehen. 8 Die Variable „schule“ ist
5 In Anlage 1 findet sich die entsprechende SPSS-Syntax, mit der ich die neue Variable „eink_k“ erzeugt habe.
6 Es ist allerdings zu bedenken, dass ich die Werte von „eink_k“ bei „von-bis“-Angaben“ über die Bildung arithmetischer Mittel erzeugt habe. Dies soll hier allerdings vernachlässigt werden. 7 Eine Variable wie „Schicht der Eltern“ liegt mir leider nicht vor. Es geht mir in dieser Hausarbeit allerdings in erster Linie darum, das Prinzip von multivariaten Verfahren zu demonstrieren. 8 Im Kapitel über die Regressionsanalyse rechne ich im Unterschied dazu ausschließlich mit den Fällen der alten Bundesländer.
5
ordinalskaliert, wobei hier nur die Ausprägungen 1 bis 5 sinnvoll interpretiert werden können und in die Varianzanalyse folgendermaßen als „Gruppen“ eingehen:
1 = keinen Schulabschluss, 2 = Volks- bzw. Hauptschulabschluss, 3 = Mittlere Reife, 4
= Fachhochschulreife und 5 = Abitur bzw. Hochschulreife. Die Fälle mit den Ausprägungen 6 (anderer Abschluss), 7 (noch Schüler/in) und 9 (keine Angabe) bleiben außen vor (zusammen genommen 48 Fälle 9 ) und entfallen ebenso wie die „missings“ der Variablen „eink_k“. 10
2.1.1 Gruppenmittelwerte in Stichprobe und Grundgesamtheit
Zunächst werden mit Hilfe von SPSS die „Gruppenmittelwerte“ ermittelt. 11 Es fällt zunächst auf, dass sich die Gruppenmittelwerte („Mean“) in der Stichprobe deutlich von einander unterscheiden. Je höher der erreichte Bildungsabschluss, desto höher ist auch das im Durchschnitt der jeweiligen Gruppe pro Kopf zur Verfügung stehende Einkommen. Der Mittelwert steigt stufenweise von 1195,7697 DM in der Gruppe der Personen ohne Schulabschluss bis auf 2299,8265 DM in der Gruppe mit Abitur bzw. Hochschulreife.
Zu prüfen ist allerdings, ob sich die einzelnen Gruppenmittelwerte auch in der Grundgesamtheit signifikant von einander unterscheiden. Dies kann mit Hilfe des Konfidenzintervalls überprüft werden. Das 95%-Konfidenzintervall („95 Pct Conf Int for Mean“) gibt mit 95%-iger Sicherheit an, in welchem Bereich sich der jeweilige Gruppenmittelwert der Stichprobe in der Grundgesamtheit wiederfindet. Oder umgekehrt ausgedrückt: Mit einer Irrtumswahrscheinlichkeit von 5% liegt der Gruppenmittelwert der Stichprobe in der Grundgesamtheit in den angegebenen Grenzen. Es fällt auf, dass keine Überschneidungen zwischen den Konfidenzintervallen vorliegen. 12 Diese Tatsache kann als deutlicher Hinweis gewertet werden, dass die Nullhypothese zu verwerfen ist und die Unterschiede zwischen den Gruppenmittelwerten auch in der Grundgesamtheit signifikant sind.
9 Alle Zahlen gewichtet.
10 Insgesamt 870 „missings“.
11 Siehe Anlage 2.
12 Siehe SPSS-Output (Anlage 2): Für die Gruppe der Befragten ohne Schulabschluss beispielsweise liegt das Durchschnitteinkommen pro Kopf mit einer Irrtumswahrscheinlichkeit von 5 % in der Grundgesamtheit im Bereich zwischen 1018 und 1373 DM.
6
2.1.2 Die eigentliche Varianzanalyse
Die Varianzanalyse zerlegt die Summe der quadrierten Abweichungen der einzelnen Werte vom Gesamtmittelwert der Variablen „eink_k“ („Sum of Squares total“ = Gesamtvarianz) in die Summe der quadrierten Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert („Sum of Squares between groups“ = erklärte Varianz) und die Summe der quadrierten Abweichungen innerhalb der Gruppen vom Gruppenmittelwert („Sum of Squares within groups“ = nicht erklärte Varianz). In meinem Beispiel berechnet SPSS die folgenden Werte 13 :
Erklärte Varianz: 237.829.128,4 Nicht erklärte Varianz (auch Residualvarianz/Fehlervarianz): 2.290.902.793,0 Gesamtvarianz: 2.528.731.922,0 Aus dem Verhältnis der erklärten Varianz zur nicht-erklärten Varianz lassen sich mit Hilfe des F-Tests Rückschlüsse über die Gruppenmittelwerte in der Grundgesamtheit ziehen. Würden beispielsweise die einzelnen Werte innerhalb der Gruppen überhaupt nicht um den jeweiligen Gruppenmittelwert streuen (Nicht erklärte Varianz = 0) und gleichzeitig sehr unterschiedliche Gruppenmittelwerte vorliegen, wäre es sehr wahrscheinlich, dass die Mittelwertunterschiede zwischen den Gruppen in der Stichprobe sich nicht zufällig ergeben haben, sondern aus Mittelwertunterschieden in der Grundgesamtheit herrühren (Brosius 1996: 421). Sind die Unterschiede zwischen den Gruppen also relativ groß bei gleichzeitig nicht allzu großer Varianz innerhalb der Gruppen, so kann man davon ausgehen, dass die Gruppenzugehörigkeit einen „Einfluss“ auf die „abhängige“ Variable hat. Formal geprüft wird dies über den sogenannten F-Test. 14 Dazu wird der empirische F-Wert mit dem theoretischen F-Wert verglichen, der sich ergeben würde, wenn sich die Unterschiede in der Stichprobe zwischen den Gruppenmittelwerten rein zufällig ergeben hätten und damit in der Grundgesamtheit nicht vorlägen (= Bestätigung der Nullhypothese). Ist der empirische F-Wert größer als der bei rein zufälliger Verteilung sich ergebende theoretische F-Wert, muss die Nullhypothese mit der jeweils festgelegten Irrtumswahrscheinlichkeit (hier: 5%) verworfen werden.
13 Siehe SPSS-Output (Anlage 2).
14 Es geht jetzt also darum, ob der „Einfluss“ der „unabhängigen“ Variablen auf die „abhängige“ Variable
insgesamt signifikant ist.
7
Der empirische F-Wert berechnet sich folgendermaßen: Erklärte Varianz und nichterklärte Varianz werden dabei zunächst durch ihre jeweiligen Freiheitsgrade 15 (D.F.) dividiert („Mean Squares between groups“ und „within groups“). Aus diesen beiden Werten wird dann ein Quotient mit der erklärten Varianz im Zähler und der nicht erklärten Varianz im Nenner gebildet. In meiner Beispielsrechnung gibt SPSS den empirischen F-Wert (F Ratio) mit 67,9466 an. Der theoretische F-Wert wird von SPSS nicht angegeben. Er lässt sich aber einer entsprechenden Tabelle entnehmen: Bei einer Irrtumswahrscheinlichkeit von 5% ergeben sich F = 5,63 (Sahner 1990: 181), bei einer Irrtumswahrscheinlichkeit von 1% F = 13,56 (Sahner 1990: 183) Der empirische F-Wert liegt damit erheblich höher als der theoretische F-Wert. Die Nullhypothese kann deshalb verworfen werden, d.h. es ist davon auszugehen, dass sich die Unterschiede zwischen den Gruppenmittelwerten in der Stichprobe nicht rein zufällig ergeben haben, sondern auf Unterschieden in der Grundgesamtheit basieren. SPSS gibt anstelle des theoretischen F-Wertes die Wahrscheinlichkeit an, mit der die Nullhypothese bestätigt werden kann. Diese Wahrscheinlichkeit wird von SPSS mit F-Prob = 0,0000 angegeben. Die Nullhypothese, der zufolge kein Unterschied zwischen den Gruppenmittelwerten in der Grundgesamtheit besteht, wird also zurückgewiesen.
2.1.3 Voraussetzungen
Voraussetzungen für die Gültigkeit dieser inferenzstatistischen Absicherung der abhängigen Variablen in der Grundgesamtheit ist die Unabhängigkeit, die Normalverteilung der abhängigen Variablen in der Grundgesamtheit und die Gleichheit der Varianzen in den einzelnen Gruppen (Kappelhoff 2000: 14).
Zu den drei Voraussetzungen:
a) Unabhängigkeit: Die Unabhängigkeit ist immer dann gegeben, wenn eine Zufallsstichprobe vorliegt. „Allbus 96“ erfüllt diese Voraussetzung.
b) Normalverteilung der abhängigen Variablen: Das Histogramm 16 zeigt, dass „eink_k“ in der Stichprobe in etwa normalverteilt ist und von daher vermutlich auch in der Grundgesamtheit ungefähr normalverteilt sein wird.
15 Die Freiheitsgrade (D.F.: „Degrees of freedom“) der erklärten Varianz berechnen sich wie folgt: D.F. = k –1 (k =Anzahl der gebildeten Gruppen). In meinem Beispiel ergeben sich 5 – 1 = 4 Freiheitsgrade. Die Freiheitsgrade der nicht-erklärten Varianz berechnen sich so: D.F. = N – (K-1) (N= Anzahl der Fälle; k = Anzahl der gebildeten Gruppen). Hier: 2622 (count total) – 4 = 2618 Freiheitsgrade.
16 Siehe Anlage 3.
8
c) Varianzhomogenität/Homoskedasität: Damit die Varianzanalyse angewendet werden kann, muss unterstellt werden, dass die anderen möglichen Größen, die „eink_k“ beeinflussen, sich bis auf zufällige Schwankungen, die sich ausgleichen, in allen Gruppen der Stichprobe gleich auswirken. Diese Voraussetzung wird Varianzhomogenität genannt (Backhaus u.a. 1990: 65). SPSS überprüft die Gleichheit der Varianzen in den einzelnen Gruppen mit Hilfe des „Levene Test for Homogeneity of Variances“. In meiner Beispielrechnung weist der Levene-Test mit einer an Sicherheit grenzenden Wahrscheinlichkeit (p=0,000) die Nullhypothese zurück, dass die Varianzen der einzelnen Gruppen gleich sind. Die Voraussetzung der Varianzhomogenität ist also nicht gegeben. Die Varianzanalyse ist allerdings sehr robust und trifft lediglich Aussagen darüber, ob ein Zusammenhang in der Grundgesamtheit vorliegt und nicht darüber, wie stark dieser Zusammenhang ist (Backhaus u.a 1990.: 66). Insofern haben die Ergebnisse trotzdem eine gewisse Aussagekraft. 17 Bisher kann festgestellt werden, dass die Mittelwerte in der Grundgesamtheit nicht alle gleich sind. Zusätzlich lässt sich nun überprüfen, ob alle Mittelwerte in der Grundgesamtheit voneinander verschieden sind. Theoretisch wäre es möglich, die Gruppen paarweise auf Mittelwertunterschiede mit Hilfe einer Reihe von „t-tests“ zu überprüfen. Aufgrund der hohen Anzahl der dann erforderlichen Tests ist die Fehlerwahrscheinlichkeit jedoch relativ hoch und deshalb nicht zulässig (Kappelhoff 2000: 12). Aus diesem Grunde wendet man lieber sogenannte multiple Vergleichstests (multiple comparison) an. Der mit SPSS rechenbare Student-Newman-Keuls-Test ist einer solcher Test mit geringerer Fehlerwahrscheinlichkeit.
Die Matrix des SPSS-Outputs 18 gibt mittels „* “ an, welche Mittelwerte sich jeweils signifikant voneinander unterscheiden 19 In meinem Beispiel unterscheiden sich die Mittelwerte aller Gruppen signifikant von allen anderen Mittelwerten der jeweils anderen Gruppen. 20
17 Vor allem dann , wenn die Gruppen nicht zu klein und ungefähr gleich groß sind, ist die Varianzanalyse relativ robust gegen moderate Verletzungen dieser Annahmen (Ludwig-Mayerhofer 1999b). Das ist hier aber nicht der Fall: In Gruppe 1 ist N = 54, in Gruppe 2 ist N = 1259. Es ist aber weiterhin zu bedenken, dass bei sehr großen Fallzahlen bereits sehr feine Unterschiede in den Varianzen als signifikant ausgewiesen werden (Kappelhoff 2000: 16). Die Unterschiede zwischen den Standardabweichungen sind allerdings hier sehr groß: In Gruppe mit Abitur (Grp. 5) ist die Standardabweichung mehr als doppelt so hoch wie in der Gruppe ohne Schulabschluss (Grp. 1). 18 Siehe Anlage 2.
19 Hier mit einer Irrtumswahrscheinlichkeit von 5 %.
20 Ob jeweils eine Signifikanz vorliegt, entscheidet sich nach der im SPSS-Output beim „Student-Newman-Keuls test“ angegebenen Formel (Brosius 1996: 424).
9
2.1.4 Die Stärke des Zusammenhangs
Der Zusammenhang zwischen den Variablen „allgemein bildender Schulabschluss“ und „Einkommen pro Kopf“ ist also hoch signifikant. Eine Aussage über die Stärke oder das Ausmaß des Zusammenhangs ist damit allerdings noch nicht getroffen. Ein hohes Signifikanzniveau sagt noch nichts darüber aus, wie relevant der Effekt der einen Variablen auf die andere Variable tatsächlich ist (Wisemann 2004: 23). 21 Ein wichtiges Zusammenhangmaß für die Varianzanalyse ist das sogenannte K 2 . Bei der Varianzanalyse gibt „eta-quadrat“ die „Proportion der Varianz der abhängigen Variablen wieder, die durch die Gruppenunterschiede erklärt werden kann“ (Wisemann 2004: 23). K 2 berechnet sich aus der Division der erklärten Varianz durch die Gesamtvarianz. In meinem Beispiel ergibt sich: K 2 = 237.829.128 („Sum of Squares Schule“) / 2.528.731.922 (Sum of Squares Total) = 0,094. K 2 kann als sogenanntes PRE-Maß interpretiert werden. PRE steht für „Proportional Reduction of Error“. PRE-Maße drücken aus, wie gut die Ausprägungen einer Variablen durch die Kenntnis einer oder mehreren anderer Variablen vorhergesagt werden können (Ludwig-Mayerhofer 1999c). In meinem Beispiel lässt sich ein K 2 -Wert von 0,094 folgendermaßen interpretieren: Auf der Basis der Subgruppendurchschnitte der Variablen „schule“ lässt sich das individuelle Einkommen pro Kopf mit einem um 9,4 Prozent geringeren Fehler vorhersagen als auf der Basis des Gesamtdurchschnittseinkommen pro Kopf. Mit anderen Worten: 9,4% der Variation des Einkommens pro Kopf kann mit der Variablen „schule“ erklärt werden. Die restlichen 90,6 % lassen sich also nicht mit dem allgemeinen Schulabschluss erklären (Benninghaus 1990: 360). In SPSS lässt sich K über die Prozedur „ANOVA Models//Hierachical – MCA“ erzeugen. 22 Eta wird im Output mit 0,31 ausgewiesen, K 2 ist dementsprechend 0,0961 und entspricht bei nur einer unabhängigen Variablen in etwa dem Wert von „Multiple R Squared“, den SPSS hier mit 0,094 23 angibt. 24
21 So hängt die Signifikanz nicht nur von der Größe des Effekts bzw. der Korrelation ab, sondern auch von der Stichprobengröße. Sehr große Stichprobengrößen erzeugen damit auch tendenziell höhere Signifikanzen als kleinere Stichprobengrößen, ohne dass deshalb ein stärkerer Zusammenhang vorliegen muss.
22 Siehe Anlage 4.
23 Es dürfte sich hier um Rundungsdifferenzen handeln.
24 Der Unterschied zwischen „eta“ und „Multiple R Squared“ wird erst bei mehreren unabhängigen Variablen relevant (Backhaus u.a. 1990: 61f).
10
2.2 Multifaktorielle Varianzanalyse
Die multifaktorielle Varianzanalyse untersucht den Einfluss mehrerer Faktoren (unabhängiger Variablen) auf die abhängige Variable. Es lässt sich theoretisch begründen, dass „allgemein bildender Schulabschluss“, „Staatsangehörigkeit“ und die „Anzahl der Haushaltsangehörigen pro Haushalt“ möglicherweise einen Einfluss auf das pro Kopf zur Verfügung stehende Einkommen haben.
Das zu prüfende theoretische Modell möge wie folgt lauten:
(1) Ein höherer allgemein bildender Schulabschluss wird tendenziell ein höheres Einkommen pro Kopf nach sich ziehen. 25 (2) Bürger mit deutscher Staatsangehörigkeit werden tendenziell höhere Einkommen pro Kopf aufweisen als Bürger ohne deutschen Pass.
(3) Je höher die Personenzahl eines Haushalts, desto niedriger wird das pro Kopf zur Verfügung stehende Einkommen sein.
Im Folgenden beziehe ich die dem theoretischen Modell entsprechenden Faktoren nacheinander in die Analyse ein.
2.2.1 Varianzanalyse mit einem Faktor
Im vorherigen Abschnitt habe ich bereits eine einfaktorielle Varianzanalyse mit der Variablen „schule“ gerechnet. Als nächstes rechne ich eine einfaktorielle Varianzanalyse mit der Variablen „pass“ als unabhängiger Variablen und der Variablen „Einkommen pro Kopf“ als abhängiger Variablen. Aufgrund der sehr geringen Fallzahlen in der Gruppe der „Staatenlos“ (4 Fälle) und „Zweite Staatsbürgerschaft“ (19 Fälle) schlage ich diese beiden Gruppen der Gruppe „Keine Deutsche Staatsangehörigkeit“ zu 26 und bilde dementsprechend eine neue Variable „passdich“ mit den Ausprägungen 1 (Deutsch) und 2 („Ausländer“). 27 Der SPSS-Output der einfaktoriellen Varianzanalyse bringt folgende Ergebnisse 28 : Der Mittelwert des Pro-Kopf-Einkommens liegt bei den Deutschen mit 1702 DM erheblich über dem der Ausländer mit 1230 DM. Es gibt keine Überschneidungen zwischen den
25 Siehe Abschnitt 2.1.
26 Es gibt natürlich ebenso Argumente, die Gruppe „Zweite Staatsbürgerschaft“ der Gruppe „Deutsche Staatsangehörigkeit“ zuzuschlagen. Darauf soll es hier aber nicht ankommen.
27 Siehe Anlage 5 (SPSS-Syntax) und Anlage 6 (Häufigkeiten).
28 Siehe Anlage 7.
11
Konfidenzintervallen bei einer Irrtumswahrscheinlichkeit von 5%. Die Nullhypothese, dass keine Unterschiede der Mittelwerte in der Grundgesamtheit vorliegen 29 , wird mit einer Irrtumswahrscheinlichkeit von F-Prob = 0,0000 zurückgewiesen. Die Stärke des Zusammenhang zwischen Staatsangehörigkeit und Einkommen pro Kopf ist allerdings nur minimal: Gerade einmal 1,6 % der Varianz des Pro-Kopf-Einkommens werden durch die Staatsangehörigkeit erklärt. Mit anderen Worten: Hat man die Information, ob jemand Ausländer oder Deutscher ist, verbessert sich die Vorhersagegenauigkeit des Pro-Kopf-Einkommens gerade einmal um 1,6 %. (Erklärte Varianz/Gesamtvarianz: 41.672.635,91 : 2.550.116.252 = 0,01634). Dies wird vermutlich mit der sehr hohen Standardabweichung der Variablen „eink_k“ zusammenhängen (981 DM), die auf sehr große Unterschiede zwischen den Einkommen hinweist. Der Levene-Test kommt zum Ergebnis, dass die Varianzen in der Grundgesamtheit nicht gleich sind. Mit p = 0,029 wird die Nullhypothese, dass die Varianzen in der Grundgesamtheit gleich sind, zurückgewiesen (Brosius 1996: 338f u. 409). Eigentlich dürfte deshalb die Varianzanalyse gar nicht angewendet werden.
2.2.2 Varianzanalyse mit zwei Faktoren
Als nächstes beziehe ich neben der Variablen „passdich“ die Variable „schule“ in das Modell mit ein. Die Variable Schule allein erklärt 9,4 % der Varianz. 30 Zunächst überprüfe ich mit Hilfe der Prozedur „Correlate//Bivariate“, ob die Variablen „Schule5“ 31 (Ausprägungen 1 – 5 der Variablen „schule“) und „passdich“ miteinander korreliert sind. 32 Der Pearsonsche Korrelationskoeffizient liegt mit 0,0566 sehr niedrig, die Korrelation ist mit 0,001 allerdings hoch signifikant (Brosius 1996: 453). Aufgrund dieser leichten Korrelation wird die Zerlegung der Varianzen von „schule5“ und „passdich“ ein kleinen gemeinsamen Überlappungsbereich ergeben. „ANOVA“ unterscheidet drei Optionen, je nach dem wie die Überlappungsbereiche zugeordnet werden:
29 Die Mittelwertunterschiede in der Stichprobe hätten sich im Falle einer Bestätigung der Nullhypothese dann nur rein zufällig ergeben.
30 Siehe Abschnitt 2.1.
31 Die Variable „schule5“ habe ich neu gebildet, indem ich ausschließlich die Ausprägungen 1 – 5 der Variablen „schule“ berücksichtigt habe. Die anderen Ausprägungen von „schule“ werden bei „schule5“ zu „missings“. Dies bedeutet keine wesentliche Veränderung, weil ich bereits bei der einfaktoriellen Varianzanalyse diese anderen Ausprägungen als „missings“ gewertet habe.
32 Siehe Anlage 8.
12
(1) Das experimentelle Verfahren 33 ordnet die Schnittmengen zwischen den Haupteffekten keinem der Faktoren zu. Die Schnittmengen der Haupteffekte mit dem Interaktionseffekt werden den Haupteffekten zugeordnet.
(2) Das regressionsanalytische Verfahren 34 ordnet die Überlappungseffekte keinem der Faktoren zu.
(3) Das hierarchische Verfahren 35 etabliert eine Hierarchie zwischen den Faktoren, indem die Schnittmenge zwischen den Haupteffekten dem zuerst in der Anweisung stehenden Faktor zugerechnet wird (Kappelhoff 2000: 36 ff).
Da sich theoretisch begründen lässt, dass die Staatsangehörigkeit („passdich“) dem Schulabschluss („schule5“) zeitlich voraus geht 36 und damit von der Wirkungsrichtung eher die Variable „passdich“ auf die Variable „schule5“ kausal einwirkt als umgekehrt, entscheide ich mich für das hierarchische Verfahren und gebe als erste Anweisung die Variable „passdich“ ein. Der Überlappungsbereich der Varianzen wird damit dieser Variablen zugerechnet. Die zweifaktorielle Varianzanalyse mit den Variablen „passdich“ und „schule5“ kommt zu diesem Ergebnis 37 : Das Pro-Kopf-Einkommen der Gruppe der Ausländer liegt auch bei der Differenzierung nach Schulabschlüssen immer unter dem der Gruppe der Deutschen. In der Gruppe der Deutschen steigt das Pro-Kopf-Einkommen je nach erreichtem Schulabschluss kontinuierlich an, in der Gruppe der Ausländer gilt das nur bis zur Fachoberschulreife, danach sinkt es in der Gruppe der Befragten mit Abitur wieder ab. Über mögliche inhaltliche Gründe zu spekulieren würde hier zu weit führen. 38 Es liegt also ein leichter Interaktionseffekt zwischen „passdich“ und „schule“ vor. Dieser Interaktionseffekt lässt sich auch grafisch darstellen. 39 Der Grafik lässt sich entnehmen, dass der Effekt von „schule“ auf „eink_k“ nicht unabhängig von der Ausprägung der Variablen „passdich“ ist. 40 Der Output der Varianzanalyse 41 lässt sich folgendermaßen interpretieren: Sowohl die Haupteffekte („passdich“ und „schule5“) als auch der Interaktionseffekt zwischen „passdich“ und „schule5“ sind hochsignikant (p = 0,000). Die Gesamtvarianz beträgt 2.528.731.922.
33 In meiner SPSS-Version als „Experimental“ bezeichnet.
34 In SPSS: „Unique“.
35 In SPSS: „Hierachical“.
36 Es gibt natürlich Ausnahmen: In Einzelfällen mag auch ein hoher erreichter Schulabschluss eine Übernahme der Deutschen Staatsbürgerschaft begünstigen.
37 Siehe Anlage 9.
38 Vielleicht hängt das Ergebnis auch mit den zum Teil sehr kleinen Zellenbesetzungen zusammen. Die Gruppe der Fachoberschulreife ist bei den Ausländern z.B. nur mit 8 Befragten besetzt. 39 Siehe Anlage 10.
40 Bei völliger Unabhängigkeit voneinander müsste der Abstand zwischen beiden Kurven immer gleich sein. Das ist in meinem Beispiel nicht der Fall.
41 Siehe Anlage 9.
13
Arbeit zitieren:
Joachim Schmidt, 2004, Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren: Dargestellt anhand von Beispielen aus einem Datensatz der "Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften" (ALLBUS) 1996, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Joachim Schmidt's Text Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren: Dargestellt anhand von Beispielen aus einem Datensatz der "Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften" (ALLBUS) 1996 ist nun auf dem Buchmarkt erhältlich
Joachim Schmidt hat den Text Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren: Dargestellt anhand von Beispielen aus einem Datensatz der "Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften" (ALLBUS) 1996 veröffentlicht
Joachim Schmidt hat einen neuen Text hochgeladen
El análisis de la varianza en la investigación comercial
Miguel Martín Dávila, Gregoria Mateo-Aparicio Morales
Die Analytische Zahlentheorie / Dargestellt Von Paul Bachmann.
Paul Gustav Heinrich Bachmann
Schein Und Sein. Schmuckgebrauch in Der Romischen Kaiserzeit: Eine Soz...
Gesa Schenke, G. Schenke
0 Kommentare