Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren anhand eines Datensatzes der ALLBUS 1996


Hausarbeit, 2004
71 Seiten, Note: Sehr gut

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Varianzanalyse
2.1 Die Logik der Varianzanalyse
2.1.1 Gruppenmittelwerte in Stichprobe und Grundgesamtheit
2.1.2 Die eigentliche Varianzanalyse
2.1.3 Voraussetzungen
2.1.4 Die Stärke des Zusammenhangs
2.2 Multifaktorielle Varianzanalyse
2.2.1 Varianzanalyse mit einem Faktor
2.2.2 Varianzanalyse mit zwei Faktoren
2.2.3 Varianzanalyse mit drei Faktoren

3 Regressionsanalyse
3.1 Einfache Regressionsanalyse
3.1.1 Regressionskoeffizient und Konfidenzintervall
3.1.2 Fit der Regressionsgleichung und PRE-Logik
3.1.3 Überprüfung der Residuen
3.2 Multiple Regressionsanalyse
3.2.1 Die einbezogenen Variablen
3.2.2 Prüfung auf Multikollinearität
3.2.3 Die multiple Regressionsanalyse
3.2.4 Überprüfung der Residuen
3.2.5 Zusammenfassung

4 Literaturverzeichnis

5 Anlagen

1 Einleitung

Meine Hausarbeit beschäftigt sich mit multivariaten Analyseverfahren. So werden Verfahren bezeichnet, in denen mindestens drei Merkmale bzw. Variablen statistisch analysiert werden (Ludwig-Mayerhofer 1999a).[1] Ich stelle hier nur Modelle mit einer abhängigen und mehreren unabhängigen Variablen vor.

Man kann allgemein zwischen strukturen- entdeckenden bzw. datenreduzierenden Verfahren einerseits und strukturen- prüfenden bzw. hypothesentestenden Verfahren andererseits unterscheiden (Ludwig-Mayerhofer 1999a u. Backhaus u.a. 1990: XIVf).

Faktoren- und Clusteranalysen sind Beispiele für strukturen-entdeckende Verfahren. Ziel dieser Verfahren ist es in erster Linie, Zusammenhänge zwischen Variablen zu entdecken. Und zwar ohne, dass theoretische oder sachlogische Vorstellungen über Beziehungszusammenhänge zwischen den Variablen bereits vorher vorliegen. (Backhaus u.a. 1990: XIVf).

Strukturen-prüfende Verfahren dienen dazu, Hypothesen zu testen. Der Anwender besitzt damit bereits eine auf sachlogischen oder theoretischen Überlegungen basierende Vorstellung über mögliche Zusammenhänge zwischen den Variablen und möchte diese Zusammenhänge empirisch anhand eines Datensatzes überprüfen (Backhaus u.a. 1990: XV). Regressionsanalysen, Varianzanalysen, Diskriminanzanalysen und Kausalanalysen sind Beispiele für hypothesentestende statistische Verfahren.

In meiner Hausarbeit beschränke ich mich auf die Darstellung von Varianz- und Regressionsanalysen als zwei wichtige und häufig in der empirischen Sozialforschung angewandte statistische Verfahren. Mir geht es in erster Linie darum, die Anwendung der statistischen Verfahren als solche zu demonstrieren und ihre zu Grunde liegende Logik herauszuarbeiten. Es kommt mir hier also weder auf die sachlogische oder theoretische Fundierung der zu testenden Hypothesen noch auf die Aktualität des Datensatzes an.

Als Beispiel-Datensatz dient mir die „Allgemeine Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1996. Seit 1980 wird im Rahmen von ALLBUS alle 2 Jahre ein repräsentativer Bevölkerungsquerschnitt der Bundesrepublik Deutschland mit einem teils sich wiederholenden, teils aber auch variablen Fragenprogramm befragt. Den entsprechenden Datensatz[2], den Methodenbericht, den Codeplan und den Fragenkatalog habe ich auf der Internet-Seite der „Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen e.V. (GESIS)“ herunter geladen (http://www.gesis.org/Datenservice/ALLBUS/index.htm). Als Software habe ich das in der Soziologie sehr gebräuchliche Datenverarbeitungsprogramms SPSS (Statistical Package for Social Sciences) in der Version „SPSS for windows. Release 6.0“ verwendet.

2 Varianzanalyse

Ein wichtiges Verfahren der multivariaten Datenanalyse ist die Varianzanalyse. Für die unabhängigen Variablen wird dabei mindestens Nominalskalierung, für die abhängigen Variablen mindestens Intervallskalierung vorausgesetzt (Backhaus u.a.1990: 43). Die unabhängigen Variablen werden dabei auch als „Gruppierungsvariablen“ oder „Faktoren“ bezeichnet.

Der Grundgedanke der Varianzanalyse besteht darin, die gesamte Varianz (Streuung) des zu erklärenden Merkmals der abhängigen Variablen (oder mehrerer solcher Variablen) aufzuteilen (zu "zerlegen"): In die Varianz zwischen den einzelnen Gruppen - die Abweichung der Gruppenmittelwerte vom Gesamtmittelwert über alle Gruppen bzw. Untersuchungseinheiten - und in die Varianz innerhalb der Gruppen[3] (Ludwig-Mayerhofer 1999b). Voraussetzung für die Anwendung der Varianzanalyse ist eine theoretisch begründete Vermutung über die Wirkungsrichtung der zu untersuchenden Variablen (Backhaus u.a.1990: 44 u. 64). Mit anderen Worten: Der Ursache-Wirkungszusammenhang muss sich sachlogisch oder theoretisch begründen lassen und die als unabhängig bezeichneten Variablen müssen den (der) abhängigen Variablen zeitlich vorausgehen.

Man spricht von ein faktorieller univariater Varianzanalyse, wenn die Untersuchungsobjekte lediglich hinsichtlich eines Merkmals (Faktors) in Gruppen eingeteilt werden und nur eine abhängige Variable in die Untersuchung einbezogen wird. In SPSS steht dafür die Prozedur „Compare means//One-Way ANOVA“ zur Verfügung.[4]

Werden mehrere Gruppierungsmerkmale (Faktoren) und eine abhängige Variable untersucht, wird dies als mehrfaktorielle univariate Varianzanalyse bezeichnet. Bei der mehrfaktoriellen Varianzanlyse können auch Interaktionseffekte geprüft werden, d.h. unterschiedliche Wirkungen eines Faktors in Abhängigkeit von den Ausprägungen eines anderen Faktors oder mehrerer anderer Faktoren. In SPSS lässt sich die mehrfaktorielle univariate Varianzanalyse über „ANOVA Models//Simple Factorial“ berechnen.

Werden mehrere Gruppierungsmerkmale und mehrere abhängige Variable simultan geprüft, wird von einer multivariaten bzw. mehrdimensionalen Varianzanalyse gesprochen. SPSS berechnet diese über die Prozedur „ANOVA Models//Multivariate“. (Ludwig-Mayerhofer 1999b; Backhaus u.a. 1990: 45).

Ich beschränke mich in meiner Hausarbeit auf Berechnung und Interpretation einer mehrfaktoriellen univariaten Varianzanalyse. Zunächst arbeite ich aber im folgenden Abschnitt die Logik der Varianzanalyse im einzelnen anhand eines einfaktoriellen Beispiels heraus.

2.1 Die Logik der Varianzanalyse

In dem mir zur Verfügung stehenden Datensatz „allbus96“ habe ich eine Variable „eink_k“ erzeugt, die das in einem Haushalt pro Kopf zur Verfügung stehende monatliche Einkommen in DM angibt.[5] In „eink_k“ sind sowohl Ein- als auch Mehrpersonenhaushalte erfasst. In meinem Anwendungsbeispiel soll es sich bei „eink_k“ um die abhängige Variable handeln. Bei „eink_k“ handelt es sich um eine Ratioskala: Die Einkommensangaben in DM informieren über die Abstände zwischen den gemessenen Ausprägungen[6] und es ist gleichzeitig ein sinnvoll interpretierbarer Nullpunkt vorhanden. Die Bedingung eines mindestens intervallskalierten Messniveaus für die abhängige Variable ist damit erfüllt.

Es lässt sich theoretisch begründbar die Hypothese aufstellen, dass der erreichte allgemeinbildende Schulabschluss zumindest teilweise die Unterschiede bzw. die Varianz des pro Kopf zur Verfügung stehenden Einkommens erklärt. Mit Hilfe der Variablen „schule“ und „eink_k“ soll diese Hypothese überprüft werden.[7]

Da die Befragten aus den neuen Bundesländern in der Allbus-Studie aus statistischen Gründen deutlich überrepräsentiert sind (Gabler u.a. 1996: 61), gewichte die Fälle mit Hilfe der Variablen „gewicht“, so dass sich sämtliche Ergebnisse im Kapitel über die Varianzanalyse auf Gesamt deutschland beziehen.[8] Die Variable „schule“ ist ordinalskaliert, wobei hier nur die Ausprägungen 1 bis 5 sinnvoll interpretiert werden können und in die Varianzanalyse folgendermaßen als „Gruppen“ eingehen:

1 = keinen Schulabschluss, 2 = Volks- bzw. Hauptschulabschluss, 3 = Mittlere Reife, 4 = Fachhochschulreife und 5 = Abitur bzw. Hochschulreife. Die Fälle mit den Ausprägungen 6 (anderer Abschluss), 7 (noch Schüler/in) und 9 (keine Angabe) bleiben außen vor (zusammen genommen 48 Fälle[9] ) und entfallen ebenso wie die „missings“ der Variablen „eink_k“.[10]

2.1.1 Gruppenmittelwerte in Stichprobe und Grundgesamtheit

Zunächst werden mit Hilfe von SPSS die „Gruppenmittelwerte“ ermittelt.[11] Es fällt zunächst auf, dass sich die Gruppenmittelwerte („Mean“) in der Stichprobe deutlich von einander unterscheiden. Je höher der erreichte Bildungsabschluss, desto höher ist auch das im Durchschnitt der jeweiligen Gruppe pro Kopf zur Verfügung stehende Einkommen. Der Mittelwert steigt stufenweise von 1195,7697 DM in der Gruppe der Personen ohne Schulabschluss bis auf 2299,8265 DM in der Gruppe mit Abitur bzw. Hochschulreife.

Zu prüfen ist allerdings, ob sich die einzelnen Gruppenmittelwerte auch in der Grundgesamtheit signifikant von einander unterscheiden. Dies kann mit Hilfe des Konfidenzintervalls überprüft werden. Das 95%-Konfidenzintervall („95 Pct Conf Int for Mean“) gibt mit 95%-iger Sicherheit an, in welchem Bereich sich der jeweilige Gruppenmittelwert der Stichprobe in der Grundgesamtheit wiederfindet. Oder umgekehrt ausgedrückt: Mit einer Irrtumswahrscheinlichkeit von 5% liegt der Gruppenmittelwert der Stichprobe in der Grundgesamtheit in den angegebenen Grenzen. Es fällt auf, dass keine Überschneidungen zwischen den Konfidenzintervallen vorliegen.[12] Diese Tatsache kann als deutlicher Hinweis gewertet werden, dass die Nullhypothese zu verwerfen ist und die Unterschiede zwischen den Gruppenmittelwerten auch in der Grundgesamtheit signifikant sind.

2.1.2 Die eigentliche Varianzanalyse

Die Varianzanalyse zerlegt die Summe der quadrierten Abweichungen der einzelnen Werte vom Gesamtmittelwert der Variablen „eink_k“ („Sum of Squares total“ = Gesamtvarianz) in die Summe der quadrierten Abweichungen der Gruppen mittelwerte vom Gesamt mittelwert („Sum of Squares between groups“ = erklärte Varianz) und die Summe der quadrierten Abweichungen innerhalb der Gruppen vom Gruppenmittelwert („Sum of Squares within groups“ = nicht erklärte Varianz). In meinem Beispiel berechnet SPSS die folgenden Werte[13]:

Erklärte Varianz: 237.829.128,4

Nicht erklärte Varianz (auch Residualvarianz/Fehlervarianz): 2.290.902.793,0

Gesamtvarianz: 2.528.731.922,0

Aus dem Verhältnis der erklärten Varianz zur nicht-erklärten Varianz lassen sich mit Hilfe des F-Tests Rückschlüsse über die Gruppenmittelwerte in der Grundgesamtheit ziehen. Würden beispielsweise die einzelnen Werte innerhalb der Gruppen überhaupt nicht um den jeweiligen Gruppenmittelwert streuen (Nicht erklärte Varianz = 0) und gleichzeitig sehr unterschiedliche Gruppenmittelwerte vorliegen, wäre es sehr wahrscheinlich, dass die Mittelwertunterschiede zwischen den Gruppen in der Stichprobe sich nicht zufällig ergeben haben, sondern aus Mittelwertunterschieden in der Grundgesamtheit herrühren (Brosius 1996: 421). Sind die Unterschiede zwischen den Gruppen also relativ groß bei gleichzeitig nicht allzu großer Varianz innerhalb der Gruppen, so kann man davon ausgehen, dass die Gruppenzugehörigkeit einen „Einfluss“ auf die „abhängige“ Variable hat. Formal geprüft wird dies über den sogenannten F-Test.[14] Dazu wird der empirische F-Wert mit dem theoretischen F-Wert verglichen, der sich ergeben würde, wenn sich die Unterschiede in der Stichprobe zwischen den Gruppenmittelwerten rein zufällig ergeben hätten und damit in der Grundgesamtheit nicht vorlägen (= Bestätigung der Nullhypothese). Ist der empirische F-Wert größer als der bei rein zufälliger Verteilung sich ergebende theoretische F-Wert, muss die Nullhypothese mit der jeweils festgelegten Irrtumswahrscheinlichkeit (hier: 5%) verworfen werden.

Der empirische F-Wert berechnet sich folgendermaßen: Erklärte Varianz und nicht-erklärte Varianz werden dabei zunächst durch ihre jeweiligen Freiheitsgrade[15] (D.F.) dividiert („Mean Squares between groups“ und „within groups“). Aus diesen beiden Werten wird dann ein Quotient mit der erklärten Varianz im Zähler und der nicht erklärten Varianz im Nenner gebildet. In meiner Beispielsrechnung gibt SPSS den empirischen F-Wert (F Ratio) mit 67,9466 an. Der theoretische F-Wert wird von SPSS nicht angegeben. Er lässt sich aber einer entsprechenden Tabelle entnehmen: Bei einer Irrtumswahrscheinlichkeit von 5% ergeben sich F = 5,63 (Sahner 1990: 181), bei einer Irrtumswahrscheinlichkeit von 1% F = 13,56 (Sahner 1990: 183) Der empirische F-Wert liegt damit erheblich höher als der theoretische F-Wert. Die Nullhypothese kann deshalb verworfen werden, d.h. es ist davon auszugehen, dass sich die Unterschiede zwischen den Gruppenmittelwerten in der Stichprobe nicht rein zufällig ergeben haben, sondern auf Unterschieden in der Grundgesamtheit basieren. SPSS gibt anstelle des theoretischen F-Wertes die Wahrscheinlichkeit an, mit der die Nullhypothese bestätigt werden kann. Diese Wahrscheinlichkeit wird von SPSS mit F-Prob = 0,0000 angegeben. Die Nullhypothese, der zufolge kein Unterschied zwischen den Gruppenmittelwerten in der Grundgesamtheit besteht, wird also zurückgewiesen.

2.1.3 Voraussetzungen

Voraussetzungen für die Gültigkeit dieser inferenzstatistischen Absicherung der abhängigen Variablen in der Grundgesamtheit ist die Unabhängigkeit, die Normalverteilung der abhängigen Variablen in der Grundgesamtheit und die Gleichheit der Varianzen in den einzelnen Gruppen (Kappelhoff 2000: 14).

Zu den drei Voraussetzungen:

a) Unabhängigkeit: Die Unabhängigkeit ist immer dann gegeben, wenn eine Zufallsstichprobe vorliegt. „Allbus 96“ erfüllt diese Voraussetzung.
b) Normalverteilung der abhängigen Variablen: Das Histogramm[16] zeigt, dass „eink_k“ in der Stichprobe in etwa normalverteilt ist und von daher vermutlich auch in der Grundgesamtheit ungefähr normalverteilt sein wird.
c) Varianzhomogenität/Homoskedasität: Damit die Varianzanalyse angewendet werden kann, muss unterstellt werden, dass die anderen möglichen Größen, die „eink_k“ beeinflussen, sich bis auf zufällige Schwankungen, die sich ausgleichen, in allen Gruppen der Stichprobe gleich auswirken. Diese Voraussetzung wird Varianzhomogenität genannt (Backhaus u.a. 1990: 65). SPSS überprüft die Gleichheit der Varianzen in den einzelnen Gruppen mit Hilfe des „Levene Test for Homogeneity of Variances“. In meiner Beispielrechnung weist der Levene-Test mit einer an Sicherheit grenzenden Wahrscheinlichkeit (p=0,000) die Nullhypothese zurück, dass die Varianzen der einzelnen Gruppen gleich sind. Die Voraussetzung der Varianzhomogenität ist also nicht gegeben. Die Varianzanalyse ist allerdings sehr robust und trifft lediglich Aussagen darüber, ob ein Zusammenhang in der Grundgesamtheit vorliegt und nicht darüber, wie stark dieser Zusammenhang ist (Backhaus u.a 1990.: 66). Insofern haben die Ergebnisse trotzdem eine gewisse Aussagekraft.[17]

Bisher kann festgestellt werden, dass die Mittelwerte in der Grundgesamtheit nicht alle gleich sind. Zusätzlich lässt sich nun überprüfen, ob alle Mittelwerte in der Grundgesamtheit voneinander verschieden sind. Theoretisch wäre es möglich, die Gruppen paarweise auf Mittelwertunterschiede mit Hilfe einer Reihe von „t-tests“ zu überprüfen. Aufgrund der hohen Anzahl der dann erforderlichen Tests ist die Fehlerwahrscheinlichkeit jedoch relativ hoch und deshalb nicht zulässig (Kappelhoff 2000: 12). Aus diesem Grunde wendet man lieber sogenannte multiple Vergleichstests (multiple comparison) an. Der mit SPSS rechenbare Student-Newman-Keuls-Test ist einer solcher Test mit geringerer Fehlerwahrscheinlichkeit.

Die Matrix des SPSS-Outputs[18] gibt mittels „* “ an, welche Mittelwerte sich jeweils signifikant voneinander unterscheiden[19] In meinem Beispiel unterscheiden sich die Mittelwerte aller Gruppen signifikant von allen anderen Mittelwerten der jeweils anderen Gruppen.[20]

2.1.4 Die Stärke des Zusammenhangs

Der Zusammenhang zwischen den Variablen „allgemein bildender Schulabschluss“ und „Einkommen pro Kopf“ ist also hoch signifikant. Eine Aussage über die Stärke oder das Ausmaß des Zusammenhangs ist damit allerdings noch nicht getroffen. Ein hohes Signifikanzniveau sagt noch nichts darüber aus, wie relevant der Effekt der einen Variablen auf die andere Variable tatsächlich ist (Wisemann 2004: 23).[21] Ein wichtiges Zusammenhangmaß für die Varianzanalyse ist das sogenannte h2. Bei der Varianzanalyse gibt „eta-quadrat“ die „Proportion der Varianz der abhängigen Variablen wieder, die durch die Gruppenunterschiede erklärt werden kann“ (Wisemann 2004: 23). h2 berechnet sich aus der Division der erklärten Varianz durch die Gesamtvarianz. In meinem Beispiel ergibt sich: h2 = 237.829.128 („Sum of Squares Schule“) / 2.528.731.922 (Sum of Squares Total) = 0,094. h2 kann als sogenanntes PRE-Maß interpretiert werden. PRE steht für „Proportional Reduction of Error“. PRE-Maße drücken aus, wie gut die Ausprägungen einer Variablen durch die Kenntnis einer oder mehreren anderer Variablen vorhergesagt werden können (Ludwig-Mayerhofer 1999c). In meinem Beispiel lässt sich ein h2-Wert von 0,094 folgendermaßen interpretieren: Auf der Basis der Subgruppendurchschnitte der Variablen „schule“ lässt sich das individuelle Einkommen pro Kopf mit einem um 9,4 Prozent geringeren Fehler vorhersagen als auf der Basis des Gesamtdurchschnittseinkommen pro Kopf. Mit anderen Worten: 9,4% der Variation des Einkommens pro Kopf kann mit der Variablen „schule“ erklärt werden. Die restlichen 90,6 % lassen sich also nicht mit dem allgemeinen Schulabschluss erklären (Benninghaus 1990: 360). In SPSS lässt sich h über die Prozedur „ANOVA Models//Hierachical – MCA“ erzeugen.[22] Eta wird im Output mit 0,31 ausgewiesen, h2 ist dementsprechend 0,0961 und entspricht bei nur einer unabhängigen Variablen in etwa dem Wert von „Multiple R Squared“, den SPSS hier mit 0,094[23] angibt.[24]

2.2 Multifaktorielle Varianzanalyse

Die multifaktorielle Varianzanalyse untersucht den Einfluss mehrerer Faktoren (unabhängiger Variablen) auf die abhängige Variable. Es lässt sich theoretisch begründen, dass „allgemein bildender Schulabschluss“, „Staatsangehörigkeit“ und die „Anzahl der Haushaltsangehörigen pro Haushalt“ möglicherweise einen Einfluss auf das pro Kopf zur Verfügung stehende Einkommen haben.

Das zu prüfende theoretische Modell möge wie folgt lauten:

(1) Ein höherer allgemein bildender Schulabschluss wird tendenziell ein höheres Einkommen pro Kopf nach sich ziehen.[25]
(2) Bürger mit deutscher Staatsangehörigkeit werden tendenziell höhere Einkommen pro Kopf aufweisen als Bürger ohne deutschen Pass.
(3) Je höher die Personenzahl eines Haushalts, desto niedriger wird das pro Kopf zur Verfügung stehende Einkommen sein.

Im Folgenden beziehe ich die dem theoretischen Modell entsprechenden Faktoren nacheinander in die Analyse ein.

2.2.1 Varianzanalyse mit einem Faktor

Im vorherigen Abschnitt habe ich bereits eine einfaktorielle Varianzanalyse mit der Variablen „schule“ gerechnet. Als nächstes rechne ich eine einfaktorielle Varianzanalyse mit der Variablen „pass“ als unabhängiger Variablen und der Variablen „Einkommen pro Kopf“ als abhängiger Variablen. Aufgrund der sehr geringen Fallzahlen in der Gruppe der „Staatenlos“ (4 Fälle) und „Zweite Staatsbürgerschaft“ (19 Fälle) schlage ich diese beiden Gruppen der Gruppe „Keine Deutsche Staatsangehörigkeit“ zu[26] und bilde dementsprechend eine neue Variable „passdich“ mit den Ausprägungen 1 (Deutsch) und 2 („Ausländer“).[27] Der SPSS-Output der einfaktoriellen Varianzanalyse bringt folgende Ergebnisse[28]: Der Mittelwert des Pro-Kopf-Einkommens liegt bei den Deutschen mit 1702 DM erheblich über dem der Ausländer mit 1230 DM. Es gibt keine Überschneidungen zwischen den Konfidenzintervallen bei einer Irrtumswahrscheinlichkeit von 5%. Die Nullhypothese, dass keine Unterschiede der Mittelwerte in der Grundgesamtheit vorliegen[29], wird mit einer Irrtumswahrscheinlichkeit von F-Prob = 0,0000 zurückgewiesen. Die Stärke des Zusammenhang zwischen Staatsangehörigkeit und Einkommen pro Kopf ist allerdings nur minimal: Gerade einmal 1,6 % der Varianz des Pro-Kopf-Einkommens werden durch die Staatsangehörigkeit erklärt. Mit anderen Worten: Hat man die Information, ob jemand Ausländer oder Deutscher ist, verbessert sich die Vorhersagegenauigkeit des Pro-Kopf-Einkommens gerade einmal um 1,6 %. (Erklärte Varianz/Gesamtvarianz: 41.672.635,91 : 2.550.116.252 = 0,01634). Dies wird vermutlich mit der sehr hohen Standardabweichung der Variablen „eink_k“ zusammenhängen (981 DM), die auf sehr große Unterschiede zwischen den Einkommen hinweist. Der Levene-Test kommt zum Ergebnis, dass die Varianzen in der Grundgesamtheit nicht gleich sind. Mit p = 0,029 wird die Nullhypothese, dass die Varianzen in der Grundgesamtheit gleich sind, zurückgewiesen (Brosius 1996: 338f u. 409). Eigentlich dürfte deshalb die Varianzanalyse gar nicht angewendet werden.

2.2.2 Varianzanalyse mit zwei Faktoren

Als nächstes beziehe ich neben der Variablen „passdich“ die Variable „schule“ in das Modell mit ein. Die Variable Schule allein erklärt 9,4 % der Varianz.[30] Zunächst überprüfe ich mit Hilfe der Prozedur „Correlate//Bivariate“, ob die Variablen „Schule5“[31] (Ausprägungen 1 – 5 der Variablen „schule“) und „passdich“ miteinander korreliert sind.[32] Der Pearsonsche Korrelationskoeffizient liegt mit 0,0566 sehr niedrig, die Korrelation ist mit 0,001 allerdings hoch signifikant (Brosius 1996: 453). Aufgrund dieser leichten Korrelation wird die Zerlegung der Varianzen von „schule5“ und „passdich“ ein kleinen gemeinsamen Überlappungsbereich ergeben. „ANOVA“ unterscheidet drei Optionen, je nach dem wie die Überlappungsbereiche zugeordnet werden:

(1) Das experimentelle Verfahren[33] ordnet die Schnittmengen zwischen den Haupteffekten keinem der Faktoren zu. Die Schnittmengen der Haupteffekte mit dem Interaktionseffekt werden den Haupteffekten zugeordnet.
(2) Das regressionsanalytische Verfahren[34] ordnet die Überlappungseffekte keinem der Faktoren zu.
(3) Das hierarchische Verfahren[35] etabliert eine Hierarchie zwischen den Faktoren, indem die Schnittmenge zwischen den Haupteffekten dem zuerst in der Anweisung stehenden Faktor zugerechnet wird (Kappelhoff 2000: 36 ff).

Da sich theoretisch begründen lässt, dass die Staatsangehörigkeit („passdich“) dem Schulabschluss („schule5“) zeitlich voraus geht[36] und damit von der Wirkungsrichtung eher die Variable „passdich“ auf die Variable „schule5“ kausal einwirkt als umgekehrt, entscheide ich mich für das hierarchische Verfahren und gebe als erste Anweisung die Variable „passdich“ ein. Der Überlappungsbereich der Varianzen wird damit dieser

Variablen zugerechnet. Die zweifaktorielle Varianzanalyse mit den Variablen „passdich“ und „schule5“ kommt zu diesem Ergebnis[37]: Das Pro-Kopf-Einkommen der Gruppe der Ausländer liegt auch bei der Differenzierung nach Schulabschlüssen immer unter dem der Gruppe der Deutschen. In der Gruppe der Deutschen steigt das Pro-Kopf-Einkommen je nach erreichtem Schulabschluss kontinuierlich an, in der Gruppe der Ausländer gilt das nur bis zur Fachoberschulreife, danach sinkt es in der Gruppe der Befragten mit Abitur wieder ab. Über mögliche inhaltliche Gründe zu spekulieren würde hier zu weit führen.[38] Es liegt also ein leichter Interaktionseffekt zwischen „passdich“ und „schule“ vor. Dieser Interaktionseffekt lässt sich auch grafisch darstellen.[39] Der Grafik lässt sich entnehmen, dass der Effekt von „schule“ auf „eink_k“ nicht unabhängig von der Ausprägung der Variablen „passdich“ ist.[40] Der Output der Varianzanalyse[41] lässt sich folgendermaßen interpretieren: Sowohl die Haupteffekte („passdich“ und „schule5“) als auch der Interaktionseffekt zwischen „passdich“ und „schule5“ sind hochsignikant (p = 0,000). Die Gesamtvarianz beträgt 2.528.731.922. Die Variable „passdich“ (einschließlich der Überlappungsbereiche mit der Variablen „schule5“) erklärt davon 38.967.085, die Variable „schule5“ 232.326.435. Der Interaktionseffekt erklärt 19.314.983 der Gesamtvarianz. Insgesamt ergeben sich damit 290.608.503 erklärte Varianz im Verhältnis zur Gesamtvarianz in Höhe von 2.528.731.922. Der Quotient aus der erklärten Varianz und der zu erklärenden Gesamtvarianz beträgt 0,114922622. Damit sind ca. 11,5 % der Gesamtvarianz des Pro-Kopf-Einkommens durch die beiden Faktoren „Deutsch/Ausländer“ und „allgemein bildender Schulabschluss“ und deren Interaktionseffekt erklärt. Bei der einfaktoriellen Varianzanalyse erklärten der Faktor „schule“ und der Faktor „passdich“ einzeln jeweils 9,4 % und 1,63 % der Gesamtvarianz.[42] Die erklärte Varianz der mehrfaktoriellen Varianzanalyse(11,5 %) liegt damit mit 0,47 % leicht höher als die Summe der beiden erklärten Varianzen in den einfaktoriellen Varianzanalysen(9,4 % + 1,63 % = 11,03 %). Dies ist auf den zusätzlich erklärten Varianzanteil durch den Interaktionseffekt zurückzuführen. 19.314.983 / 2.528.731.922 = 0,007638209; das entspricht rund 0,76 % durch den Interaktionseffekt erklärten Anteil an der Gesamtvarianz.

Wird der Interaktionseffekt nicht berücksichtigt, ergibt sich eine erklärte Varianz von 10,7 % (271.293.519 / 2.528.731.922 = 0,107284412). Diese liegt mit 0,33 % (11,03 % - 10,7 % = 0,33 %) marginal unter der Summe der erklärten Varianzanteile bei zwei einfaktoriellen Varianzanalysen. Diese leichte Verringerung des erklärten Varianzanteils ohne Berücksichtigung des zusätzlich erklärenden Interaktionseffekts ergibt sich aus der bereits oben dargestellten leichten Korrelation der Faktoren „passdich“ und „schule5“.

Wegen des Vorliegens eines signifikanten Interaktionseffektes (p = 0,000) muss eigentlich auf eine multiple Klassifikationsanalyse („Multiple Classification Analysis“) verzichtet werden (Kappelhoff 2000: 32). Aus Gründen der Darstellung und weil es sich um einen sehr geringen Interaktionseffekt handelt, gehe ich trotzdem kurz auf das Ergebnis dieser Analyse ein.[43] In der Spalte „Unadjusted Dev`n“ sind die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert der Variablen „eink_k“ bei jeweils bivariater Betrachtung aufgeführt. So erzielt die Gruppe der Deutschen im Durchschnitt ein Pro-Kopf-Einkommen von 1703,28 DM (1668,75 + 34,53 =1703,28), die Gruppe der Ausländer in Höhe von 1236,51 (1668,75 – 430,26 = 1238,49 DM) etc. Bei „passdich“ ergibt sich ein Eta (h) von 0,12, bei „schule5“ ein h von 0,31. Quadriert ergeben die beiden h ungefähr den erklärten Varianzanteil der beiden einfaktoriellen Varianzanalysen, nämlich 0,0144 bzw. 0,0961. Dies wiederum entspricht etwa 1,44 % bzw. 9,61 % erklärte Varianz. In der Spalte „Adjusted for Independents Dev`n” wird die Abweichung der Gruppenmittelwerte vom Gesamtmittelwert des Pro-Kopf-Einkommens unter Kontrolle des jeweils anderen Faktors dargestellt. Berücksichtigt man beispielsweise den Einfluss des Faktors „Deutsch/Ausländer“ liegt des Pro-Kopf-Durchschnittseinkommen in der Gruppe der Befragten ohne Schulabschluss nicht mehr bei 1195,77 DM (1668,75 – 472,98 = 1195,77 DM) sondern bei 1334,22 DM (1668,75– 334,53 = 1334,22). Beta (b) stellt ein Beziehungsmaß für den partiellen Einfluss des jeweiligen Faktors auf das Pro-Kopf-Einkommen dar. Wegen der nur niedrigen Korrelation zwischen den beiden Faktoren entsprechen die Werte von h in diesem Fall fast den Werten von b. „Multiple R Squared” (R2) entspricht einer erklärten Varianz von R2 = 0,107, was wiederum einer erklärten Varianz der Haupteffekte von 10,7 % entspricht und bereits oben mit Hilfe der einzelnen Varianzen berechnet wurde (Kappelhoff 2000: 51).

2.2.3 Varianzanalyse mit drei Faktoren

Als nächsten Faktor beziehe ich die Anzahl der Haushaltsangehörigen in die Analyse mit ein. Um eine größere Übersichtlichkeit und eine etwas größere Besetzung der einzelnen Zellen zu erreichen transformiere ich die Variable „pzahl“ in „pzahl1“. „pzahl1“ fasst alle Haushalte mit 5 oder mehr Haushaltsangehörigen in der Ausprägung „5“ zusammen. Die einfaktorielle ANOVA kommt zu dem Ergebnis[44], dass sich das Pro-Kopf-Einkommen mit zunehmender Haushaltsgröße verringert. Das Ergebnis ist mit F=127,1513 und p= 0,0000 hoch signifikant. Das Pro-Kopf Einkommen sinkt von etwa 2176 DM bei Haushalten mit einer Person auf 926 DM bei Haushalten mit 5 und mehr Personen ab. Kein Konfidenzintervall mit einer Irrtumswahrscheinlichkeit von 5 % überschneidet sich mit einem anderen Konfidenzintervall. Der „Student-Newman-Keuls Test“ kommt zu dem Ergebnis, dass sich alle 5 Gruppen jeweils signifikant von einander unterscheiden. Der „Levene Test for Homogeneity of Variances“ ist hoch signifikant, d.h. die Standardabweichungen der einzelnen Gruppen unterscheiden sich signifikant voneinander. Eigentlich wäre deshalb die Varianzanalyse nicht anwendbar. Wie bereits oben dargestellt ist die Varianzanalyse allerdings relativ unempfindlich gegenüber Verletzungen dieser Prämisse. 411.536.674,4 der Gesamtvarianz von 2.550.116.252 werden durch „pzahl1“ erklärt, das entspricht etwa 16,14 %.

Bevor ich „pzahl1“ in eine mehrfaktorielle Varianzanalyse einbeziehe, überprüfe ich zunächst die bivariaten Korrelationen der einzelnen Faktoren.[45] „pzahl1“ und „schule5“ sind sehr leicht positiv miteinander korreliert, d.h. Befragte mit einem höheren Schulabschluss tendieren dazu in Haushalten mit einer höheren Personenzahl zu leben. Diese Beziehung ist mit p=0,001 hoch signifikant. Die Beziehung ist mit einem Pearsonschen Korrelationskoeffizienten von 0,0559 allerdings nur sehr schwach ausgeprägt. Der Zusammenhang zwischen „passdich“ und „pzahl1“ ist dagegen mit einem Pearsonschen Korrelationskoeffizienten von 0,1344 deutlich ausgeprägter und ebenfalls mit p=0,000 hoch signifikant.[46] Ausländer tendieren offensichtlich dazu in größeren Haushalten zu leben.

Ich entscheide mich für die Option „experimentell“, weil die Überlappungsbereiche zwischen den Variablen nicht eindeutig einer Variablen zugeordnet werden können (Kappelhoff 2000: 49). Die Schnittmengen der Haupteffekte mit den Interaktionseffekten werden dabei jeweils den Haupteffekten zugeordnet. Die dreifaktorielle Varianzanalyse ergibt folgendes Ergebnis.[47] Alle Haupteffekte und die 2-seitigen Interaktionseffekte insgesamt sind hoch signifikant. Von den Interaktionseffekten im einzelnen sind allerdings nur die zwischen „passdich“ und „schule5“ und zwischen „schule5“ und „pzahl1“ signifikant. Alle anderen Interaktionen sind nicht signifikant. Es lässt sich der Grafik[48] entnehmen, dass der Effekt des Faktors „allgemein bildender Schulabschluss“ auf das Pro-Kopf-Einkommen nicht unabhängig von der Ausprägung der jeweiligen Ausprägung des Faktors „Haushaltsgröße“ ist. Wäre er es, müssten die fünf Kurven parallel verlaufen und dürften sich auch nicht schneiden. Eine nähere Interpretation dieses Interaktionseffektes erspare ich mir hier. Tendenziell scheint es aber so zu sein, dass bei einer Haushaltsgröße von 4 oder mehr Personen der Effekt des Faktors „schule5“ auf das Pro-Kopf-Einkommen geringer ist als bei 1- oder 2-Personenhaushalten. Bei einer Haushaltsgröße von 3 Personen scheint der Effekt des Faktors „schule5“ erst nach dem Realschulabschluss mit der Fachoberschule einzusetzen. Die beiden signifikanten Interaktionseffekte „passdich“/“schule5“ und „schule5“/“pzahl1“ zusammen erklären lediglich 61.441.692 der Gesamtvarianz von 2.528.731.922, das entspricht 2,43 %. Da dieser Erklärungsanteil sehr gering ist und inhaltlich kaum sinnvoll interpretiert werden kann, vernachlässige ich diese Interaktionseffekte und konzentriere mich auf die Haupteffekte. Die Summe der Haupteffekte ist bei der Methode „experimentell“ größer als der Gesamteinfluss („main effects“), wenn Korrelationen zwischen den Faktoren vorliegen, wie das ja hier der Fall ist. Um den Einfluss der Faktoren genauer zu bestimmen, habe ich zusätzlich eine „Multiple Classification Analysis“ durchgeführt, die bei Vorliegen von Interaktionen eigentlich nicht zulässig ist (Kappelhoff 2000: 29). In der Spalte „unadjusted Dev`n“ sind wieder die Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert der Variablen „eink_k“ (1668,75 DM) bei jeweils bivariater Betrachtung aufgeführt. So erzielt beispielsweise ein Haushalt mit 1 Person im Durchschnitt ein Pro-Kopf-Einkommen, das um 512,52 DM über dem Gesamtdurchschnitt liegt (= 2181,27 DM), während ein Haushalt mit 5 oder mehr Personen im Durchschnitt ein Pro-Kopf-Einkommen erzielt, das um 745,47 DM unter dem Gesamtdurchschnitt liegt (=923,28 DM). Bei bivariater Betrachtung ergibt sich für „passdich“ ein h-Wert von 0,12, für „schule5“ ein h-Wert von 0,31 und für „pzahl1“ ein h-Wert von 0,4. Quadriert man die jeweiligen h-Werte, kann h2 als sogenanntes PRE-Maß interpretiert werden, das den „Einfluss“ des jeweiligen Faktors beschreibt. Auf der Basis der Subgruppendurchschnitte der Variablen „passdich“ lässt sich das individuell zur Verfügung stehende Pro-Kopf-Einkommen also lediglich um 1,44 % (h2 = 0,122 = 0,0144 = 1,44 %) besser vorhersagen als auf der Grundlage des arithmetischen Mittels.[49] Für „schule5“ ergibt sich dagegen eine Vorhersageverbesserung von 9,61 % (h2 = 0,312 = 0,0961 = 961 %) und für „pzahl1“ sogar um 16 % (h2 = 0,42 = 0,16 = 16%). In der Spalte „Adjusted for Independents Dev`n” wird die Abweichung der Gruppenmittelwerte vom Gesamtmittelwert des Pro-Kopf-Einkommens unter Kontrolle der jeweils anderen Faktoren dargestellt. Beta stellt ein Beziehungsmaß für den partiellen Einfluss der unabhängigen Variablen (Faktoren) auf „ein_k“ dar und kann quadriert ebenfalls als PRE-Maß interpretiert werden. R2 („Multiple R Squared“) beschreibt die Erklärungskraft des gesamten Modells: Auf der Basis der Suppengruppendurchschnitte der unabhängigen Variablen „passdich“, „schule5“ und „pzahl1“ lässt sich das Pro-Kopf-Einkommen des jeweiligen Haushalts („eink_k“), in dem der Befragte lebt, um 27,6 % besser vorhersagen als auf der Basis des Gesamt-Durchschnitts-Pro-Kopf-Einkommens. Der Einfluss von „passdich“ ist äußerst gering und kann praktisch vernachlässigt werden. Der Einfluss der Anzahl der Haushaltangehörigen („pzahl1“) ist mit Beta = 0,42 wesentlich größer und übertrifft auch den des allgemein bildenden Schulabschlusses („schule5“) mit Beta = 0,33. Das von mir überprüfte Modell ist nicht sehr erklärungskräftig, da es lediglich 27,6 % erklärt und mit 72,4 % den weitaus größten Teil der Gesamtvarianz unerklärt lässt.

3 Regressionsanalyse

Ein weiteres sehr verbreitetes und flexibles multivariates Analyseverfahren stellt die Regressionsanalyse dar. Bei der Regressionsanalyse handelt es sich um ein statistisches Verfahren, das die Beziehungen zwischen einer ab hängigen und einer („Einfache Regression“) oder mehreren („Multiple Regression“) unab hängigen Variablen analysiert (Backhaus u.a. 1990: 1). Wie bei der Varianzanalyse handelt es sich um ein strukturen- prüfendes Verfahren, das eine auf sachlogischen und/oder theoretischen Überlegungen basierende Vorstellung über den Ursache-Wirkungs-Zusammenhang voraussetzt (Backhaus u.a. 1990: XV).

Die Regressionsanalyse kann dabei sowohl dazu dienen, eine Variable durch eine oder mehrere andere Variablen zu erklären als auch die Werte der abhängigen Variablen auf der Basis der Werte der unabhängigen Variablen zu prognostizieren (Ludwig-Mayerhofer 1999d; Backhaus u.a. 1990: 1). Im Unterschied zur Varianzanalyse setzt die Regressionsanalyse sowohl bei der abhängigen Variablen als auch bei der unabhängigen Variablen ein metrisches Skalenniveau voraus (Backhaus u.a. 1990: XVI).

Liegt für die unabhängige Variable kein metrisches Skalenniveau vor, besteht darüber hinaus die Möglichkeit, eine sogenannte Dummy-Variable zu erzeugen und mit ihr dann die Regressionsanalyse durchzuführen (Ludwig-Mayerhofer 1999e). Die Regressionsanalyse unterstellt, dass eine lineare Beziehung zwischen unabhängiger(n) und abhängiger Variablen vorliegt. Mit anderen Worten: Unabhängige Variablen und abhängige Variable dürfen sich nur in konstanten Relationen verändern (Backhaus u.a.1990: 5).[50] An einem Fall mit nur zwei Variablen lässt sich gut das Grundprinzip der Regressionsanalyse veranschaulichen: Trägt man in ein x-y-Diagramm die entsprechenden Werte der Variablen, ergibt sich ein Streudiagramm, dessen Punkteschar sich bei positivem Zusammenhang tendenziell von links unten nach rechts oben, bei negativen Zusammenhang von links oben nach rechts unten erstreckt (immer Linearität vorausgesetzt). In dieses Streudiagramm könnte man dann per Hand eine Gerade einzeichnen, die die zentrale Tendenz der Punkteschar zumindest ungefähr wiedergibt. Mit Hilfe der Regressionsanalyse ist es nun möglich, eine Gerade mit der bestmöglichen Anpassung an die Punkteschar mathematisch exakt zu bestimmen. Das Kriterium für eine bestmögliche Anpassung an die Punkteschar besteht darin, die senkrechten Abstände zwischen den jeweiligen Punkten und der Geraden möglichst klein zu halten. Die „Methode der kleinsten Quadratsumme“ leistet genau dies: Es wird diejenige Gerade bestimmt, für die die Summe der quadrierten Abstände zwischen allen Punkten und der Geraden am kleinsten ist (Brosius 1996: 474).[51] Die allgemeine Form einer Gradengleichung lautet: Y = c + b * X. Y bezeichnet dabei die abhängige, X die unabhängige Variable. Im Fall von zwei Variablen berechnet SPSS über die Prozedur „Regression//Linear“ den Achsenabschnitt c und das Steigungsmaß b dieser Graden. Allgemein gibt b an, „um wie viele Einheiten die abhängige Variable sich verändert, wenn sich die unabhängige Variable um eine Einheit verändert“ (Brosius 1996: 475). Im Mehr-Variablen-Fall ergibt sich folgende allgemeine Gradengleichung: Y = c + b1 * X 1 + b2 * X2 + bn * Xn. Y steht dabei wieder für die abhängige Variable. X1, X2 und Xn repräsentieren die unabhängigen Variablen. Im Mehr-Variablen-Fall verlieren die Begriffe Steigungsmaß und „Achsenabschnitt“ ihre anschauliche Bedeutung und werden deshalb allgemein als Regressionskoeffizienten (b) und Konstante (c) bezeichnet (Brosius 1996: 475).

[...]


[1] Manchmal werden nur solche Verfahren als „multivariat“ bezeichnet, in denen mehrere abhängige Variablen simultan analysiert werden. Modelle mit nur einer abhängigen Variablen werden in diesem Sprachgebrauch dann als „multiple“ bezeichnet (Ludwig-Mayerhofer 1999a).

[2] Der ALLBUS-Datensatz von 1996 liegt mir nur in reduzierter Form als ALLBUScompact-Datensatz vor.

[3] Die Abweichung der einzelnen Messwerte innerhalb der Gruppen vom Gruppenmittelwert wird dabei auch als „Residualvarianz“ oder „Fehlervarianz“ bezeicnet.

[4] „ANOVA“ steht dabei für “ANalysis Of VAriance“.

[5] In Anlage 1 findet sich die entsprechende SPSS-Syntax, mit der ich die neue Variable „eink_k“ erzeugt habe.

[6] Es ist allerdings zu bedenken, dass ich die Werte von „eink_k“ bei „von-bis“-Angaben“ über die Bildung arithmetischer Mittel erzeugt habe. Dies soll hier allerdings vernachlässigt werden.

[7] Eine Variable wie „Schicht der Eltern“ liegt mir leider nicht vor. Es geht mir in dieser Hausarbeit allerdings in erster Linie darum, das Prinzip von multivariaten Verfahren zu demonstrieren.

[8] Im Kapitel über die Regressionsanalyse rechne ich im Unterschied dazu ausschließlich mit den Fällen der alten Bundesländer.

[9] Alle Zahlen gewichtet.

[10] Insgesamt 870 „missings“.

[11] Siehe Anlage 2.

[12] Siehe SPSS-Output (Anlage 2): Für die Gruppe der Befragten ohne Schulabschluss beispielsweise liegt das Durchschnitteinkommen pro Kopf mit einer Irrtumswahrscheinlichkeit von 5 % in der Grundgesamtheit im Bereich zwischen 1018 und 1373 DM.

[13] Siehe SPSS-Output (Anlage 2).

[14] Es geht jetzt also darum, ob der „Einfluss“ der „unabhängigen“ Variablen auf die „abhängige“ Variable insgesamt signifikant ist.

[15] Die Freiheitsgrade (D.F.: „Degrees of freedom“) der erklärten Varianz berechnen sich wie folgt: D.F. = k –1 (k =Anzahl der gebildeten Gruppen). In meinem Beispiel ergeben sich 5 – 1 = 4 Freiheitsgrade.

Die Freiheitsgrade der nicht-erklärten Varianz berechnen sich so: D.F. = N – (K-1) (N= Anzahl der Fälle; k = Anzahl der gebildeten Gruppen). Hier: 2622 (count total) – 4 = 2618 Freiheitsgrade.

[16] Siehe Anlage 3.

[17] Vor allem dann , wenn die Gruppen nicht zu klein und ungefähr gleich groß sind, ist die Varianzanalyse relativ robust gegen moderate Verletzungen dieser Annahmen (Ludwig-Mayerhofer 1999b). Das ist hier aber nicht der Fall: In Gruppe 1 ist N = 54, in Gruppe 2 ist N = 1259. Es ist aber weiterhin zu bedenken, dass bei sehr großen Fallzahlen bereits sehr feine Unterschiede in den Varianzen als signifikant ausgewiesen werden (Kappelhoff 2000: 16). Die Unterschiede zwischen den Standardabweichungen sind allerdings hier sehr groß: In Gruppe mit Abitur (Grp. 5) ist die Standardabweichung mehr als doppelt so hoch wie in der Gruppe ohne Schulabschluss (Grp. 1).

[18] Siehe Anlage 2.

[19] Hier mit einer Irrtumswahrscheinlichkeit von 5 %.

[20] Ob jeweils eine Signifikanz vorliegt, entscheidet sich nach der im SPSS-Output beim „Student-Newman-Keuls test“ angegebenen Formel (Brosius 1996: 424).

[21] So hängt die Signifikanz nicht nur von der Größe des Effekts bzw. der Korrelation ab, sondern auch von der Stichprobengröße. Sehr große Stichprobengrößen erzeugen damit auch tendenziell höhere Signifikanzen als kleinere Stichprobengrößen, ohne dass deshalb ein stärkerer Zusammenhang vorliegen muss.

[22] Siehe Anlage 4.

[23] Es dürfte sich hier um Rundungsdifferenzen handeln.

[24] Der Unterschied zwischen „eta“ und „Multiple R Squared“ wird erst bei mehreren unabhängigen Variablen relevant (Backhaus u.a. 1990: 61f).

[25] Siehe Abschnitt 2.1.

[26] Es gibt natürlich ebenso Argumente, die Gruppe „Zweite Staatsbürgerschaft“ der Gruppe „Deutsche Staatsangehörigkeit“ zuzuschlagen. Darauf soll es hier aber nicht ankommen.

[27] Siehe Anlage 5 (SPSS-Syntax) und Anlage 6 (Häufigkeiten).

[28] Siehe Anlage 7.

[29] Die Mittelwertunterschiede in der Stichprobe hätten sich im Falle einer Bestätigung der Nullhypothese dann nur rein zufällig ergeben.

[30] Siehe Abschnitt 2.1.

[31] Die Variable „schule5“ habe ich neu gebildet, indem ich ausschließlich die Ausprägungen 1 – 5 der Variablen „schule“ berücksichtigt habe. Die anderen Ausprägungen von „schule“ werden bei „schule5“ zu „missings“. Dies bedeutet keine wesentliche Veränderung, weil ich bereits bei der einfaktoriellen Varianzanalyse diese anderen Ausprägungen als „missings“ gewertet habe.

[32] Siehe Anlage 8.

[33] In meiner SPSS-Version als „Experimental“ bezeichnet.

[34] In SPSS: „Unique“.

[35] In SPSS: „Hierachical“.

[36] Es gibt natürlich Ausnahmen: In Einzelfällen mag auch ein hoher erreichter Schulabschluss eine Übernahme der Deutschen Staatsbürgerschaft begünstigen.

[37] Siehe Anlage 9.

[38] Vielleicht hängt das Ergebnis auch mit den zum Teil sehr kleinen Zellenbesetzungen zusammen. Die Gruppe der Fachoberschulreife ist bei den Ausländern z.B. nur mit 8 Befragten besetzt.

[39] Siehe Anlage 10.

[40] Bei völliger Unabhängigkeit voneinander müsste der Abstand zwischen beiden Kurven immer gleich sein. Das ist in meinem Beispiel nicht der Fall.

[41] Siehe Anlage 9.

[42] Bei den folgenden Überlegungen ist im übrigen auch zu berücksichtigen, dass sich die in die Berechnung einfließenden Fälle von 2648 (bei „passdich“ in der einfaktoriellen Variasnzanalyse) auf 2623 Fälle in der mehrfaktoriellen Varianzanalyse verringert haben (wegen „missings“des Faktors „schule5“). Auch insofern ergeben sich bei der mehrfaktoriellen Varianzanalyse leicht veränderte erklärte Varianzen beim Faktor „passdich“ und eine leicht veränderte Gesamtvarianz. Dies soll hier allerdings vernachlässigt werden.

[43] Siehe Anlage 9.

[44] Siehe Anlage 11.

[45] Siehe Anlage 12.

[46] Siehe Anlage 13.

[47] Siehe Anlage 14.

[48] Siehe Anlage 15.

[49] Wegen der jetzt angewandten Methode „experimentell“ verringert sich die Erklärungskraft um 0,1 %, weil Überlappungsbereiche mit der Variablen „schule5“ nicht mehr „passdich“ (wie oben bei „hierachisch“ ) zugeschlagen werden.

[50] Liegt keine lineare Beziehung vor, besteht die Möglichkeit z.B. exponentielle, logarithmische oder quadratische Kurven in lineare Kurven zu transformieren und dann entsprechend mit den transformierten Kurven Regressionsanalysen durchzuführen. Dies wird hier allerdings keine Rolle spielen (Brosius 1996: 476).

[51] Die Abstände müssen quadriert werden, damit sich die senkrechten Abstände der Punkte unterhalb der Geraden und oberhalb der Geraden nicht gegenseitig neutralisieren.

Ende der Leseprobe aus 71 Seiten

Details

Titel
Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren anhand eines Datensatzes der ALLBUS 1996
Hochschule
Universität Bielefeld
Note
Sehr gut
Autor
Jahr
2004
Seiten
71
Katalognummer
V78282
ISBN (eBook)
9783638830874
ISBN (Buch)
9783638832427
Dateigröße
897 KB
Sprache
Deutsch
Anmerkungen
Schriftlicher Kommentar der Dozentin: Sehr gute Methodenarbeit, weiter so! (40 Seiten Anlagen - SPSS-Output)
Schlagworte
Varianz-, Regressionsanalysen, Datenanalyseverfahren, Dargestellt, Beispielen, Datensatz, Allgemeinen, Bevölkerungsumfrage, Sozialwissenschaften
Arbeit zitieren
Joachim Schmidt (Autor), 2004, Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren anhand eines Datensatzes der ALLBUS 1996, München, GRIN Verlag, https://www.grin.com/document/78282

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren anhand eines Datensatzes der ALLBUS 1996


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden