Varianz- und Regressionsanalyse sind zwei wichtige und häufig angewandte statistische Verfahren in der quantitativen empirischen Sozialforschung. Diese werden als multivariate Analyseverfahren bezeichnet, weil die statistischen Zusammenhänge zwischen mindestens drei Merkmalen bzw. Variablen untersucht werden. Beide Verfahren sind strukturen-prüfend und dienen damit dazu, vorher aufgestellte Hypothesen zu testen.
Im Unterschied zu strukturen-entdeckenden bzw. datenreduzierenden Analyseverfahren wie der Faktoren- oder Clusteranalyse besitzt der Anwender bei der Varianz- oder Regressionsanalyse bereits eine auf sachlogischen oder theoretischen Überlegungen basierende Vorstellung über mögliche Zusammenhänge zwischen den Variablen und kann diese dann empirisch anhand eines Datensatzes überprüfen. In dieser Arbeit geht es in erster Linie darum, die Anwendung der statistischen Verfahren von Varianz- und Regressionsanalyse als solche zu demonstrieren und ihre zugrunde liegende Logik nachvollziehbar und verständlich herauszuarbeiten. Als Beispielsdatensatz wird ein reduzierter Datensatz der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1996 verwendet. Auf der Internet-Seite der „Gesellschaft Sozialwissenschaftlicher Infrastruktureinrichtungen e.V. (GESIS) können Codebuch (pdf Format), SPSS file (sav Format) und Methodenbericht (pdf Format) der verwendeten Studie kostenlos unter der Bezeichnung „ALLBUScompact-1996 ZA Nr. 3718“ für wissenschaftliche Zwecke herunter geladen werden (http://www.gesis.org/Datenservice/ALLBUS/Bestellen/download.htm).
Als Software wurde das in der Soziologie sehr gebräuchliche Datenverarbeitungsprogramm SPSS (Statistical Package for Social Sciences) verwendet. Alle angewandten SPSS-Prozeduren sind im Anhang als SPSS-Output im Einzelnen dokumentiert.
Inhaltsverzeichnis
1 EINLEITUNG
2 VARIANZANALYSE
2.1 Die Logik der Varianzanalyse
2.1.1 Gruppenmittelwerte in Stichprobe und Grundgesamtheit
2.1.2 Die eigentliche Varianzanalyse
2.1.3 Voraussetzungen
2.1.4 Die Stärke des Zusammenhangs
2.2 Multifaktorielle Varianzanalyse
2.2.1 Varianzanalyse mit einem Faktor
2.2.2 Varianzanalyse mit zwei Faktoren
2.2.3 Varianzanalyse mit drei Faktoren
3 REGRESSIONSANALYSE
3.1 Einfache Regressionsanalyse
3.1.1 Regressionskoeffizient und Konfidenzintervall
3.1.2 Fit der Regressionsgleichung und PRE-Logik
3.1.3 Überprüfung der Residuen
3.2 Multiple Regressionsanalyse
3.2.1 Die einbezogenen Variablen
3.2.2 Prüfung auf Multikollinearität
3.2.3 Die multiple Regressionsanalyse
3.2.4 Überprüfung der Residuen
3.2.5 Zusammenfassung
Zielsetzung & Themen
Die vorliegende Arbeit hat zum Ziel, die Anwendung multivariater statistischer Analyseverfahren in der empirischen Sozialforschung zu demonstrieren und deren grundlegende logische Struktur anhand des Datensatzes der „Allgemeinen Bevölkerungsumfrage der Sozialwissenschaften“ (ALLBUS) 1996 zu verdeutlichen.
- Grundlagen und Logik der univariaten Varianzanalyse
- Durchführung und Interpretation multifaktorieller Varianzanalysen
- Anwendung der einfachen Regressionsanalyse
- Modellbildung und Interpretation der multiplen Regressionsanalyse
- Vergleich und Einordnung statistischer Gütemaße wie R² und eta-quadrat
Auszug aus dem Buch
2.1.2 Die eigentliche Varianzanalyse
Die Varianzanalyse zerlegt die Summe der quadrierten Abweichungen der einzelnen Werte vom Gesamtmittelwert der Variablen „eink_k“ („Sum of Squares total“ = Gesamtvarianz) in die Summe der quadrierten Abweichungen der Gruppenmittelwerte vom Gesamtmittelwert („Sum of Squares between groups“ = erklärte Varianz) und die Summe der quadrierten Abweichungen innerhalb der Gruppen vom Gruppenmittelwert („Sum of Squares within groups“ = nicht erklärte Varianz). In meinem Beispiel berechnet SPSS die folgenden Werte:
Erklärte Varianz: 237.829.128,4
Nicht erklärte Varianz (auch Residualvarianz/Fehlervarianz): 2.290.902.793,0
Gesamtvarianz: 2.528.731.922,0
Aus dem Verhältnis der erklärten Varianz zur nicht-erklärten Varianz lassen sich mit Hilfe des F-Tests Rückschlüsse über die Gruppenmittelwerte in der Grundgesamtheit ziehen. Würden beispielsweise die einzelnen Werte innerhalb der Gruppen überhaupt nicht um den jeweiligen Gruppenmittelwert streuen (Nicht erklärte Varianz = 0) und gleichzeitig sehr unterschiedliche Gruppenmittelwerte vorliegen, wäre es sehr wahrscheinlich, dass die Mittelwertunterschiede zwischen den Gruppen in der Stichprobe sich nicht zufällig ergeben haben, sondern aus Mittelwertunterschieden in der Grundgesamtheit herrühren (Brosius 1996: 421). Sind die Unterschiede zwischen den Gruppen also relativ groß bei gleichzeitig nicht allzu großer Varianz innerhalb der Gruppen, so kann man davon ausgehen, dass die Gruppenzugehörigkeit einen „Einfluss“ auf die „abhängige“ Variable hat. Formal geprüft wird dies über den sogenannten F-Test. Dazu wird der empirische F-Wert mit dem theoretischen F-Wert verglichen, der sich ergeben würde, wenn sich die Unterschiede in der Stichprobe zwischen den Gruppenmittelwerten rein zufällig ergeben hätten und damit in der Grundgesamtheit nicht vorlägen (= Bestätigung der Nullhypothese). Ist der empirische F-Wert größer als der bei rein zufälliger Verteilung sich ergebende theoretische F-Wert, muss die Nullhypothese mit der jeweils festgelegten Irrtumswahrscheinlichkeit (hier: 5%) verworfen werden.
Zusammenfassung der Kapitel
1 EINLEITUNG: Diese Einleitung führt in die Zielsetzung ein, multivariate Analyseverfahren an einem Beispiel aus der empirischen Sozialforschung zu demonstrieren und deren Logik herauszuarbeiten.
2 VARIANZANALYSE: Dieses Kapitel erläutert den Grundgedanken der Varianzanalyse als Zerlegung der Gesamtvarianz und führt die Anwendung bei ein- sowie mehrfaktoriellen Forschungsfragen ein.
3 REGRESSIONSANALYSE: Dieses Kapitel behandelt die Regressionsanalyse als strukturen-prüfendes Verfahren, um Beziehungen zwischen einer abhängigen und einer oder mehreren unabhängigen Variablen zu modellieren.
Schlüsselwörter
Multivariate Datenanalyse, Varianzanalyse, Regressionsanalyse, ALLBUS 1996, SPSS, Signifikanzprüfung, F-Test, Regressionskoeffizient, R-Quadrat, Eta-Quadrat, Residuenanalyse, Multikollinearität, Pro-Kopf-Einkommen, politische Selbsteinschätzung, empirische Sozialforschung
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit der praktischen Anwendung und methodischen Logik multivariater statistischer Analyseverfahren in der Sozialforschung.
Was sind die zentralen Themenfelder der Analyse?
Die Untersuchung konzentriert sich auf die Durchführung von Varianz- und Regressionsanalysen, insbesondere im Hinblick auf Einkommensunterschiede und politische Orientierungen.
Was ist das primäre Ziel der Untersuchung?
Das Hauptziel besteht darin, die Anwendung der statistischen Verfahren zu demonstrieren und die zugrunde liegende Logik, statt eine tiefe theoretische Fundierung der Hypothesen, herauszuarbeiten.
Welche wissenschaftlichen Methoden werden verwendet?
Zum Einsatz kommen die univariate und multifaktorielle Varianzanalyse sowie die einfache und multiple Regressionsanalyse unter Nutzung der Software SPSS.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die detaillierte Beschreibung und Anwendung von Varianzanalyse (Kapitel 2) und Regressionsanalyse (Kapitel 3) anhand des ALLBUS-Datensatzes von 1996.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit ist durch Begriffe wie Multivariate Datenanalyse, Varianzanalyse, Regressionsanalyse, SPSS und statistische Signifikanz gekennzeichnet.
Warum wurde der Datensatz ALLBUS 1996 gewählt?
Der Datensatz dient als repräsentativer Bevölkerungsquerschnitt der Bundesrepublik Deutschland zur Demonstration der statistischen Verfahren.
Welche Rolle spielt die Residuenanalyse in dieser Arbeit?
Die Residuenanalyse wird genutzt, um die Güte der angewandten statistischen Modelle zu überprüfen und mögliche Verzerrungen oder Autokorrelationen auszuschließen.
Wie wird mit fehlenden Werten im Datensatz umgegangen?
Fehlende Werte werden durch gezielte Codierung oder den Ausschluss bestimmter Fälle (z.B. bei der Varianzanalyse) bereinigt, um die Validität der Analysen zu gewährleisten.
- Quote paper
- Joachim Schmidt (Author), 2004, Varianz- und Regressionsanalysen als wichtige Datenanalyseverfahren anhand eines Datensatzes der ALLBUS 1996, Munich, GRIN Verlag, https://www.grin.com/document/78282