Datum der Abgabe: 17.03.1999
0. Einleitung
Die Faktorenanalyse (FA) ist eine statistische Technik, die es ermöglicht, eine relativ geringe Anzahl von Faktoren zu identifizieren, die hinter einer relativ großen Zahl voneinander abhängiger Variablen stehen und somit ein datenreduzierendes Verfahren. Faktoren (auch Komponenten genannt) sind Variablengruppen oder Variablenbündel, die latent und nicht direkt beobachtbar sind, die z.B. mit Etiketten wie Kreativität, Gesundheit oder Wirtschaftlichkeit umschrieben werden können. Faktoren werden auch als „synthetische, theoretische oder gedachte Variablen“ definiert. 1
Die FA wird nach Backhaus et al. primär als ein struktur-entdeckendes Verfahren klassifiziert, 2 d.h. diese werden eingesetzt zur Entdeckung von Zusammenhängen zwischen Variablen oder Objekten, im Gegensatz zu den strukturen-prüfenden Verfahren, die primär für Kausalanalysen eingesetzt werden. 3 Als Basishypothese der FA kann gelten, daß komplexe Phänomene durch Faktoren erklärt werden können. Das gemeinsame Wirken dieser Faktoren impliziert die beobachteten Korrelationen zwischen Variablen.
In dieser Hausarbeit soll der Frage nachgegangen werden, ob es einen signifikanten Zusammenhang zwischen der Baustruktur und dem sozialen Status der Bewohnerinnen und Bewohner gibt, oder - als These formuliert - ob der soziale Status der Bewohnerinnen und Bewohner abhängig von der Gebäudestruktur ist.
Als Datensatz wurde eine Erhebung ausgewählt, die in der Stadt Freiburg erstellt wurde. Der Datensatz trägt den Namen „Freiburg.sav“, eine SPSS-Datendatei, die am 15. Dezember 1998 kreiert wurde. Die Fallzahl beträgt 125 (N=125), die Anzahl der definierten Variablen 241. Die Daten sind nicht gewichtet. Im Zusammenhang mit der obengenannten These wurden acht Variablen ausgewählt, die Aspekte der Baustruktur implizieren:
(1) aaltwo (Anteil alter Wohnungen (vor 1961))
(2) amieth (Anteil Mietshäuser (4 Wohnungen und mehr) (3) qmp (qm Wohnfläche pro Person) (4) raump (Raum pro Person) (5) draum (durchschnittliche Raumzahl pro Wohnung) (6) dgros (durchschnittliche Wohnungszahl pro Gebäude) (7) ahochh (Anteil Hochhäuser (7 und mehr Geschosse))
1 Siehe Bortz, 4 1993, 473.
2 Siehe Backhaus et al., 8 1996, XXIf.
2
(8)
awonutz
(Anteil Wohnnutzfläche)
Als Variablen, die den sozialen Status der Bewohner kennzeichnen, wurden folgende ausgewählt:
(1) os (Anteil „Oberschicht“, zusammengesetzt aus Anteil obere „Mittelschicht“ (omsant) und Anteil „Oberschicht“ (osant)) 4
(2) us („Unterschicht“, zusammengesetzt aus Anteil „Unterschicht“ (usant) und Anteil obere „Unterschicht“ (ousant)) 5
In Kapitel 1 wird eine FA mit dem Datensatz „freiburg.sav.“, die mit SPSS 8.0 durchgeführt wurde, Schritt für Schritt beschrieben, kommentiert und interpretiert. In Kapitel 2 wird analog wie in Kapitel 1 die Korrelationsmatrix zwischen den extrahierten Faktoren und zwei ausgewählten Variablen (os und us) beschrieben und interpretiert.
3 Siehe ebd., XVIII.
4 Siehe Tabelle 14.
5 Siehe Tabelle 14.
1. Faktorenanalyse mit SPSS
1.1. Anmerkungen zum Datensatz
Tabelle 1 gibt einen Überblick über die Struktur des Datensatzes (Eingabe, Verarbeitung fehlender Werte), die SPSS-Syntax der gerechneten FA und die erzeugten Faktoren.
Faktorenanalyse
Tabelle 1: Anmerkungen
1.2. Korrelationsmatrix
Der erste Schritt der FA besteht in der Erstellung der Korrelationsmatrix aus der Datenmatrix. Die Korre-
lationsmatrix ist in Tabelle 2 wiedergegeben:
Tabelle 2: Korrelationsmatrix
In der Korrelationsmatrix zeigen sich insgesamt sechs Korrelationen, die höher als der Wert +/- 0,5 liegen und damit relativ hoch signifikant sind (z.B. korrelieren die Variablen amieth und dgros mit 0,956 sehr hoch). 6 Weiterhin ist festzustellen, daß häufig geringe Korrelationswerte auftreten. Diese Variablen sind für faktoranalytische Zwecke weniger geeignet, normalerweise müßten einige Variablen aus der Analyse herausgenommen werden, worauf aber verzichetet wird.
1.3. KMO- und Bartlett-Test
Kaiser, Meyer und Olkin entwickelten eine Prüfgröße, die auch als „measure of sampling adequacy (MSA)“ bezeichnet wird. 7 Das MSA-Kriterium zeigt an, in welchem Umfang die Variablen der Ausgangsmatrix zusammengehören und soll anzeigen, ob eine FA sinnvoll ist. In unserem Beispiel liegt der MSA (oder KMO) bei 0,593 (siehe Tabelle 3), d.h. daß das Ergebnis zwar „kläglich“ bis „mittelmäßig“ ist, eine FA aber noch akzeptabel ist.
Der Bartlett-Test (test of sphericity) überprüft die Hypothese, ob die Stichprobe aus einer Grundgesamtheit kommt, in welcher die Variablen unkorreliert sind. 8 In unserem Beispiel ergab der Bartlett-Test eine ungefähres Chi-Quadrat von 699,505 und eine Signifikanz nach Bartlett nahe Null. Daher ist von einer sehr hohen Wahrscheinlichkeit (1 - 0,000* = ~ 100%) auszugehen, daß die Variablen der Erhebungsgesamtheit korreliert sind.
Tabelle 3: KMO- und Bartlett-Test
6 Hohe Korrelationen (>= 0,5) werden mit roter Zeichenfarbe hervorgehoben.
7 Siehe Backhaus et al., 8 1996, 206.
8 Siehe ebd., 204.
1.4. Bestimmung der Kommunalitäten
Bei der Bestimmung der Kommunalitäten wurde als Schätzverfahren bzw. Extraktionsmethode die Hauptkomponentenanalyse (HKA) ausgewählt. Die HKA ermittelt voneinander unabhängige Faktoren. Die 2 ) ist der Anteil der erklärten Varianz von z j , der durch die Faktoren erklärt werden kann. Kommunalität (h j
Da i.A. die gemeinsamen Faktoren nicht die Gesamtvarianz erklären, sind die Kommunalitäten meist kleiner als eins. In unserem Beispiel wurden die Kommunalitäten durch den Iterationsprozeß der FA bestimmt. Bei der hier durchgeführten HKA wurden die Startwerte der Kommunalitätenschätzung auf eins festgelegt (Siehe Tabelle 4). Die Analyse führte bei der Extraktion von drei Faktoren zu den Endwerten (Extraktion) in Tabelle 4. Die Endwerte weichen deutlich von den Startwerten ab, was daran liegt, daß weniger Faktoren als Variablen extrahiert wurden. Die Endwerte der Kommunalitätenschätzung können unter gewissen Umständen von Bedeutung sein, da der Erklärungswert der extrahierten Faktoren auch zusammen mit der zugrundeliegenden Kommunalität beurteilt werden sollte. In unserem Beispiel zeigt sich, daß der Anteil der erklärten Varianz von z j , der durch die Faktoren erklärt werden kann, bei den Variablen amieth und dgros über 0,9 liegt und damit sehr hoch ist.
Tabelle 4: Kommunalitäten
1.5. Erklärte Gesamtvarianz
Tabelle 5: Erklärte Gesamtvarianz
Tabelle 5 zeigt die anfänglichen Eigenwerte der Komponenten, die Summen der quadrierten Faktorladun-
gen für die Extraktion und die rotierte Summe der quadrierten Ladungen. Nach der ausgewählten Prüfme-
thoden ergibt sich eine 3-Faktorlösung. Diese drei Faktoren erklären zusammen 79,862 % der Ausgangs-
varianz (siehe Tabelle 5, Spalte Kummulierte %). Der 1. Faktor erklärt 38,377 %, der 2. Faktor 25,664
% und der 3. Faktor 15,820 % der Ausgangsvarianz.
8
Abb. 1: Screeplot
Der scree-Test, ein Eigenwertediagramm, stellt die Faktoren grafisch nach Eigenwerten in abfallender Reihenfolge geordnet dar. Die Faktoren mit den niedrigsten Eigenwerten werden durch eine Gerade verbunden.
In unserer Analyse ist die Zahl der Faktoren (8) auf der X-Achse aufgetragen, die Eigenwerte auf der Y-Achse. Eine angepaßte Gerade würde durch bzw. in der Nähe der Koordinaten der Faktoren 4-8 verlau- fen, daher ergeben sich drei Faktoren.
9
1.7.1. Komponentenmatrix
Tabelle 6: Komponentenmatrix(a)
Tabelle 6 zeigt eine Übersicht des SPSS-Outputs für die drei-faktorielle Lösung. Die HKA extrahierte drei Faktoren. Dies ist die unrotierte Matrix, sortiert nach Ladungsgröße. Die Variablen „durchschn. Wohnungszahl pro Gebäude“, „Anteil Mietshäuser“ und „durchschn. Raumzahl pro Wohnung“ korrelieren am Höchsten mit Faktor 1, während die Variablen „Anteil Wohnnutzfläche“, „Raum pro Person“ und „qm Wohnfl. pro Person“ mit Faktor 2 am Höchsten korrelieren. Die Variablen „Anteil alter Wohnungen“ und „Anteil Hochhäuser“ korrelieren mit Faktor 3 am Höchsten.
1.7.2. Rotierte Komponentenmatrix
Tabelle 7: Rotierte Komponentenmatrix(a)
10
Tabelle 7 zeigt die rotierte Komponentenmatrix nach dem Varimax-Verfahren. Die Rotation der Faktormatrix ist interpretationsfähiger, da im Vergleich mit der unrotierten (Tabelle 6) sich Veränderungen zeigen. Insbesondere bei Faktor 1 und 3 läßt sich die in Kapitel 1.7.1. beschriebenen Korrelationen noch eindeutiger ablesen.
Bezüglich der Faktorinterpretation muß gefragt werden, welche Interpretation diese Rotation zuläßt. Dazu bietet sich eine schematische Darstellung der rotierten Faktorladungen an: 9
Tabelle 8: Schematische Darstellung der rotierten Faktorladungen
Das Ziel der HKA ist die Reproduktion der Datenstruktur durch möglichst wenige Faktoren. Deshalb wird auch nicht zwischen Kommunalitäten und Einzelrestvarianz differenziert. Somit sind die in Tabelle 4 ermittelten Kommunalitäten bei der Interpretation zu vernachlässigen.
Bei der HKA lautete die Frage bezüglich der Interpretation der Faktoren: „Wie lassen sich die auf einen Faktor hoch ladenden Variablen durch einen Sammelbegriff (Komponente) zusammenfassen?“ 10 Diese kann folgendermaßen beantwortet werden: Faktor 1 bündelt die Variablen amnieth, dgros und draum und könnte mit dem Etikett „Gebäudestruktur“ umschrieben werden. Faktor 2 bündelt die Variablen qmp, raump und awonutz und könnte das Etikett „Wohnraumstruktur“ erhalten, Faktor 3 bündelt die Variablen aaltwo und ahochh und könnte mit dem Begriff „Baualter“ etikettiert werden. Bei Faktor 1 laden zwei der obengenannten Variablen positiv hoch (ausgedrückt durch das +-Zeichen), eine lädt negativ. Bei Faktor 2 laden alle drei Variablen positiv, bei Faktor 3 eine Variable positiv, eine negativ. 11
9 Die hochladenden Variablen werden mit einem + oder - (positive oder negative Korrelation) in Bezug auf den jeweiligen Faktor kenntlich gemacht.
10 Backhaus et al., 8 1996, 223.
1.8. Komponententransformationsmatrix 12
Tabelle 9: Komponententransformationsmatrix
1.9. Faktorwertematrix
Tabelle 10: Koeffizientenmatrix der Komponentenwerte
Die Schätzung der Faktorenwerte ist streng von den Faktorladungen zu unterscheiden. Auf eine grafische Darstellung der drei Faktorwerte der Faktoren wird hier aus Gründen der Anschaulichkeit verzichtet, da hierzu eine dreidimensionale Darstellung erforderlich wäre.
Bei der Interpretation von Faktorwerten ist darauf zu achten, daß sie standardisierte Größen sind, d.h. sie besitzen einen Mittelwert von 0 und eine Varianz von 1. In Tabelle finden sich negative Faktorwerte (rot hervorgehoben), positive Faktorwerte (grün hervorgehoben) und Faktorwerte nahe Null. Ein negativer Faktorwert besagt, daß ein Objekt (Variable) auf in bezug auf den jeweiligen Faktor im Vergleich zu allen
11 Siehe Tabelle 9.
12 Auf eine Interpretation der Tabelle 9 wird verzichtet
12
anderen betrachteten Objekten unterdurchschnittlich ausgeprägt ist. Dies sind in unserem Beispiel v.a. die Variablen
qmp
(-0,064)
raump
(-0,020) und
draum
(-0,311) sind in bezug auf Faktor 1 im Vergleich zu den restlichen Varibalen leicht unterdurchschnittlich ausgeprägt, wobei die Variable
draum
stärker negativ ausgeprägt ist. Dasselbe gilt analog bei den negativen Faktorwerten in Tabelle 10, Spalte 2 und 3, wobei die Variable
ahochh
(-0,535) deutlich unterdurchschnittlich ausgeprägt ist, d.h. der Anteil der Hochhäuser eine untergeornete Rolle beim Faktor „Baualter“ spielt. Ein positiver Faktorwert drückt aus, daß eine Variable in bezug auf den jeweiligen Faktor im Vergleich zu allen anderen betrachteten Variablen überdurchschnittlich ausgeprägt ist. Dies sind in unserem Beispiel 15 Variablen (siehe Tabelle 10). Einen besonders hohen Faktorwert weist die Variable
aaltwo
(0,592) auf, d.h. sie ist bezogen auf den Faktor 3 deutlich überdurchschnittlich ausgeprägt, d.h. der Anteil alter Wohnungen spielt eine übergeordnete Rolle beim Faktor „Baualter“. Diese Ausprägung kann dahingehend interpretiert werden, daß sich der Faktor 3 vor allem durch die Variable
aaltwo
konstituiert. Auf eine detaillierte weitere Interpretation der Faktorwerte wird hier verzichtet, da das Muster der Interpretation wie in den obengenannten Beispielen sich wiederholt.
1.10. Kovarianzmatrix des Komponentenwerts 13
Tabelle 11: Kovarianzmatrix des Komponentenwerts
2. Korrelationen
Tabelle 12 zeigt Anmerkungen zur Eingabe der Daten, die Behandlung fehlender Werte und die Syntax der Korrelationsrechnung von SPSS. Korreliert wurden folgende Variablen:
(1) fac1_2 (Faktor 1, „Gebäudestruktur“)
(2) fac2_2 (Faktor 2, „Wohnraumstruktur“) (3) fac3_2 (Faktor 3, „Baualter“)
13 Auf eine Interpretation der Tabelle 11 wird verzichtet.
13
Wie schon in der Einleitung formuliert soll anhand der der Korrelationsmatrix herausgefunden werden, ob es einen signifikanten Zusammenhang zwischen der Baustruktur und dem sozialen Status gibt.
Tabelle 12: Anmerkungen
Tabelle 13: Deskriptive Statistiken 14
14 Auf eine Interpretation der Tabelle 13 wird verzichtet
Tabelle 14 zeigt die SPSS-Ausgabe der Korrelationen nach Pearson zwischen den fünf ausgewählten Va-
riablen. Die Korrelationen, die mit 2 roten Sternchen (**) und durch die Textfarbe rot hervorgehoben
wurden, sind auf dem Niveau von 0,01 (2-seitig) signifikant.
Tabelle 14: Korrelationen
Insgesamt sind fünf Korrelationen auf dem Niveau von 0,01 signifikant, nämlich die zwischen
(1) Faktor 1 und us (r = 0,502)
(2) Faktor 1 und os (r = - 0,532) (3) Faktor 2 und us (r = - 0,539) (4) Faktor 2 und os (r = 0,535) (5) us und os (r = - 0,952)
Inhaltlich bedeutet dies, daß erstens ein mittlerer signifikanter Zusammenhang zwischen dem Faktor „Gebäudestruktur“ und Bewohnerinnen und Bewohnern der „Unterschicht“ bzw. der „Oberschicht“ besteht. Zweitens gibt es einen mittleren signifikanten Zusammenhang zwischen dem Faktor „Raumstruktur“ und Bewohnerinnen der „Unterschicht“ bzw. der „Oberschicht“, d.h., daß die Gebäudestruktur und die Raumstruktur eines Wohnhauses in dieser Erhebung etwa zu gleichen Anteilen von Angehörigen der „Oberschicht“ bzw. der „Unterschicht“ bewohnt werden.
Interessant ist weiterhin, daß es einen sehr geringen Zusammenhang zwischen dem „Baualter“ von Wohnungen und dem sozialen Status der Bewohnerinnen und Bewohner gibt, d.h. in älteren Wohnungen bzw. Wohnhäusern (vor 1961) wohnen nicht unbedingt nur Angehörige der „Unterschicht“ (r zwischen Faktor 3 („Baualter“) und „Unterschicht“ beträgt „nur“ 0,080 und ist damit sehr gering). Weiterhin ist zu erwarten, daß der Anteil der Angehörigen der Unterschicht in Hochhäusern deutlich höher ist als der Anteil von Oberschichtsangehörigen.
Insgesamt läßt die Korrelationsmatrix den Schluß zu, daß die Faktoren „Gebäudestruktur“ und „Wohnraumstruktur“ einen mittleren signifikanten Zusammenhang mit Angehörigen der „Unterschicht“ als auch Angehörigen der „Oberschicht“ aufweisen. Dies bedeutete, daß es einen mittleren Zusammenhang zwischen sozialen Status der Bewohnerinnen und Bewohner und der Baustruktur gibt. Der soziale Status der Bewohnerinnen und Bewohner ist somit mittelmäßig abhängig von der Gebäudestruktur. Um eindeutigere
16
Ergebnisse zu bekommen, müßten noch zusätzliche Variablen für eine erneute FA ausgewählt werden, um
die in der Einleitung formulierte These nochmals zu überprüfen.
3. Literatur
Backhaus et al. 8 1996 [ 1 1980]. Multivariate Analysemethoden. Berlin: Springer. Bortz, J. 4 1993 [ 1 1977]. Statistik für Sozialwissenschaftler. Berlin: Springer. Bühl, A.; P. Zöfel. 4 1998. SPSS für Windows Version 7.5. Bonn u.a.: Addison-Wesley Longman. Loose, J. 1998. Faktorenanalyse. [veröffentlicht im Internet unter http://www.141.35.112.34/adl/m3/m3faktor.html (26.01.1999)]
Quote paper:
Marius Weigel, 1999, Faktorenanalyse am Beispiel eines stadtsoziologischen Datensatzes, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Die Prüfung des Risikofrüherkennungssystems im Rahmen der handelsrecht...
Business economics - Revision, Auditing
Scholary Paper (Seminar), 27 Pages
Lineare Einfachregression und Multiple Regression
Scholarly Paper (Advanced Seminar), 14 Pages
Marius Weigel has published the text Faktorenanalyse am Beispiel eines stadtsoziologischen Datensatzes
Marius Weigel has uploaded a new text
Datenanalyse mit SPSS für Fortgeschrittene 1
Datenaufbereitung und uni- und...
Leila Akremi, Nina Baur, Sabine Fromm
Sprachkurs Englisch in 15 Stunden - für Anfänger und Fortgeschrittene
Der schnelle Englischkurs für ...
Sprachkurs Französisch in 15 Stunden - für Fortgeschrittene
Der schnelle Französischkurs f...
Statistische Verfahren und ihr...
Walter Krämer, Olaf Schoffer, Lars Tschiersch
Methoden sozialwissenschaftlicher Datenkonstruktion
Götz Rohwer, Ulrich Pötter, Klaus Hurrelmann
0 comments