Inhaltsverzeichnis II
Inhaltsverzeichnis
1 Mathematisch-statistische Grundlagen 1
1.1 Herleitung der Probleml osung 2
2 Erl auterungen 3
2.1 Faktorladungen 3
2.2 Kommunalit aten 3
2.3 Faktorrotation 3
3 Durchf uhrung der Hauptkomponentenanalyse 4
3.1 Beschreibung des Datensatzes 4
3.2 Zentrierung der Spaltenwerte 5
3.3 Kovarianzmatrix und ihre Eigenwerte 5
3.4 Korrelationsmatrix und ihre Eigenwerte 6
3.5 Faktorladung und Kommunalit aten 6
3.6 Varimax-Rotation 7
3.7 Faktorinterpretation 7
4 Literatur 8
1 Mathematisch-statistische Grundlagen 1
1 Mathematisch-statistische Grundlagen
Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA), Pearson, 1901) ist eine Methode der multivariaten Verfahren in der Statistik. Sie ist mit der Faktoranalyse eng verwandt. Im PCA-Verfahren versucht man aus Daten mit vielen Eigenschaften einige Faktoren zu extrahieren, die f¨ ur diese Eigenschaften bestimmend sind.
Eine entscheidende Gr¨ oße in der Hauptkomponentenanalyse ist die Varianz. Diese ist ein Maß f¨ ur die Abweichung der Komponenten des Vektors zu ihrem Mittelwert, also der Abweichung von X zu ¯ X.
Gegeben sei eine Stichprobe X = (X 1 , X 2 , X 3 , ..., X n ), so definiert sich ihre gesch¨ atzte Varianz als
Einen ¨ ahnlichen Zusammenhang, jedoch mit zwei Vektoren, beschreibt die Kovarianz. Durch die Kovarianz sind zwei Vektoren bez¨ uglich ihrer Varianzen vergleichbar. Sie beschreibt also die Unterschiedlichkeit der Abweichung von X zu ¯ X zu der Abweichung von Y zu ¯ Y . Seien zwei Stichproben X = (X 1 , X 2 , ..., X n ) und Y = (Y 1 , Y 2 , ..., Y n ) gegeben, so definiert sich deren Kovarianz durch
Erweitern wir diese Definition von Vektoren auf Matrizen, erhalten wir die Kovarianzmatrix. Es sei also eine (m × n)-Matrix A gegeben. Die zugeh¨ orige Kovarianzmatrix errechnet sich als
Die Kovarianzmatrix ist quadratisch und symmetrich und daher, falls sie nur reelle Eintr¨ age enth¨ alt, diagonalisierbar. Um ein Maß f¨ ur die St¨ arke des linearen Zusammenhangs zweier Messgr¨ oßen X = (X 1 , X 2 , ..., X n ) und Y = (Y 1 , Y 2 , ..., Y n ) zu erhalten, definieren wir deren Korrelationskoeffizienten durch
Die Werte des Korrelationskoeffizienten liegen im Bereich [-1,1]. Betr¨ agt das Ergebnis von Kor(X, Y ) Null, dann sind X und Y unkorreliert. Ist der Wert positiv implizieren hohe Werte von X hohe Werte von Y . Ein negativer Wert beschreibt einen entgegengesetzten Zusammenhang. Hohe Werte von X entsprechen niedrigen Werten von Y . Um die Korrelationen innerhalb einer (Messdaten-)Matrix zu berechnen, definieren wir die Korrelationsmatrix zu einer gegebenen Matrix A. Diese errechnet sich analog zur Kovarianzmatrix als Kor(A) ij = Kor(a i , a j )
Die Korrelationsmatrix ist ebenfalls quadratisch und symmetrisch.
1 Mathematisch-statistische Grundlagen 2
1.1 Herleitung der Probleml¨ osung
Gegeben sei eine Datenmenge bestehend aus m n-elementigen Beobachtungen in Form einer (m × n)-Matrix X. Sei S = Kov(X) die (n × n)-Kovarianzmatrix zu X. Gesucht ist der n-dimensionale Vektor a 1 f¨ ur den gilt, dass V ar(a T 1 X) maximal wird.
Diese Bedingung entspricht, laut Definition von Varianz und Kovarianz, dem Problem a T 1 Sa 1 zu maximieren. Da jedoch der Ausdruck f¨ ur beliebige a 1 beliebig groß wird, ben¨ otigt man eine Schrankenbildung.
Wir benutzen die Bedingung a T 1 a 1 = 1.
Das Problem ist also nun die Maximierung eines Ausdrucks mit Nebenbedingung. F¨ ur die L¨ osung verwenden wir den Langrange-Multiplikator λ in der Gleichung a T 1 Sa 1 − λ(a T 1 a 1 − 1), welche Ausdruck und Nebenbedingung in einer Formel zusammenfasst. Wir suchen also den Vektor a 1 , der das Ergebnis dieser Gleichung maximiert. Wie gewohnt differenzieren wir nach a 1 , um einen Extremwert zu erhalten.
Sa 1 − λa 1 = 0 =⇒ (S − λE)a 1 = 0
Offensichtlich ist dies ein Eigenwertproblem von S, wobei λ ein Eigenwert ist und a 1 zu λ geh¨ orender Eigenvektor. Aus Sa 1 − λa 1 = 0 folgt Sa 1 = λa 1 . Wenn wir diese Erkenntnis urspr¨ ungliche Problem, welches durch die Maximierung von a T in das ¨ 1 Sa 1 gegeben war, einsetzen, erhalten wir die Umformung
max{a T 1 Sa 1 |a T 1 a 1 = 1} = max{a T 1 λa 1 |a T 1 a 1 = 1 ∧ λ ist Eigenwert von S}
Gesucht ist daher der gr¨ oßte Eigenwert von S. Nun suchen wir den n-dimensionalen Vektor a 2 , f¨ ur den gilt: V ar(a 2 X) wird maximal, a T 2 a 2 = 1 und a 1 ist unkorreliert zu a 2 .
0 = Kov(a T 1 X, a T 2 X) = a T 1 Sa 2 = λ 1 a T 1 a 2 = λ 1 a T 2 a 1
=⇒ a 1 unkorreliert zu a 2 ⇐⇒ a T 1 Sa 2 = a T 2 Sa 1 = a T 1 a 2 = a T 2 a 1 = 0
Es tritt eine ¨ ahnliche Situation wie im ersten Schritt auf, was zur Anwendung einer erweiterten Lagrange-Multiplikatorgleichung f¨ uhrt, welche zwei Multiplikatoren verwendet: a T 2 Sa 2 − λ(a T 2 a 2 − 1) − Φa T 2 a 1 = max
Ableiten nach a 2 liefert: Sa 2 − λa 2 − Φa 1 = 0 Multiplizieren mit a 1 ergibt: a T 1 Sa 2 − λa 1 a 2 − Φa 1 a 1 = 0 =⇒ Φ = 0
Hieraus folgt dann, dass Sa 2 − λa 2 = 0 =⇒ (S − λE)a 2 = 0 ist und der zweitgr¨ oßte Eigenwert gesucht ist. Die Fortsetzung bis n liefert folgende Werte:
• {a 1 , ..., a n } als Hauptvektoren und damit {a 1 I, ..., a n I} als Hauptkomponenten mit I = Matrix aus den Basisvektoren des Ausgangssystems
• {λ 1 , ..., λ n } als deren Varianzen
2 Erl¨ auterungen 3
• λ k λ 1 +...+λn als Maß f¨ ur den Anteil der k-ten Hauptkomponente an der Gesamtvarianz
• {z 1 , ..., z m }, mit Z = A T X Positionen der Messungen im Hauptkomponentensystem
2 Erl¨ auterungen
2.1 Faktorladungen
Ziel der Hauptkomponentenanalyse ist es, die Datenstruktur m¨ oglichst umfassend durch m¨ oglichst wenige Faktoren zu reproduzieren. Ist die Anzahl der Faktoren bestimmt, so ist es von besonderem Interesse, die Beziehungen zwischen den Ausgangsvariablen und den Faktoren zu kennen. Zu diesem Zweck werden Korrelationen berechnet, die ein Maß f¨ ur die St¨ arke und Richtung der Zusammenh¨ ange zwischen Faktoren und urspr¨ unglichen Variablen angeben. Diese Korrelationen werden als Faktorladungen bezeichnet; diese geben also an, wieviel ein Faktor mit einer Ausgangsvariable ’zu tun’ hat. Ausformulierte Gleichung:
√
Ladungsmatrix = Eigenvektoren der Ausgangsmatrix * diag( Eigenwerte)
2.2 Kommunalit¨ aten
Werden die im Ausgang betrachteten Eigenschaften zu Faktoren zusammengefasst, entsteht ein Informationsverlust, da i.d.R. weniger Faktoren als urspr¨ ungliche Eigenschaften betrachtet werden. Dieser Informationsverlust ist darin zu sehen, dass zum Einen die Faktoren in der Summe weniger Varianz erkl¨ aren k¨ onnen als die Ausgangsvariablen, und zum Anderen dass die Varianz einer jeden Ausgangsgr¨ oße in der Erhebungsgesamtheit durch die Faktoren i.d.R. nicht vollst¨ andig erkl¨ art werden kann. Der Umfang an Varianzerkl¨ arung, den die Faktoren gemeinsam f¨ ur die Ausgangsvariablen liefern, wird als Kommunalit¨ at oder erkl¨ arte Varianz bezeichnet, die sich auch als die Summe der Ladungsquadrate definieren l¨ asst. Da die gemeinsamen Faktoren nicht die Gesamtvarianz erkl¨ aren, sind die Kommunalit¨ aten meist kleiner 1. Der Teil der Varianz, der nicht durch die gemeinsamen Faktoren, sondern durch andere Faktoren oder Messfehler bedingt ist, heißt Restvarianz. Ausformulierte Gleichung:
Kommunalit¨ at = diag(Ladungsmatrix * Ladungsmatrix T )
2.3 Faktorrotation
Um aus den unendlich vielen M¨ oglichkeiten der Positionierung eines Koordinatenkreuzes die beste, d.h. die interpretierf¨ ahigste, bestimmen zu k¨ onnen, wird die Ladungsmatrix rotiert, worauf eine Interpretation der ermittelten Faktoren basiert, da sich durch Anwendung einer Rotationsmethode die Verteilung des erkl¨ arten Varianzanteils einer Variable auf die Faktoren ver¨ andert. Bei der Rotation werden zwei Kategorien unterschieden. Die
3 Durchf¨ uhrung der Hauptkomponentenanalyse 4
Achsen werden in einem schiefen Winkel zueinander rotiert, falls eine Korrelation zwischen den rotierten Achsen bzw. Faktoren angenommen wird. Hierbei spricht man von Methoden der obliquen (schiefwinkligen) Rotation.
Eine rechtwinklige (orthogonale) Rotation kann im zwei- und drei-dimensionalen Fall graphisch erfolgen, indem versucht wird, das Koordinatenkreuz so zu drehen, dass m¨ oglichst viele Punkte im Koordinatenkreuz auf einer der beiden Achsen liegen. Die Faktorachsen verbleiben bei Rotation im rechten Winkel zueinander, was unterstellt, dass die Faktoren nicht untereinander korrelieren. Bei der hier angewendeten Varimax-Rotationsmethode handelt es sich um eine orthogonale Rotation.
Die Rotation der Faktoren ver¨ andert die Faktorladungen, nicht aber die Kommunalit¨ aten; somit ist die unrotierte L¨ osung prim¨ ar f¨ ur die Auswahl der Anzahl der Faktoren und f¨ ur G¨ utebeurteilung der Faktorl¨ osung geeignet. Eine Interpretation der ermittelten Faktoren basiert auf der rotierten L¨ osung, da sich durch Anwendung einer Rotationsmethode die Verteilung des erkl¨ arten Varianzanteils einer Variable auf die Faktoren ver¨ andert.
3 Durchf¨ uhrung der Hauptkomponentenanalyse
3.1 Beschreibung des Datensatzes
In 12 Regionen wurden im Rahmen einer regionalen Strukturanalyse sechs Merkmale beobachtet, die ihre soziok¨ okonomische Struktur charakterisieren. Merkmale:
• X 1 : Bev¨ olkerungsdichte (Einwohner je km 2 )
• X 2 : BIP (EUR pro Einwohner)
• X 3 : Anteil der Erwerbst¨ atigen in der Landwirtschaft (in %)
• X 4 : Wachstumsrate des BIP in den letzten 10 Jahren (in %)
• X 5 : Geburtenquote (Geborene je 1000 Einwohner)
• X 6 : Wanderungssaldo (je 1000 Einwohner)
3 Durchf¨ uhrung der Hauptkomponentenanalyse 5
Zeilen: 12 Regionen; Spalten: Merkmale
3.2 Zentrierung der Spaltenwerte
Die Zentrierung der Spaltenwerte erfolgt dadurch, dass die Differenz zwischen den Beob-achtungswerten und dem jeweiligen Mittelwert der Spalten gebildet wird.
3.3 Kovarianzmatrix und ihre Eigenwerte
KOVARIANZMATRIX
Die Hauptkomponentenzerlegung auf der Basis der Kovarianzmatrix:
> eigen(cov(X))
$values
3790310 5329.530 100.9249 7.334654 3.566331 1.114921 $vectors
Wir wollen nun wissen, wie hoch die kumulierten Anteile der Totalvariation sind. Dazu:
> Eigenwerte<-eigen(cov(X))$values
3 Durchf¨ uhrung der Hauptkomponentenanalyse 6
> print(round(cumsum(Eigenwerte)/sum(Eigenwerte)*100,digits=4))
99.8566 99.9970 99.9997 99.9999 100.0000 100.0000 Die ersten beiden Hauptkomponenten erkl¨ aren also 99.997% der Totalvariation. Wir
wollen aber alle Variablen gleichberechtigt eingehen lassen. Dazu m¨ ussen wir die Korre-
lationsmatrix hinzuziehen:
3.4 Korrelationsmatrix und ihre Eigenwerte > X.cor<-cor(X)
> X.eigen<-eigen(X.cor)$values > X.eigen 3.56165538 1.78244293 0.30126001 0.18162540 0.10185524 0.07116104
> round(cumsum(X.eigen/6)*100,digits=4) 59.3609 89.0683 94.0893 97.1164 98.8140 100.0000 > X.eigenvektor12<-eigen(cor(X))$vectors[,1:2] Zur Bestimmung der Faktoranzahl benutzt man an dieser Stelle das Kaiser-Kriterium,
welches besagt, dass die Zahl der zu extrahierenden Faktoren gleich der Zahl der Fakto-
ren mit Eigenwert gr¨ oßer 1 ist. Dieser Eigenwert berechnet sich durch die Summe der
quadrierten Faktorladungen eines Faktors ¨ uber alle Variablen. Dies sind jedoch gerade die Eigenwerte der Korrelationsmatrix (s.o.), was zur Folge hat, dass zwei Faktoren
extrahiert werden, da 3.56 > 1 und 1.78 > 1 ist. 3.5 Faktorladung und Kommunalit¨ aten Wir erhalten somit die Ladungsmatrix: > X.ladung<-X.eigenvektor12%*%diag(sqrt(X.eigen[1:2])) > X.ladung
Damit k¨ onnen wir die Kommunalit¨ aten und die Restmatrix folgendermaßen berechnen:
> X.kummun<-diag(X.ladung%*%t(X.ladung)) > round(X.kummun,digits=4)
0.9205 0.8911 0.8965 0.9048 0.7981 0.9331 0.0119
> X.rest<-X.cor-X.ladung%*%t(X.ladung)
0.1089
> round(X.rest,digits=4)
0.0350 0.1035
3 Durchf¨ uhrung der Hauptkomponentenanalyse 7
3.6 Varimax-Rotation
> varimax(X.ladung)
$loadings
Loadings:
$rotmat
0.3041125 0.9526361
In diesem Fall ist eine Drehung um cos(α) = 0.9526361, d.h. um α = 17.705 3.7 Faktorinterpretation Nach der Bestimmung der Anzahl der Faktoren wird nun versucht, die Faktoren, die zun¨ achst abstrakte Gr¨ oßen darstellen, zu interpretieren. Dazu bedient man sich als In-
terpretationshilfe der rotierten Faktorladungen. Es zeigt sich, dass der Faktor 1 besonders
stark mit den Gr¨ oßen
• Bev¨ olkerungsdichte
• Bruttoinlandsprodukt
• Anteil der Erwerbst¨ atigen in der Landwirtschaft
• Geburtenquote
korreliert.
Zudem ist offensichtlich, dass der Faktor 2 mit den Gr¨ oßen
• Wachstumsrate des BIP in den letzten 10 Jahren
• Wanderungssaldo korreliert. Bei Anwendung der Hauptkomponentenanalyse entspricht die Interpretation der Faktoren der Suche nach einem Sammelbegriff f¨ ur die auf einen Faktor hochladenden Variablen. Die Gr¨ oßen des ersten Faktor fassen wir unter dem Hauptbegriff Bev¨ olkerungs- und
Besch¨ aftigtenfaktor zusammen, die des zweiten unter Wirtschaftsfaktor. Folgende Abh¨ angigkeiten bestehen:
4 Literatur 8
Steigt Faktor 2, so sinkt sowohl die Wachstumsrate des BIP als auch das Wanderungssaldo.
Das Steigen und Fallen der Variablen ist unschwer anhand der rotierten Ladungsmatrix zu erkennen. Negative, betragsm¨ aßig hohe Werte signalisieren einen entgegengesetzten Zusammenhang zwischen Faktor und urspr¨ unglicher Variable. Positive zeigen dementsprechend einen proportionalen Zusammenhang, d.h. steigt der Faktor, so steigt auch die Variable.
Jedoch ist Vorsicht geboten, denn beliebige Drehungen sind m¨ oglich und damit auch beliebige Interpretationsm¨ oglichkeiten; somit ist nur eine subjektive Interpretation erlaubt.
4 Literatur
Backhaus und Erichson 2003: BACKHAUS, ERICHSON, Bernd; Klaus; PLINKE, Wulff; WEIBER, Rolf; SPRINGER-VERLAG: Multivariate Analysemethoden: Eine an-wendungsorientierte Einf¨ uhrung; 10. Auflage
Wikipedia: www.wikipedia.org; Suchwort: Hauptkomponentenanalyse; Datum: 30.03.2006
Fischer 2005/2006: FISCHER, MATTHIAS: Skriptum: Grundz¨ uge der multivariaten Datenanalyse; WS 05/06
Quote paper:
Undine Kempe, Kristin Schikor, 2006, Principal Component Analysis - Hauptkomponentenanalyse, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Der Europäische Qualifikationsrahmen (EQR) - Entstehung, Ziele, Perspe...
Unter besonderer Berücksichtig...
Pedagogy - School System, Educational and School Politics
Scholarly Paper (Advanced Seminar), 23 Pages
Faktorenanalyse I: Aufstellen einer Korrelationsmatrix, Festlegen eine...
Scholary Paper (Seminar), 19 Pages
Scholarly Paper (Advanced Seminar), 28 Pages
Lehrerbildungsstandards - Kriterien und Kritik
Pedagogy - School System, Educational and School Politics
Scholarly Paper (Advanced Seminar), 26 Pages
Undine Kempe has published the text Principal Component Analysis - Hauptkomponentenanalyse
Undine Kempe has uploaded a new text
Principal Component Neural Networks: Theory and Applications
Kostas Diamantaras, Konstantinos I. Diamantaras, K. I. Diamantaras
Independent Component Analysis and Blind Signal Separation
7th International Conference, ...
Mike E. Davies, Christopher C. James, Samer A. Abdallah, Mark D. Plumbley
0 comments