1 Mathematisch-statistische Grundlagen
1.1 Herleitung der Problemlösung

2 Erläuterungen
2.1 Faktorladungen
2.2 Kommunalitäten
2.3 Faktorrotation

3 Durchführung der Hauptkomponentenanalyse
3.1 Beschreibung des Datensatzes
3.2 Zentrierung der Spaltenwerte
3.3 Kovarianzmatrix und ihre Eigenwerte
3.4 Korrelationsmatrix und ihre Eigenwerte
3.5 Faktorladung und Kommunalitäten
3.6 Varimax-Rotation
3.7 Faktorinterpretation

4 Literatur

Inhaltsverzeichnis

1 Mathematisch-statistische Grundlagen

Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA), Pear- son, 1901) ist eine Methode der multivariaten Verfahren in der Statistik. Sie ist mit der Faktoranalyse eng verwandt. Im PCA-Verfahren versucht man aus Daten mit vielen Eigenschaften einige Faktoren zu extrahieren, die für diese Eigenschaften bestimmend sind.

Eine entscheidende Größe in der Hauptkomponentenanalyse ist die Varianz. Diese ist ein Maß für die Abweichung der Komponenten des Vektors zu ihrem Mittelwert, also der Abweichung von X zu X.

Gegeben sei eine Stichprobe X = (X₁, X₂, X₃, ..., Xn), so definiert sich ihre geschätzte Varianz als V ar( X) =

Abbildung in dieser Leseprobe nicht enthalten

Einen ähnlichen Zusammenhang, jedoch mit zwei Vektoren, beschreibt die Kovarianz. Durch die Kovarianz sind zwei Vektoren bezüglich ihrer Varianzen vergleichbar. Sie beschreibt also die Unterschiedlichkeit der Abweichung von X zuX zu der Abweichung von Y z Y . Seien zwei Stichproben X = (X₁,X₂,...,X_n) und Y = (Y₁,Y₂,...,Yn) gegeben, so definiert sich deren Kovarianz durch

Abbildung in dieser Leseprobe nicht enthalten

Erweitern wir diese Definition von Vektoren auf Matrizen, erhalten wir die Kovarianzmatrix. Es sei also eine (m × n)-Matrix A gegeben. Die zugeh¨orige Kovarianzmatrix errechnet sich als

Abbildung in dieser Leseprobe nicht enthalten

Die Kovarianzmatrix ist quadratisch und symmetrich und daher, falls sie nur reelle Eintr ¨age enth¨alt, diagonalisierbar. Um ein Maß f¨ur die St¨arke des linearen Zusammenhangs zweier Messgr¨oßen X = (X₁,X₂, ...,X_n) und Y = (Y₁, Y₂, ..., Y_n) zu erhalten, definieren wir deren Korrelationskoeffizienten durch

Abbildung in dieser Leseprobe nicht enthalten

DieWerte des Korrelationskoeffizienten liegen im Bereich [-1,1]. Betr¨agt das Ergebnis von Kor(X, Y ) Null, dann sind X und Y unkorreliert. Ist der Wert positiv implizieren hohe Werte von X hohe Werte von Y . Ein negativer Wert beschreibt einen entgegengesetzten Zusammenhang. Hohe Werte von X entsprechen niedrigen Werten von Y . Um die Korrelationen innerhalb einer (Messdaten-)Matrix zu berechnen, definieren wir die Korrelationsmatrix zu einer gegebenen Matrix A. Diese errechnet sich analog zur Kovarianzmatrix als

Abbildung in dieser Leseprobe nicht enthalten

Die Korrelationsmatrix ist ebenfalls quadratisch und symmetrisch.

1.1 Herleitung der Problemlösung

Gegeben sei eine Datenmenge bestehend aus m n-elementigen Beobachtungen in Form einer (m × n)-Matrix X. Sei S = Kov(X) die (n × n)-Kovarianzmatrix zu X. Gesucht ist der n-dimensionale Vektor a1 für den gilt, dass V ar [Abbildung in dieser Leseprobe nicht enthalten] maximalwird. Diese Bedingung entspricht, laut Definition von Varianz und Kovarianz, dem Problem aT¹ Sa1 zumaximieren.DajedochderAusdruckfürbeliebigea1 beliebiggroßwird, benötigt man eine Schrankenbildung.

Wir benutzen die Bedingung [Abbildung in dieser Leseprobe nicht enthalten]

Das Problem ist also nun die Maximierung eines Ausdrucks mit Nebenbedingung. Für die Lösung verwenden wir den Langrange-Multiplikator λ in der Gleichung [Abbildung in dieser Leseprobe nicht enthalten], welche Ausdruck und Nebenbedingung in einer Formel zusammenfasst. Wir suchen also den Vektor a1, der das Ergebnis dieser Gleichung maximiert. Wie gewohnt differenzieren wir nach a1, um einen Extremwert zu erhalten.

Abbildung in dieser Leseprobe nicht enthalten

Offensichtlich ist dies ein Eigenwertproblem von S, wobei λ ein Eigenwert ist und a1 zu λ gehörender Eigenvektor. Aus Sa1 − λa1 = 0 folgt Sa1 = λa1. Wenn wir diese Erkenntnis in das ürsprüngliche Problem, welches durch die Maximierung von aT¹ Sa1 gegeben war, einsetzen, erhalten wir die Umformung

Abbildung in dieser Leseprobe nicht enthalten

Gesucht ist daher der größte Eigenwert von S. Nun suchen wir den n-dimensionale Vektor a2, für den gilt: V ar(a2X) wird maximal, [Abbildung in dieser Leseprobe nicht enthalten] und a1 ist unkorreliert zu a2.

Abbildung in dieser Leseprobe nicht enthalten

Es tritt eine ähnliche Situation wie im ersten Schritt auf, was zur Anwendung einer erweiterten Lagrange-Multiplikatorgleichung führt, welche zwei Multiplikatoren verwendet: [Abbildung in dieser Leseprobe nicht enthalten]

Ableiten nach a2 liefert: Sa2 − λa2 − Φa1 = 0

Multiplizieren mit a1 ergibt: aT¹ Sa2 − λa1a2 − Φa1a1 =⁰ =⇒ Φ = 0

Hieraus folgt dann, dass Sa2 − λa2 = 0 =⇒ (S − λE)a2 = 0 ist und der zweitgrößte Eigenwert gesucht ist. Die Fortsetzung bis n liefert folgende Werte:

- {a1, ..., an} als Hauptvektoren und damit {a1I, ..., anI} als Hauptkomponenten mit I = Matrix aus den Basisvektoren des Ausgangssystems

- {λ1, ..., λn} als deren Varianzen

2 Erläuterungen 3

- [Abbildung in dieser Leseprobe nicht enthalten] als Maß für den Anteil der k-ten Hauptkomponente an der Gesamtvarianz

- [Abbildung in dieser Leseprobe nicht enthalten], mit Z = AT X Positionen der Messungen im Hauptkomponentensys- tem

2 Erläuterungen

2.1 Faktorladungen

Ziel der Hauptkomponentenanalyse ist es, die Datenstruktur möglichst umfassend durch möglichst wenige Faktoren zu reproduzieren. Ist die Anzahl der Faktoren bestimmt, so ist es von besonderem Interesse, die Beziehungen zwischen den Ausgangsvariablen und den Faktoren zu kennen. Zu diesem Zweck werden Korrelationen berechnet, die ein Maß für die Stärke und Richtung der Zusammenhänge zwischen Faktoren und ursprünglichen Variablen angeben. Diese Korrelationen werden als Faktorladungen bezeichnet; diese ge- ben also an, wieviel ein Faktor mit einer Ausgangsvariable ’zu tun’ hat.

Ausformulierte Gleichung:

Ladungsmatrix = Eigenvektoren der Ausgangsmatrix * diag(√ Eigenwerte)

2.2 Kommunalitäten

Werden die im Ausgang betrachteten Eigenschaften zu Faktoren zusammengefasst, entsteht ein Informationsverlust, da i.d.R. weniger Faktoren als ursprüngliche Eigenschaften betrachtet werden. Dieser Informationsverlust ist darin zu sehen, dass zum Einen die Faktoren in der Summe weniger Varianz erklären können als die Ausgangsvariablen, und zum Anderen dass die Varianz einer jeden Ausgangsgröße in der Erhebungsgesamtheit durch die Faktoren i.d.R. nicht vollständig erklärt werden kann.

Der Umfang an Varianzerklärung, den die Faktoren gemeinsam für die Ausgangsvariablen liefern, wird als Kommunalität oder erklärte Varianz bezeichnet, die sich auch als die Summe der Ladungsquadrate definieren lässt. Da die gemeinsamen Faktoren nicht die Gesamtvarianz erklären, sind die Kommunalitäten meist kleiner 1. Der Teil der Varianz, der nicht durch die gemeinsamen Faktoren, sondern durch andere Faktoren oder Messfehler bedingt ist, heißt Restvarianz.

Ausformulierte Gleichung:

Kommunalität = diag(Ladungsmatrix * LadungsmatrixT )

2.3 Faktorrotation

Um aus den unendlich vielen Möglichkeiten der Positionierung eines Koordinatenkreuzes die beste, d.h. die interpretierfähigste, bestimmen zu können, wird die Ladungsmatrix rotiert, worauf eine Interpretation der ermittelten Faktoren basiert, da sich durch Anwen- dung einer Rotationsmethode die Verteilung des erklärten Varianzanteils einer Variable auf die Faktoren verändert. Bei der Rotation werden zwei Kategorien unterschieden. Die Achsen werden in einem schiefen Winkel zueinander rotiert, falls eine Korrelation zwischen den rotierten Achsen bzw. Faktoren angenommen wird. Hierbei spricht man von Methoden der obliquen (schiefwinkligen) Rotation.

Eine rechtwinklige (orthogonale) Rotation kann im zwei- und drei-dimensionalen Fall graphisch erfolgen, indem versucht wird, das Koordinatenkreuz so zu drehen, dass möglichst viele Punkte im Koordinatenkreuz auf einer der beiden Achsen liegen. Die Faktorachsen verbleiben bei Rotation im rechten Winkel zueinander, was unterstellt, dass die Faktoren nicht untereinander korrelieren. Bei der hier angewendeten Varimax-Rotationsmethode handelt es sich um eine orthogonale Rotation.

Die Rotation der Faktoren verändert die Faktorladungen, nicht aber die Kommuna- litäten; somit ist die unrotierte Lösung primär für die Auswahl der Anzahl der Faktoren und für Gütebeurteilung der Faktorlösung geeignet. Eine Interpretation der ermittelten Faktoren basiert auf der rotierten Lösung, da sich durch Anwendung einer Rotations- methode die Verteilung des erklärten Varianzanteils einer Variable auf die Faktoren verändert.

3 Durchführung der Hauptkomponentenanalyse

3.1 Beschreibung des Datensatzes

In 12 Regionen wurden im Rahmen einer regionalen Strukturanalyse sechs Merkmale beobachtet, die ihre soziokökonomische Struktur charakterisieren. Merkmale:

X1: Bevölkerungsdichte (Einwohner je km² )
X2: BIP (EUR pro Einwohner)
X3: Anteil der Erwerbstätigen in der Landwirtschaft (in %)
X4: Wachstumsrate des BIP in den letzten 10 Jahren (in %)
X5: Geburtenquote (Geborene je 1000 Einwohner)
X6: Wanderungssaldo (je 1000 Einwohner)

Abbildung in dieser Leseprobe nicht enthalten

AUSGANGSDATENMATRIX

Zeilen: 12 Regionen; Spalten: Merkmale

3.2 Zentrierung der Spaltenwerte

Die Zentrierung der Spaltenwerte erfolgt dadurch, dass die Differenz zwischen den Beobachtungswerten und dem jeweiligen Mittelwert der Spalten gebildet wird.

Abbildung in dieser Leseprobe nicht enthalten

3.3 Kovarianzmatrix und ihre Eigenwerte

Abbildung in dieser Leseprobe nicht enthalten

KOVARIANZMATRIX

Die Hauptkomponentenzerlegung auf der Basis der Kovarianzmatrix: > eigen(cov(X))

$values

Abbildung in dieser Leseprobe nicht enthalten

Wir wollen nun wissen, wie hoch die kumulierten Anteile der Totalvariation sind. Dazu: > Eigenwerte<-eigen(cov(X))$values > print(round(cumsum(Eigenwerte)/sum(Eigenwerte)*100,digits=4))(99.8566 99.9970 99.9997 99.9999 100.0000 100.0000)

Die ersten beiden Hauptkomponenten erklären also 99.997% der Totalvariation. Wir wollen aber alle Variablen gleichberechtigt eingehen lassen. Dazu müssen wir die Korrelationsmatrix hinzuziehen:

3.4 Korrelationsmatrix und ihre Eigenwerte

> X.cor<-cor(X)

> X.eigen<-eigen(X.cor)$values > X.eigen

(3.56165538 1.78244293 0.30126001 0.18162540 0.10185524 0.07116104 )

> round(cumsum(X.eigen/6)*100,digits=4)

( 59.3609 89.0683 94.0893 97.1164 98.8140 100.0000)

> X.eigenvektor12<-eigen(cor(X))$vectors[,1:2] Zur Bestimmung der Faktoranzahl benutzt man an dieser Stelle das Kaiser-Kriterium, welches besagt, dass die Zahl der zu extrahierenden Faktoren gleich der Zahl der Faktoren mit Eigenwert größer 1 ist. Dieser Eigenwert berechnet sich durch die Summe der quadrierten Faktorladungen eines Faktors über alle Variablen. Dies sind jedoch gerade die Eigenwerte der Korrelationsmatrix (s.o.), was zur Folge hat, dass zwei Faktoren extrahiert werden, da 3.56 > 1 und 1.78 > 1 ist.

3.5 Faktorladung und Kommunalitäten

Wir erhalten somit die Ladungsmatrix:

> X.ladung<-X.eigenvektor12%*%diag(sqrt(X.eigen[1:2])) > X.ladung

Abbildung in dieser Leseprobe nicht enthalten

Damit können wir die Kommunalitäten und die Restmatrix folgendermaßen berechnen: > X.kummun<-diag(X.ladung%*%t(X.ladung)

> round(X.kummun,digits=4)

(0.9205 0.8911 0.8965 0.9048 0.7981 0.9331)

> X.rest<-X.cor-X.ladung%*%t(X.ladung)

> round(X.rest,digits=4) 

Abbildung in dieser Leseprobe nicht enthalten

3.6 Varimax-Rotation

> varimax(X.ladung) $loadings

Loadings:

Abbildung in dieser Leseprobe nicht enthalten

$rotmat

(0.9526361 −0.3041125)

(0.3041125 0.9526361)

In diesem Fall ist eine Drehung um cos(α) = 0.9526361, d.h. um α = 17.705

3.7 Faktorinterpretation

Nach der Bestimmung der Anzahl der Faktoren wird nun versucht, die Faktoren, die zunächst abstrakte Größen darstellen, zu interpretieren. Dazu bedient man sich als Interpretationshilfe der rotierten Faktorladungen. Es zeigt sich, dass der Faktor 1 besonders stark mit den Größen

Bevölkerungsdichte
Bruttoinlandsprodukt
Anteil der Erwerbstätigen in der Landwirtschaft
Geburtenquote

korreliert.

Zudem ist offensichtlich, dass der Faktor 2 mit den Größen

Wachstumsrate des BIP in den letzten 10 Jahren
Wanderungssaldo

korreliert.

Bei Anwendung der Hauptkomponentenanalyse entspricht die Interpretation der Faktoren der Suche nach einem Sammelbegriff für die auf einen Faktor hochladenden Variablen. Die Größen des ersten Faktor fassen wir unter dem Hauptbegriff Bevölkerungs- und Beschäftigtenfaktor zusammen, die des zweiten unter Wirtschaftsfaktor. Folgende Abhängigkeiten bestehen:

Steigt der Faktor 1, so sinken die Bevölkerungsdichte und das BIP, wobei gleichermaßen der Anteil der Erwerbstätigen in der Landwirtschaft und die Geburtenquote steigen.

Steigt Faktor 2, so sinkt sowohl die Wachstumsrate des BIP als auch das Wanderungs- saldo.

Das Steigen und Fallen der Variablen ist unschwer anhand der rotierten Ladungsmatrix zu erkennen. Negative, betragsmäßig hohe Werte signalisieren einen entgegengesetzten Zusammenhang zwischen Faktor und ursprünglicher Variable. Positive zeigen dement- sprechend einen proportionalen Zusammenhang, d.h. steigt der Faktor, so steigt auch die Variable.

Jedoch ist Vorsicht geboten, denn beliebige Drehungen sind möglich und damit auch be- liebige Interpretationsmöglichkeiten; somit ist nur eine subjektive Interpretation erlaubt.

4 Literatur

Backhaus und Erichson 2003: BACKHAUS, ERICHSON, Bernd; Klaus; PLINKE, Wulff; WEIBER, Rolf; SPRINGER-VERLAG: Multivariate Analysemethoden: Eine an- wendungsorientierte Einführung; 10. Auflage

Wikipedia: www.wikipedia.org; Suchwort: Hauptkomponentenanalyse; Datum: 30.03.2006

Häufig gestellte Fragen

Was ist das Ziel der Hauptkomponentenanalyse (PCA)?

Das Ziel der Hauptkomponentenanalyse (Principal Component Analysis - PCA) ist es, aus Daten mit vielen Eigenschaften einige wenige Faktoren zu extrahieren, die für diese Eigenschaften bestimmend sind. Es ist eine Methode der multivariaten Verfahren in der Statistik und eng mit der Faktoranalyse verwandt.

Was ist Varianz und Kovarianz in Bezug auf die PCA?

Die Varianz ist ein Maß für die Abweichung der Komponenten eines Vektors zu ihrem Mittelwert. Die Kovarianz beschreibt die Unterschiedlichkeit der Abweichung zweier Vektoren zueinander bezüglich ihrer Varianzen. Die Kovarianzmatrix erweitert diese Definition auf Matrizen.

Wie wird die Korrelationsmatrix berechnet und was sagt sie aus?

Die Korrelationsmatrix wird analog zur Kovarianzmatrix berechnet. Sie dient dazu, die Korrelationen innerhalb einer Messdatenmatrix zu bestimmen. Der Korrelationskoeffizient gibt die Stärke des linearen Zusammenhangs zwischen zwei Messgrößen an, wobei Werte im Bereich [-1,1] liegen. Ein Wert von Null bedeutet Unkorreliertheit, positive Werte implizieren hohe Werte von X und Y, und negative Werte beschreiben einen entgegengesetzten Zusammenhang.

Was sind Faktorladungen und wie werden sie berechnet?

Faktorladungen sind Korrelationen, die die Stärke und Richtung der Zusammenhänge zwischen Faktoren und ursprünglichen Variablen angeben. Sie geben an, wie viel ein Faktor mit einer Ausgangsvariablen 'zu tun' hat. Die Ladungsmatrix wird berechnet als Eigenvektoren der Ausgangsmatrix multipliziert mit diag(√ Eigenwerte).

Was sind Kommunalitäten und wie hängen sie mit den Faktoren zusammen?

Kommunalitäten (oder erklärte Varianz) geben den Umfang der Varianzerklärung an, den die Faktoren gemeinsam für die Ausgangsvariablen liefern. Sie lassen sich als die Summe der Ladungsquadrate definieren. Da die gemeinsamen Faktoren nicht die Gesamtvarianz erklären, sind die Kommunalitäten meist kleiner als 1.

Was ist Faktorrotation und welche Arten gibt es?

Die Faktorrotation dient dazu, die Ladungsmatrix so zu rotieren, dass eine interpretierfähige Lösung entsteht. Es gibt zwei Kategorien: oblique (schiefwinklige) Rotation, wenn eine Korrelation zwischen den rotierten Achsen bzw. Faktoren angenommen wird, und rechtwinklige (orthogonale) Rotation, bei der die Faktorachsen im rechten Winkel zueinander bleiben, was unterstellt, dass die Faktoren nicht untereinander korrelieren. Die hier erwähnte Varimax-Rotation ist orthogonal.

Wie wird die Hauptkomponentenanalyse durchgeführt (am Beispiel des Datensatzes)?

Die Durchführung umfasst folgende Schritte: Beschreibung des Datensatzes, Zentrierung der Spaltenwerte, Berechnung der Kovarianzmatrix und ihrer Eigenwerte, Berechnung der Korrelationsmatrix und ihrer Eigenwerte, Berechnung der Faktorladungen und Kommunalitäten, Varimax-Rotation und schließlich die Faktorinterpretation.

Was sind die Merkmale des verwendeten Datensatzes?

Die sechs Merkmale sind: Bevölkerungsdichte, BIP pro Einwohner, Anteil der Erwerbstätigen in der Landwirtschaft, Wachstumsrate des BIP in den letzten 10 Jahren, Geburtenquote und Wanderungssaldo.

Was ist das Kaiser-Kriterium zur Bestimmung der Faktoranzahl?

Das Kaiser-Kriterium besagt, dass die Zahl der zu extrahierenden Faktoren gleich der Zahl der Faktoren mit Eigenwert größer 1 ist. Dieser Eigenwert berechnet sich durch die Summe der quadrierten Faktorladungen eines Faktors über alle Variablen.

Wie interpretiert man die Faktoren nach der Rotation?

Nach der Rotation versucht man, die Faktoren, die zunächst abstrakte Größen darstellen, zu interpretieren. Dazu bedient man sich der rotierten Faktorladungen. Man sucht nach einem Sammelbegriff für die auf einen Faktor hochladenden Variablen. Es ist wichtig zu beachten, dass nur eine subjektive Interpretation erlaubt ist.

Principal Component Analysis - Hauptkomponentenanalyse

Excerpt

Inhaltsverzeichnis

1 Mathematisch-statistische Grundlagen

1.1 Herleitung der Problemlösung

2 Erläuterungen

2.1 Faktorladungen

2.2 Kommunalitäten

2.3 Faktorrotation

3 Durchführung der Hauptkomponentenanalyse

3.1 Beschreibung des Datensatzes

3.2 Zentrierung der Spaltenwerte

3.3 Kovarianzmatrix und ihre Eigenwerte

3.4 Korrelationsmatrix und ihre Eigenwerte

3.5 Faktorladung und Kommunalitäten

3.6 Varimax-Rotation

3.7 Faktorinterpretation

4 Literatur

Häufig gestellte Fragen

Was ist das Ziel der Hauptkomponentenanalyse (PCA)?

Was ist Varianz und Kovarianz in Bezug auf die PCA?

Wie wird die Korrelationsmatrix berechnet und was sagt sie aus?

Was sind Faktorladungen und wie werden sie berechnet?

Was sind Kommunalitäten und wie hängen sie mit den Faktoren zusammen?

Was ist Faktorrotation und welche Arten gibt es?

Wie wird die Hauptkomponentenanalyse durchgeführt (am Beispiel des Datensatzes)?

Was sind die Merkmale des verwendeten Datensatzes?

Was ist das Kaiser-Kriterium zur Bestimmung der Faktoranzahl?

Wie interpretiert man die Faktoren nach der Rotation?

Buy now

Details