Principal Component Analysis - Hauptkomponentenanalyse


Rapport de Stage, 2006

10 Pages, Note: 2,0


Extrait


Inhaltsverzeichnis

1 Mathematisch-statistische Grundlagen
1.1 Herleitung der Problemlösung

2 Erläuterungen
2.1 Faktorladungen
2.2 Kommunalitäten
2.3 Faktorrotation

3 Durchführung der Hauptkomponentenanalyse
3.1 Beschreibung des Datensatzes
3.2 Zentrierung der Spaltenwerte
3.3 Kovarianzmatrix und ihre Eigenwerte
3.4 Korrelationsmatrix und ihre Eigenwerte
3.5 Faktorladung und Kommunalitäten
3.6 Varimax-Rotation
3.7 Faktorinterpretation

4 Literatur

1 Mathematisch-statistische Grundlagen

Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA), Pear- son, 1901) ist eine Methode der multivariaten Verfahren in der Statistik. Sie ist mit der Faktoranalyse eng verwandt. Im PCA-Verfahren versucht man aus Daten mit vielen Eigenschaften einige Faktoren zu extrahieren, die für diese Eigenschaften bestimmend sind.

Eine entscheidende Größe in der Hauptkomponentenanalyse ist die Varianz. Diese ist ein Maß für die Abweichung der Komponenten des Vektors zu ihrem Mittelwert, also der Abweichung von X zu X.

Gegeben sei eine Stichprobe X = (X1, X2, X3, ..., Xn), so definiert sich ihre geschätzte Varianz als V ar( X) =

Abbildung in dieser Leseprobe nicht enthalten

Einen ähnlichen Zusammenhang, jedoch mit zwei Vektoren, beschreibt die Kovarianz. Durch die Kovarianz sind zwei Vektoren bezüglich ihrer Varianzen vergleichbar. Sie beschreibt also die Unterschiedlichkeit der Abweichung von X zuX zu der Abweichung von Y z Y . Seien zwei Stichproben X = (X1,X2,...,Xn) und Y = (Y1,Y2,...,Yn) gegeben, so definiert sich deren Kovarianz durch

Abbildung in dieser Leseprobe nicht enthalten

Erweitern wir diese Definition von Vektoren auf Matrizen, erhalten wir die Kovarianzmatrix. Es sei also eine (m × n)-Matrix A gegeben. Die zugeh¨orige Kovarianzmatrix errechnet sich als

Abbildung in dieser Leseprobe nicht enthalten

Die Kovarianzmatrix ist quadratisch und symmetrich und daher, falls sie nur reelle Eintr ¨age enth¨alt, diagonalisierbar. Um ein Maß f¨ur die St¨arke des linearen Zusammenhangs zweier Messgr¨oßen X = (X1,X2, ...,Xn) und Y = (Y1, Y2, ..., Yn) zu erhalten, definieren wir deren Korrelationskoeffizienten durch

Abbildung in dieser Leseprobe nicht enthalten

DieWerte des Korrelationskoeffizienten liegen im Bereich [-1,1]. Betr¨agt das Ergebnis von Kor(X, Y ) Null, dann sind X und Y unkorreliert. Ist der Wert positiv implizieren hohe Werte von X hohe Werte von Y . Ein negativer Wert beschreibt einen entgegengesetzten Zusammenhang. Hohe Werte von X entsprechen niedrigen Werten von Y . Um die Korrelationen innerhalb einer (Messdaten-)Matrix zu berechnen, definieren wir die Korrelationsmatrix zu einer gegebenen Matrix A. Diese errechnet sich analog zur Kovarianzmatrix als

Abbildung in dieser Leseprobe nicht enthalten

Die Korrelationsmatrix ist ebenfalls quadratisch und symmetrisch.

1.1 Herleitung der Problemlösung

Gegeben sei eine Datenmenge bestehend aus m n-elementigen Beobachtungen in Form einer (m × n)-Matrix X. Sei S = Kov(X) die (n × n)-Kovarianzmatrix zu X. Gesucht ist der n-dimensionale Vektor a1 für den gilt, dass V ar [Abbildung in dieser Leseprobe nicht enthalten] maximalwird. Diese Bedingung entspricht, laut Definition von Varianz und Kovarianz, dem Problem aT1 Sa1 zumaximieren.DajedochderAusdruckfürbeliebigea1 beliebiggroßwird, benötigt man eine Schrankenbildung.

Wir benutzen die Bedingung [Abbildung in dieser Leseprobe nicht enthalten]

Das Problem ist also nun die Maximierung eines Ausdrucks mit Nebenbedingung. Für die Lösung verwenden wir den Langrange-Multiplikator λ in der Gleichung [Abbildung in dieser Leseprobe nicht enthalten], welche Ausdruck und Nebenbedingung in einer Formel zusammenfasst. Wir suchen also den Vektor a1, der das Ergebnis dieser Gleichung maximiert. Wie gewohnt differenzieren wir nach a1, um einen Extremwert zu erhalten.

Abbildung in dieser Leseprobe nicht enthalten

Offensichtlich ist dies ein Eigenwertproblem von S, wobei λ ein Eigenwert ist und a1 zu λ gehörender Eigenvektor. Aus Sa1 − λa1 = 0 folgt Sa1 = λa1. Wenn wir diese Erkenntnis in das ürsprüngliche Problem, welches durch die Maximierung von aT1 Sa1 gegeben war, einsetzen, erhalten wir die Umformung

Abbildung in dieser Leseprobe nicht enthalten

Gesucht ist daher der größte Eigenwert von S. Nun suchen wir den n-dimensionalen Vektor a2, für den gilt: V ar(a2X) wird maximal, [Abbildung in dieser Leseprobe nicht enthalten] und a1 ist unkorreliert zu a2.

Abbildung in dieser Leseprobe nicht enthalten

Es tritt eine ähnliche Situation wie im ersten Schritt auf, was zur Anwendung einer erweiterten Lagrange-Multiplikatorgleichung führt, welche zwei Multiplikatoren verwendet: [Abbildung in dieser Leseprobe nicht enthalten]

Ableiten nach a2 liefert: Sa2 − λa2 − Φa1 = 0

Multiplizieren mit a1 ergibt: aT1 Sa2 − λa1a2 − Φa1a1 =0 =⇒ Φ = 0

Hieraus folgt dann, dass Sa2 − λa2 = 0 =⇒ (S − λE)a2 = 0 ist und der zweitgrößte Eigenwert gesucht ist. Die Fortsetzung bis n liefert folgende Werte:

- {a1, ..., an} als Hauptvektoren und damit {a1I, ..., anI} als Hauptkomponenten mit I = Matrix aus den Basisvektoren des Ausgangssystems

- {λ1, ..., λn} als deren Varianzen

2 Erläuterungen 3

- [Abbildung in dieser Leseprobe nicht enthalten] als Maß für den Anteil der k-ten Hauptkomponente an der Gesamtvarianz

- [Abbildung in dieser Leseprobe nicht enthalten], mit Z = AT X Positionen der Messungen im Hauptkomponentensys- tem

2 Erläuterungen

2.1 Faktorladungen

Ziel der Hauptkomponentenanalyse ist es, die Datenstruktur möglichst umfassend durch möglichst wenige Faktoren zu reproduzieren. Ist die Anzahl der Faktoren bestimmt, so ist es von besonderem Interesse, die Beziehungen zwischen den Ausgangsvariablen und den Faktoren zu kennen. Zu diesem Zweck werden Korrelationen berechnet, die ein Maß für die Stärke und Richtung der Zusammenhänge zwischen Faktoren und ursprünglichen Variablen angeben. Diese Korrelationen werden als Faktorladungen bezeichnet; diese ge- ben also an, wieviel ein Faktor mit einer Ausgangsvariable ’zu tun’ hat.

Ausformulierte Gleichung:

Ladungsmatrix = Eigenvektoren der Ausgangsmatrix * diag(√ Eigenwerte)

2.2 Kommunalitäten

Werden die im Ausgang betrachteten Eigenschaften zu Faktoren zusammengefasst, entsteht ein Informationsverlust, da i.d.R. weniger Faktoren als ursprüngliche Eigenschaften betrachtet werden. Dieser Informationsverlust ist darin zu sehen, dass zum Einen die Faktoren in der Summe weniger Varianz erklären können als die Ausgangsvariablen, und zum Anderen dass die Varianz einer jeden Ausgangsgröße in der Erhebungsgesamtheit durch die Faktoren i.d.R. nicht vollständig erklärt werden kann.

Der Umfang an Varianzerklärung, den die Faktoren gemeinsam für die Ausgangsvariablen liefern, wird als Kommunalität oder erklärte Varianz bezeichnet, die sich auch als die Summe der Ladungsquadrate definieren lässt. Da die gemeinsamen Faktoren nicht die Gesamtvarianz erklären, sind die Kommunalitäten meist kleiner 1. Der Teil der Varianz, der nicht durch die gemeinsamen Faktoren, sondern durch andere Faktoren oder Messfehler bedingt ist, heißt Restvarianz.

Ausformulierte Gleichung:

Kommunalität = diag(Ladungsmatrix * LadungsmatrixT )

2.3 Faktorrotation

Um aus den unendlich vielen Möglichkeiten der Positionierung eines Koordinatenkreuzes die beste, d.h. die interpretierfähigste, bestimmen zu können, wird die Ladungsmatrix rotiert, worauf eine Interpretation der ermittelten Faktoren basiert, da sich durch Anwen- dung einer Rotationsmethode die Verteilung des erklärten Varianzanteils einer Variable auf die Faktoren verändert. Bei der Rotation werden zwei Kategorien unterschieden. Die Achsen werden in einem schiefen Winkel zueinander rotiert, falls eine Korrelation zwischen den rotierten Achsen bzw. Faktoren angenommen wird. Hierbei spricht man von Methoden der obliquen (schiefwinkligen) Rotation.

Eine rechtwinklige (orthogonale) Rotation kann im zwei- und drei-dimensionalen Fall graphisch erfolgen, indem versucht wird, das Koordinatenkreuz so zu drehen, dass möglichst viele Punkte im Koordinatenkreuz auf einer der beiden Achsen liegen. Die Faktorachsen verbleiben bei Rotation im rechten Winkel zueinander, was unterstellt, dass die Faktoren nicht untereinander korrelieren. Bei der hier angewendeten Varimax-Rotationsmethode handelt es sich um eine orthogonale Rotation.

Die Rotation der Faktoren verändert die Faktorladungen, nicht aber die Kommuna- litäten; somit ist die unrotierte Lösung primär für die Auswahl der Anzahl der Faktoren und für Gütebeurteilung der Faktorlösung geeignet. Eine Interpretation der ermittelten Faktoren basiert auf der rotierten Lösung, da sich durch Anwendung einer Rotations- methode die Verteilung des erklärten Varianzanteils einer Variable auf die Faktoren verändert.

3 Durchführung der Hauptkomponentenanalyse

3.1 Beschreibung des Datensatzes

In 12 Regionen wurden im Rahmen einer regionalen Strukturanalyse sechs Merkmale beobachtet, die ihre soziokökonomische Struktur charakterisieren. Merkmale:

- X1: Bevölkerungsdichte (Einwohner je km2 )

- X2: BIP (EUR pro Einwohner)

- X3: Anteil der Erwerbstätigen in der Landwirtschaft (in %)

- X4: Wachstumsrate des BIP in den letzten 10 Jahren (in %)

- X5: Geburtenquote (Geborene je 1000 Einwohner)

- X6: Wanderungssaldo (je 1000 Einwohner)

Abbildung in dieser Leseprobe nicht enthalten

AUSGANGSDATENMATRIX

Zeilen: 12 Regionen; Spalten: Merkmale

3.2 Zentrierung der Spaltenwerte

Die Zentrierung der Spaltenwerte erfolgt dadurch, dass die Differenz zwischen den Beobachtungswerten und dem jeweiligen Mittelwert der Spalten gebildet wird.

Abbildung in dieser Leseprobe nicht enthalten

3.3 Kovarianzmatrix und ihre Eigenwerte

Abbildung in dieser Leseprobe nicht enthalten

KOVARIANZMATRIX

Die Hauptkomponentenzerlegung auf der Basis der Kovarianzmatrix: > eigen(cov(X))

$values

Abbildung in dieser Leseprobe nicht enthalten

Wir wollen nun wissen, wie hoch die kumulierten Anteile der Totalvariation sind. Dazu: > Eigenwerte<-eigen(cov(X))$values > print(round(cumsum(Eigenwerte)/sum(Eigenwerte)*100,digits=4))(99.8566 99.9970 99.9997 99.9999 100.0000 100.0000)

Die ersten beiden Hauptkomponenten erklären also 99.997% der Totalvariation. Wir wollen aber alle Variablen gleichberechtigt eingehen lassen. Dazu müssen wir die Korrelationsmatrix hinzuziehen:

3.4 Korrelationsmatrix und ihre Eigenwerte

> X.cor<-cor(X)

> X.eigen<-eigen(X.cor)$values > X.eigen

(3.56165538 1.78244293 0.30126001 0.18162540 0.10185524 0.07116104 )

> round(cumsum(X.eigen/6)*100,digits=4)

( 59.3609 89.0683 94.0893 97.1164 98.8140 100.0000)

> X.eigenvektor12<-eigen(cor(X))$vectors[,1:2] Zur Bestimmung der Faktoranzahl benutzt man an dieser Stelle das Kaiser-Kriterium, welches besagt, dass die Zahl der zu extrahierenden Faktoren gleich der Zahl der Faktoren mit Eigenwert größer 1 ist. Dieser Eigenwert berechnet sich durch die Summe der quadrierten Faktorladungen eines Faktors über alle Variablen. Dies sind jedoch gerade die Eigenwerte der Korrelationsmatrix (s.o.), was zur Folge hat, dass zwei Faktoren extrahiert werden, da 3.56 > 1 und 1.78 > 1 ist.

3.5 Faktorladung und Kommunalitäten

Wir erhalten somit die Ladungsmatrix:

> X.ladung<-X.eigenvektor12%*%diag(sqrt(X.eigen[1:2])) > X.ladung

Abbildung in dieser Leseprobe nicht enthalten

Damit können wir die Kommunalitäten und die Restmatrix folgendermaßen berechnen: > X.kummun<-diag(X.ladung%*%t(X.ladung)

> round(X.kummun,digits=4)

(0.9205 0.8911 0.8965 0.9048 0.7981 0.9331)

> X.rest<-X.cor-X.ladung%*%t(X.ladung)

> round(X.rest,digits=4) 

Abbildung in dieser Leseprobe nicht enthalten

3.6 Varimax-Rotation

> varimax(X.ladung) $loadings

Loadings:

Abbildung in dieser Leseprobe nicht enthalten

$rotmat

(0.9526361 −0.3041125)

(0.3041125 0.9526361)

In diesem Fall ist eine Drehung um cos(α) = 0.9526361, d.h. um α = 17.705

3.7 Faktorinterpretation

Nach der Bestimmung der Anzahl der Faktoren wird nun versucht, die Faktoren, die zunächst abstrakte Größen darstellen, zu interpretieren. Dazu bedient man sich als Interpretationshilfe der rotierten Faktorladungen. Es zeigt sich, dass der Faktor 1 besonders stark mit den Größen

- Bevölkerungsdichte
- Bruttoinlandsprodukt
- Anteil der Erwerbstätigen in der Landwirtschaft
- Geburtenquote

korreliert.

Zudem ist offensichtlich, dass der Faktor 2 mit den Größen

- Wachstumsrate des BIP in den letzten 10 Jahren
- Wanderungssaldo

korreliert.

Bei Anwendung der Hauptkomponentenanalyse entspricht die Interpretation der Faktoren der Suche nach einem Sammelbegriff für die auf einen Faktor hochladenden Variablen. Die Größen des ersten Faktor fassen wir unter dem Hauptbegriff Bevölkerungs- und Beschäftigtenfaktor zusammen, die des zweiten unter Wirtschaftsfaktor. Folgende Abhängigkeiten bestehen:

Steigt der Faktor 1, so sinken die Bevölkerungsdichte und das BIP, wobei gleichermaßen der Anteil der Erwerbstätigen in der Landwirtschaft und die Geburtenquote steigen.

Steigt Faktor 2, so sinkt sowohl die Wachstumsrate des BIP als auch das Wanderungs- saldo.

Das Steigen und Fallen der Variablen ist unschwer anhand der rotierten Ladungsmatrix zu erkennen. Negative, betragsmäßig hohe Werte signalisieren einen entgegengesetzten Zusammenhang zwischen Faktor und ursprünglicher Variable. Positive zeigen dement- sprechend einen proportionalen Zusammenhang, d.h. steigt der Faktor, so steigt auch die Variable.

Jedoch ist Vorsicht geboten, denn beliebige Drehungen sind möglich und damit auch be- liebige Interpretationsmöglichkeiten; somit ist nur eine subjektive Interpretation erlaubt.

4 Literatur

Backhaus und Erichson 2003: BACKHAUS, ERICHSON, Bernd; Klaus; PLINKE, Wulff; WEIBER, Rolf; SPRINGER-VERLAG: Multivariate Analysemethoden: Eine an- wendungsorientierte Einführung; 10. Auflage

Wikipedia: www.wikipedia.org; Suchwort: Hauptkomponentenanalyse; Datum: 30.03.2006

Fischer 2005/2006: FISCHER, MATTHIAS: Skriptum: Grundzüge der multivariaten Datenanalyse; WS 05/06

Fin de l'extrait de 10 pages

Résumé des informations

Titre
Principal Component Analysis - Hauptkomponentenanalyse
Université
Technical University of Braunschweig  (Institut für Stochastik)
Note
2,0
Auteurs
Année
2006
Pages
10
N° de catalogue
V111473
ISBN (ebook)
9783640095261
Taille d'un fichier
462 KB
Langue
allemand
Mots clés
Principal, Component, Analysis, Hauptkomponentenanalyse
Citation du texte
Undine Kempe (Auteur)Kristin Schikor (Auteur), 2006, Principal Component Analysis - Hauptkomponentenanalyse, Munich, GRIN Verlag, https://www.grin.com/document/111473

Commentaires

  • Pas encore de commentaires.
Lire l'ebook
Titre: Principal Component Analysis  -  Hauptkomponentenanalyse



Télécharger textes

Votre devoir / mémoire:

- Publication en tant qu'eBook et livre
- Honoraires élevés sur les ventes
- Pour vous complètement gratuit - avec ISBN
- Cela dure que 5 minutes
- Chaque œuvre trouve des lecteurs

Devenir un auteur