Bei GRIN registrieren oder einloggen

Your e-mail-address or password is wrong
Jetzt registrieren
Für neue Autoren: kostenlos, einfach und schnell
Dies wird Ihr Benutzername, bitte geben Sie eine gültige E-Mail-Adresse an

Passwort vergessen

Your e-mail-address or password is wrong

Neues Passwort anfordern
Principal Component Analysis - Hauptkomponentenanalyse close

Bitte warten

Bitte installieren Sie den Flash Player, wenn kein E-Book erscheint.

Principal Component Analysis - Hauptkomponentenanalyse

Praktikumsbericht / -arbeit, 2006, 11 Seiten
Autoren: Undine Kempe, Kristin Schikor
Fach: Statistik

Details

Kategorie: Praktikumsbericht / -arbeit
Jahr: 2006
Seiten: 11
Note: 2,0
Sprache: Deutsch
Archivnummer: V111473
ISBN (E-Book): 978-3-640-09526-1

Dateigröße: 170 KB


Volltext (computergeneriert)

Praktikum Statistik

WS 2005 / 2006

Principal Component Analysis

Hauptkomponentenanalyse

Kristin Schikor und Undine Kempe

k.schikor@tu-bs.de

u.kempe@tu-bs.de

20. April 2006


Inhaltsverzeichnis

II

Inhaltsverzeichnis

1

Mathematisch-statistische Grundlagen

1

1.1

Herleitung der Probleml¨

osung .

2

2

Erl¨

auterungen

3

2.1

Faktorladungen .

3

2.2

Kommunalit¨

aten .

3

2.3

Faktorrotation

.

3

3

Durchf¨

uhrung der Hauptkomponentenanalyse

4

3.1

Beschreibung des Datensatzes .

4

3.2

Zentrierung der Spaltenwerte .

5

3.3

Kovarianzmatrix und ihre Eigenwerte

.

5

3.4

Korrelationsmatrix und ihre Eigenwerte .

6

3.5

Faktorladung und Kommunalit¨

aten .

6

3.6

Varimax-Rotation

.

7

3.7

Faktorinterpretation .

7

4

Literatur

8


1 Mathematisch-statistische Grundlagen

1

1 Mathematisch-statistische Grundlagen

Die Hauptkomponentenanalyse (englisch: Principal Component Analysis (PCA), Pear-

son, 1901) ist eine Methode der multivariaten Verfahren in der Statistik. Sie ist mit

der Faktoranalyse eng verwandt. Im PCA-Verfahren versucht man aus Daten mit vielen

Eigenschaften einige Faktoren zu extrahieren, die f¨

ur diese Eigenschaften bestimmend

sind.

Eine entscheidende Gr¨

oße in der Hauptkomponentenanalyse ist die Varianz. Diese ist ein

Maß f¨

ur die Abweichung der Komponenten des Vektors zu ihrem Mittelwert, also der

Abweichung von X zu ¯

X.

Gegeben sei eine Stichprobe X = (X1, X2, X3, ..., Xn), so definiert sich ihre gesch¨

atzte

Varianz als

1

V ar( ^

X) =

(X - ¯

X)T (X - ¯

X)

n - 1

Einen ¨

ahnlichen Zusammenhang, jedoch mit zwei Vektoren, beschreibt die Kovarianz.

Durch die Kovarianz sind zwei Vektoren bez¨

uglich ihrer Varianzen vergleichbar. Sie be-

schreibt also die Unterschiedlichkeit der Abweichung von X zu ¯

X zu der Abweichung von

Y zu ¯

Y . Seien zwei Stichproben X = (X1, X2, ..., Xn) und Y = (Y1, Y2, ..., Yn) gegeben,

so definiert sich deren Kovarianz durch

1

Kov( ^

X, ^

Y ) =

(X - ¯

X)T (Y - ¯

Y )

n - 1

Erweitern wir diese Definition von Vektoren auf Matrizen, erhalten wir die Kovarianz-

matrix. Es sei also eine (m × n)-Matrix A gegeben. Die zugeh¨

orige Kovarianzmatrix

errechnet sich als

1

Kov(A)ij = Kov(ai, aj) = (

AT A)ij

n - 1

Die Kovarianzmatrix ist quadratisch und symmetrich und daher, falls sie nur reelle Ein-

tr¨

age enth¨

alt, diagonalisierbar. Um ein Maß f¨

ur die St¨

arke des linearen Zusammenhangs

zweier Messgr¨

oßen X = (X1, X2, ..., Xn) und Y = (Y1, Y2, ..., Yn) zu erhalten, definieren

wir deren Korrelationskoeffizienten durch

Kov(X, Y )

Kor(X, Y ) =

V ar(X)V ar(Y )

Die Werte des Korrelationskoeffizienten liegen im Bereich [-1,1]. Betr¨

agt das Ergebnis von

Kor(X, Y ) Null, dann sind X und Y unkorreliert. Ist der Wert positiv implizieren hohe

Werte von X hohe Werte von Y . Ein negativer Wert beschreibt einen entgegengesetzten

Zusammenhang. Hohe Werte von X entsprechen niedrigen Werten von Y .

Um die Korrelationen innerhalb einer (Messdaten-)Matrix zu berechnen, definieren wir

die Korrelationsmatrix zu einer gegebenen Matrix A. Diese errechnet sich analog zur

Kovarianzmatrix als

Kor(A)ij = Kor(ai, aj)

Die Korrelationsmatrix ist ebenfalls quadratisch und symmetrisch.


1 Mathematisch-statistische Grundlagen

2

1.1 Herleitung der Probleml¨

osung

Gegeben sei eine Datenmenge bestehend aus m n-elementigen Beobachtungen in Form

einer (m × n)-Matrix X. Sei S = Kov(X) die (n × n)-Kovarianzmatrix zu X. Gesucht

ist der n-dimensionale Vektor a1 f¨

ur den gilt, dass V ar(aT X) maximal wird.

1

Diese Bedingung entspricht, laut Definition von Varianz und Kovarianz, dem Problem

aT Sa

1

1 zu maximieren. Da jedoch der Ausdruck f¨

ur beliebige a1 beliebig groß wird,

ben¨

otigt man eine Schrankenbildung.

Wir benutzen die Bedingung aT a

1

1 = 1.

Das Problem ist also nun die Maximierung eines Ausdrucks mit Nebenbedingung. F¨

ur

die L¨

osung verwenden wir den Langrange-Multiplikator in der Gleichung aT Sa

1

1 -

(aT a

1

1 - 1), welche Ausdruck und Nebenbedingung in einer Formel zusammenfasst. Wir

suchen also den Vektor a1, der das Ergebnis dieser Gleichung maximiert.

Wie gewohnt differenzieren wir nach a1, um einen Extremwert zu erhalten.

Sa1 - a1 = 0 = (S - E)a1 = 0

Offensichtlich ist dies ein Eigenwertproblem von S, wobei ein Eigenwert ist und a1 zu

geh¨

orender Eigenvektor. Aus Sa1 - a1 = 0 folgt Sa1 = a1. Wenn wir diese Erkenntnis

in das ¨

urspr¨

ungliche Problem, welches durch die Maximierung von aT Sa

1

1 gegeben war,

einsetzen, erhalten wir die Umformung

max{aT

1 Sa1|aT

1 a1 = 1} = max{aT

1 a1|aT

1 a1 = 1 ist Eigenwert von S}

= max{aT

1 a1|aT

1 a1 = 1 ist Eigenwert von S}

= max{| ist Eigenwert von S}

Gesucht ist daher der gr¨

oßte Eigenwert von S. Nun suchen wir den n-dimensionalen

Vektor a2, f¨

ur den gilt: V ar(a2X) wird maximal, aT a

2

2 = 1 und a1 ist unkorreliert zu a2.

0 = Kov(aT

1 X, aT

2 X ) = aT

1 Sa2 = 1aT

1 a2 = 1aT

2 a1

= a1 unkorreliert zu a2 aT1 Sa2 = aT2 Sa1 = aT1 a2 = aT2 a1 = 0

Es tritt eine ¨

ahnliche Situation wie im ersten Schritt auf, was zur Anwendung einer er-

weiterten Lagrange-Multiplikatorgleichung f¨

uhrt, welche zwei Multiplikatoren verwendet:

aT Sa

a

a

2

2 - (aT

2

2 - 1) - aT

2

1 = max

Ableiten nach a2 liefert: Sa2 - a2 - a1 = 0

Multiplizieren mit a1 ergibt: aT Sa

1

2 - a1a2 - a1a1 = 0 = = 0

Hieraus folgt dann, dass Sa2 - a2 = 0 = (S - E)a2 = 0 ist und der zweitgr¨

oßte

Eigenwert gesucht ist. Die Fortsetzung bis n liefert folgende Werte:

· {a1, ..., an} als Hauptvektoren und damit {a1I, ..., anI} als Hauptkomponenten mit

I = Matrix aus den Basisvektoren des Ausgangssystems

· {1, ..., n} als deren Varianzen


2 Erl¨

auterungen

3

·

k

als Maß f¨

ur den Anteil der k-ten Hauptkomponente an der Gesamtvarianz

1+...+n

· {z1, ..., zm}, mit Z = AT X Positionen der Messungen im Hauptkomponentensys-

tem

2 Erl¨

auterungen

2.1 Faktorladungen

Ziel der Hauptkomponentenanalyse ist es, die Datenstruktur m¨

oglichst umfassend durch

oglichst wenige Faktoren zu reproduzieren. Ist die Anzahl der Faktoren bestimmt, so

ist es von besonderem Interesse, die Beziehungen zwischen den Ausgangsvariablen und

den Faktoren zu kennen. Zu diesem Zweck werden Korrelationen berechnet, die ein Maß

ur die St¨

arke und Richtung der Zusammenh¨

ange zwischen Faktoren und urspr¨

unglichen

Variablen angeben. Diese Korrelationen werden als Faktorladungen bezeichnet; diese ge-

ben also an, wieviel ein Faktor mit einer Ausgangsvariable ′zu tun′ hat.

Ausformulierte Gleichung:

Ladungsmatrix = Eigenvektoren der Ausgangsmatrix * diag( Eigenwerte)

2.2 Kommunalit¨

aten

Werden die im Ausgang betrachteten Eigenschaften zu Faktoren zusammengefasst, ent-

steht ein Informationsverlust, da i.d.R. weniger Faktoren als urspr¨

ungliche Eigenschaf-

ten betrachtet werden. Dieser Informationsverlust ist darin zu sehen, dass zum Einen die

Faktoren in der Summe weniger Varianz erkl¨

aren k¨

onnen als die Ausgangsvariablen, und

zum Anderen dass die Varianz einer jeden Ausgangsgr¨

oße in der Erhebungsgesamtheit

durch die Faktoren i.d.R. nicht vollst¨

andig erkl¨

art werden kann.

Der Umfang an Varianzerkl¨

arung, den die Faktoren gemeinsam f¨

ur die Ausgangsvaria-

blen liefern, wird als Kommunalit¨

at oder erkl¨

arte Varianz bezeichnet, die sich auch als

die Summe der Ladungsquadrate definieren l¨

asst. Da die gemeinsamen Faktoren nicht

die Gesamtvarianz erkl¨

aren, sind die Kommunalit¨

aten meist kleiner 1. Der Teil der Va-

rianz, der nicht durch die gemeinsamen Faktoren, sondern durch andere Faktoren oder

Messfehler bedingt ist, heißt Restvarianz.

Ausformulierte Gleichung:

Kommunalit¨

at = diag(Ladungsmatrix * LadungsmatrixT )

2.3 Faktorrotation

Um aus den unendlich vielen M¨

oglichkeiten der Positionierung eines Koordinatenkreuzes

die beste, d.h. die interpretierf¨

ahigste, bestimmen zu k¨

onnen, wird die Ladungsmatrix

rotiert, worauf eine Interpretation der ermittelten Faktoren basiert, da sich durch Anwen-

dung einer Rotationsmethode die Verteilung des erkl¨

arten Varianzanteils einer Variable

auf die Faktoren ver¨

andert. Bei der Rotation werden zwei Kategorien unterschieden. Die


3 Durchf¨

uhrung der Hauptkomponentenanalyse

4

Achsen werden in einem schiefen Winkel zueinander rotiert, falls eine Korrelation zwi-

schen den rotierten Achsen bzw. Faktoren angenommen wird. Hierbei spricht man von

Methoden der obliquen (schiefwinkligen) Rotation.

Eine rechtwinklige (orthogonale) Rotation kann im zwei- und drei-dimensionalen Fall gra-

phisch erfolgen, indem versucht wird, das Koordinatenkreuz so zu drehen, dass m¨

oglichst

viele Punkte im Koordinatenkreuz auf einer der beiden Achsen liegen. Die Faktorachsen

verbleiben bei Rotation im rechten Winkel zueinander, was unterstellt, dass die Faktoren

nicht untereinander korrelieren. Bei der hier angewendeten Varimax-Rotationsmethode

handelt es sich um eine orthogonale Rotation.

Die Rotation der Faktoren ver¨

andert die Faktorladungen, nicht aber die Kommuna-

lit¨

aten; somit ist die unrotierte L¨

osung prim¨

ar f¨

ur die Auswahl der Anzahl der Faktoren

und f¨

ur G¨

utebeurteilung der Faktorl¨

osung geeignet. Eine Interpretation der ermittelten

Faktoren basiert auf der rotierten L¨

osung, da sich durch Anwendung einer Rotations-

methode die Verteilung des erkl¨

arten Varianzanteils einer Variable auf die Faktoren

ver¨

andert.

3 Durchf¨

uhrung der Hauptkomponentenanalyse

3.1 Beschreibung des Datensatzes

In 12 Regionen wurden im Rahmen einer regionalen Strukturanalyse sechs Merkmale

beobachtet, die ihre soziok¨

okonomische Struktur charakterisieren.

Merkmale:

· X1: Bev¨olkerungsdichte (Einwohner je km2)

· X2: BIP (EUR pro Einwohner)

· X3: Anteil der Erwerbst¨atigen in der Landwirtschaft (in %)

· X4: Wachstumsrate des BIP in den letzten 10 Jahren (in %)

· X5: Geburtenquote (Geborene je 1000 Einwohner)

· X6: Wanderungssaldo (je 1000 Einwohner)

212.4 20116

9.8

53

8.4

-0.7

623.7

24966

3.4

73.1

6.1

3.4

93.1

19324

23.6

47.9

12.3

-1.9

236.8

23113

8.7

66.8

8.7

2

412

23067

8.9

46.9

8

-3.1

566.7

24516

6.1

44.3

8.6

-3

331.9

22187

7.4

57.6

10.3

4.7

111.4

20614

16.3

63.8

13.9

5.2

489

25006

5.7

49.4

6.7

-2.6

287.4 23136

8.8

59.4

12.4

1.7

166.2 20707 14.1

74

13

3.6

388.1

23624

9.6

54.3

6.9

-0.4


3 Durchf¨

uhrung der Hauptkomponentenanalyse

5

AUSGANGSDATENMATRIX

Zeilen: 12 Regionen; Spalten: Merkmale

3.2 Zentrierung der Spaltenwerte

Die Zentrierung der Spaltenwerte erfolgt dadurch, dass die Differenz zwischen den Beob-

achtungswerten und dem jeweiligen Mittelwert der Spalten gebildet wird.

-114.158333 -2415.3333 -0.4

-4.54166667

-1.2083333 -1.4416667

297.141667

2434.6667

-6.8

15.55833333

-3.5083333

2.6583333

-233.458333

-3207.3333

13.4

-9.64166667

2.6916667

-2.6416667

-89.758333

581.6667

-1.5

9.25833333

-0.9083333

1.2583333

85.441667

535.6667

-1.3 -10.64166667 -1.6083333 -3.8416667

240.141667

1984.6667

-4.1 -13.24166667 -1.0083333 -3.7416667

5.341667

-344.3333

-2.8

0.05833333

0.6916667

3.9583333

-215.158333

-1917.3333

6.1

6.25833333

4.2916667

4.4583333

162.441667

2474.6667

-4.5

-8.14166667

-2.9083333 -3.3416667

-39.158333

604.6667

-1.4

1.85833333

2.7916667

0.9583333

-160.358333 -1824.3333

3.9

16.45833333

3.3916667

2.8583333

61.541667

1092.6667

-0.6

-3.24166667

-2.7083333 -1.1416667

ZENTRIERTE MATRIX

3.3 Kovarianzmatrix und ihre Eigenwerte

30236.1299

306082.161

-793.6518182

-282.542652

-367.541439

-165.0535606

306082.1606

3765367.515

-8978.0454545 -1039.415152 -3706.357576 -1308.0060606

-

793.6518

-8978.045

29.9581818

-3.705455

10.570000

0.6536364

-282.5427

-1039.415

-3.7054545

101.840833

6.125076

25.7562879

-367.5414

-3706.358

10.5700000

6.125076

7.220833

3.7423485

-165.0536

-1308.006

0.6536364

25.756288

3.742348

9.4153788

KOVARIANZMATRIX

Die Hauptkomponentenzerlegung auf der Basis der Kovarianzmatrix:

> eigen(cov(X))

$values

3790310

5329.530

100.9249

7.334654

3.566331

1.114921

$vectors

-0.0811352

0.995782

-0.0382472

0.0173287

-8.175931e - 03 -0.0024184

-0.9966997 -0.081115

0.0029607

0.0010909

-7.927201e - 05

0.0003540

0.0023779

-0.011708

0.0969177

0.9603129

5.700096e - 02

0.2549788

0.0002794

-0.037752 -0.9634692

0.1194821

1.979521e - 01

-0.1297718

0.0009825

-0.012353 -0.0289184

0.2215880

-7.126911e - 01 -0.6648160

0.0003475

-0.011143 -0.2450023 -0.1188293 -6.705001e - 01

0.6900426

Wir wollen nun wissen, wie hoch die kumulierten Anteile der Totalvariation sind. Dazu:

> Eigenwerte<-eigen(cov(X))$values


3 Durchf¨

uhrung der Hauptkomponentenanalyse

6

> print(round(cumsum(Eigenwerte)/sum(Eigenwerte)*100,digits=4))

99.8566

99.9970

99.9997

99.9999

100.0000

100.0000

Die ersten beiden Hauptkomponenten erkl¨

aren also 99.997% der Totalvariation. Wir

wollen aber alle Variablen gleichberechtigt eingehen lassen. Dazu m¨

ussen wir die Korre-

lationsmatrix hinzuziehen:

3.4 Korrelationsmatrix und ihre Eigenwerte

> X.cor<-cor(X)

> X.eigen<-eigen(X.cor)$values

> X.eigen

3.56165538

1.78244293

0.30126001

0.18162540

0.10185524

0.07116104

> round(cumsum(X.eigen/6)*100,digits=4)

59.3609

89.0683

94.0893

97.1164

98.8140

100.0000

> X.eigenvektor12<-eigen(cor(X))$vectors[,1:2]

Zur Bestimmung der Faktoranzahl benutzt man an dieser Stelle das Kaiser-Kriterium,

welches besagt, dass die Zahl der zu extrahierenden Faktoren gleich der Zahl der Fakto-

ren mit Eigenwert gr¨

oßer 1 ist. Dieser Eigenwert berechnet sich durch die Summe der

quadrierten Faktorladungen eines Faktors ¨

uber alle Variablen. Dies sind jedoch gera-

de die Eigenwerte der Korrelationsmatrix (s.o.), was zur Folge hat, dass zwei Faktoren

extrahiert werden, da 3.56 > 1 und 1.78 > 1 ist.

3.5 Faktorladung und Kommunalit¨

aten

Wir erhalten somit die Ladungsmatrix:

> X.ladung<-X.eigenvektor12%*%diag(sqrt(X.eigen[1:2]))

> X.ladung

-0.9503280 -0.13173656

-0.9130745 -0.23955122

0.8605260

0.39501358

0.2828917

-0.90816024

0.8923402

-0.04321899

0.4560957

-0.85149573

Damit k¨

onnen wir die Kommunalit¨

aten und die Restmatrix folgendermaßen berechnen:

> X.kummun<-diag(X.ladung%*%t(X.ladung))

> round(X.kummun,digits=4)

0.9205

0.8911

0.8965

0.9048

0.7981

0.9331

> X.rest<-X.cor-X.ladung%*%t(X.ladung)

> round(X.rest,digits=4)

0.0795

0.0079

0.0359

-0.0118

0.0557

0.0119

0.0079

0.1089

0.0350

-0.0123

0.0936

-0.0072

0.0359

0.0350

0.1035

0.0482

-0.0321 -0.0172

-0.0118

-0.0123

0.0482

0.0952

-0.0658 -0.0705

0.0557

0.0936

-0.0321 -0.0658

0.2019

0.0101

0.0119

-0.0072 -0.0172 -0.0705

0.0101

0.0669


3 Durchf¨

uhrung der Hauptkomponentenanalyse

7

3.6 Varimax-Rotation

> varimax(X.ladung)

$loadings

Loadings:

-0.945

0.164

-0.943

0

0.940

0.115

0

-0.951

0.837

-0.313

0.176

-0.950

$rotmat

0.9526361

-0.3041125

0.3041125

0.9526361

In diesem Fall ist eine Drehung um cos() = 0.9526361, d.h. um = 17.705

3.7 Faktorinterpretation

Nach der Bestimmung der Anzahl der Faktoren wird nun versucht, die Faktoren, die

zun¨

achst abstrakte Gr¨

oßen darstellen, zu interpretieren. Dazu bedient man sich als In-

terpretationshilfe der rotierten Faktorladungen. Es zeigt sich, dass der Faktor 1 besonders

stark mit den Gr¨

oßen

· Bev¨olkerungsdichte

· Bruttoinlandsprodukt

· Anteil der Erwerbst¨atigen in der Landwirtschaft

· Geburtenquote

korreliert.

Zudem ist offensichtlich, dass der Faktor 2 mit den Gr¨

oßen

· Wachstumsrate des BIP in den letzten 10 Jahren

· Wanderungssaldo

korreliert.

Bei Anwendung der Hauptkomponentenanalyse entspricht die Interpretation der Fakto-

ren der Suche nach einem Sammelbegriff f¨

ur die auf einen Faktor hochladenden Varia-

blen. Die Gr¨

oßen des ersten Faktor fassen wir unter dem Hauptbegriff Bev¨

olkerungs- und

Besch¨

aftigtenfaktor zusammen, die des zweiten unter Wirtschaftsfaktor.

Folgende Abh¨

angigkeiten bestehen:

Steigt der Faktor 1, so sinken die Bev¨

olkerungsdichte und das BIP, wobei gleichermaßen

der Anteil der Erwerbst¨

atigen in der Landwirtschaft und die Geburtenquote steigen.


4 Literatur

8

Steigt Faktor 2, so sinkt sowohl die Wachstumsrate des BIP als auch das Wanderungs-

saldo.

Das Steigen und Fallen der Variablen ist unschwer anhand der rotierten Ladungsmatrix

zu erkennen. Negative, betragsm¨

aßig hohe Werte signalisieren einen entgegengesetzten

Zusammenhang zwischen Faktor und urspr¨

unglicher Variable. Positive zeigen dement-

sprechend einen proportionalen Zusammenhang, d.h. steigt der Faktor, so steigt auch

die Variable.

Jedoch ist Vorsicht geboten, denn beliebige Drehungen sind m¨

oglich und damit auch be-

liebige Interpretationsm¨

oglichkeiten; somit ist nur eine subjektive Interpretation erlaubt.

4 Literatur

Backhaus und Erichson 2003: BACKHAUS, ERICHSON, Bernd; Klaus; PLINKE, Wulff;

WEIBER, Rolf; SPRINGER-VERLAG: Multivariate Analysemethoden: Eine an-

wendungsorientierte Einf¨

uhrung; 10. Auflage

Wikipedia: www.wikipedia.org; Suchwort: Hauptkomponentenanalyse; Datum: 30.03.2006

Fischer 2005/2006: FISCHER, MATTHIAS: Skriptum: Grundz¨

uge der multivariaten

Datenanalyse; WS 05/06



Kommentare

Bisher keine Kommentare

Kommentar hinzufügen
Ihr Kommentar wird redaktionell geprüft und dann freigeschaltet

Andere Nutzer haben sich auch für folgende Titel interessiert:


Dieser Text kann über folgende URL aufgerufen und zitiert werden:

http://www.grin.com/e-book/111473/principal-component-analysis-hauptkomponentenanalyse
please wait Bitte warten