Multivariate Verfahren close

Bitte warten

Bitte installieren Sie den Flash Player, wenn kein E-Book erscheint.

Multivariate Verfahren

Autor: Tobias Laske
Fach: Statistik

Lesen Sie im E-Book



Details

Institution/Hochschule: Universität
Tags: Multivariate, Verfahren
Kategorie: Hausarbeit
Jahr: 2002
Seiten: 16
Note: 1,0
Sprache: Deutsch
Dateigröße: 310 KB
Archivnummer: V106334
ISBN (E-Book): 978-3-640-04613-3
Anmerkungen :
Es werden die Regressions-, Korrelations-, Hauptkomponenten-, Varianz-, Diskriminanz und Clusteranalyse prägnant dargestellt.

Volltext (computergeneriert)

HAUSARBEIT

Thema : Überblick über multivariate Verfahren


Einleitung

Multivariate Verfahren besitzen eine große Relevanz auf vielen Anwendungsgebieten, sei es

in Wirtschaft, Soziologie, Biologie o.ä..

Gemeinsamkeit aller Anwendungsgebiete ist es, dass man es mit umfangreichen und

komplexen Datensätzen zu tun hat, welche unaufbereitet aufgrund dieser Tatsache eine

präzise Bearbeitung oft unmöglich machen.

Ziel jeder multivariaten Analyse ist es nun, eben diese Daten qualitativ und quantitativ

aufzubereiten, um so Informationen zur Entscheidungshilfe zu generieren oder komplexe

Sachverhalte zu veranschaulichen.

Als Nachteil von multivariaten Verfahren kann allgemein ihre enorme Vielfalt angegeben

werden, welche ­ exzessiv betrieben ­ leicht zu mehrdeutigen oder sogar widersprüchlichen

Aussagen führen können und so den beabsichtigten Informationsgewinn genau ins Gegenteil

verkehren. Des weiteren sind viele Verfahren auch mit modernster Computer- und

Rechnertechnologie noch sehr aufwändig, weil insbesondere die Vorbereitung der Analysen

mit sehr viel Sorgfalt betrieben werden muss. Dieser Punkt ist meiner Meinung nach zentral,

denn nur wenn man weiß, was man eigentlich analysieren will und welche Daten dafür

(zumindest theoretisch) relevant sein können, kann man zu einem befriedigenden Ergebnis

kommen. Hält man diesen Grundsatz (,,Erst denken, dann analysieren") nicht ein, kann es

leicht zu verzerrten Ergebnissen kommen und theoretisch alles ,,beweisen", was man gerne

möchte. Eine jederzeit kritische Betrachtung von multivariaten Analyseergebnissen erscheint

aus diesem Grund sinnvoll.

In der nachfolgenden Hausarbeit sollen die wichtigsten Standardverfahren der multivariaten

Analyse auf knappen Raum vorgestellt werden. Dabei gehe ich zuerst auf die Datenmatrix

und deren Maßzahlen ein, welche von zentraler Bedeutung sind und am Anfang jeder Analyse

stehen. Danach beschäftige ich mich mit den Verfahren, die primär Zusammenhänge

zwischen einzelnen Merkmalen oder Datenobjekten untersuchen (Regressions-, Korrelations-

und Hauptkomponentenanalyse) und ,,last but not least" mit jenen, die hauptsächlich

Unterschiede betrachten (Varianz, Diskriminanz- und Clusteranalyse).


Die Datenmatrix und deren Maßzahlen

1.) Datenmatrix X

- man erzeugt eine Matrix mit

m

beobachteten Merkmalen und

n

Merkmalsträgern

(d.h. eine n m- Matrix)

i

y

x

11

. x

1j

. x

1m

. .

. .

.

i

y

X = k

x

i1

. x

ij

. x

im

Schüler1

. .

. .

. {

X = k

7

9

10

8

4

3

1

2 {

> Schüler 2

x

n1

. x

nj

. x

nm

1

1

1

4

Schüler3

H

L

NW Lit Konz Log


2.) Mittelwertvektor x (bzgl. der

m

Merkmale X1 bis Xm)


Multivariate Verfahren 2

iy

iyi

y

4

Naturwissenschaft

13 3

Literatur

x

x

=

= k

x

1

. {

k4{

= kKonzentration {

x

m

14 3

Logik

mit xj = 1/n i xij oder x = 1/n(1n′X)

3.) (Varianz-)Kovarianzmatrix S

- gibt entlang ihrer Hauptdiagonale die Varianzen und abseits derselben die

Kovarianzen der einzelnen Merkmale X1 bis Xm an ; sie ist quadratisch und

symmetrisch ( d.h. man erhält eine m m-Matrix)

H

L

NW

Lit

Konz Log

eine erwartungstreue Schätzung für

i

y

iy

9

12

13.5

6

NW

12 17.33 21 10.67

Lit

S = ((1/n-1)X′ X) ­ x x′ [= (1/n-1) T] ;

S =

k

13.5

21

27

15 {

k

Konz{

6

10.67 15

9.33

Log

daher ist die Varianzmatrix = dg(S)

und so die Standardabweichungsmatrix = dg (S)1/2

H

L i

y

3

0

0

0

0 4.163

0

0

dg S 1 2 =

k

0

0

5.196

0 {

0

0

0

3.055

4.) Abweichungsmatrix A

- es wird für jede Komponente der Datenmatrix X die absolute Abweichung vom

Mittelwert bestimmt, d.h. es ist jeweils aij = xij - xj oder A = X ­ 1n x′ (

Anmerkung : summiert man in A eine Spalte über die Zeilen, so ergibt sich 0 )

5.) Matrix der standardisierten Beobachtungswerte Z

- ergibt sich mit Z = Adg(S)-1/2 ,

i

y

Z =

wobei zij = (xij ­ xj)/ sj

k

1

1.121

1.154

1.091

0 -0.320 -0.577 -0.873{

-1 -0.801 -0.577 -0.218

6.)Korrelationsmatrix R

- gibt die Korrelation zwischen den einzelnen Merkmalen an, d.h. man erhält eine

quadratische und symmetrische m m-Matrix

R = (1/n-1) Z′ Z

i

y

1

.961 .865 .654

.961

1

.970 .838

R = k

.865 .970

1

.944 {

.654 .838 .944

1

7.) Distanzmaße

- Verfahren, welche primär Beziehungen zwischen Elementen untersuchen,

benötigen ein Distanzmaß, um Unterschiede oder Ähnlichkeiten festzustellen

- man misst Distanzen zwischen den n Merkmalsträgern bzgl. ihrer m Merkmale

und stellt diese dann in einer symmetrischen n n-Distanzmatrix D dar

- dabei gelten folgende Bedingungen :

dik 0 ; dik = dki ; dii = 0 für i, k = 1,...,n ,

sowie die Beziehung : höhere Unähnlichkeit = größere Distanz


Multivariate Verfahren 3

a )

- allgemein bestimmt man die Distanz mit den sog. Lr -Normen, bzw. mit der

Mahalanobis-Distanz (durch Varianzen und Kovarianzen gewichtete euklidische

Norm)

Lr = [ jxij ­ xkj r ]1/r für i, k = 1,...,n

L2-Norm (euklidische Distanz): dik = jxij - xkj2

L1-Norm (City-Block-Distanz): dik = j xij - xkj

L-Norm (Tschebyscheff-Distanz): dik = max xij - xkj

Mahalanobis-Distanz

d

1

-

ik =

(x(i.) x

-

)′

(k.) S

(x(i.) x

-

)

(k.) für i, k = 1,...,n

b ) Beispiele

i y i

y i y i

y

L

1

= k

0 24 27

24 0 7 {L

2

=k

0

12.7 14.0

12.7

0

4.1 { L

unendl

=k

0 9 9
9 0 3{M-D=k

0

2.00 2.00

2.00

0

2.01 {

27 7 0

14.0 4.1

0

9 3 0

2.00 2.01

0

aus : Rinne, S.18



Regressionsanalyse

Die Regressionsanalyse stellt die wohl klassischste Anwendung für Verfahren dar, welche

Zusammenhänge betrachten.


multiple lineare Regression

Ziel der multiplen linearen Regression ist es, eine lineare Beziehung der Form


Multivariate Verfahren 4

y = 0 + 1x1 + ... + pxp +

zu finden, wobei y die abhängige Variable (Regressand) ist und x1...p die unabhängigen

Variablen (Regressoren), um so bei bekannten Regressoren x1...p

(z.B. aus einer Lernstichprobe) eine Punktschätzung für y zu geben.

ist dabei eine nicht messbare Fehlervariable mit E() = 0 und unbekannter Varianz.

Durch empirische Betrachtung von p Regressorvariablen an N Regressanden (wobei N > p+1)

erhält man N Normalengleichungen der Form

yn = 0 + 1xn1 + ... + pxnp + n.

In Matrizenschreibweise sei nun

y

1

1

x

11 ...

x

1

p

0

y

2

1

x

21 ...

x

2

p

1

y = , X =

und =

, so dass gilt y = X + .

...

... ... ...

...

...

N

y

1

N

x

1 ...

Np

x

p

Die erste Spalte von Y besteht deshalb aus dem 1N-Vektor, um so später 0 generieren zu

können.

Gemäß der Methode der kleinsten Quadrate soll ein Schätzer für so bestimmt werden, dass

die Fehlervariable minimal wird.

Es soll also die (n)2 = ′ minimiert werden.

Dabei ist = y ­ X, so dass

′ = (y ­ X)′(y ­ X) = y′y - 2′X′y + ′X′X .

Leitet man nun nach ab, erhält man ­2 X′y + 2 X′X.

Damit ein Minimum vorliegt, muss die erste Ableitung =! 0 gelten, also

­2 X′y + 2 X′X =! 0 (X′X) = X′y und so = (X′X)-1 X′y.

Bildet man die zweite Ableitung, so kann man zeigen , dass diese stets positiv definit ist, also

tatsächlich ein Minimum vorliegt, sofern die Regressorenmatrix Y vollen Rang hat. Deshalb

muss N p+1 sein, damit die maximale Zeilenanzahl zumindest gleich der maximalen

Spaltenanzahl ist.

Man erhält nach dem Lösen der Matrizengleichung = (X′X)-1 X′y

den Lösungsvektor und kann damit Schätzwerte für y ausrechnen, mit y = X.

Es kann auch gezeigt werden, dass nicht nur der beste KQ-Schätzer ist, sondern auch

hinsichtlich seines Erwartungswertes unverzerrt und in seiner Varianz minimal ist, also die

Eigenschaften eines ,,best linear unbiased estimators" (BLUE) erfüllt.

Ex post kann man nun den realisierten Schätzfehler e aus der empirischen Stichprobe mit

e = (e1, ... , eN)′ = y - y bestimmen und daraus die sog. Residuenquadratsumme

Qe = (en)2 = e′e ermitteln.

Diesen Wert kann man als Gütemaß für die Qualität der Regression verwenden.

Es ist gemäß des Streuungszerlegungssatzes der Regression die Gesamtstreuung G gleich der

Summe der unerklärten Streuung U und der erklärten Streuung E, also

(y-y)2 = (y-y)2 + (y-y)2 oder G = U + E = Qe + E.

Dabei ist U minimal (s.o.) und E genau der Streuungsanteil, welcher durch die

Regressionsfunktion erklärt wird. Insofern gilt das Bestimmtheitsmaß

Q

R2 = E/G = (G ­ Q

e

e)/G = 1-

, 0 R2 1 .

(

y

-

y

)′(

y

-

y

)


Multivariate Verfahren 5

Qe

Ein Schätzer für die Varianz der Regressionsfunktion ist 2 =

, damit dieser

N

-

p

- 1

gewährleistet ist, sollte N > p+1 gelten.

Im Allgemeinen wird es so sein, dass man versucht, für eine Regressionsanalyse möglichst

viele Regressoren zu erheben, um alle wesentlichen beeinflussenden Merkmale zu betrachten.

Dennoch ist es oft sinnvoll, nach erfolgter Regression nur einige der Regressoren zu

selektieren, um so Unwirtschaftlichkeit oder Unhandlichkeit (z.B. bei graphischer

Darstellung) zu vermeiden. Des weiteren kann man feststellen, dass bei erhöhter

Regressorvariablenanzahl p die Residuenquadratsumme Qe zwar abnimmt, die Varianz der

Regressionsfunktion jedoch zunimmt.

Eine Möglichkeit der Selektion ist die vollständige Suche nach der besten Regressorvariation,

bei der alle 2p Möglichkeiten, die 1...p anzuordnen (0 ist immer enthalten), betrachtet werden.

Für jeden Ansatz wird dann x, Qe und 2 berechnet.

Bei gleicher Regressorenanzahl I = J ist I besser als J Qe(I) < Qe(J).

Bei unterschiedlicher Anzahl I J ist I besser als J 2(I) < 2(J) und Qe(I) Qe(J).

Eine andere Herangehensweise ist die der schrittweisen Suche, bei der mit der

Regressionsfunktion y = X0 gestartet wird und dann y und Qe berechnet werden. Nun werden

alle Regressoren 1...p einzeln hinzugefügt und wiederum y und Qe berechnet. Man nimmt

dann den Regressor in die Funktion auf, bei dem Qe am stärksten abnimmt. Diese Variante hat

den Vorteil, dass sie sehr leicht nachzuvollziehen ist und man gegebenenfalls steuernd

eingreifen kann. Zu fragen ist lediglich, wann diese schrittweise Suche abgebrochen werden

soll, wobei eine intuitive Zufriedenheit mit den gewählten Regressoren durchaus als

Kriterium herangezogen werden kann.

nicht-lineare Regression

Ein Nachteil der linearen Regression ist eben gerade ihre Beschränkung auf allein lineare

Zusammenhänge zwischen Regressoren und Regressand. Häufig kann man aber feststellen,

dass in der empirischen Forschung gerade nicht-lineare Zusammenhänge von Bedeutung sind.

Es gibt einige spezielle Verfahren zur KQ- Regressionsschätzung im nicht-linearen Fall

(z.B. die Gauß-Newton-Methode als iterative Näherung), oft reicht es aber schon aus, die

Gestalt der vermuteten Regressionsfunktion durch ein geeignetes Verfahren in eine lineare

Funktion zu transformieren. Die Analysemethoden sind dann wie oben beschrieben

Beispiele

o Cobb-Douglas-Produktionsfunktion : y = e0 x 1

p

1 ...xp

ln y = 0 + 1ln(x1) +...+ pln(xp)

mit ln y = y, ln(x1) = x1, .., ln(xp) =xp

y = 0 + 1x1 +...+ pxp

o polynomiale Funktion : y = 0 + 1x + 2x2 +...+ pxp

mit x = x1, x2 = x2, ..., xp = xp

y = 0 + 1x1 + 2x2 +...+ pxp

multivariate lineare Regression

Betrachtet man mehrere (q-) Regressanden, welche untereinander korreliert sind, so stellt die

simultane Regression eine geeignete und mit weniger Aufwand verbundene Alternative zur

einfachen multiplen Regression dar.

Es werden also q- Regressanden N-mal anhand der Regressorvariablen x1...p beobachtet, so

dass für jede beobachte Komponente eine lineare Beziehung

ynj = xn′(j) = 0j + xn11j +...+ xnpjp + nj ; j = 1, ..., q und n = 1, ..., N


Multivariate Verfahren 6

gesucht wird. Des weiteren sei wieder für alle : E(nj) = 0

In Matrizenschreibweise ist nun Y = XB +

01 ... 0

q

x

11 ...

x q

1

11 ...

q

1

mit Y = ... ... ... ; X = s.o. ; B =

...

...

...

N

x

1 ...

Nq

x

p

1 ...

pq

Gemäß der KQ-Schätzung ist B =(Y′Y)-1Y′X, da für die einzelnen Spalten von

Y (d.h. y1, ..., yq) jeweils ein univariates Regressionsmodell y(j) = X(j) + (j) gilt.

Auch hier sind die weiteren Analysemethoden wie oben beschrieben.

Korrelationsanalyse

Während die Regression allgemeine Informationen zwischen Merkmalskomplexen als

Punktschätzung lieferte, beschäftigt sich die Korrelationsanalyse detaillierter mit den

Beziehungen zwischen Merkmalen. Sie kann insofern, insbesondere in Verbindung mit

anderen Verfahren, zu einer genaueren Klärung von Abhängigkeiten zwischen zwei oder

mehreren Merkmalen dienen.

Generell ist jedoch zu bemerken, dass die hier vorgestellten Analyseinstrumente jeweils nur

den linearen Zusammenhang messen.

Einfachkorrelation

Mit Hilfe der Einfachkorrelation kann die Beziehung von zwei Merkmalen x, y durch den

cov(

x

,

y

)

Korrelationskoeffizienten rxy =

ausgedrückt werden. Das

var(

x

) var(

y

)

Bestimmtheitsmaß B = r2 erklärt dann, welcher (lineare) Varianzanteil des Merkmals x

durch y erklärt wird (und umgekehrt).

Die Einfachkorrelationen kann man natürlich in der Korrelationsmatrix R ablesen, da

R = (1/n-1)Z′Z = (1/n-1) dg(S)-1/2′A′Adg(S)-1/2 = dg(S)-1/2′Sdg(S)-1/2,

was dem oben angegebenen Korrelationskoeffizienten der Form nach entspricht.

multiple Korrelation

Beobachtet man relativ viele Merkmale, so kann allein mit Hilfe des einfachen

Korrelationskoeffizienten höchstens eine punktuelle Betrachtung zwischen den Merkmalen

erreicht werden, keinesfalls aber eine klare Analyse von Abhängigkeiten.

Soll nun geprüft werden, welchen Einfluss die Merkmale y1, ..., p gemeinsam auf ein Merkmal

x haben, wird die Korrelation zwischen x und der Linearkombination 1y1 + ... + pyp

betragsmäßig maximiert.

Ausgangspunkt dafür ist eine (n p+1)-Datenmatrix X (mit p < n), aus welcher die

Korrelationsmatrix R gebildet wird. Dabei ist R vom Grundsatz aufgebaut, dass


Multivariate Verfahren 7

/

X

Y

..

Y

..

1

p

Es ist dann r

-1

x(y1, ..., p) =

xy

r

Ryy

xy

r

die Korrelation der

X

1

r

xy

Merkmale y

R =

1, ..., p und x.

Dabei können natürlich auch lediglich ausgewählte Werte

Y

..

r

R

1

xy

yy

aus y in die Korrelationsanalyse eingehen, der Teilvektor

Y

..

p

rxy und die Teilmatrix Ryy aus R werden dann entsprechend

gewählt




kanonische Korrelation

Wird nicht mehr die Korrelation zwischen einem Merkmal und einer Merkmalsgruppe

betrachtet, sondern die zwischen zwei Merkmalsgruppen X (x1, ..., p) und Y (y1, ..., q) , so spricht

man von kanonischer Korrelation.

Dabei sucht man analog der multiplen Korrelation nun die betragsmäßig größte Korrelation

zwischen allen möglichen Linearkombinationen 1x1 + ... + pxp und 1y1 + ... + qyq.

Hierbei soll gelten, dass p q und p + q < n.

Man bildet ausgehend von einer entsprechenden n m-Datenmatrix D (m = p + q) die

unverzerrte Varianz-Kovarianzmatrix der Form

/

X

..

X

..

Y

..

Y

..

und berechnet daraus die Matrix

1

p

1

q

Q = S -1

-1

x Sxy Sy Sxy′ .

X

..

1

S =

Die zueinander orthogonalen Eigenwerte von [Q] bilden

X

..

S

S

p

X

XY

zugleich Schätzwerte für die kanonische Korrelation, so

Y

..

S

1

Y

dass die maximale kanonische Korrelation gleich der

Y

..

q

Wurzel aus dem größten Eigenwert G ( rXY = G ) ist.

Ist man an den genauen Schätzvektoren für und interessiert, so ergibt sich

logischerweise als Eigenvektor zu

-1

G und = Sy Sxy′.

partielle Korrelation

Oft erhält man hohe Korrelationen zwischen zwei Merkmalen x und y allein deshalb, weil

beide mit einem dritten Merkmal u korreliert sind (Scheinkorrelation). Es wird nun versucht

die Merkmale x, y von u zu partialisieren, um so die evt. Scheinkorrelation zu beenden. Die

bereits in der Einleitung angesprochene kritische Einstellung gegenüber multivariaten

Verfahren manifestiert sich hier explizit, insbesondere bei dem gesunden Menschenverstand

unnatürlich hoch aber auch niedrig erscheinenden Korrelationen zwischen zwei Merkmalen.

Beobachtet man die Merkmale x, y und u genau n-mal, so ermittelt man jeweils die

Einfachkorrelationen rxy, rxu, ryu. Es ist dann

r

-

r r

r(x,y) | u =

xy

xu yu

.

1

(

2

-

r

1

)(

2

-

r

)

xu

yu

Beobachtet man Merkmalsgruppen X (x1, ..., p), Y (y1, ..., q) und U (u1, ..., k) genau n-mal,

wobei gelten soll, dass p + q + k < n und p q, so bildet man ausgehend von


Multivariate Verfahren 8

/

X

Y

U

/

X

Y

U

...

1

p

...

1

q

...

1

k

...

1

p

...

1

q

...

1

k

1

.

.

.

X

S

S

S

...

1

p

xx

xy

xu

D =

die Matrix S =

...

.

.

.

Y

S

S

...

1

q

yy

yu

n

.

.

.

U

S

...

1

k

uu

und weiter

S

-1

-1

-1

11 = Sxx ­ SxuSuu Sxu′ , S22 = Syy ­ SyuSuu Syu′ , S12 = Sxy ­ SxuSuu Syu′

und so Q = S -1

-1

11 S12S22 S12′.

Dann ist r((X1...p), (Y1...q) | (U1...k)) = G , d.h. die Wurzel aus dem größten Eigenwert von [Q].




Hauptkomponentenanalyse (HKA)

Betrachtet man die Merkmale z.B. hinsichtlich ihrer Einfachkorrelationen, so kann man

feststellen, dass sie oft starke Redundanz aufweisen, d.h. Informationen sind sowohl in dem

einen als auch in dem anderen Merkmal vertreten (Kollinearität). Diese Redundanz ist im

allgemeinen nicht nur wertlos, sie ist häufig auch störend, da zu viele ,,ähnliche" Merkmale

die Analyse erschweren.

Während die Variablenselektion bei der Regression ein spezielles Verfahren gegen zu starke

kollineare Mehrfachmessungen darstellt, bietet die HKA einen allgemeinen Zugang.

Ziel der HKA ist Datenreduktion (quantitativer Vorteil, z.B. zur besseren Darstellung, etwa in

Graphiken) und Datenoptimierung (qualitativer Vorteil, da Kollinearität der Merkmale

untereinander ausgeschaltet wird). Nachteil der HKA ist die schlechtere Interpretierbarkeit der

,,künstlichen" Hauptkomponenten, welche nicht mehr einzelnen Merkmalen zugeordnet

werden können.

Forderungen für die HK sind, dass sie untereinander linear unabhängig (orthogonal) sind, also

keine Kollinearität aufweisen, und die Gesamtvariation der Originalvariablen möglichst gut

wiedergeben. Damit sinnvoll von einer Gesamtvariation der Daten gesprochen werden kann

muss das Merkmal der Kommensurabilität gefordert werden, d.h. dass alle Merkmale in

derselben Einheit gemessen werden und so vergleichbare Ausdehnungen in der Varianz

haben.

Ausgangspunkt für die HKA ist deshalb die Matrix der standardisierten Beobachtungswerte Z

welche diese Forderung erfüllt. Die Mittelwerte über die einzelnen Merkmale sind jeweils

zj = 0 (j = 1, ..., m) ,

so dass die Korrelationsmatrix R auch als Varianz-Kovarianzmatrix von Z interpretiert

werden kann [ R = (1/n-1)Z′Z ­ 0′0 ]. Die Gesamtvariation von Z ist also gleich der

j zij = sp(R) = m

Zu Beginn der HKA sollte ein Test mit H0 : R = I gegen H1 : R I zum Signifikanzniveau

durchgeführt werden (unterscheidet sich R nämlich nur zufällig von der Einheitsmatrix I sind

die einzelnen Merkmale bereits unkorreliert, eine HKA wäre dann unsinnig).

Es ist im einzelnen

2emp = -[(n-1) ­ 1/6(2m + 5)] ln|R| und 2tab = 2[m(m ­ 1)/2 ; 1-]

d H0 2emp > 2tab


Multivariate Verfahren 9

Versucht wird nun, sogenannte (n 1)-Hauptkomponentenvektoren der Form yj = Zgj zu

entwickeln, wobei gj ein noch unbestimmter Gewichtsvektor ist. Da die einzelnen yj direkt aus

Z resultieren ist also auch der Mittelwert yj = 0.

Für alle k-Hauptkomponenten (k m) gilt also Y = ZG, wobei die einzelnen Vektoren yj

orthogonal sein sollen [d.h. Cov(ya, yb) = 0 ; mit a,b j], jeweils gj′gj = 1 gelten soll

(Normierung der gj) und die Varianz maximiert werden soll (s.o.).

Man ermittelt die HK durch Maximierung von

Var(yj) = (1/n-1)yj′yj = (1/n-1) gj′Z′Zgj = gj′Rgj.

Aufgrund der Nebenbedingung, dass gj′gj = 1 gelten soll, kann man die Lagrange ­ Funktion

Lj (gj, ) = gj′Rgj - ( gj′gj ­ 1) bilden.

Die partielle Ableitung nach gj ergibt nun

2 Rgj - 2gj = (R - I)gj =! 0

die charakteristische Gleichung von R, d.h. gj ist der Eigenvektor zum Eigenwert j.

Weiterhin kann gezeigt werden, dass

Var(yj) = Var (Zgj) = gj′Rgj = gj′Igj = , so dass

a > b Var(a) > Var(b) (mit a,b j).

Man erhält also insgesamt m-Eigenwerte, wobei gilt, dass

j j = sp(R) = m und j j = |R|

Alle j (j = 1, ..., m) geben also R exakt wieder und die gj-Eigenvektoren zu j sind außerdem

noch orthogonal zueinander (!).

Zu fragen ist nun noch, wie viele HK extrahiert werden sollen, da man ja primär eine

Datenreduktion erreichen möchte. Zu dieser Bestimmung gibt es mehrere Möglichkeiten, z.B.

berechnet man so viele HK, wie j > 1 existieren (da nur bei diesen die Varianz der HK

größer als die Varianz der zugrunde liegenden Originalvariablen ist) oder man beginnt mit

dem größten j und ermittelt so viele HK, bis der kumulierte Anteil an der Gesamtvariation

größer einem vorgegebenen Anteil ist.

Die Güte der k-HK ergibt sich als Kennziffer mit j j / m (j = 1, ..., k).

Die so gewonnene n k-Matrix Y = ZG kann nun wie eine Datenmatrix behandelt werden


Varianzanalyse

Im nun folgenden sollen Verfahren betrachtet werden, die im wesentlichen auf Unterschieden

zwischen beobachteten Objekten aufbauen. Im Mittelpunkt stehen jetzt also, im Gegensatz zu

den zuvor vorgestellten Verfahren, nicht mehr die Merkmale selbst, sondern deren

Merkmalsträger (Objekte). Vorausgesetzt wird dabei immer, dass die Objekte in signifikant

unterschiedliche Klassen eingeteilt werden können.

Mit Hilfe der Varianzanalyse soll geprüft werden, ob sich beobachtete Stichproben

hinsichtlich ihrer Merkmalsmittelwerte nur zufällig oder signifikant unterscheiden, ob man

also die o.g. Forderung nach Unterschieden zwischen den Objekten überhaupt aufrecht

erhalten kann.

Wie bei allen Verfahren liegt anfangs eine Datenmatrix X vor, die man nun jedoch in

K-Klassen einteilt, wobei jede Klasse k (k = 1, ..., K) genau Nk-Objekte enthält.


Multivariate Verfahren 10

Als zusätzliche Information erhält man so Aussagen über die Streuung innerhalb einer Klasse

sowie zwischen den Klassen selbst, welche für die weitere Analyse benötigt werden.

Die totale Abweichungsquadrat- und Produktmatrix von den Gesamtmerkmalsmittelwerten

(Totale-Sum of Squares and Products-Matrix) T erhält man mit

T = A′A [ = (n-1)S ],

wobei natürlich der Bezug zur Gesamtstreuung wie angegeben offensichtlich ist.

Die Inner-Klassen-SSP-Matrix Wk (d.i. die ,,Streuung" innerhalb jeder einzelnen Klasse k)

ergibt sich dann logischerweise mit

Wk = Ak′Ak ,

(d.h. man berechnet die quadrierte Abweichungsmatrix Ak für jede Klasse k = 1, ..., K

bezüglich der Klassenmerkmalsmittelwerte xk). Die Summe alle

Inner-Klassen-Abweichungen ist dann genau

W = k Wk .

Die Zwischen-Klassen-SSP-Matrix B berechnet man mit

B = k [ Nk (xk ­ x)(xk ­ x)′ ]

(d.h. man berechnet jeweils die quadrierte Abweichung der Klassenmerkmalsmittelwerte xk

zu den Gesamtmerkmalsmittelwerten x, gewichtet mit der Objektanzahl jeder Klasse k).

Als Fundamentalgleichung der Varianzanalyse gilt analog dem univariaten

Streuungszerlegungssatz, dass

T = W + B = W1 +...+ WK + B.

(,,Gesamtstreuung = summierte Streuung in den Klassen + Streuung zwischen den Klassen").

Mit Hilfe eines einfachen 2 ­ Tests prüft man nun, ob sich, wie gesagt, die Mittelwerte der

Klassen signifikant (zum Signifikanzniveau ) oder nur zufällig voneinander unterscheiden.

Die Nullhypothese lautet

H0 : µ1 =...= µK gegen H1 : H1 H0, wobei gilt

d H0 2emp > 2tab

Es ist dabei 2emp = -[N-1-1/2(m + K)] ln

mit N = Gesamtanzahl der Merkmalsträger (=k(Nk)), m = Anzahl der Merkmale

(= Anzahl der Mittelwerte), K = Anzahl der Klassen und = |W| / |T|

ist dabei die sog. Wilk′sche Prüfvariable, welcher die Vorstellung zu Grunde liegt, dass

wenn H0 gelten würde, müsste T W gelten, d.h. die Gesamtabweichung aus der (einen)

Inner-Klassen-Abweichung resultieren, und so |W| / |T| 1 sein, also ln gegen Null gehen.

Des weiteren ist

2tab das (1-)-Quantil der 2-Verteilung mit m(K-1)-Freiheitsgraden.

Hat man diesen rechtsseitigen Signifikanztest durchgeführt und muss die Nullhypothese

ablehnen, so können die nachfolgenden Verfahren sinnvoll durchgeführt werden.

Diskriminanzanalyse

Bei einer Diskriminanzanalyse ist bekannt, dass eine Grundgesamtheit X in K-Klassen zerfällt

(K2, k=1, ... K), welche sich signifikant voneinander unterscheiden und man des weiteren

(z.B. aus einer Lernstichprobe) Aussagen über Eigenschaften der einzelnen Klassen aus X

kennt. Man sucht nun Entscheidungsregeln, um neue beobachtete Vertreter

v

in eine Klasse

korrekt einordnen zu können. Man kann insofern behaupten, dass aufgrund bekannter

Merkmale des neuen Vertreters

v

eine Art Intervallschätzung auf ebenfalls bekannte

Klassenintervalle durchgeführt wird (im Gegensatz zur Punktschätzung der Regression).


Multivariate Verfahren 11

Der zentrale Zugang zur Diskriminanzanalyse erfolgt dabei über die theoretische

Wahrscheinlichkeitstheorie.

Wird angenommen, dass ein Objekt Element eines Wahrscheinlichkeitsraumes k

( k = 1, ..., K) genau mit der Wahrscheinlichkeit p(k) unter der Verteilungsannahme f(x | k)

ist, können Aussagen über die Klassenzugehörigkeit unbekannter Objekte getroffen werden.

Dabei ist p(x) und f(x | k) meist unbekannt und muss deshalb aus einer Lernstichprobe

geschätzt werden.

Die a-priori-Wahrscheinlichkeit der Klassenzugehörigkeit ist die totale Wahrscheinlichkeit

f(x) = k p(k) f(x | k).

Die a-posteriori-Wahrscheinlichkeit, in eine Klasse zu gehören, ergibt sich mit der

Formel von Bayes als

p(k | x) = p(k) f(x | k) / f(x).

Als Entscheidungsregel gilt nun allgemein, dass man für ein neues Objekt

v

jeweils

p(

v

| x)

v

k

bildet und

v

der Klasse k zuordnet, bei der p(

v

| x) maximal ist.

Dieser Zugang ist so jedoch praktisch häufig nicht ohne weiteres intuitiv durchführbar, so

dass sich in der Literatur zwei spezielle Hauptansätze gebildet haben.

Der Erste arbeitet unter der Annahme, dass die Objekte innerhalb einer Klasse normalverteilt

sind, d.h. f(x | k) NV (µk , k) [vgl. 2- Anpassungstest]

Durch Umformungen der allgemeinen Regel kann man zeigen, dass nun einfach zwischen

dem Beobachtungsvektor

v

und den Mittelwertvektoren der einzelnen Klassen k jeweils die

quadrierte Mahalanobis-Distanz gebildet werden muss, also

dk(

v

) = (

v

­ xk)′S-1(

v

­ xk) für alle k = 1, ..., K.

v

wird dann zu der Klasse zugeordnet, bei der dk(

v

) minimal ist.

Speziell gilt im 2-Klassen-Fall :

d(

v

) = (

v

­ ½(x1 + x2))′S-1(x1-x2) und

v

Klasse 1 d(

v

) > 0.

Der zweite Hauptansatz nach R.A.Fisher hat den Vorteil, dass er verteilungsfrei und

heuristisch arbeitet. Die Idee dabei ist, dass das mehrdimensionale Zuordnungsproblem

zunächst auf ein eindimensionales reduziert werden soll, um so vereinfachte

Zuordnungsaussagen treffen zu können.

Sind x Beobachtungsvektoren aus einer bekannten Lernstichprobe (bei der man die

Klassenzugehörigkeit kennt) mit m-Merkmalsvariablen, so soll als Linearkombination

y = a′x mit a = (a1, ..., m)′

gelten, wobei a so zu wählen sein soll, dass die zerlegten x-Werte durch die eindimensionalen

y-Werte ,,möglichst gut" wiedergegeben werden.

Für den 2-Klassen-Fall sind

y

2

u = a′xu , su = n (yun ­ yu)2 für u = 1, 2

jeweils die Mittelwerte und die Inner-Klassen-Abweichungen der y in der Klasse

Dann soll a, um die Zerlegung ,,möglichst gut" (s.o) zu gewährleisten, so gewählt werden,

2

(

y

-

y

)

dass Q(a) = 1

2

maximiert wird.

2

2

1

s

+

s

2

Die Zerlegungsgüte ist also bestimmt durch den Abstand der y-Mittelwerte relativ zur

Gesamtsumme der internen quadrierten Abweichungen, d.h. entweder liegen die bereits einer

der beiden Klassen zugeordneten eindimensionalen Punkte in ihren Mittelwerten sehr weit


Multivariate Verfahren 12

auseinander oder aber ihre jeweilige Klassenstreuung ist sehr gering (hohe Homogenität). Das

Q(a) ein Maß für die Güte von a darstellt, ist daher offensichtlich.

Es ist nun s 2

2

1 + s2 = a′Wa, da zusätzlich auch noch eine Normierung mit a′a = 1 gelten soll,

so dass eingesetzt

(

a

x

a

x

)2

Q(a) =

1 -

2

bzgl. a maximiert werden soll.

a

Wa

Gemäß der Quotientenregel ist daher die erste Ableitung von Q(a) gleich

Q′(a) = [2(x1 ­ x2)a′Wa ­ 2Wa(a′x1 ­ a′x2)] / (a′Wa)2 =! 0

a = W-1(x1 ­ x2) .

Der Rest stellt dabei lediglich einen Proportionalitätsfaktor dar, welcher die Richtung von a

nicht beeinflusst.

Als Klassifikationsregel für neue Objekte

v

gilt nun, dass man y = a′

v

bildet und

v

der

Klasse 1 zuordnet, wenn y näher an y1 liegt als an y2.

Für den Mehr-Klassen-Fall ist die Herangehensweise ähnlich, nur dass jetzt

(bereits umgeformt)

Q(a) = a′Ba / a′Wa

maximiert werden soll. Entweder ist also die Streuung zwischen den Klassen (B) sehr groß

(hohe Heterogenität) oder die einzelnen Klassen in sich eben wieder sehr zentriert. Weiterhin

gilt natürlich, dass a′a = 1 ist.

Leitet man nun nach a ab, so ergibt sich

W-1Ba = a.

Insofern ist der Richtungsvektor a jetzt genau ein Eigenvektor von W-1B zum Eigenwert ,

wobei es ob der Maximierung von Q(a) sinnvoll ist, den Vektor a zum größten Eigenwert G

zu bilden. (Grund : yk = ak′x stellen kanonische Variablen dar.)

Als Entscheidungsregel gilt nun, dass man jeweils

[a′(

v

- xk)]2 ; k = 1, ..., K

bildet und

v

der Klasse k zuordnet, bei der dieser Term minimal wird.

Clusteranalyse

Aufgabe der Clusteranalyse ist es, aus einer Stichprobe ohne bekannte Klassenzuordnung, den

Versuch zu unternehmen, eben solche Klassen zu erarbeiten.

Vorgabe ist dabei immer, dass sich die Objekte innerhalb einer Klasse möglichst ähnlich

(homogen) und zwischen den Klassen möglichst unähnlich (heterogen) sein sollen, oder

äquivalent, dass bei bekannter Gesamtstreuung T (aus den einzelnen Objekten der Stichprobe)

die Klasseneinteilung so erfolgt, dass W minimal (und so B maximal) ist.

Da es im Rahmen einer Clusteranalyse sehr viele Verfahren gibt, bedarf es anfangs dreier

Festlegungen, nämlich die des Konstruktionsverfahrens (hierarchisch, nicht-hierarchisch), des

Homogenitäts- und des Heterogenitätsmaßes.

Wichtig sind hier insbesondere Distanzmaße, da sie, wie bereits festgestellt, Aussagen über

die Ähnlichkeit oder Unähnlichkeit von Objekten erlauben. Je kleiner die Abstände innerhalb

einer (neu geschaffenen) Klasse sind, desto kleiner ist die Inner-Klassen-SSP W, je größer die

Distanzen zwischen den einzelnen Klassen, desto größer ist natürlich B. Gebräuchlich sind

vor allem die euklidische- und die Mahalanobis-Distanz.


Multivariate Verfahren 13

Zuerst möchte ich die hierarchischen Verfahren erläutern, wobei allerdings nur die

agglomerativen Verfahren(im Gegensatz zu den divisiven) näher betrachtet werden sollen.

Diese verlaufen skizziert wie folgt :

a. am Anfang bildet jedes der n-Objekte seine eigene Klasse k

b. ausgehend von der Datenmatrix X wird die n n-Distanzmatrix D gebildet

c. man fasst die beiden Objekte p und q mit der geringsten Distanz dpq zu einer neuen

Klasse zusammen, da diese sich offensichtlich am ähnlichsten sind

d. von dieser neuen Klasse bestimmt sich die Distanz zu den anderen Klassen als

Single-Linkage (Nearest Neighbour) = min(dpi, dqi)

Complete-Linkage (Furthest Neighbour) = max(dpi, dqi)

Average-Linkage = ½(dpi + dqi)

wobei i p,q

diese Unterscheidung bestimmt wesentlich das Heterogenitätsmaß, wobei die

Klassen dadurch tendenziell zusammengestaucht (Single-Linkage) oder

ausgeweitet (Complete-Linkage) werden

e. man erhält also eine neue (n-1) (n-1)-Distanzmatrix D*

f. ausgehend von dieser werden die Schritte c-e solange wiederholt, bis alle Objekte

in einer Klasse versammelt sind (insgesamt erhält man so 2n-1 Klassen)

g. dargestellt wird die so gewonnene Hierarchie in einem Dendogramm, welches die

Fusionen in Abhängigkeit zur Distanz darstellt

Agglomerative Verfahren haben den Vorteil, dass sie relativ einfach durchgeführt werden

können und, gerade bei der Betrachtung des Dendogramms, sehr intuitive

Grobklassifizierungen erlauben. Man erhält also keine vorgegebene Anzahl von Klassen,

sondern Aussagen über Fusionen bzw. Aufspaltungen von zwei Objekten / Unterklassen in

bezug auf ein bestimmtes Ähnlichkeitsniveau (Distanz) - eben eine hierarchische Anordnung.

Es ist offensichtlich, dass die Anwendung unterschiedlicher Homogenitäts- oder

Heterogenitätsmaße durchaus zu unterschiedlichen Ergebnissen führen kann. Um hier nicht

den Eindruck der Beliebigkeit von hierarchischen Verfahren zu hinterlassen, sei erwähnt, dass

man eventuell mehrere, jeweils genau nach Typ dokumentierte, Analysen durchführen kann

und deren (unterschiedliche) Ergebnisse zusammenfasst. Vorstellbar ist zum Beispiel die

Bildung von ,,Kernklassen", also solchen, die Objekte enthalten, welche sich bei jeder

Analyse sehr ähnlich waren.

Divisive Verfahren gehen genau den umgekehrten Weg zu agglomerativen, d.h. sie vereinigen

anfangs alle Objekte in einer Kasse und spalten diese dann auf. Da divisive Verfahren sehr

rechenaufwändig sind und zu weniger guten Ergebnissen führen, bleiben sie hier nur am

Rande erwähnt.

Zu den nicht-hierarchische Verfahren ergibt sich folgende skizzierte Durchführung:

a. man teilt die n-Objekte in eine Anfangspartition mit K n/2 ­ Klassen

(evt. nach erfolgter hierarchischer Clusterung oder intuitiv) ; dieser Wert stellt eine

grobe Approximation für eine ,,sinnvolle" Klassenanzahl dar

b. nun wird für jedes Objekt i (i = 1, ..., n) die Distanz zu allen Klassenmittelwerten

xk (k = 1, ..., K) bestimmt

c. man ordnet die Objekte jeweils der Klasse zu, mit der sie den geringsten Abstand

haben und berechnet die so entstandenen neuen Klassenmittelwerte und Distanzen

d. können keine sinnvollen Umgruppierungen mehr vorgenommen werden ist die

iterativ beste Partition erreicht ; dabei ist diese ,,beste" Partition natürlich abhängig

von der Anfangspartition, aufgrund der direkten Wirkung auf die anfänglichen

Klassenmittelwerte und die daraus folgenden Distanzen zu den Objekten


Multivariate Verfahren 14

Insbesondere der letzte Punkt offenbart, dass es auch bei den nicht-hierarchischen Verfahren

zu verschiedenen Ergebnissen kommen kann, so dass oben getroffene Aussagen zu

Mehrfachanalysen mit unterschiedlichen Startpartitionen ebenso zutreffen.

Führt man beide Verfahren zusammenhängend und ggf. mit Variationen durch, kann man

sagen, dass (immer unter der Prämisse, dass es ,,natürliche" Klassen gibt, in die sich die

Objekte einteilen lassen) die Clusteranalyse solche Klassenzuordnungen hinreichend gut

aufdecken wird.

Abschließend kann man noch ein einfaches Gütekriterium der Analyse mit Hilfe der

Aussagen über Varianzen wie folgt bestimmen :

Aus der Aussage, dass

T = W + B bzw. analog sp(T) = sp(W) + sp(B)

gilt, folgt bezüglich der Zielidee der Clusteranalyse, dass es positiv ist, wenn die Spur der

Inner-Klassen-SSP-Matrix W minimal (Homogenität) und so die Spur der Zwischen-Klassen-

SSP-Matrix B maximal (Heterogenität) ist (s.o.).

Im Idealfall ist also sp(T) = sp(B) und somit sp(W) = 0, so dass allgemein das Verhältnis

sp(B)/sp(T)

eine Güteinformation darstellt.

Skalierung

Dieser letzte Abschnitt soll noch einen kurzen Ausblick darauf geben, welche Probleme (und

Lösungsansätze) mit dem zentralen Mittel der multivariaten Analyse, nämlich den Daten

selbst, auftreten können.

Grundsätzlich kann man kardinale (Proportionen und Abstände direkt messbar, z.B.

Körpergröße), ordinale (lediglich Rangordnung erkennbar, z.B. Schulnoten) und nominale

(nur einfache Klasseneinteilung, z.B. Nationalitätenzugehörigkeit) Merkmale unterscheiden.

Es ist offensichtlich, dass allein kardinale Daten für die multivariate Analyse direkt nutzbar

sind, andernfalls muss unter möglichst geringen Informationsverlusten skaliert werden.

Treten kardinale Daten auf und misst man diese innerhalb einer Datenmatrix alle mit gleicher

Einheit, so können diese Daten direkt für die Analyse genutzt werden, auch wenn ungleiche

Bedingungen vorliegen (z.B. Unternehmensdaten von Unternehmen verschiedener Größen).

Werden jedoch in einer Datenmatrix Merkmale in unterschiedlichen Einheiten gemessen (z.B.

Umsatz, Mitarbeiteranzahl, Summe der ausgefallenen Stunden durch Krankheit etc.), so ist es

sinnvoll, die Matrix der standardisierten Beobachtungswerte Z zur Analyse zu nutzen, da

diese dimensionslos ist ( Mittelwerte jeweils = 0, Varianz = 1) und so Verzerrungen durch

die unterschiedlichen Einheiten ausschließt.

Eine Retransformation der z-Werte in die Originaldaten ergibt sich mit

xij = zij Varianz(xj) + xj .

Bei ordinalen Daten (mit

j

Ausprägungen) ist eine (sehr grobe) Möglichkeit der Skalierung,

ggf. nach einer Lernstichprobe zu entscheiden, ob das Merkmal NV(µ, )- oder

Uniform-verteilt ist (z.B. durch 2-Anpassungstest).

Alsdann teilt man die zugehörige Verteilungsfunktion in die

j

möglichen Klassen ein, so dass

die Fläche unter der Funktion gleich der Wahrscheinlichkeit 1/j ist und xa < xb für a < b gilt

(a,b j).

Man erhält somit j Klassen mit einer Untergrenze xu und einer Obergrenze xo , so dass der

skalierte Klassenwert c sich dann mit

c = xu + (xo-xu / 2) ergibt.


Multivariate Verfahren 15

Intention insbesondere der Normalverteilungsannahme ist es, dass sich Ausprägungen in der

Mitte ähnlicher sind (und deshalb näher in bezug auf den skalierten Wert c zusammenliegen)

als zu den Randextremen, so dass man auf diesem Wege zu hinreichend gut skalierten Daten

kommt.

Auch hier ist es dann sinnvoll die Matrix Z zur weiteren Analyse zu nutzen

Mit nominalen Daten hat man das Problem, dass man Ähnlichkeiten oder Unterschiede direkt

nicht feststellen kann, so dass nominale Merkmale in sich nicht skaliert werden können.

Versucht wird oft, das nominale gegen ein relevantes kardinales Merkmal zu skalieren, so

dass die Korrelation zwischen beiden maximal wird - hier sei aber allgemein auf Fachliteratur

zu diesem speziellen Thema verwiesen.

Literatur

-

Marinell, G

. ; Multivariate Verfahren ; Oldenbourg 1998

-

Hartung, J. , Elpelt, B

. ; Multivariate Statistik ; Oldenbourg 1989

-

Fahrmeir, L. et al

. ; Multivariate statistische Verfahren ; de Gruyter 1984

-

Rinne, H

. ; Statistische Analyse multivariater Daten ; Oldenbourg 2000


Kommentare

Dieser Text kann über folgende URL aufgerufen und zitiert werden:

http://www.grin.com/e-book/106334/