Bitte warten
Bitte installieren Sie den Flash Player, wenn kein E-Book erscheint.
Hausarbeit, 2002, 16 Seiten
Autor: Tobias Laske
Fach: Statistik
Details
Tags: Multivariate, Verfahren
Jahr: 2002
Seiten: 16
Note: 1,0
Sprache: Deutsch
ISBN (E-Book): 978-3-640-04613-3
Dateigröße: 310 KB
Es werden die Regressions-, Korrelations-, Hauptkomponenten-, Varianz-, Diskriminanz und Clusteranalyse prägnant dargestellt.
Andere Nutzer haben sich auch für folgende Titel interessiert:
Volltext (computergeneriert)
HAUSARBEIT
Thema : Überblick über multivariate Verfahren
Einleitung
Multivariate Verfahren besitzen eine große Relevanz auf vielen Anwendungsgebieten, sei es
in Wirtschaft, Soziologie, Biologie o.ä..
Gemeinsamkeit aller Anwendungsgebiete ist es, dass man es mit umfangreichen und
komplexen Datensätzen zu tun hat, welche unaufbereitet aufgrund dieser Tatsache eine
präzise Bearbeitung oft unmöglich machen.
Ziel jeder multivariaten Analyse ist es nun, eben diese Daten qualitativ und quantitativ
aufzubereiten, um so Informationen zur Entscheidungshilfe zu generieren oder komplexe
Sachverhalte zu veranschaulichen.
Als Nachteil von multivariaten Verfahren kann allgemein ihre enorme Vielfalt angegeben
werden, welche exzessiv betrieben leicht zu mehrdeutigen oder sogar widersprüchlichen
Aussagen führen können und so den beabsichtigten Informationsgewinn genau ins Gegenteil
verkehren. Des weiteren sind viele Verfahren auch mit modernster Computer- und
Rechnertechnologie noch sehr aufwändig, weil insbesondere die Vorbereitung der Analysen
mit sehr viel Sorgfalt betrieben werden muss. Dieser Punkt ist meiner Meinung nach zentral,
denn nur wenn man weiß, was man eigentlich analysieren will und welche Daten dafür
(zumindest theoretisch) relevant sein können, kann man zu einem befriedigenden Ergebnis
kommen. Hält man diesen Grundsatz (,,Erst denken, dann analysieren") nicht ein, kann es
leicht zu verzerrten Ergebnissen kommen und theoretisch alles ,,beweisen", was man gerne
möchte. Eine jederzeit kritische Betrachtung von multivariaten Analyseergebnissen erscheint
aus diesem Grund sinnvoll.
In der nachfolgenden Hausarbeit sollen die wichtigsten Standardverfahren der multivariaten
Analyse auf knappen Raum vorgestellt werden. Dabei gehe ich zuerst auf die Datenmatrix
und deren Maßzahlen ein, welche von zentraler Bedeutung sind und am Anfang jeder Analyse
stehen. Danach beschäftige ich mich mit den Verfahren, die primär Zusammenhänge
zwischen einzelnen Merkmalen oder Datenobjekten untersuchen (Regressions-, Korrelations-
und Hauptkomponentenanalyse) und ,,last but not least" mit jenen, die hauptsächlich
Unterschiede betrachten (Varianz, Diskriminanz- und Clusteranalyse).
Die Datenmatrix und deren Maßzahlen
1.) Datenmatrix X
- man erzeugt eine Matrix mit
m
beobachteten Merkmalen und
n
Merkmalsträgern
(d.h. eine n m- Matrix)
i
y
x
11
. x
1j
. x
1m
. .
. .
.
i
y
X = k
x
i1
. x
ij
. x
im
Schüler1
. .
. .
. {
X = k
7
9
10
8
4
3
1
2 {
> Schüler 2
x
n1
. x
nj
. x
nm
1
1
1
4
Schüler3
H
L
NW Lit Konz Log
2.) Mittelwertvektor x (bzgl. der
m
Merkmale X1 bis Xm)
Multivariate Verfahren 2
iy
iyi
y
4
Naturwissenschaft
13 3
Literatur
x
x
=
= k
x
1
. {
k4{
= kKonzentration {
x
m
14 3
Logik
mit xj = 1/n i xij oder x = 1/n(1n′X)
3.) (Varianz-)Kovarianzmatrix S
- gibt entlang ihrer Hauptdiagonale die Varianzen und abseits derselben die
Kovarianzen der einzelnen Merkmale X1 bis Xm an ; sie ist quadratisch und
symmetrisch ( d.h. man erhält eine m m-Matrix)
H
L
NW
Lit
Konz Log
eine erwartungstreue Schätzung für
i
y
iy
9
12
13.5
6
NW
12 17.33 21 10.67
Lit
S = ((1/n-1)X′ X) x x′ [= (1/n-1) T] ;
S =
k
13.5
21
27
15 {
k
Konz{
6
10.67 15
9.33
Log
daher ist die Varianzmatrix = dg(S)
und so die Standardabweichungsmatrix = dg (S)1/2
H
L i
y
3
0
0
0
0 4.163
0
0
dg S 1 2 =
k
0
0
5.196
0 {
0
0
0
3.055
4.) Abweichungsmatrix A
- es wird für jede Komponente der Datenmatrix X die absolute Abweichung vom
Mittelwert bestimmt, d.h. es ist jeweils aij = xij - xj oder A = X 1n x′ (
Anmerkung : summiert man in A eine Spalte über die Zeilen, so ergibt sich 0 )
5.) Matrix der standardisierten Beobachtungswerte Z
- ergibt sich mit Z = Adg(S)-1/2 ,
i
y
Z =
wobei zij = (xij xj)/ sj
k
1
1.121
1.154
1.091
0 -0.320 -0.577 -0.873{
-1 -0.801 -0.577 -0.218
6.)Korrelationsmatrix R
- gibt die Korrelation zwischen den einzelnen Merkmalen an, d.h. man erhält eine
quadratische und symmetrische m m-Matrix
R = (1/n-1) Z′ Z
i
y
1
.961 .865 .654
.961
1
.970 .838
R = k
.865 .970
1
.944 {
.654 .838 .944
1
7.) Distanzmaße
- Verfahren, welche primär Beziehungen zwischen Elementen untersuchen,
benötigen ein Distanzmaß, um Unterschiede oder Ähnlichkeiten festzustellen
- man misst Distanzen zwischen den n Merkmalsträgern bzgl. ihrer m Merkmale
und stellt diese dann in einer symmetrischen n n-Distanzmatrix D dar
- dabei gelten folgende Bedingungen :
dik 0 ; dik = dki ; dii = 0 für i, k = 1,...,n ,
sowie die Beziehung : höhere Unähnlichkeit = größere Distanz
Multivariate Verfahren 3
a )
- allgemein bestimmt man die Distanz mit den sog. Lr -Normen, bzw. mit der
Mahalanobis-Distanz (durch Varianzen und Kovarianzen gewichtete euklidische
Norm)
Lr = [ jxij xkj r ]1/r für i, k = 1,...,n
L2-Norm (euklidische Distanz): dik = jxij - xkj2
L1-Norm (City-Block-Distanz): dik = j xij - xkj
L-Norm (Tschebyscheff-Distanz): dik = max xij - xkj
Mahalanobis-Distanz
d
1
-
ik =
(x(i.) x
-
)′
(k.) S
(x(i.) x
-
)
(k.) für i, k = 1,...,n
b ) Beispiele
i y i
y i y i
y
L
1
= k
0 24 27
24 0 7 {L
2
=k
0
12.7 14.0
12.7
0
4.1 { L
unendl
=k
0 9 9
9 0 3{M-D=k
0
2.00 2.00
2.00
0
2.01 {
27 7 0
14.0 4.1
0
9 3 0
2.00 2.01
0
aus : Rinne, S.18
Regressionsanalyse
Die Regressionsanalyse stellt die wohl klassischste Anwendung für Verfahren dar, welche
Zusammenhänge betrachten.
multiple lineare Regression
Ziel der multiplen linearen Regression ist es, eine lineare Beziehung der Form
Multivariate Verfahren 4
y = 0 + 1x1 + ... + pxp +
zu finden, wobei y die abhängige Variable (Regressand) ist und x1...p die unabhängigen
Variablen (Regressoren), um so bei bekannten Regressoren x1...p
(z.B. aus einer Lernstichprobe) eine Punktschätzung für y zu geben.
ist dabei eine nicht messbare Fehlervariable mit E() = 0 und unbekannter Varianz.
Durch empirische Betrachtung von p Regressorvariablen an N Regressanden (wobei N > p+1)
erhält man N Normalengleichungen der Form
yn = 0 + 1xn1 + ... + pxnp + n.
In Matrizenschreibweise sei nun
y
1
1
x
11 ...
x
1
p
0
y
2
1
x
21 ...
x
2
p
1
y = , X =
und =
, so dass gilt y = X + .
...
... ... ...
...
...
N
y
1
N
x
1 ...
Np
x
p
Die erste Spalte von Y besteht deshalb aus dem 1N-Vektor, um so später 0 generieren zu
können.
Gemäß der Methode der kleinsten Quadrate soll ein Schätzer für so bestimmt werden, dass
die Fehlervariable minimal wird.
Es soll also die (n)2 = ′ minimiert werden.
Dabei ist = y X, so dass
′ = (y X)′(y X) = y′y - 2′X′y + ′X′X .
Leitet man nun nach ab, erhält man 2 X′y + 2 X′X.
Damit ein Minimum vorliegt, muss die erste Ableitung =! 0 gelten, also
2 X′y + 2 X′X =! 0 (X′X) = X′y und so = (X′X)-1 X′y.
Bildet man die zweite Ableitung, so kann man zeigen , dass diese stets positiv definit ist, also
tatsächlich ein Minimum vorliegt, sofern die Regressorenmatrix Y vollen Rang hat. Deshalb
muss N p+1 sein, damit die maximale Zeilenanzahl zumindest gleich der maximalen
Spaltenanzahl ist.
Man erhält nach dem Lösen der Matrizengleichung = (X′X)-1 X′y
den Lösungsvektor und kann damit Schätzwerte für y ausrechnen, mit y = X.
Es kann auch gezeigt werden, dass nicht nur der beste KQ-Schätzer ist, sondern auch
hinsichtlich seines Erwartungswertes unverzerrt und in seiner Varianz minimal ist, also die
Eigenschaften eines ,,best linear unbiased estimators" (BLUE) erfüllt.
Ex post kann man nun den realisierten Schätzfehler e aus der empirischen Stichprobe mit
e = (e1, ... , eN)′ = y - y bestimmen und daraus die sog. Residuenquadratsumme
Qe = (en)2 = e′e ermitteln.
Diesen Wert kann man als Gütemaß für die Qualität der Regression verwenden.
Es ist gemäß des Streuungszerlegungssatzes der Regression die Gesamtstreuung G gleich der
Summe der unerklärten Streuung U und der erklärten Streuung E, also
(y-y)2 = (y-y)2 + (y-y)2 oder G = U + E = Qe + E.
Dabei ist U minimal (s.o.) und E genau der Streuungsanteil, welcher durch die
Regressionsfunktion erklärt wird. Insofern gilt das Bestimmtheitsmaß
Q
R2 = E/G = (G Q
e
e)/G = 1-
, 0 R2 1 .
(
y
-
y
)′(
y
-
y
)
Multivariate Verfahren 5
Qe
Ein Schätzer für die Varianz der Regressionsfunktion ist 2 =
, damit dieser
N
-
p
- 1
gewährleistet ist, sollte N > p+1 gelten.
Im Allgemeinen wird es so sein, dass man versucht, für eine Regressionsanalyse möglichst
viele Regressoren zu erheben, um alle wesentlichen beeinflussenden Merkmale zu betrachten.
Dennoch ist es oft sinnvoll, nach erfolgter Regression nur einige der Regressoren zu
selektieren, um so Unwirtschaftlichkeit oder Unhandlichkeit (z.B. bei graphischer
Darstellung) zu vermeiden. Des weiteren kann man feststellen, dass bei erhöhter
Regressorvariablenanzahl p die Residuenquadratsumme Qe zwar abnimmt, die Varianz der
Regressionsfunktion jedoch zunimmt.
Eine Möglichkeit der Selektion ist die vollständige Suche nach der besten Regressorvariation,
bei der alle 2p Möglichkeiten, die 1...p anzuordnen (0 ist immer enthalten), betrachtet werden.
Für jeden Ansatz wird dann x, Qe und 2 berechnet.
Bei gleicher Regressorenanzahl I = J ist I besser als J Qe(I) < Qe(J).
Bei unterschiedlicher Anzahl I J ist I besser als J 2(I) < 2(J) und Qe(I) Qe(J).
Eine andere Herangehensweise ist die der schrittweisen Suche, bei der mit der
Regressionsfunktion y = X0 gestartet wird und dann y und Qe berechnet werden. Nun werden
alle Regressoren 1...p einzeln hinzugefügt und wiederum y und Qe berechnet. Man nimmt
dann den Regressor in die Funktion auf, bei dem Qe am stärksten abnimmt. Diese Variante hat
den Vorteil, dass sie sehr leicht nachzuvollziehen ist und man gegebenenfalls steuernd
eingreifen kann. Zu fragen ist lediglich, wann diese schrittweise Suche abgebrochen werden
soll, wobei eine intuitive Zufriedenheit mit den gewählten Regressoren durchaus als
Kriterium herangezogen werden kann.
nicht-lineare Regression
Ein Nachteil der linearen Regression ist eben gerade ihre Beschränkung auf allein lineare
Zusammenhänge zwischen Regressoren und Regressand. Häufig kann man aber feststellen,
dass in der empirischen Forschung gerade nicht-lineare Zusammenhänge von Bedeutung sind.
Es gibt einige spezielle Verfahren zur KQ- Regressionsschätzung im nicht-linearen Fall
(z.B. die Gauß-Newton-Methode als iterative Näherung), oft reicht es aber schon aus, die
Gestalt der vermuteten Regressionsfunktion durch ein geeignetes Verfahren in eine lineare
Funktion zu transformieren. Die Analysemethoden sind dann wie oben beschrieben
Beispiele
o Cobb-Douglas-Produktionsfunktion : y = e0 x 1
p
1 ...xp
ln y = 0 + 1ln(x1) +...+ pln(xp)
mit ln y = y, ln(x1) = x1, .., ln(xp) =xp
y = 0 + 1x1 +...+ pxp
o polynomiale Funktion : y = 0 + 1x + 2x2 +...+ pxp
mit x = x1, x2 = x2, ..., xp = xp
y = 0 + 1x1 + 2x2 +...+ pxp
multivariate lineare Regression
Betrachtet man mehrere (q-) Regressanden, welche untereinander korreliert sind, so stellt die
simultane Regression eine geeignete und mit weniger Aufwand verbundene Alternative zur
einfachen multiplen Regression dar.
Es werden also q- Regressanden N-mal anhand der Regressorvariablen x1...p beobachtet, so
dass für jede beobachte Komponente eine lineare Beziehung
ynj = xn′(j) = 0j + xn11j +...+ xnpjp + nj ; j = 1, ..., q und n = 1, ..., N
Multivariate Verfahren 6
gesucht wird. Des weiteren sei wieder für alle : E(nj) = 0
In Matrizenschreibweise ist nun Y = XB +
01 ... 0
q
x
11 ...
x q
1
11 ...
q
1
mit Y = ... ... ... ; X = s.o. ; B =
...
...
...
N
x
1 ...
Nq
x
p
1 ...
pq
Gemäß der KQ-Schätzung ist B =(Y′Y)-1Y′X, da für die einzelnen Spalten von
Y (d.h. y1, ..., yq) jeweils ein univariates Regressionsmodell y(j) = X(j) + (j) gilt.
Auch hier sind die weiteren Analysemethoden wie oben beschrieben.
Korrelationsanalyse
Während die Regression allgemeine Informationen zwischen Merkmalskomplexen als
Punktschätzung lieferte, beschäftigt sich die Korrelationsanalyse detaillierter mit den
Beziehungen zwischen Merkmalen. Sie kann insofern, insbesondere in Verbindung mit
anderen Verfahren, zu einer genaueren Klärung von Abhängigkeiten zwischen zwei oder
mehreren Merkmalen dienen.
Generell ist jedoch zu bemerken, dass die hier vorgestellten Analyseinstrumente jeweils nur
den linearen Zusammenhang messen.
Einfachkorrelation
Mit Hilfe der Einfachkorrelation kann die Beziehung von zwei Merkmalen x, y durch den
cov(
x
,
y
)
Korrelationskoeffizienten rxy =
ausgedrückt werden. Das
var(
x
) var(
y
)
Bestimmtheitsmaß B = r2 erklärt dann, welcher (lineare) Varianzanteil des Merkmals x
durch y erklärt wird (und umgekehrt).
Die Einfachkorrelationen kann man natürlich in der Korrelationsmatrix R ablesen, da
R = (1/n-1)Z′Z = (1/n-1) dg(S)-1/2′A′Adg(S)-1/2 = dg(S)-1/2′Sdg(S)-1/2,
was dem oben angegebenen Korrelationskoeffizienten der Form nach entspricht.
multiple Korrelation
Beobachtet man relativ viele Merkmale, so kann allein mit Hilfe des einfachen
Korrelationskoeffizienten höchstens eine punktuelle Betrachtung zwischen den Merkmalen
erreicht werden, keinesfalls aber eine klare Analyse von Abhängigkeiten.
Soll nun geprüft werden, welchen Einfluss die Merkmale y1, ..., p gemeinsam auf ein Merkmal
x haben, wird die Korrelation zwischen x und der Linearkombination 1y1 + ... + pyp
betragsmäßig maximiert.
Ausgangspunkt dafür ist eine (n p+1)-Datenmatrix X (mit p < n), aus welcher die
Korrelationsmatrix R gebildet wird. Dabei ist R vom Grundsatz aufgebaut, dass
Multivariate Verfahren 7
/
X
Y
..
Y
..
1
p
Es ist dann r
-1
x(y1, ..., p) =
xy
r
′
Ryy
xy
r
die Korrelation der
X
1
r
′
xy
Merkmale y
R =
1, ..., p und x.
Dabei können natürlich auch lediglich ausgewählte Werte
Y
..
r
R
1
xy
yy
aus y in die Korrelationsanalyse eingehen, der Teilvektor
Y
..
p
rxy und die Teilmatrix Ryy aus R werden dann entsprechend
gewählt
kanonische Korrelation
Wird nicht mehr die Korrelation zwischen einem Merkmal und einer Merkmalsgruppe
betrachtet, sondern die zwischen zwei Merkmalsgruppen X (x1, ..., p) und Y (y1, ..., q) , so spricht
man von kanonischer Korrelation.
Dabei sucht man analog der multiplen Korrelation nun die betragsmäßig größte Korrelation
zwischen allen möglichen Linearkombinationen 1x1 + ... + pxp und 1y1 + ... + qyq.
Hierbei soll gelten, dass p q und p + q < n.
Man bildet ausgehend von einer entsprechenden n m-Datenmatrix D (m = p + q) die
unverzerrte Varianz-Kovarianzmatrix der Form
/
X
..
X
..
Y
..
Y
..
und berechnet daraus die Matrix
1
p
1
q
Q = S -1
-1
x Sxy Sy Sxy′ .
X
..
1
S =
Die zueinander orthogonalen Eigenwerte von [Q] bilden
X
..
S
S
p
X
XY
zugleich Schätzwerte für die kanonische Korrelation, so
Y
..
S
1
Y
dass die maximale kanonische Korrelation gleich der
Y
..
q
Wurzel aus dem größten Eigenwert G ( rXY = G ) ist.
Ist man an den genauen Schätzvektoren für und interessiert, so ergibt sich
logischerweise als Eigenvektor zu
-1
G und = Sy Sxy′.
partielle Korrelation
Oft erhält man hohe Korrelationen zwischen zwei Merkmalen x und y allein deshalb, weil
beide mit einem dritten Merkmal u korreliert sind (Scheinkorrelation). Es wird nun versucht
die Merkmale x, y von u zu partialisieren, um so die evt. Scheinkorrelation zu beenden. Die
bereits in der Einleitung angesprochene kritische Einstellung gegenüber multivariaten
Verfahren manifestiert sich hier explizit, insbesondere bei dem gesunden Menschenverstand
unnatürlich hoch aber auch niedrig erscheinenden Korrelationen zwischen zwei Merkmalen.
Beobachtet man die Merkmale x, y und u genau n-mal, so ermittelt man jeweils die
Einfachkorrelationen rxy, rxu, ryu. Es ist dann
r
-
r r
r(x,y) | u =
xy
xu yu
.
1
(
2
-
r
1
)(
2
-
r
)
xu
yu
Beobachtet man Merkmalsgruppen X (x1, ..., p), Y (y1, ..., q) und U (u1, ..., k) genau n-mal,
wobei gelten soll, dass p + q + k < n und p q, so bildet man ausgehend von
Multivariate Verfahren 8
/
X
Y
U
/
X
Y
U
...
1
p
...
1
q
...
1
k
...
1
p
...
1
q
...
1
k
1
.
.
.
X
S
S
S
...
1
p
xx
xy
xu
D =
die Matrix S =
...
.
.
.
Y
S
S
...
1
q
yy
yu
n
.
.
.
U
S
...
1
k
uu
und weiter
S
-1
-1
-1
11 = Sxx SxuSuu Sxu′ , S22 = Syy SyuSuu Syu′ , S12 = Sxy SxuSuu Syu′
und so Q = S -1
-1
11 S12S22 S12′.
Dann ist r((X1...p), (Y1...q) | (U1...k)) = G , d.h. die Wurzel aus dem größten Eigenwert von [Q].
Hauptkomponentenanalyse (HKA)
Betrachtet man die Merkmale z.B. hinsichtlich ihrer Einfachkorrelationen, so kann man
feststellen, dass sie oft starke Redundanz aufweisen, d.h. Informationen sind sowohl in dem
einen als auch in dem anderen Merkmal vertreten (Kollinearität). Diese Redundanz ist im
allgemeinen nicht nur wertlos, sie ist häufig auch störend, da zu viele ,,ähnliche" Merkmale
die Analyse erschweren.
Während die Variablenselektion bei der Regression ein spezielles Verfahren gegen zu starke
kollineare Mehrfachmessungen darstellt, bietet die HKA einen allgemeinen Zugang.
Ziel der HKA ist Datenreduktion (quantitativer Vorteil, z.B. zur besseren Darstellung, etwa in
Graphiken) und Datenoptimierung (qualitativer Vorteil, da Kollinearität der Merkmale
untereinander ausgeschaltet wird). Nachteil der HKA ist die schlechtere Interpretierbarkeit der
,,künstlichen" Hauptkomponenten, welche nicht mehr einzelnen Merkmalen zugeordnet
werden können.
Forderungen für die HK sind, dass sie untereinander linear unabhängig (orthogonal) sind, also
keine Kollinearität aufweisen, und die Gesamtvariation der Originalvariablen möglichst gut
wiedergeben. Damit sinnvoll von einer Gesamtvariation der Daten gesprochen werden kann
muss das Merkmal der Kommensurabilität gefordert werden, d.h. dass alle Merkmale in
derselben Einheit gemessen werden und so vergleichbare Ausdehnungen in der Varianz
haben.
Ausgangspunkt für die HKA ist deshalb die Matrix der standardisierten Beobachtungswerte Z
welche diese Forderung erfüllt. Die Mittelwerte über die einzelnen Merkmale sind jeweils
zj = 0 (j = 1, ..., m) ,
so dass die Korrelationsmatrix R auch als Varianz-Kovarianzmatrix von Z interpretiert
werden kann [ R = (1/n-1)Z′Z 0′0 ]. Die Gesamtvariation von Z ist also gleich der
j zij = sp(R) = m
Zu Beginn der HKA sollte ein Test mit H0 : R = I gegen H1 : R I zum Signifikanzniveau
durchgeführt werden (unterscheidet sich R nämlich nur zufällig von der Einheitsmatrix I sind
die einzelnen Merkmale bereits unkorreliert, eine HKA wäre dann unsinnig).
Es ist im einzelnen
2emp = -[(n-1) 1/6(2m + 5)] ln|R| und 2tab = 2[m(m 1)/2 ; 1-]
d H0 2emp > 2tab
Multivariate Verfahren 9
Versucht wird nun, sogenannte (n 1)-Hauptkomponentenvektoren der Form yj = Zgj zu
entwickeln, wobei gj ein noch unbestimmter Gewichtsvektor ist. Da die einzelnen yj direkt aus
Z resultieren ist also auch der Mittelwert yj = 0.
Für alle k-Hauptkomponenten (k m) gilt also Y = ZG, wobei die einzelnen Vektoren yj
orthogonal sein sollen [d.h. Cov(ya, yb) = 0 ; mit a,b j], jeweils gj′gj = 1 gelten soll
(Normierung der gj) und die Varianz maximiert werden soll (s.o.).
Man ermittelt die HK durch Maximierung von
Var(yj) = (1/n-1)yj′yj = (1/n-1) gj′Z′Zgj = gj′Rgj.
Aufgrund der Nebenbedingung, dass gj′gj = 1 gelten soll, kann man die Lagrange Funktion
Lj (gj, ) = gj′Rgj - ( gj′gj 1) bilden.
Die partielle Ableitung nach gj ergibt nun
2 Rgj - 2gj = (R - I)gj =! 0
die charakteristische Gleichung von R, d.h. gj ist der Eigenvektor zum Eigenwert j.
Weiterhin kann gezeigt werden, dass
Var(yj) = Var (Zgj) = gj′Rgj = gj′Igj = , so dass
a > b Var(a) > Var(b) (mit a,b j).
Man erhält also insgesamt m-Eigenwerte, wobei gilt, dass
j j = sp(R) = m und j j = |R|
Alle j (j = 1, ..., m) geben also R exakt wieder und die gj-Eigenvektoren zu j sind außerdem
noch orthogonal zueinander (!).
Zu fragen ist nun noch, wie viele HK extrahiert werden sollen, da man ja primär eine
Datenreduktion erreichen möchte. Zu dieser Bestimmung gibt es mehrere Möglichkeiten, z.B.
berechnet man so viele HK, wie j > 1 existieren (da nur bei diesen die Varianz der HK
größer als die Varianz der zugrunde liegenden Originalvariablen ist) oder man beginnt mit
dem größten j und ermittelt so viele HK, bis der kumulierte Anteil an der Gesamtvariation
größer einem vorgegebenen Anteil ist.
Die Güte der k-HK ergibt sich als Kennziffer mit j j / m (j = 1, ..., k).
Die so gewonnene n k-Matrix Y = ZG kann nun wie eine Datenmatrix behandelt werden
Varianzanalyse
Im nun folgenden sollen Verfahren betrachtet werden, die im wesentlichen auf Unterschieden
zwischen beobachteten Objekten aufbauen. Im Mittelpunkt stehen jetzt also, im Gegensatz zu
den zuvor vorgestellten Verfahren, nicht mehr die Merkmale selbst, sondern deren
Merkmalsträger (Objekte). Vorausgesetzt wird dabei immer, dass die Objekte in signifikant
unterschiedliche Klassen eingeteilt werden können.
Mit Hilfe der Varianzanalyse soll geprüft werden, ob sich beobachtete Stichproben
hinsichtlich ihrer Merkmalsmittelwerte nur zufällig oder signifikant unterscheiden, ob man
also die o.g. Forderung nach Unterschieden zwischen den Objekten überhaupt aufrecht
erhalten kann.
Wie bei allen Verfahren liegt anfangs eine Datenmatrix X vor, die man nun jedoch in
K-Klassen einteilt, wobei jede Klasse k (k = 1, ..., K) genau Nk-Objekte enthält.
Multivariate Verfahren 10
Als zusätzliche Information erhält man so Aussagen über die Streuung innerhalb einer Klasse
sowie zwischen den Klassen selbst, welche für die weitere Analyse benötigt werden.
Die totale Abweichungsquadrat- und Produktmatrix von den Gesamtmerkmalsmittelwerten
(Totale-Sum of Squares and Products-Matrix) T erhält man mit
T = A′A [ = (n-1)S ],
wobei natürlich der Bezug zur Gesamtstreuung wie angegeben offensichtlich ist.
Die Inner-Klassen-SSP-Matrix Wk (d.i. die ,,Streuung" innerhalb jeder einzelnen Klasse k)
ergibt sich dann logischerweise mit
Wk = Ak′Ak ,
(d.h. man berechnet die quadrierte Abweichungsmatrix Ak für jede Klasse k = 1, ..., K
bezüglich der Klassenmerkmalsmittelwerte xk). Die Summe alle
Inner-Klassen-Abweichungen ist dann genau
W = k Wk .
Die Zwischen-Klassen-SSP-Matrix B berechnet man mit
B = k [ Nk (xk x)(xk x)′ ]
(d.h. man berechnet jeweils die quadrierte Abweichung der Klassenmerkmalsmittelwerte xk
zu den Gesamtmerkmalsmittelwerten x, gewichtet mit der Objektanzahl jeder Klasse k).
Als Fundamentalgleichung der Varianzanalyse gilt analog dem univariaten
Streuungszerlegungssatz, dass
T = W + B = W1 +...+ WK + B.
(,,Gesamtstreuung = summierte Streuung in den Klassen + Streuung zwischen den Klassen").
Mit Hilfe eines einfachen 2 Tests prüft man nun, ob sich, wie gesagt, die Mittelwerte der
Klassen signifikant (zum Signifikanzniveau ) oder nur zufällig voneinander unterscheiden.
Die Nullhypothese lautet
H0 : µ1 =...= µK gegen H1 : H1 H0, wobei gilt
d H0 2emp > 2tab
Es ist dabei 2emp = -[N-1-1/2(m + K)] ln
mit N = Gesamtanzahl der Merkmalsträger (=k(Nk)), m = Anzahl der Merkmale
(= Anzahl der Mittelwerte), K = Anzahl der Klassen und = |W| / |T|
ist dabei die sog. Wilk′sche Prüfvariable, welcher die Vorstellung zu Grunde liegt, dass
wenn H0 gelten würde, müsste T W gelten, d.h. die Gesamtabweichung aus der (einen)
Inner-Klassen-Abweichung resultieren, und so |W| / |T| 1 sein, also ln gegen Null gehen.
Des weiteren ist
2tab das (1-)-Quantil der 2-Verteilung mit m(K-1)-Freiheitsgraden.
Hat man diesen rechtsseitigen Signifikanztest durchgeführt und muss die Nullhypothese
ablehnen, so können die nachfolgenden Verfahren sinnvoll durchgeführt werden.
Diskriminanzanalyse
Bei einer Diskriminanzanalyse ist bekannt, dass eine Grundgesamtheit X in K-Klassen zerfällt
(K2, k=1, ... K), welche sich signifikant voneinander unterscheiden und man des weiteren
(z.B. aus einer Lernstichprobe) Aussagen über Eigenschaften der einzelnen Klassen aus X
kennt. Man sucht nun Entscheidungsregeln, um neue beobachtete Vertreter
v
in eine Klasse
korrekt einordnen zu können. Man kann insofern behaupten, dass aufgrund bekannter
Merkmale des neuen Vertreters
v
eine Art Intervallschätzung auf ebenfalls bekannte
Klassenintervalle durchgeführt wird (im Gegensatz zur Punktschätzung der Regression).
Multivariate Verfahren 11
Der zentrale Zugang zur Diskriminanzanalyse erfolgt dabei über die theoretische
Wahrscheinlichkeitstheorie.
Wird angenommen, dass ein Objekt Element eines Wahrscheinlichkeitsraumes k
( k = 1, ..., K) genau mit der Wahrscheinlichkeit p(k) unter der Verteilungsannahme f(x | k)
ist, können Aussagen über die Klassenzugehörigkeit unbekannter Objekte getroffen werden.
Dabei ist p(x) und f(x | k) meist unbekannt und muss deshalb aus einer Lernstichprobe
geschätzt werden.
Die a-priori-Wahrscheinlichkeit der Klassenzugehörigkeit ist die totale Wahrscheinlichkeit
f(x) = k p(k) f(x | k).
Die a-posteriori-Wahrscheinlichkeit, in eine Klasse zu gehören, ergibt sich mit der
Formel von Bayes als
p(k | x) = p(k) f(x | k) / f(x).
Als Entscheidungsregel gilt nun allgemein, dass man für ein neues Objekt
v
jeweils
p(
v
| x)
v
k
bildet und
v
der Klasse k zuordnet, bei der p(
v
| x) maximal ist.
Dieser Zugang ist so jedoch praktisch häufig nicht ohne weiteres intuitiv durchführbar, so
dass sich in der Literatur zwei spezielle Hauptansätze gebildet haben.
Der Erste arbeitet unter der Annahme, dass die Objekte innerhalb einer Klasse normalverteilt
sind, d.h. f(x | k) NV (µk , k) [vgl. 2- Anpassungstest]
Durch Umformungen der allgemeinen Regel kann man zeigen, dass nun einfach zwischen
dem Beobachtungsvektor
v
und den Mittelwertvektoren der einzelnen Klassen k jeweils die
quadrierte Mahalanobis-Distanz gebildet werden muss, also
dk(
v
) = (
v
xk)′S-1(
v
xk) für alle k = 1, ..., K.
v
wird dann zu der Klasse zugeordnet, bei der dk(
v
) minimal ist.
Speziell gilt im 2-Klassen-Fall :
d(
v
) = (
v
½(x1 + x2))′S-1(x1-x2) und
v
Klasse 1 d(
v
) > 0.
Der zweite Hauptansatz nach R.A.Fisher hat den Vorteil, dass er verteilungsfrei und
heuristisch arbeitet. Die Idee dabei ist, dass das mehrdimensionale Zuordnungsproblem
zunächst auf ein eindimensionales reduziert werden soll, um so vereinfachte
Zuordnungsaussagen treffen zu können.
Sind x Beobachtungsvektoren aus einer bekannten Lernstichprobe (bei der man die
Klassenzugehörigkeit kennt) mit m-Merkmalsvariablen, so soll als Linearkombination
y = a′x mit a = (a1, ..., m)′
gelten, wobei a so zu wählen sein soll, dass die zerlegten x-Werte durch die eindimensionalen
y-Werte ,,möglichst gut" wiedergegeben werden.
Für den 2-Klassen-Fall sind
y
2
u = a′xu , su = n (yun yu)2 für u = 1, 2
jeweils die Mittelwerte und die Inner-Klassen-Abweichungen der y in der Klasse
Dann soll a, um die Zerlegung ,,möglichst gut" (s.o) zu gewährleisten, so gewählt werden,
2
(
y
-
y
)
dass Q(a) = 1
2
maximiert wird.
2
2
1
s
+
s
2
Die Zerlegungsgüte ist also bestimmt durch den Abstand der y-Mittelwerte relativ zur
Gesamtsumme der internen quadrierten Abweichungen, d.h. entweder liegen die bereits einer
der beiden Klassen zugeordneten eindimensionalen Punkte in ihren Mittelwerten sehr weit
Multivariate Verfahren 12
auseinander oder aber ihre jeweilige Klassenstreuung ist sehr gering (hohe Homogenität). Das
Q(a) ein Maß für die Güte von a darstellt, ist daher offensichtlich.
Es ist nun s 2
2
1 + s2 = a′Wa, da zusätzlich auch noch eine Normierung mit a′a = 1 gelten soll,
so dass eingesetzt
(
a
′
x
a
′
x
)2
Q(a) =
1 -
2
bzgl. a maximiert werden soll.
a
′
Wa
Gemäß der Quotientenregel ist daher die erste Ableitung von Q(a) gleich
Q′(a) = [2(x1 x2)a′Wa 2Wa(a′x1 a′x2)] / (a′Wa)2 =! 0
a = W-1(x1 x2) .
Der Rest stellt dabei lediglich einen Proportionalitätsfaktor dar, welcher die Richtung von a
nicht beeinflusst.
Als Klassifikationsregel für neue Objekte
v
gilt nun, dass man y = a′
v
bildet und
v
der
Klasse 1 zuordnet, wenn y näher an y1 liegt als an y2.
Für den Mehr-Klassen-Fall ist die Herangehensweise ähnlich, nur dass jetzt
(bereits umgeformt)
Q(a) = a′Ba / a′Wa
maximiert werden soll. Entweder ist also die Streuung zwischen den Klassen (B) sehr groß
(hohe Heterogenität) oder die einzelnen Klassen in sich eben wieder sehr zentriert. Weiterhin
gilt natürlich, dass a′a = 1 ist.
Leitet man nun nach a ab, so ergibt sich
W-1Ba = a.
Insofern ist der Richtungsvektor a jetzt genau ein Eigenvektor von W-1B zum Eigenwert ,
wobei es ob der Maximierung von Q(a) sinnvoll ist, den Vektor a zum größten Eigenwert G
zu bilden. (Grund : yk = ak′x stellen kanonische Variablen dar.)
Als Entscheidungsregel gilt nun, dass man jeweils
[a′(
v
- xk)]2 ; k = 1, ..., K
bildet und
v
der Klasse k zuordnet, bei der dieser Term minimal wird.
Clusteranalyse
Aufgabe der Clusteranalyse ist es, aus einer Stichprobe ohne bekannte Klassenzuordnung, den
Versuch zu unternehmen, eben solche Klassen zu erarbeiten.
Vorgabe ist dabei immer, dass sich die Objekte innerhalb einer Klasse möglichst ähnlich
(homogen) und zwischen den Klassen möglichst unähnlich (heterogen) sein sollen, oder
äquivalent, dass bei bekannter Gesamtstreuung T (aus den einzelnen Objekten der Stichprobe)
die Klasseneinteilung so erfolgt, dass W minimal (und so B maximal) ist.
Da es im Rahmen einer Clusteranalyse sehr viele Verfahren gibt, bedarf es anfangs dreier
Festlegungen, nämlich die des Konstruktionsverfahrens (hierarchisch, nicht-hierarchisch), des
Homogenitäts- und des Heterogenitätsmaßes.
Wichtig sind hier insbesondere Distanzmaße, da sie, wie bereits festgestellt, Aussagen über
die Ähnlichkeit oder Unähnlichkeit von Objekten erlauben. Je kleiner die Abstände innerhalb
einer (neu geschaffenen) Klasse sind, desto kleiner ist die Inner-Klassen-SSP W, je größer die
Distanzen zwischen den einzelnen Klassen, desto größer ist natürlich B. Gebräuchlich sind
vor allem die euklidische- und die Mahalanobis-Distanz.
Multivariate Verfahren 13
Zuerst möchte ich die hierarchischen Verfahren erläutern, wobei allerdings nur die
agglomerativen Verfahren(im Gegensatz zu den divisiven) näher betrachtet werden sollen.
Diese verlaufen skizziert wie folgt :
a. am Anfang bildet jedes der n-Objekte seine eigene Klasse k
b. ausgehend von der Datenmatrix X wird die n n-Distanzmatrix D gebildet
c. man fasst die beiden Objekte p und q mit der geringsten Distanz dpq zu einer neuen
Klasse zusammen, da diese sich offensichtlich am ähnlichsten sind
d. von dieser neuen Klasse bestimmt sich die Distanz zu den anderen Klassen als
Single-Linkage (Nearest Neighbour) = min(dpi, dqi)
Complete-Linkage (Furthest Neighbour) = max(dpi, dqi)
Average-Linkage = ½(dpi + dqi)
wobei i p,q
diese Unterscheidung bestimmt wesentlich das Heterogenitätsmaß, wobei die
Klassen dadurch tendenziell zusammengestaucht (Single-Linkage) oder
ausgeweitet (Complete-Linkage) werden
e. man erhält also eine neue (n-1) (n-1)-Distanzmatrix D*
f. ausgehend von dieser werden die Schritte c-e solange wiederholt, bis alle Objekte
in einer Klasse versammelt sind (insgesamt erhält man so 2n-1 Klassen)
g. dargestellt wird die so gewonnene Hierarchie in einem Dendogramm, welches die
Fusionen in Abhängigkeit zur Distanz darstellt
Agglomerative Verfahren haben den Vorteil, dass sie relativ einfach durchgeführt werden
können und, gerade bei der Betrachtung des Dendogramms, sehr intuitive
Grobklassifizierungen erlauben. Man erhält also keine vorgegebene Anzahl von Klassen,
sondern Aussagen über Fusionen bzw. Aufspaltungen von zwei Objekten / Unterklassen in
bezug auf ein bestimmtes Ähnlichkeitsniveau (Distanz) - eben eine hierarchische Anordnung.
Es ist offensichtlich, dass die Anwendung unterschiedlicher Homogenitäts- oder
Heterogenitätsmaße durchaus zu unterschiedlichen Ergebnissen führen kann. Um hier nicht
den Eindruck der Beliebigkeit von hierarchischen Verfahren zu hinterlassen, sei erwähnt, dass
man eventuell mehrere, jeweils genau nach Typ dokumentierte, Analysen durchführen kann
und deren (unterschiedliche) Ergebnisse zusammenfasst. Vorstellbar ist zum Beispiel die
Bildung von ,,Kernklassen", also solchen, die Objekte enthalten, welche sich bei jeder
Analyse sehr ähnlich waren.
Divisive Verfahren gehen genau den umgekehrten Weg zu agglomerativen, d.h. sie vereinigen
anfangs alle Objekte in einer Kasse und spalten diese dann auf. Da divisive Verfahren sehr
rechenaufwändig sind und zu weniger guten Ergebnissen führen, bleiben sie hier nur am
Rande erwähnt.
Zu den nicht-hierarchische Verfahren ergibt sich folgende skizzierte Durchführung:
a. man teilt die n-Objekte in eine Anfangspartition mit K n/2 Klassen
(evt. nach erfolgter hierarchischer Clusterung oder intuitiv) ; dieser Wert stellt eine
grobe Approximation für eine ,,sinnvolle" Klassenanzahl dar
b. nun wird für jedes Objekt i (i = 1, ..., n) die Distanz zu allen Klassenmittelwerten
xk (k = 1, ..., K) bestimmt
c. man ordnet die Objekte jeweils der Klasse zu, mit der sie den geringsten Abstand
haben und berechnet die so entstandenen neuen Klassenmittelwerte und Distanzen
d. können keine sinnvollen Umgruppierungen mehr vorgenommen werden ist die
iterativ beste Partition erreicht ; dabei ist diese ,,beste" Partition natürlich abhängig
von der Anfangspartition, aufgrund der direkten Wirkung auf die anfänglichen
Klassenmittelwerte und die daraus folgenden Distanzen zu den Objekten
Multivariate Verfahren 14
Insbesondere der letzte Punkt offenbart, dass es auch bei den nicht-hierarchischen Verfahren
zu verschiedenen Ergebnissen kommen kann, so dass oben getroffene Aussagen zu
Mehrfachanalysen mit unterschiedlichen Startpartitionen ebenso zutreffen.
Führt man beide Verfahren zusammenhängend und ggf. mit Variationen durch, kann man
sagen, dass (immer unter der Prämisse, dass es ,,natürliche" Klassen gibt, in die sich die
Objekte einteilen lassen) die Clusteranalyse solche Klassenzuordnungen hinreichend gut
aufdecken wird.
Abschließend kann man noch ein einfaches Gütekriterium der Analyse mit Hilfe der
Aussagen über Varianzen wie folgt bestimmen :
Aus der Aussage, dass
T = W + B bzw. analog sp(T) = sp(W) + sp(B)
gilt, folgt bezüglich der Zielidee der Clusteranalyse, dass es positiv ist, wenn die Spur der
Inner-Klassen-SSP-Matrix W minimal (Homogenität) und so die Spur der Zwischen-Klassen-
SSP-Matrix B maximal (Heterogenität) ist (s.o.).
Im Idealfall ist also sp(T) = sp(B) und somit sp(W) = 0, so dass allgemein das Verhältnis
sp(B)/sp(T)
eine Güteinformation darstellt.
Skalierung
Dieser letzte Abschnitt soll noch einen kurzen Ausblick darauf geben, welche Probleme (und
Lösungsansätze) mit dem zentralen Mittel der multivariaten Analyse, nämlich den Daten
selbst, auftreten können.
Grundsätzlich kann man kardinale (Proportionen und Abstände direkt messbar, z.B.
Körpergröße), ordinale (lediglich Rangordnung erkennbar, z.B. Schulnoten) und nominale
(nur einfache Klasseneinteilung, z.B. Nationalitätenzugehörigkeit) Merkmale unterscheiden.
Es ist offensichtlich, dass allein kardinale Daten für die multivariate Analyse direkt nutzbar
sind, andernfalls muss unter möglichst geringen Informationsverlusten skaliert werden.
Treten kardinale Daten auf und misst man diese innerhalb einer Datenmatrix alle mit gleicher
Einheit, so können diese Daten direkt für die Analyse genutzt werden, auch wenn ungleiche
Bedingungen vorliegen (z.B. Unternehmensdaten von Unternehmen verschiedener Größen).
Werden jedoch in einer Datenmatrix Merkmale in unterschiedlichen Einheiten gemessen (z.B.
Umsatz, Mitarbeiteranzahl, Summe der ausgefallenen Stunden durch Krankheit etc.), so ist es
sinnvoll, die Matrix der standardisierten Beobachtungswerte Z zur Analyse zu nutzen, da
diese dimensionslos ist ( Mittelwerte jeweils = 0, Varianz = 1) und so Verzerrungen durch
die unterschiedlichen Einheiten ausschließt.
Eine Retransformation der z-Werte in die Originaldaten ergibt sich mit
xij = zij Varianz(xj) + xj .
Bei ordinalen Daten (mit
j
Ausprägungen) ist eine (sehr grobe) Möglichkeit der Skalierung,
ggf. nach einer Lernstichprobe zu entscheiden, ob das Merkmal NV(µ, )- oder
Uniform-verteilt ist (z.B. durch 2-Anpassungstest).
Alsdann teilt man die zugehörige Verteilungsfunktion in die
j
möglichen Klassen ein, so dass
die Fläche unter der Funktion gleich der Wahrscheinlichkeit 1/j ist und xa < xb für a < b gilt
(a,b j).
Man erhält somit j Klassen mit einer Untergrenze xu und einer Obergrenze xo , so dass der
skalierte Klassenwert c sich dann mit
c = xu + (xo-xu / 2) ergibt.
Multivariate Verfahren 15
Intention insbesondere der Normalverteilungsannahme ist es, dass sich Ausprägungen in der
Mitte ähnlicher sind (und deshalb näher in bezug auf den skalierten Wert c zusammenliegen)
als zu den Randextremen, so dass man auf diesem Wege zu hinreichend gut skalierten Daten
kommt.
Auch hier ist es dann sinnvoll die Matrix Z zur weiteren Analyse zu nutzen
Mit nominalen Daten hat man das Problem, dass man Ähnlichkeiten oder Unterschiede direkt
nicht feststellen kann, so dass nominale Merkmale in sich nicht skaliert werden können.
Versucht wird oft, das nominale gegen ein relevantes kardinales Merkmal zu skalieren, so
dass die Korrelation zwischen beiden maximal wird - hier sei aber allgemein auf Fachliteratur
zu diesem speziellen Thema verwiesen.
Literatur
-
Marinell, G
. ; Multivariate Verfahren ; Oldenbourg 1998
-
Hartung, J. , Elpelt, B
. ; Multivariate Statistik ; Oldenbourg 1989
-
Fahrmeir, L. et al
. ; Multivariate statistische Verfahren ; de Gruyter 1984
-
Rinne, H
. ; Statistische Analyse multivariater Daten ; Oldenbourg 2000
Kommentare
Bisher keine Kommentare
Andere Nutzer haben sich auch für folgende Titel interessiert:
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für Microsoft Word
Autor: GRIN VerlagVorlagen, Muster, Formulare, Infobroschüren, 2005 Als PDF-Datei downloaden für 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit - Formatvorlage / Vorlage für eine Hausarbeit für OpenOffice.org
Autor: GRIN VerlagVorlagen, Muster, Formulare, Infobroschüren, 2005 Als PDF-Datei downloaden für 9,99 EUR
Formatvorlage zur Erstellung einer Diplomarbeit / Vorlage zur Erstellung einer Hausarbeit
Autor: Marco FeindlerVorlagen, Muster, Formulare, Infobroschüren, 2005 Als PDF-Datei downloaden für 6,99 EUR
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Autor: GRIN VerlagVorlagen, Muster, Formulare, Infobroschüren, 2008 Als PDF-Datei downloaden für 6,99 EUR
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wissenschaftlichen Arbeit
Autor: Zoran ZivkovicVorlagen, Muster, Formulare, Infobroschüren, 2004 Als PDF-Datei downloaden für 5,99 EUR
Erstellen einer schriftlichen Hausarbeit
Autor: Claudia NickelVorlagen, Muster, Formulare, Infobroschüren, 2006 Als PDF-Datei downloaden für 4,99 EUR
Grundtechniken wissenschaftlichen Arbeitens
Autor: Maik PhilippVorlagen, Muster, Formulare, Infobroschüren, 2004 Als PDF-Datei downloaden für 5,99 EUR
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - Hausarbeiten - Seminararbeiten
Autor: Mark RichterVorlagen, Muster, Formulare, Infobroschüren, 2008
Dieser Text kann über folgende URL aufgerufen und zitiert werden: