Multivariate Analysemethoden. Faktoren-, Clusteranalyse und multidimensionale Skalierung


Hausarbeit (Hauptseminar), 2002
40 Seiten, Note: 1,7

Leseprobe

Inhaltsverzeichnis

Einleitung

1. Faktorenanalyse
1.1 Ziel
1.2 Idealtypischer Verlauf einer Faktorenanalyse
1.2.1 Ausgangspunkt Rohdatenmatrix
1.2.2 Standardisierung der Datenmatrix
1.2.3 Bildung einer Korrelationsmatrix
1.2.4 Extraktion der Faktoren
1.2.5 Interpretation der Faktoren
1.3 Anwendungsgebiete der Faktorenanalyse in der Marktforschung

2. Clusteranalyse
2.1 Ziel
2.2 Beispiel
2.3 Idealtypischer Verlauf einer Clusteranalyse in der Marktforschung
2.3.1 Ausgangspunkt Rohdatenmatrix
2.3.2 Umwandlung der Datenmatrix in eine Distanz- bzw. Ähnlichkeitsmatrix
2.3.3 Clusterbildung
2.4 Anwendungsgebiete der Clusteranalyse in der Marktforschung

3. Multidimensionale Skalierung (MDS)
3.1 Ziel
3.2 Grundidee und Beispiel
3.3 Einblicke in Durchführung und Probleme der MDS anhand eines historischen Beispiels
3.4 Idealtypischer Verlauf einer MDS in der Marktforschung
3.5 Probleme und Vorteile der MDS
3.6 Anwendungsgebiete der MDS in der Marktforschung

4. Conclusion

Verzeichnis der Abbildungen und Tabellen

Literaturverzeichnis

Einleitung

In dieser Arbeit sollen drei in der Marktforschung gebräuchliche multivariate Analysemethoden vorgestellt werden: die multidimensionale Skalierung (MDS), die Faktorenanalyse sowie die Clusteranalyse. Grundsätzlich gesehen geht es bei allen drei Methoden um die Aufbereitung und Verdichtung von Daten. Da das menschliche Gehirn nur begrenzte Kapazitäten der Informationsaufnahme und -verarbeitung hat, ist es für uns nicht möglich, eine größere Menge von Daten simultan zu betrachten. Allerdings ist die Marktforschung bei der Analyse von Produkten oft mit einer sehr großen Fülle an Rohdaten konfrontiert. Um diese unüberschaubare Menge von Daten für die Marktforschung brauchbar zu machen, ist es notwendig, die Datenmasse so zu vereinfachen, dass man bestimmte Strukturen erkennen kann, die diesen Daten zugrunde liegen und so beispielsweise wichtige Informationen zum Kaufverhalten geben. Hierzu sind systematische Methoden, notwendig mit deren Hilfe man das Datenmaterial reduzieren und komprimieren kann. Im Prinzip ist dieser Vorgang mit dem Sich-Entfernen von einem impressionistischen Gemälde vergleichbar. Steht man zu nah am Bild, kann man aufgrund der übermäßigen Fülle an Farbpixeln nichts erkennen, entfernt man sich, abstrahiert das Gehirn auf bestimmte Strukturen und man kann ein Bild erkennen. Das ist zwar einerseits mit einem Informationsverlust verbunden, da man nicht mehr alle Informationen erkennen und berücksichtigen kann, andererseits wird der subjektive Erkenntnisgewinn enorm gesteigert.

Bei diesem Erkenntnisgewinn erfüllen die drei im folgenden zu erläuternden Methoden verschiedene Aufgaben. So ist die Faktorenanalyse ein rein datenreduzierendes Verfahren, das der Clusteranalyse oft vorangeschaltet wird. Bei der Clusteranalyse wiederum handelt es sich um eine Methode, Datenmengen zu gruppieren und zu typologisieren. Die MDS schließlich ist ein Verfahren, um Objekte im mehrdimensionalen Raum zu positionieren.

Desweiteren handelt es sich bei den drei hier vorzustellenden multivariaten Analysemethoden um deskriptive statistische Verfahren. Das sind Verfahren, mithilfe derer man aus einer Stichprobe gewonnene Datenmengen aufbereitet, auswertet und interpretiert. Im Gegensatz zu den uni- und bivariaten Analysemethoden der deskriptiven Statistik beziehen multivariate Verfahren mindestens 3 Variable in die Untersuchung mit ein. „In der Marktforschung ist es wegen des vieldimensionalen Charakters von Marketingproblemen sehr häufig notwendig, mehr als 2 Variable gleichzeitig zu betrachten und deren Beziehungsstruktur zu untersuchen. Dazu bedient man sich der multivariaten Analyseverfahren.“ (Berekoven 1987, S. 180)

Die multivariaten Verfahren lassen sich in Dependenzanalysen und Interdependenzanalysen unterteilen.

Die Dependenzanalysen unterstellen einen einseitigen Kausalzusammenhang, wobei mehrere unabhängige Variablen eine Wirkung auf eine oder mehrere abhängige Variablen ausüben. Ziel solcher Analyse ist es, den Einfluss dieser unabhängigen Variablen auf die abhängigen Variablen zu untersuchen.

Die Interdependenzanalysen hingegen unterstellen eine gegenseitige Wechselwirkung der Variablen aufeinander. Insofern gibt es keine abhängigen bzw. unabhängigen Variablen. Die drei im folgenden beschriebenen multivariaten Analysemethoden gehören zu den Interdependenzanalysen. Sie unterstellen also eine gegenseitige Abhängigkeit der Variablen.

Abb. 1: Die gebräuchlichsten multivariaten Analyseverfahren im Überblick

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Berekoven 1987, S. 182

Desweiteren sind die jeweiligen Analyseverfahren nicht immer bei allen Arten von Skalenniveaus sinnvoll. So wird die Multidimensionale Skalierung meist nur bei nicht-metrischen Daten angewandt, die Faktorenanalyse bei metrischen und die Clusteranalyse kann auf beide Messniveaus angewandt werden.

(Vgl. Berekoven 1987, S. 180 ff.)

1. Faktorenanalyse

„Factor analysis was invented nearly 100 years ago by psychologist Charles Spearman, who hypothesized that the enormous variety of tests of mental ability--measures of mathematical skill, vocabulary, other verbal skills, artistic skills, logical reasoning ability, etc.--could all be explained by one underlying ‘factor’ of general intelligence [...].“ (University of Richmond:

www.richmond.edu/~pli/psy538/factor02/etc.html)

“The idea of fundamental but unobservable phenomena underlying observed indicators must be very old. It seems to be a basic scientific principle. Mankind did most certainly think - at least implicitly - in terms of concepts such as ability, ambition, behavior, feelings, motivation and satisfaction for a long time, gradually realizing that these concepts were very difficult or even impossible to observe directly. The history of factor analysis is - to a great extent - the story of how to incorporate conceptssuchas these in science.” (Gösta Hagglund: Milestones in the history of Factor Analysis: www.ssicentral.com/festschrift/chapter2.htm)

1.1 Ziel

Ziel der Faktorenanalyse ist die Reduktion einer größeren Menge beobachteter Variablen auf möglichst wenige latente Variablen, den Faktoren (Dimensionen), die den beobachteten Variablen zugrunde liegen. Grundlegend ist hierbei die Annahme, dass, je größer die Anzahl der Variablen, die ein bestimmtes Produkt beschreiben, desto größer ist auch die Wahrscheinlichkeit, dass einige Variablen nicht unabhängig sind, sondern sich gegenseitig bedingen. Letztendlich wird bei der Faktorenanalyse der Versuch unternommen, die Menge der Variablen so zu verringern, dass schließlich nur noch unabhängige Variablen zurück bleiben. Ausgehend von der Faktorenanalyse werden desweiteren Hypothesen über Strukturen formuliert, die den untersuchten Merkmalen zugrunde liegen.

1.2 Idealtypischer Verlauf einer Faktorenanalyse

Im folgenden soll der Verlauf einer Faktorenanalyse anhand eines Beispiels von Hammann und Erichson dargestellt werden.

1.2.1 Ausgangspunkt Rohdatenmatrix

Zunächst liegt in der Regel ein bestimmter Datensatz vor, der die zu untersuchenden Objekte beschreibt (siehe Tab. 1).

Tab. 1: Datenmatrix für 12 PKWs

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Hammann 2000, S. 257

In diesem Beispiel haben wir als Objekte 12 PKWs, die jeweils von 10 Variablen beschrieben werden. Diese Menge an Variablen macht eine Unterscheidung der einzelnen Produkte nicht einfach. Deshalb soll mit Hilfe der Faktorenanalyse auf latente Strukturen abstrahiert werden.

1.2.2 Standardisierung der Datenmatrix

Als erstes muss die Datenmatrix standardisiert werden, so dass die einzelnen Variablen miteinander verglichen werden können. Dies geschieht nach folgender Formel: zij = xij - Æ xj/sj, wobei zij der neue standardisierte Wert, xij den ursprünglichen Variablenwert, Æ xj den Mittelwert einer Variablen und sj die Standardabweichung einer Variablen angibt.

Als Ergebnis erhält man die standardisierte Datenmatrix mit dimensionslosen Größen (siehe Tab. 2).

Tab. 2: Standardisierte Datenmatrix

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Hammann 2000, S. 259

Nun sind die Einheiten der einzelnen Variablen verschwunden und die Größenordnungen sind vergleichbar.

1.2.3 Bildung einer Korrelationsmatrix

Im nächsten Schritt ist mit Hilfe der standardisierten Datenmatrix eine Korrelationsanalyse durchzuführen Aus der gewonnenen Korrelationsmatrix kann man ablesen, wie sehr sich einzelne Variablen gegenseitig bedingen (siehe Tab. 3).

Tab. 3: Korrelationsmatrix

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Hammann 2000, S. 262

Die Werte der Korrelationskoeffizienten liegen immer zwischen -1 und +1. Je größer der Betrag eines Wertes ist, desto größer ist auch der Zusammenhang. Ein Wert von 1 bedeutet demnach eine 100%tige Übereinstimmung, ein Wert von 0 eine völlige Beziehungslosigkeit und ein Wert von -1 eine totale negative Übereinstimmung zwischen zwei Variablen. Ab einem Betrag von 0,5 kann man von einem mäßigen Zusammenhang, bei einem Betrag von 0,75 von einem starken Zusammenhang sprechen. So haben zum Beispiel alle Variablen mit sich selbst logischerweise eine Korrelation von 1, die Variablen Breite, Höhe, Gewicht, Hubraum und Verbrauch korrelieren alle stark bis sehr stark mit der Variable Länge. Die Beschleunigung korreliert sehr stark negativ mit der Geschwindigkeit. Das mag zwar auf den ersten Blick merkwürdig wirken, wird aber verständlich, wenn man bedenkt, dass ein hoher Wert bei Beschleunigung einen schlechten Beschleunigungswert bedeutet.

Das Prinzip der Korrelation lässt sich auch geometrisch anhand von Vektoren darstellen:

Abb. 2: Vektordarstellungen zweier Variablen (erstellt nach Berekoven 1987, S. 196)

Abbildung in dieser Leseprobe nicht enthalten

Der Korrelationskoeffizient ist hierbei als der Kosinus des Winkels zwischen zwei Variablen definiert. Bei einem Winkel von 90° ergibt sich somit ein Korrelationskoeffizient von 0, während bei einem 60° Winkel ein Korrelationskoeffizient von 0,5 resultiert. Je kleiner also der Winkel zwischen zwei Variablen ist, desto größer ist deren Korrelationskoeffizient, da der Kosinus mit fallendem Winkel zunimmt.

Auch die Faktoren, auf welche die große Menge an Variablen zurückgeführt werden sollen, sowie deren Beziehung zu den Variablen kann man geometrisch erläutern.

Abb. 3: Vektorieller Zusammenhang von Variablen und Faktor (erstellt nach Berekoven 1987, S. 196)

Abbildung in dieser Leseprobe nicht enthalten

So wie der Winkel zwischen den Vektoren der Variablen den Zusammenhang der Variablen darstellt, so drückt auch der Winkel zwischen Faktorenvektor und Variablenvektor den Zusammenhang zwischen Variable und Faktor aus. Dieser Korrelationskoeffizient wird als Faktorladung bezeichnet. Im obigen Beispiel beträgt also die Faktorladung zwischen v1 bzw. v2 und Faktor (F 1) cos 30° = 0,87.

1.2.4 Extraktion der Faktoren

Nun beginnt die eigentliche Schwierigkeit der Faktorenanalyse. Waren bis zu diesem Punkt alle Schritte klar vorgegeben, muss der Versuchsleiter nun individuelle Entscheidungen darüber treffen, welche Methoden nun bei der sog. Extraktion der Faktoren aus der Korrelationsmatrix angewandt werden sollen. Grundsätzlich geht es nun darum, die Variablen gemäß ihrer Korrelation zu möglichst wenigen unabhängigen Faktoren zusammenzufassen. Dies ist oft nicht ganz einfach. So korreliert in diesem Beispiel unter anderem das Gewicht stark sowohl mit dem Preis als auch mit der Länge, wobei jedoch die Länge nur mäßig stark mit dem Preis korreliert.

Das gängigste Lösungsverfahren zur Extraktion der Faktoren aus der Korrelationsmatrix ist die sog. Hauptkomponentenmethode, bei der unterstellt wird, „daß die gesamte Varianz in den Merkmalsvariablen sich (bis auf einen zufälligen Rest) auf eine Menge gemeinsamer Faktoren zurückführen läßt.“[1] (Hammann 2000, S. 261) Prinzipiell können so viele Faktoren extrahiert werden wie Variablen vorhanden sind. Allerdings ist es ja die Aufgabe der Faktorenanalyse, möglichst wenige Faktoren zu extrahieren, die voneinander unabhängig sind und einen möglichst großen Varianzanteil der Variablen erklären. Zur Lösung dieser Aufgabe bedient man sich gewöhnlicher Weise des Eigenwerts der Faktoren. „Der Eigenwert ist die Summe der quadrierten Ladungen eines Faktors über alle Variablen.“ (Berekoven 1987, S. 199). Somit gibt der Eigenwert den Anteil an der Gesamtvarianz aller Variablen an, den ein Faktor erklärt. Demnach kann man mithilfe des Eigenwertes eine Aussage über die Wichtigkeit eines Faktors machen. Folgende Tabelle gibt die Eigenwerte aller Faktoren wieder:

Tab. 4: Eigenwerte und prozentuale Varianzanteile der Faktoren

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Hammann 2000, S. 263

Wie man sieht, können knapp 90 Prozent der Gesamtvarianz der 10 Merkmalsvariablen allein durch die ersten beiden Faktoren erklärt werden. Normalerweise werden im folgenden Schritt nur jene Faktoren extrahiert, deren Eigenwert größer als 1 ist. (Vgl. Berekoven 1987, S. 199; Koch 1997, S. 237f.; Pepels 1998, S. 279) Bei Hammann werden allerdings die ersten drei Faktoren extrahiert. Hierbei lässt sich schon erkennen, dass es in diesem Stadium der Faktorenanalyse nicht nur nach streng vorgegebenen Regeln geht, sondern dass der Untersuchungsleiter ein hohes Maß an Entscheidungen selbst zu treffen hat. „Es sei [...] betont, dass es keine objektiven Kriterien zur Bestimmung der optimalen Faktorenzahl gibt, sondern dies letztlich im subjektiven Ermessen des Untersuchungsleiters liegt.“ (Berekoven 1987, S. 200)

Nach Extraktion der Faktoren erhält man zunächst die Faktorenladungsmatrix:

Tab. 5: Matrix der Faktorladungen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: (Hammann 2000, S. 264)

Die Matrix gibt die Faktorladungen der Faktoren auf die Variablen an. Beispielsweise lässt die Faktorladung von Faktor 1 auf die Variable 7 (0,962) einen sehr großen Zusammenhang erkennen. Die Zeilensumme der Ladungsquadrate (Σ a²) repräsentiert den Teil der Varianz einer Variablen, der durch die drei Faktoren erklärt wird. Die Spaltensumme gibt wiederum den Eigenwert in Prozent an, also den Varianzanteil eines Faktors.

1.2.5 Interpretation der Faktoren

Nach Vorliegen der Faktorladungsmatrix „besteht die wesentlichste und u. U. schwierigste Aufgabe in der Interpretation der extrahierten Faktoren.“ (Berekoven 1987, S. 200) Verhältnismäßig einfach erweist sich diese Aufgabe, wenn eine Variable nur auf einem der extrahierten Faktoren hoch lädt. In diesem Fall spricht man von einer sog. Einfachstruktur. In diesem Fall würde ein Faktor den gemeinsamen Inhalt der hochladenden Variablen beschreiben und könnte dementsprechend benannt werden. Schwieriger wird es, wenn Variablen auf mehreren Faktoren gleichzeitig hoch laden. Dann nämlich können die Variablen den Faktoren nicht eindeutig zugeordnet werden und diese wiederum nicht eindeutig benannt werden. Zur Behebung dieses Problems, bedient man sich der sog. Faktorenrotation.

Abb. 4: Faktorrotation

Abbildung in dieser Leseprobe nicht enthalten

Quelle: Berekoven 1987, S. 201

Geometrisch betrachtet stellen die Faktoren Koordinatenachsen in einem Koordinatensystem dar, in dem die Variablen als vom Ursprung ausgehende Vektoren betrachtet werden können. In der obigen graphischen Veranschaulichung können die Variablenbündel nicht eindeutig den beiden Faktoren zugeordnet werden. Nun dreht man die Koordinatenachsen solange, bis sich eine eindeutige Zuordnung ergibt (gestrichelte Linien) und man somit eine sog. Einfachstruktur erhält. In Hammanns Fallbeispiel gelangt man nach der Rotation der Faktoren zu folgender Matrix:

[...]


[1] Koch definiert die Hauptkomponentenmethode allerdings so, „daß die Varianz einer Variablen immer vollständig durch die Faktoren erklärt werden kann. [...] Es gibt somit keine unerklärte Restvarianz.“ (Koch 1997, S. 237). Das gleiche gilt auch für die Definition von Berekoven (Vgl. Berekoven 1987, S. 199) und Pepels (Vgl. Pepels 1998, S. 279)

Ende der Leseprobe aus 40 Seiten

Details

Titel
Multivariate Analysemethoden. Faktoren-, Clusteranalyse und multidimensionale Skalierung
Hochschule
Ludwig-Maximilians-Universität München  (Institut für Kommunikationswissenschaft)
Veranstaltung
Hauptseminar SS 2002: Theorie und Praxis der Markt- und Meinungsforschung
Note
1,7
Autor
Jahr
2002
Seiten
40
Katalognummer
V22476
ISBN (eBook)
9783638257893
Dateigröße
1745 KB
Sprache
Deutsch
Anmerkungen
Die multidimensionale Skalierung (MDS), die Faktorenanalyse sowie die Clusteranalyse sind drei der gebräuchlichsten multivariaten Analysemethoden in der Markt- und Meinungsforschung. Vorliegende Arbeit stellt ihre jeweiligen Verfahrensweisen vor und diskutiert diese kritisch.
Schlagworte
Multivariate, Analysemethoden, Faktoren-, Clusteranalyse, Skalierung, Hauptseminar, Theorie, Praxis, Markt-, Meinungsforschung
Arbeit zitieren
Alexander Bock (Autor), 2002, Multivariate Analysemethoden. Faktoren-, Clusteranalyse und multidimensionale Skalierung, München, GRIN Verlag, https://www.grin.com/document/22476

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Multivariate Analysemethoden. Faktoren-, Clusteranalyse und multidimensionale Skalierung


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden