Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Vergleich mit der k-Means Clusteranalyse


Hausarbeit (Hauptseminar), 2008
71 Seiten, Note: 1,7

Leseprobe

Inhaltsverzeichnis

1 Einführung in die Clusteranalyse
1.1 Problemstellung der Clusteranalyse
1.2 Ablauf der Clusteranalyse

2 Der Two-Step-Clusteralgorithmus in SPSS
2.1 Problemstellung des Verfahrens
2.2 Ablauf der zweistufigen Clusteranalyse
2.2.1 Erste Stufe: Vorläufige Clusterung aller Objekte
2.2.2 Zweite Stufe: Hierarchische Clusterung der Sub-Cluster
2.2.3 Distanzmaf?,e des Two-Step-Clusteralgorithmus

3 Anwendung des Two-Step-Clusteralgorithmus in der Praxis
3.1 Beschreibung des empirischen Datensatzes
3.2 Durchfilhrung der Two-Step-Clusteranalyse
3.3 Auswertung der Ergebnisse des Clusterverfahrens

4 k-Means-Clusteranalyse
4.1 Beschreibung und Problemstellung der k-Means-Methode
4.2 Ablaufschema der k-Means-Clusteranalyse

5 Anwendung der k-Means-Methode in der Praxis
5.1 Problematik des empirischen Datensatzes
5.2 Durchfilhrung der k-Means-Clusteranalyse
5.3 Auswertung der Ergebnisse der Clusteranalyse

6 Vergleich der beiden Clusterverfahren
6.1 Theoretischer Vergleich
6.2 Vergleich der SPSS-Ergebnisse
6.3 Schlussfolgerung

A Statements der Usage & Attitudes-Studie

B Balkendiagramme der Clusterpro fi le

C SPSS-Ausdrücke

Inhaltsverzeichnis

Literaturverzeichnis

1 Einführung in die Clusteranalyse

1.1 Problemstellung der Clusteranalyse

Die Clusteranalyse ist ein multivariates statistisches Verfahren zur Klassenhil-dung. Das Ziel der Clusteranalyse hesteht darin, möglichst homogene Grup-pen aus einer Menge von Ohjekten zu klassifizieren, wohei sich die Gruppen möglichst heterogen voneinander unterscheiden sollen. Der Ausgangspunkt der Clusteranalyse hildet eine Rohdatenmatrix X mit N Ohjekten und p Variablen.1

Abbildung in dieser Leseprobe nicht enthalten

Die Zuordnung der Ohjekte in die Cluster erfolgt so, dass genau jedes Oh-jekt genau einem von g Clustern (C1,C2, ...,Cg) zugewiesen wird. Eine solche Clusterzuordnung wird auch Partition P = (C1,C2, ...,Cg) genannt.

1.2 Ablauf der Clusteranalyse

Nachdem das Hauptziel der Clusteranalyse kurz erläutert wurde, soll nun kurz der Ahlauf einer Klassifikationshildung dargestellt werden.2 Zu Beginn der Clusteranaylse werden die Ähnlichkeiten der einzelnen Ohjektpaare aus der Datenmatrix herechnet. Je gröf?,er der Wert des Ähnlichkeitsmaf?,es ist, desto ähnlicher sind sich zwei Ohjekte und umso homogener ist das Cluster, das sie hilden. Bei der Bestimmung des Distanzmaf?,es ist das Skalenniveau der Va-riahlen sehr entscheidend. Folglich giht es spezielle Distanzmaf?,e, auch Proxi-mitätsmaf?,e genannt, hei nominalskalierten und metrischskalierten Variahlen. Bei gemischtskalierten Merkmalen wird das Log-Likelihood Distanzmaf?, zur Berechnung der Distanzen herangezogen. Die Berechnung der Distanz zweier Ohjekte wird im nächsten Kapitel ausfilhrlich dargestellt anhand der Euklidi-schen Distanz und der Log-Likelihood Distanz. Nach der Berechnung der Ähn-lichkeitswerte der einzelnen Ohjektpaare erfolgt der Fusionierungsalgorithmus.

Bei der Auswahl des Clusteralgorithmus unterscheidet man zwischen den Hier-archischen Clusterverfahren und den Partitionierenden Clusterverfahren. Die Hierarchischen Clusterverfahren konstruieren eine Folge von Partitionen der gesamten Ohjektmenge I3 I 1,2,...,N.

Dahei werden die Hierarchische Clustermethoden in agglomerative und divisive Clusterverfahren unterteilt. Die agglomerativen hierarchischen Clusterverfah-ren heginnen mit der feinsten Partition, d.h. jedes Ohjekt stellt zu Beginn ein eigenes Cluster dar und wird sukzessive mit Hilfe der Ähnlichkeitsmatrix der Ohjektpaare zu optimalen Clustern fusioniert. Bei divisiven hierarchischen Clusterverfahren wird mit der gröhsten Partition gestartet, d.h. die Rohdaten-matrix X stellt zu Beginn des Algorithmus ein einziges Cluster dar und wird sukzessive in mehrere optimale Cluster zerlegt. Durch die sukzessive Aufspal-tung in Teilklassen wird eine höhere Homogenität erreicht.

Die partitionierenden Clusterverfahren heginnen mit einer fest vorgegehenen Anfangspartition, die im Bezug auf ein hestimmtes Giltekriterium, wie z.B. das Varianzkriterium, sukzessive verhessert wird. Ziel dieses iterativen Clus-teralgorithmus ist es, durch geeignete Umgruppierung der Ohjekte und durch geeignete Korrektur der in der Startpartition vorgegehenen Clusterschwer-punkte die Start-Clusterlösung in Bezug auf ein hestimmtes Giltekriterium zu verhessern. Die partitionierenden Clusterverfahren unterscheiden sich in opti-mierende Austauschverfahren und Minimal-Distanz-Verfahren. Optimierende Austauschverfahren herechnen zunächst die Clusterschwerpunkte filr eine vor-liegende Anfangspartition, sowie die Werte der Ohjekte eines vorgegehenen Giltekriteriums.4 Anhand der Werte des Giltekriteriums wird filr jedes Ohjekt entschieden, oh durch eine Umgruppierung des Ohjektes eine Verhesserung der Clusterlösung erzielt werden kann. Das Minimal-Distanz-Verfahren wird später am Beispiel der k-Means-Clusteranalyse ausfilhrlich heschriehen. Hier-archische Clusterverfahren sind sehr geeignet hisher unhekannte Clusterstruk-turen aufzudecken, während partitionierende Verfahren, von einer Startparti-tion ausgehend, die Cluster anhand eines gewählten Giltekriteriums iterativ umgruppieren, um eine optimale Clusterlösung zu erhalten.

Im letzten Schritt des Ahlaufs eines Clusterverfahrens wird die Anzahl der Cluster hestimmt. Bei partitonierenden Clusterverfahren wird die Clusteran-zahl hereits zu Beginn festgelegt und auch nicht mehr im Laufe des Verfahrens verändert. Hingegen hei den hierarchischen Clusterverfahren wird die Clus-teranzahl im sequentiellen Ahlauf des Verfahrens ermittelt und hängt von der Heterogenität aller Ohjekte der Datenmatrix ah.

2 Der Two-Step-Clusteralgorithmus in SPSS

2.1 Problemstellung des Verfahrens

Der Two-Step-Clusteralgorithmus ist ein zweistufiges Clusterverfahren zur Klas-senbildung. In der ersten Stufe des Verfahrens wird zunächst eine grobe und vereinfachte Clusterung aller Objekte vorgenommen, die dann in der zweiten Stufe mit einer rechenaufwändigeren hierarchischen Clusteranalyse zu präzi-seren Clustern verdichtet wird. Ziel dieses Clusteralgorithmus ist es, ebenso wie bei den herkömmlichen Clusterverfahren, möglichst homogene Objekte in einem Cluster zusammenzufassen, wobei sich die verschiedenen Cluster mög-lichst deutlich voneinander unterscheiden sollen.

Dabei unterscheidet sich der Two-Step-Clusteralgorithmus in SPSS im Vergleich zu den anderen Clusterverfahren insbesondere im Algorithmus, nach dem die Clusterbildung vorgenommen wird. Während die zweistufige Clusteranalyse in einem sequentiellen Ablauf zwei Clusterungen durchfilhrt, - zuerst eine vorläufige Clusterung mit einer anschlief?enden hierarchischen Clusterung - erfolgt die Clusterbildung bei den ilblichen Clusterverfahren in einem ein-stufigen Algorithmus. Die zweistufige Clusteranalyse hat den grof?en Vorteil gegenilber klassischen Clusterverfahren, sehr umfangreiche Datensätze ohne enormen Rechenaufwand zu klassifizieren. Es milssen also nicht zu jedem Ob-jektpaar die Distanzen berechnet werden, um die Objekte einer gemeinsa-men Gruppe zuzuordnen, die sich am ähnlichsten sind. Befinden sich in ei-nem grof?en Datensatz sowohl kategoriale als auch metrischskalierte Variablen, so ist der Two-Step-Clusteralgorithmus auch in der Lage, die Ähnlichkeiten der Objekte bei Vorliegen von gemischtskalierte Merkmalen mit Hilfe der Log-Likelihood Distanz zu bestimmen. Hingegen bei anderen Clusterverfahren kön-nen keine Varialben mit unterschiedlichen Skalenniveaus zur Berechnung der Ähnlichkeiten verwendet werden. Hier milssen entweder Distanzmaf?e filr Va-riablen mit einer Nominal-Skala oder filr Variablen mit einer metrischen Skala zur Berechnung der Distanzen verwendet werden. Jedoch liefert der Two-Step-Clusteralgorithmus eine ungenauere Clusterlösung als hierarchische Cluster-verfahren. Dies liegt daran, dass im ersten Schritt eine sehr grobe Clusterung vorgenommen wird, die zum Ziel hat, alle Objekte, die sich in der rief?igen Datenmatrix befinden, transparenter zu ordnen, was auch notwendig ist, um die zweite Stufe der Clusterung vorzunehmen.

Es besteht folglich ein Trade-Off zwischen der Genauigkeit der Clusterlösung und dem immensen Rechenaufwand. Der Two-Step-Clusteralgorithmus ver-sucht hier einen Mittelweg zu finden, indem in der ersten Stufe eine ziemlich grobe Clusterung in Kauf genommen wird, um die Berechnungen der Distanzen der einzelnen Objektpaare zu vermeiden, die bei einem sehr grof?en Data-Set oft nicht mehr aufgrund der aufwendigen Rechenschritte durchgeführt werden können. Und schlief?lich wird in der zweiten Stufe auf eine exaktere Cluster-bildung gezielt, indem konkrete Berechnungen durchgeführt werden um eine optimale Clusterlösung zu erhalten.

2.2 Ablauf der zweistufigen Clusteranalyse

Das Verfahren des Two-Step-Clusteralgorithmus basiert auf dem so genannten BIRCH-Algorithmus, der vorwiegend für die Clusterung sehr umfangreicher Datensätze angewendet wird.

Im Folgenden wird ganz kurz der Ablauf des BIRCH-Algorithmus dargestellt.1

1. ,,Loading"

In der ersten Phase werden alle Objekte des Datensatzes in einem Cluster Feature Baum aufgenommen. Der Clusterbaum versucht die Informationen des Datensatzes bei der Klassifikation möglichst detailliert zu reflektieren.

2. ,,Optional Condensing"

Im zweiten Schritt wird der gesamte Datensatz im Cluster Feature Baum wei-terhin verdichtet, indem kleinere Clusterbäume gebildet werden, welche die Objekte noch genauer strukturieren.

3. ,,Global Clustering"

In der dritten Phase werden schlief?lich die Objekte, die den Blättern des Clus- ter Feature Baumes zugeordnet wurden, zu Sub-Clustern zusammengefasst.

4. ,,Optional Refining"

In der letzten Phase wird die grobe Clusterlösung, die beim Global Clustering resultiert, verfeinert und verbessert, indem die Sub-Cluster mit Hilfe einer agglomerativen hierarchischen Clusteranalyse nochmals geclustert werden.

Der Ablauf der zweistufigen Clusteranalyse orientiert sich in ähnlicher Vorge-hensweise am BIRCH-Algorithmus.

2.2.1 Erste Stufe: Vorliufige Clusterung aller Objekte

In der ersten Stufe des Two-Step-Clusteralgorithmus werden zunächst alle Oh-jekte des gesamten Datensatzes in einer haumartigen Clusterstruktur, die als Cluster Feature Baum hezeichnet wird, geordnet. Der Algorithmus teilt nun al-le Fälle sukzessive den einzelnen Blättern hzw. Ästen zu, zu denen der einzelne Fall die gröf?te Ähnlichkeit aufweist. Zur Veranschaulichung wird nachstehend ein Cluster Feature Baum graphisch dargestellt.2

Abbildung in dieser Leseprobe nicht enthalten

Ausgehend vom Ursprung, der alle Ohjekte enthält, wird jede Person suk-zessive den einzelnen Knoten des Baumes zugeordnet, his sich schlief?lich jede Person in einem Blatt hefindet, das die vorläufigen Suh-Cluster enthält. Wie in der Graphik ersichtlich, stellt jeder Punkt eine einzelne Person des Datensat-zes dar. Personen, die sich sehr ähnlich sind, werden zu einer Gruppe zusam-mengefasst, die im Clusterhaum als Kreis hzw. Punktewolke markiert ist. Jede Person wird also genau einem Blatt zugeordnet, wohei jedes Blatt genau einem ilhergeordneten Knoten angehört, der im Cluster Feature Baum als Ast darge-stellt wird. In den Ästen hefinden sich dann zusammengehörige Suh-Cluster, die charakteristisch ähnliche Ohjekte hilndeln. Dies wird graphisch im zwei-ten Ast veranschaulicht. Ehenso werden die Äste grof?eren Ästen zugeordnet, his schlief?lich die gröf?ten Äste zum Ursprung zurilckfilhren. Die Baumstruk-tur kann sich in viele Baumehenen verzweigen. Je mehr Verzweigungen und je mehr Knoten, desto genauer und detaillierter werden die Ohjekte zugeord-net und umso mehr Suh-Cluster werden gehildet. Jedoch hedeutet eine höhere Anzahl an Sub-Cluster einen höheren Rechenaufwand in der zweiten Stufe des Two-Step-Clusteralgorithmus. In der Graphik wird ein Cluster Feature Baum mit drei Ebenen gewählt. Im Folgenden wird das Ablaufschema zur Aufnahme eines Falles in den Cluster Feature Baum näher beschrieben:3

Im ersten Schritt wird jeder einzelne Fall sukzessive einem Blatt zugeordnet. In welchem Blatt des Cluster Feature Baumes sich der betrachtete Fall bendet, wird anhand des angewendeten Distanzkriteriums entschieden. Da jedoch der Rechenaufwand bei der ersten Stufe der Clusterbildung minimal bleiben soll, wird jedes Cluster bzw. jeder Knoten innerhalb des Clusterbaumes nur anhand weniger verdichteter Kennzahlen beschrieben, insbesondere der Mittelwert und die Varianz bei metrischen Variablen, sowie die Häugkeiten bei kategorialen Variablen.4 Im nächsten Schritt wird anschlief?,end anhand der Ähnlichkeit des zu betrachtenden Falles fiberprfift, ob der Fall einem Sub-Cluster innerhalb des betreffenden Blattes zugeordnet wird oder ob ein neues Sub-Cluster ge-bildet wird. Weist der betreffende Fall eine sehr hohe Ähnlichkeit mit einem Sub-Cluster auf, so wird er in dieser Fallgruppe aufgenommen. Wenn jedoch dieser Fall aufgrund unterschiedlicher Merkmalsausprägungen den Wert ffir die maximal zulässige Heterogenität dieses vorläugen Clusters fiberschreitet, so wird eine Aufnahme in das Cluster verhindert und der Fall bildet ein ei-genständiges neues Sub-Cluster. Können jedoch in einem Blattknoten keine weiteren Sub-Cluster mehr gebildet werden, so wird der bestehende Blatt-knoten in zwei neue Blattknoten aufgespaltet, wobei die heterogensten Cluster aus dem urpsrfinglichen Blattknoten die Anfangscluster der neuen Blattknoten markieren. Ebenso ist zu fiberprfifen, ob der fibergeordnete Ast die maximale Anzahl der Blattknoten erreicht hat. Ist das der Fall, muss auch der Astknoten in zwei neue Astknoten aufgespaltet werden. Dies kann also zu einer Verzwei-gung sämtlicher Knoten fiber mehrere Ebenen des Cluster Feature Baumes ffihren. Die Baumstruktur kann sich also in eine uferlose Anzahl von Ästen und Blättern ausbreiten. Je genauer der Cluster Feature Baum jedoch struk-turiert wird, umso mehr Sub-Cluster werden gebildet. Um die Baumstruktur mit all ihren Astknoten und Blattknoten steuern zu können, werden folgende drei Parameter vorgegeben, welche die Anzahl der Sub-Cluster und somit die Baumstruktur beeinflussen.

Diese drei Parameter lauten:5

MXLEVEL (Vorgegebener Wert in SPSS 3)

MXBRANCH (Vorgegebener Wert in SPSS 8)

INITTRESHOLD (Vorgegebener Wert in SPSS 0)

Dabei stellt MXLEVEL die maximale Anzahl der Ebenen eines Cluster Feature Baums dar und MXBRANCH die maximale Anzahl der Verzweigungen eines Knotens. Üblicherweise wird in SPSS für MXLEVEL der Wert 3 und für MX-BRANCH der Wert 8 gewählt, sodass bei 3 Baumebenen und 8 Verzweigungen eines Knotens die maximale Anzahl der Sub-Cluster 512 (83 = 512 ) beträgt. INITTRESHOLD entspricht einem Schwellenwert, der für die Aufnahme wei-terer Fälle in einem Blattknoten variiert werden kann. Je mehr Baumebenen und Verzeigungen gewählt werden, desto strukturierter und detaillierter wird der Clusterbaum aufgebaut und desto mehr Sub-Cluster werden gebildet. Die Anzahl der vorläufigen Sub-Cluster fällt geringer aus, wenn ein höherer Para-meterwert bzw. Schwellenwert für INITTRESHOLD spezifiziert wird.

2.2.2 Zweite Stufe: Hierarchische Clusterung der Sub-Cluster

Nachdem im ersten Schritt des Clusteralgorithmus die vorläufigen Sub-Cluster im Cluster Feature Baum ermittelt wurden, werden jetzt im zweiten Schritt die endgültigen Cluster mittels konkreter Berechnungen in einem hierarchischen agglomerativen Clusterverfahren gebildet. Die Anzahl der Rechenschritte ist abhängig von der Anzahl der vorläufigen Sub-Cluster. Allerdings kann für die zweite Stufe die hierarchische Clusteranalyse hinsichtlich des Rechenaufwandes angewendet werden, da die Anzahl der Sub-Cluster deutlich geringer ist als die Gesamtheit aller Fälle im Datensatz. Der Ablauf der hierarchischen Clusterung wird hier nicht näher dargestellt.

2.2.3 Distanzma Ie des Two-Step-Clusteralgorithmus

Sowohl in der ersten Stufe bei der Bestimmung der vorläuigen Sub-Cluster, als auch in der zweiten Stufe bei der Bestimmung der optimalen Cluster greift SPSS auf zwei Distanzmaf?,e zurück. Im Vergleich zu anderen Clusterverfahren kann mit der Log-Likelihood Distanz ein Distanzkriterium gewählt werden, das die Ähnlichkeiten von gemischtskalierten Variablen berechnen kann.

Log-Likelihood Distanzkriterium

Die Log-Likelihood Distanz d zwischen zwei Clustern i und s kann wie folgt berechnet werden:6

Abbildung in dieser Leseprobe nicht enthalten

Die Log-Likelihood Distanz ist sowohl für kategoriale, als auch für intervalls-kalierte Variablen geeignet. Ziel dieses Proximitätsmaf?,es ist es, die Wahr-scheinlichkeit, dass die Fälle des Datensatzes einem bestimmten Cluster ent-sprechen, zu maximieren. Für das wahrscheinlichkeitstheoretische Clustermo-dell wird für alle Variablen eine gemeinsame Wahrscheinlichkeitsdichtefunktion formuliert, welche die Parameter des Modells mit der Maximum- Likelihood-Schätzmethode schätzt. Es werden also für die Cluster unabhängige multiva­riate Verteilungen der Variablen angenommen, für die eine gemeinsame Wahr-scheinlichkeitsdichtefunktion berechnet wird.7 Dabei werden für die metrische Variablen unabhängige Normalverteilungen mit dem Mittelwert µij der j-ten Variable des i-ten Cluster und der Varianz [Abbildung in dieser Leseprobe nicht enthalten] unterstellt. Für kategoriale Va-riablen ergeben sich unabhängige multinomiale Verteilungen mit den Wahr-scheinlichkeiten π ijl, wobei der Index jl der l-te Kategorie der j-ten Variable entspricht. Es werden nun die Sub-Clusterpaare fusioniert, die am wenigsten die Wahrscheinlichkeit der Zuordnung der Fälle zu Sub-Cluster vermindern.

Euklidisches Distanzmaß

Die Euklidische Distanz zwischen zwei Clustern i und s berechnet sich als:

Abbildung in dieser Leseprobe nicht enthalten

Die Euklidische Distanz kann nur für intervallskalierte Merkmale verwendet werden und entspricht der Wurzel aus der Summe der quadrierten Abweichun-gen zwischen den Ausprägungen der hier betrachteten Cluster i und s.

Anzahl der optimalen Cluster

Wie bereits erläutert, hängt die Zahl der vorläufigen Sub-Cluster von den ge-wählten Ebenen bzw. Verzweigungen der Knoten des Cluster Feature Baumes ab. Allerdings ist die Anzahl der Sub-Cluster in SPSS nicht ersichtlich, sondern nur die endgültige Anzahl der Cluster. Die Anzahl der optimalen End-Cluster, die in der zweiten Stufe des Clusteralgorithmus ermittelt werden, wird anhand des gewählten Informationskriteriums AIC (Akaike's Information Criterion) oder BIC (Bayesian Information Criterion) bestimmt.

Abbildung in dieser Leseprobe nicht enthalten

Bei beiden Modellauswahlkriterien AIC und BIC werden jeweils die maxima-le Likelihood einer Clusterlösung in logarithmierter Form mit dem Faktor -2 multipliziert. So ergibt sich der Summand: −2 l k. Die addierten Ausdrücke 2 r k und r k log dienen als Korrekturausgleich für eine Clusterlösung mit k Clustern im Vergleich zu Ergebnissen mit k-1, k-2, ... ,k-n Clustern. Der Summand 2 r k entspricht dabei der Anzahl der zu schätzenden Parameter des Clustermodells k. Beim BIC wird die Zahl der zu schätzenden Paramter r k noch zusätzlich mit dem natürlichen Logarithmus aller Fälle n des Datensatzes multipliziert. Bei der automatischen Bestimmung der optimalen Clusteranzahl in SPSS wird die Clusterlösung gewählt, bei der die kleinste BIC-Erhöhung bzw. AIC-Erhöhung relativ zur BIC-Erhöhung bzw. AIC-Erhöhung im letzten Fusionsschritt am niedrigsten ist.8

3 Anwendung des Two-Step-Clusteralgorithmus in der Praxis

3.1 Beschreibung des empirischen Datensatzes

In der Marktforschungspraxis werden ühlicherweise sehr umfangreiche Daten-sätze erhohen, um die Repräsentativität der Studie zu gewährleisten. Folglich wird der Two-Step-Clusteralgorithmus in der Praxis gegenüher anderen her-kömmlichen Clusterverfahren, wie den hierarchischen Clusterverfahren, hevor-zugt, da die zweistuge Clusteranalyse grof?e Datensätze wesentlich effizienter klassiziert. Der hier vorliegende Datensatz wurde im Rahmen einer Usage & Attitude Studie zum Thema Parfümnutzung erhohen und umfasst m 48 Variahlen (siehe Anhang A) und n 2000 Frauen, die diese Statements in einer Skala von 1 his 5 heurteilten. Dahei hatten die 2000 Frauen folgende Beurteilungsmöglichkeiten:

1 ,,Stimme überhaupt nicht zu"
2 ,,Stimme nicht zu"
3 ,,Indifferente Einschãtzung zu diesem Statement"
4 = ,, Stimme zu"
5 ,,Stimme yo und ganz zu"

Bei diesem Datensatz liegt eine Ordinal-Skala hzw. eine Rating-Skala vor. Da die Antwortmöglichkeiten zur Einschätzung der Parfümnutzung ordinalskaliert sind, erfolgt die Zuordnung aller Fälle zu den einzelnen Clustern mit Hilfe der Log-Likelihood Distanz. Es soll nun mit Hilfe des Two-Step-Clusteralgorithmus die optimale Anzahl der Cluster gefunden werden. Dahei sollte jedes Cluster die Frauen enthalten, die sich hinsichtlich der Parfümnutzung am ähnlichsten sind.

3.2 Durchführung der Two-Step-Clusteranalyse

Nachdem der empirische Datensatz kurz erläutert wurde, werden nun die 48 Statements als kategoriale Variahlen in SPSS eingegehen und von SPSS

der Clusteralgorithmus durchgeführt. Dahei wird als Distanzmaf? die Log-Likelihood Distanz gewählt, da die 48 Variahlen ordinalskaliert sind. Die An-zahl der Cluster wird automatisch von SPSS herechnet. Weiterhin wird als Modellauswahlkriterium das BIC-Kriterium gewählt. Es wird darauf hinge-wiesen, dass hei der Wahl des AIC-Kriteriums exakt die gleiche Cluserlösung resultiert. Schlief?lich werden zusätzliche Diagramme ausgegehen, welche die Clusterstruktur in Prozent angehen. Allerdings kann SPSS den Cluster Feature Baum hzw. die sukzessive Zuordnung der einzelnen Frauen zu den jeweiligen Ästen hzw. Blättern des Clusterhaums nicht anzeigen, sodass dem User diese sequentielle Clusterung der einzelnen Fälle vorenthalten hleiht.

3.3 Auswertung der Ergebnisse des Clusterverfahrens

Nachdem der Two-Step-Clusteralgorithmus durchgeführt worden ist, liefert SPSS als optimale Clusterlösung sechs Cluster. Die Clusterverteilung wird graphisch als Kreisdiagramm dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Dahei wird ersichtlich, dass es eine Randgruppe mit 97 Frauen giht, die deutlich unterrepräsentiert ist. Die anderen Cluster sind gleichmäf?iger verteilt, wohei das dritte und vierte Cluster fast die Hälfte der 2000 hefragten Frauen ausma-chen. Im Folgenden werden die einzelnen Cluster ausführlich heschriehen und anhand der Statements charakterisiert.

Cluster 1: Die zurückhaltenden Parfum-User

Das erste Cluster, das hei der zweistugen Clusteranalyse dieses Datensatzes resultiert, umfasst 393 Frauen, also ca. 20 Prozent der hefragten 2000 Frauen. Bei näherer Betrachtung des Clusters fällt auf, dass sich die Frauen hei vielen Statements üherwiegend enthalten. Es giht folglich keinen klaren Trend der Frauen in positiver Richtung (volle Übereinstimmung) oder negativer Rich-tung (fiberhaupt keine Übereinstimmung). Ebenso ist zu beobachten, dass bei manchen Statements die Meinungen in diesem Cluster auseinandergehen, wie zum Beispiel beim Statement: ,,Ich denke, dass stärkere Parfums länger anhal-ten". Hier können sich die Frauen nicht richtig einigen, da 85 Frauen hier das Statement ablehnen, während 88 Frauen daffir stimmen und sich 220 Frau-en enthalten. Wie bei den meisten Einstellungsfragen ist die Enthaltung doch am gröf?,ten, sodass das erste Cluster mit ein paar Ausnahmen einigermaf?,en homogen ist, was die Enthaltung betrifft. Denn trotz einiger Unstimmigkei-ten im Cluster ziehen es doch die meisten Frauen vor, in ihrer Aussage weder zuzustimmen noch abzulehnen. Diese häuge Indifferenz spiegelt eine gewisse Unsicherheit bei den Frauen wi­der. Die Frauen verhalten sich also eher zurfickhaltend und schfichtern. Die Frauen sind sich bei vielen Statements ziemlich unschlfissig. Möglicherweise gibt es in diesem Cluster viele Frauen, die sich nicht so sehr mit Parfums be-schäftigen und auch nicht so viel Ahnung haben von aktuellen Trends und Stilrichtungen und da liegt es nahe, dass sich diese Damen zurfickhaltend äu-f?,ern, was die Parfumnutzung betrifft. Dies zeigt sich auch beim Statement: ,,Man kann mit einem Parfum so einiges fiber jemanden sagen, der dieses Par-fum trägt", bei dem sich 58 Prozent der Frauen enthalten. Auf?,erdem sind sich 116 Frauen, knapp 30 Prozent des Clusters, nicht sicher, ob ihnen etwas Wich-tiges fehlt, wenn sie ihr Parfum vor dem Weggehen vergessen haben. Und sogar 66 Prozent der Frauen können sich nicht festlegen, ob sie lieber klassische oder moderne Parfums tragen wollen. Man könnte also meinen, dass die Frauen ihr Parfum selten auftragen, sodass sie nicht beurteilen können, ob ihnen Parfum wirklich so wichtig ist. Diese Unentschlossenheit zeigt sich auch beim State­ment: ,,Ich will das Parfum verwenden, das zur Zeit nur wenige Leute tragen". Hier zeigt sich eine Indifferenz bei 240 Frauen. Wenn also 61 Prozent der Da-men nicht weif?,, ob sie das Parfum tragen wollen oder nicht, das zur Zeit nur wenige Leute verwenden, so deutet dies darauf hin, dass viele Parfum-User in diesem Cluster keinen eigenen Parfum-Stil anstreben.

Diese klare Enthaltung zeigt sich auch beim Statement: ,,Empfehlungen sind ffir mich sehr wichtig, wenn ich beschlief?,e ein Parfum zu kaufen" Hier waren sich 238 Frauen nicht sicher, ob Empfehlungen hilfreich sind oder nicht. Die-se Indifferenz bei den meisten Frauen soll nochmals graphisch veranschaulicht werden (siehe Abbildung B.1). Ebenso wissen 34 Prozent der Frauen nicht so recht, ob der Kauf eines Parfums ein besonderes Vergnfigen darstellt. Dies lässt vermuten, dass der Grof?,teil der Frauen in diesem Cluster nicht wirklich vom Kauf eines Parfums fiberzeugt ist und sich offensichtlich weniger mit Parfums hzw. Parfumnutzung heschäftigt. Auch hei persönlichen Statements wie zum Beispiel: ,,Mein Parfum soll meine eigene Persönlichkeit reflektieren" giht es 132 Frauen, die hier weder zustimmen noch ahlehnen. Dies unterstreicht noch-mals die eigene Unsicherheit der Frauen. Und ehenso enthalten sich lieher 57 Prozent der Frauen heim Statement: ,,Tch mag es aufgrund meines Parfums wahrgenommen zu werden". Und auch hei dem Statement: ,,Welches Parfum ich trage, entscheide ich je nach Stimmungslage" zeigen sich 177 Frauen unsi-cher und enthalten sich. Dies deutet darauf hin, dass die Frauen nicht so recht wissen, oh ihre Stimmungslage wirklich einen Einfluss hat, welches Parfum sie tragen wollen. Ehenso wenig können 121 Frauen nicht heurteilen, oh Parf-ums Erinnerungen in ihnen hervorrufen. Freilich giht es hei einigen Statements auch aussagekräftigere Antworten, doch sind diese auch mit einer gewissen Un-sicherheit hehaftet, da es einige Frauen giht, die sich entgegen der Mehrheit der Gruppe enthalten. Dies ist zum Beispiel heim Statement: ,,Tch denke das Parfum gefunden zu hahen, das all meine Bedilrfnisse hefriedigt" zu heohach-ten. Denn 195 Frauen, also 50 Prozent, meinen das richtige Parfum gefunden zu hahen. Dennoch äuf?,ern sich 158 Frauen, also 40 Prozent eher schilchtern und sind nicht ilherzeugt, das Parfum gefunden hahen, das ihre Bedilrfnisse hefriedigt.

Fazit: Tm ersten Cluster hefinden sich vorwiegend Frauen, die sich aufgrund vieler Enthaltungen zurilckhaltend und vorsichtig verhalten und somit eher schilchterne Kunden sind. Es wird also filr Parfumhersteller schwierig sein, diese Frauen von einem Parfum oder wohlriechenden Dilften ilherzeugen zu können. Hier milssten die Markenhersteller sehr viel Werhung hetreihen, um die Frauen filr sich gewinnen zu können.

Cluster 2: Die harmonischen Parfum-User

Dieses Cluster stellt eine sehr homogene Gruppe dar. Die Clusterhildung dieser 97 Frauen ist nahezu perfekt. Bei jeder Antwortmöglichkeit sind sich die Frau-en sehr einig und es giht kaum ahweichende Antworten. Jedoch repräsentiert dieses Cluster nur 4,85 Prozent der 2000 hefragten Frauen. Somit stellt dieses Cluster hier eine kleine Randgruppe dar, die sehr geschlossen auftritt. Diese ilherwältigende Ühereinstimmung dieser Frauen wird hier nochmals graphisch anhand eines Balkendiagramms verdeutlicht (siehe Ahhildung B.2).

Bei diesem Cluster fällt sofort auf, dass diese Frauen hei 22 Statements das mittlere Kreuzchen hei der Skala gewählt hahen. Die ist ein ganz klares Signal der Enthaltung. Diese häufige Tndifferenz lässt vermuten, dass sich diese Frauen hei vielen Statements sehr unschlilssig sind und sich oftmals nicht richtig ent-scheiden können. Allerdings sind sich die Frauen hei allen Statements sehr einig und geben ein sehr harmonisches Meinungsbild ab. Weiterhin wird ersichtlich, dass die Frauen in diesem Cluster zufriedene Parfum-User sind. So stimmen alle 97 Frauen dem Statement: ,,Wenn ich für mich selbst ein Parfüm kaufe, bevorzuge ich es, bei dem Parfüm zu bleiben, von dem ich bereits überzeugt bin" zu. Ebenso denken alle Frauen das Parfum gefunden zu haben, das alle ihre Bedürfnisse befriedigen kann. Auf?erdem verwenden 94 Frauen sowohl am Tag als auch abends dasselbe Parfum. Und schlief?lich geben alle 97 Frauen an, dass sie nicht jedes Mal ein anderes Parfüm kaufen wollen. Die Frauen bleiben also lieber bei einem Parfum, von dem sie überzeugt sind und ihnen ist es auch sehr wichtig, dass der Duft eines Parfums den ganzen Tag anhält. Der Duft spielt also auch eine wichtige Rolle für die Frauen. Dies zeigt sich auch beim Statement: ,,Dasselbe Parfüm riecht anders bei unterschiedlichen Leuten", das 95 Damen bejahen. Parfum ist für diese Frauen nicht nur ein wichtiges Acces-soire, das angenehme Düfte spendet, sondern auch sehr persönlich. So erwecken für alle 97 Frauen Parfums Erinnerungen. Und ebenso reflektiert Parfum die eigene Persönlichkeit der Frauen. Dies zeigt, dass Parfum für diese Damen ein wichtiges Accessoire ist. Denn 96 Frauen fehlt auch was ganz Besonderes, wenn sie vergessen haben beim Weggehen ihr Parfum aufzutragen. Darüber hinaus ist es für die Frauen wichtig, dass sie von ihrem Partner grof?e Zustimmung erhalten. So haben es 95 Frauen gern, wenn ihr Partner ihr Parfum gut findet und schlief?lich mögen es alle Frauen, wenn andere Leute von ihrem Parfum überzeugt sind.

Fazit: Dieses Cluster enthält Frauen, die sich bei nahezu allen Statements sehr einig sind und somit sehr geschlossen auftreten. Dies stellt folglich ein sehr homogenes Meinungsbild der Frauen dar und lässt vermuten, dass diese Frauen sehr harmonische und unkomplizierte Parfum-User sind. Diese Gruppe beschreibt zufriedene und unkomplizierte Parfum-User, die ihr Parfumfläschen lieber universell einsetzen, um alles so einfach wie möglich zu handhaben.

Cluster 3: Die glamourösen Parfum-User

Das dritte Cluster umfasst 454 Frauen und somit ist diese Gruppe zu 22,7 Prozent repräsentativ für die insgesamt 2000 Frauen. Dieses Cluster ist wenig homogen, wenn man sich die Verteilung der Antworten der Frauen zu den je-weiligen Statements genauer ansieht. Zum Beispiel waren sich die Frauen beim Statement: "Ich wähle mein Parfüm so aus, das es auch zu meiner Kleidung passt, die ich trage" sehr uneinig. Denn von den 454 Frauen stimmen 151 Frau-en zu, während sich 156 Frauen ablehnend dazu äuf?eren und sich 147 Frauen enthalten.

Bei der inhaltlichen Interpretation des Clusters ist klar erkennhar, dass diese Frauen dem Parfum eine sehr grof?e Bedeutung heimessen. Demnach denken 385 Frauen, dass ihnen etwas ganz Wichtiges fehlt, wenn sie ihr Parfum vor dem Weggehen vergessen hahen. Ehenso spielt das Aroma des Parfums ei-ne entscheidende Rolle. Ein Parfum muss sehr wohlriechende Dilfte spenden, wenn es ein sehr gutes Parfum sein soll. Dies wird deutlich heim Statement: ,,Ich will das Parfum, das den ganzen Tag den Duft hehält, wie heim Auftra-gen des Parfums", dem insgesamt 426 Frauen zustimmen. Auf?erdem wollen 251 Frauen, dass ihr Duft im Zimmer hleiht, wenn sie es verlassen. Parfum soll also diesen Damen Glanz und wohlriechende Dilfte verleihen. Diese hohe Wert-schätzung zeigt sich auch heim Statement: ,,Parfum ist ein kleiner Luxus", das 89 Prozent der Frauen hejahen. Parfum ist filr diese Damen also ein sehr wert-volles Kosmetikprodukt. Dies wird auch heim Statement: "Ich henutze immer solange mein Parfum, his die Flasche leer ist, da es zu teuer ist, das Parfum zu verschwenden" deutlich. 72 Prozent der Frauen nutzen ihr Parfumfläschen effektiv. Die Frauen wissen also den Luxus ihres Parfums sehr zu schätzen und genief?en daher ihr glanzvolles Parfum his auf den letzten Tropfen. Teure Parfums sind hegehrenswerter als hilligere Parfums. Folglich sind hei folgen-dem Statement: "Die hilligeren Parfums sind genau so gut als die teureren Parfums" 201 Frauen anderer Meinung.

Parfum hat filr diese Frauen einen sehr hohen Wiedererkennungswert. Dies zeigt sich vor allem heim Statement: "Dasselhe Parfum riecht anders hei un-terschiedlichen Leuten", dem 426 Frauen zustimmen. Ehenso denken 86 Pro-zent der Frauen, dass Parfum ihre eigene Persönlichkeit widerspiegelt. Und 381 Frauen hejahen die Aussage: "Einige Parfums erwecken Erinnerungen in mir". Parfum wird also sehr hewusst und intensiv von den Frauen getragen, was auch schon der effektive Umgang mit dem Parfum zeigt. Daher finden es auch 346 Frauen wichtig, das richtige Parfum zum richtigen Anlass zu tragen. Dies soll graphisch veranschaulicht werden.(siehe Ahhildung B.3) Diese Frauen wollen also ihr Parfum sehr gezielt einsetzen. Darilher hinaus interessiert es 233 Frau-en herauszufinden, welche Parfums andere Frauen tragen. Dies zeigt, dass es filr diese Frauen wichtig ist, die perfekte Geschmacksrichtung filr ihr Parfum zu finden und die aktuellen Trends zu erkunden. Sie kaufen also nicht irgendein Parfum, sondern wählen das Parfum aus, das ihnen den gröf?ten Glanz verleiht und sie von der Menge hervorheht. Dies ist erkennhar heim Statement: "Ich will das Parfum verwenden, das zur Zeit nur wenige Leute tragen", dem 226 Frauen zustimmen. Und um das perfekte Parfum zu finden, ist auch der Kauf eines Parfums sehr entscheidend. Demnach ist es filr 373 Frauen ein hesonde-res Vergnilgen Parfum einzukaufen. Und der Grof?teil der Frauen geht gernein Geschäfte um Parfums auszuprobieren. Der Kauf eines Parfums muss für diese Damen wohl sehr gut überlegt sein. Die Frauen beschäftigen sich mit dem Thema Parfum und folglich ist es für sie auch wichtig positives Feedback zu bekommen. So haben es 428 Frauen, also 94 Prozent der Frauen, sehr gern, wenn andere Leute von ihrem Parfum überzeugt sind und nahezu alle Frauen haben es auch sehr gern, wenn der Partner ihr Parfum schätzt.

[...]


1 siehe Fahrmeir u. a. (1996, S. 438)

2 siehe Backhaus u. a. (2006, S. 481 f.)

3 siehe Fahrmeir ii. a. (1996, S. 453 f.)

4 siehe Eckey ii. a. (2002, S. 260)

1 siehe Zhang u. a. (1997)

2 siehe Brosius (2004, S. 703)

3 siehe Brosius (2004, S. 704 if.)

4 siehe Brosius (2004, S. 703 f.)

5 siehe Bacher ii. a. (2004)

6 siehe Bacher u. a. (2004)

7 siehe (Janssen und Laatz, 2007, S. 494)

8 siehe Janssen und Laatz (2007, S. 495)

Ende der Leseprobe aus 71 Seiten

Details

Titel
Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Vergleich mit der k-Means Clusteranalyse
Hochschule
Universität Passau  (Wissenschaftliche Fakultät)
Note
1,7
Autor
Jahr
2008
Seiten
71
Katalognummer
V129422
ISBN (eBook)
9783640366934
ISBN (Buch)
9783640367184
Dateigröße
1617 KB
Sprache
Deutsch
Schlagworte
Two-Step-Clusteralgorithmus, SPSS, Methodenbeschreibung, Vergleich, Clusteranalyse
Arbeit zitieren
Josef Seibold (Autor), 2008, Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Vergleich mit der k-Means Clusteranalyse, München, GRIN Verlag, https://www.grin.com/document/129422

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Vergleich mit der k-Means Clusteranalyse


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden