Inhaltsverzeichnis
1 Einführung in die Clusteranalyse 1
1.1 Problemstellung der Clusteranalyse 1
1.2 Ablauf der Clusteranalyse 1
2 Der Two-Step Clusteralgorithmus in SPSS 3
2.1 Problemstellung des Verfahrens 3
2.2 Ablauf der zweistugen Clusteranalyse 4
2.2.1 Erste Stufe: Vorläuge Clusterung aller Objekte 5
2.2.2 Zweite Stufe: Hierarchische Clusterung der Sub-Cluster 7
2.2.3 Distanzmaÿe des Two-Step Clusteralgorithmus 7
3 Anwendung des Two-Step Clusteralgorithmus in der Praxis 10
3.1 Beschreibung des empirischen Datensatzes 10
3.2 Durchführung der Two-Step Clusteranalyse 10
3.3 Auswertung der Ergebnisse des Clusterverfahrens 11
4 k-Means Clusteranalyse 21
4.1 Beschreibung und Problemstellung der k-Means Methode 21
4.2 Ablaufschema der k-Means Clusteranalyse 21
5 Anwendung der k-Means Methode in der Praxis 23
5.1 Problematik des empirischen Datensatzes 23
5.2 Durchführung der k-Means Clusteranalyse 23
5.3 Auswertung der Ergebnisse der Clusteranalyse 26
6 Vergleich der beiden Clusterverfahren 33
6.1 Theoretischer Vergleich 33
6.2 Vergleich der SPSS-Ergebnisse 34
6.3 Schlussfolgerung 36
A Statements der Usage Attitudes-Studie III
B Balkendiagramme der Clusterprole V
C SPSS-Ausdrücke XV
I
Inhaltsverzeichnis II
Literaturverzeichnis XXXIII
1 Einführung in die Clusteranalyse
1.1 Problemstellung der Clusteranalyse
Die Clusteranalyse ist ein multivariates statistisches Verfahren zur Klassenbildung. Das Ziel der Clusteranalyse besteht darin, möglichst homogene Gruppen aus einer Menge von Objekten zu klassizieren, wobei sich die Gruppen möglichst heterogen voneinander unterscheiden sollen. Der Ausgangspunkt der Clusteranalyse bildet eine Rohdatenmatrix X mit N Objekten und p Varia- 1
blen.
Die Zuordnung der Objekte in die Cluster erfolgt so, dass genau jedes Objekt genau einem von g Clustern (C 1 , C 2 , ..., C g ) zugewiesen wird. Eine solche Clusterzuordnung wird auch Partition P = (C 1 , C 2 , ..., C g ) genannt.
1.2 Ablauf der Clusteranalyse
Nachdem das Hauptziel der Clusteranalyse kurz erläutert wurde, soll nun kurz 2 Zu Beginn der
der Ablauf einer Klassikationsbildung dargestellt werden. Clusteranaylse werden die Ähnlichkeiten der einzelnen Objektpaare aus der Datenmatrix berechnet. Je gröÿer der Wert des Ähnlichkeitsmaÿes ist, desto ähnlicher sind sich zwei Objekte und umso homogener ist das Cluster, das sie bilden. Bei der Bestimmung des Distanzmaÿes ist das Skalenniveau der Variablen sehr entscheidend. Folglich gibt es spezielle Distanzmaÿe, auch Proximitätsmaÿe genannt, bei nominalskalierten und metrischskalierten Variablen. Bei gemischtskalierten Merkmalen wird das Log-Likelihood Distanzmaÿ zur Berechnung der Distanzen herangezogen. Die Berechnung der Distanz zweier Objekte wird im nächsten Kapitel ausführlich dargestellt anhand der Euklidischen Distanz und der Log-Likelihood Distanz. Nach der Berechnung der Ähnlichkeitswerte der einzelnen Objektpaare erfolgt der Fusionierungsalgorithmus.
1 siehe Fahrmeir u. a. (1996, S. 438)
2 siehe Backhaus u. a. (2006, S. 481 f.)
1
Kapitel 1. Einführung in die Clusteranalyse 2
Bei der Auswahl des Clusteralgorithmus unterscheidet man zwischen den Hierarchischen Clusterverfahren und den Partitionierenden Clusterverfahren. Die Hierarchischen Clusterverfahren konstruieren eine Folge von Partitionen der 3 I = 1,2,...,N.
gesamten Objektmenge I
Dabei werden die Hierarchische Clustermethoden in agglomerative und divisive Clusterverfahren unterteilt. Die agglomerativen hierarchischen Clusterverfahren beginnen mit der feinsten Partition, d.h. jedes Objekt stellt zu Beginn ein eigenes Cluster dar und wird sukzessive mit Hilfe der Ähnlichkeitsmatrix der Objektpaare zu optimalen Clustern fusioniert. Bei divisiven hierarchischen Clusterverfahren wird mit der gröbsten Partition gestartet, d.h. die Rohdatenmatrix X stellt zu Beginn des Algorithmus ein einziges Cluster dar und wird sukzessive in mehrere optimale Cluster zerlegt. Durch die sukzessive Aufspaltung in Teilklassen wird eine höhere Homogenität erreicht.
Die partitionierenden Clusterverfahren beginnen mit einer fest vorgegebenen Anfangspartition, die im Bezug auf ein bestimmtes Gütekriterium, wie z.B. das Varianzkriterium, sukzessive verbessert wird. Ziel dieses iterativen Clus-teralgorithmus ist es, durch geeignete Umgruppierung der Objekte und durch geeignete Korrektur der in der Startpartition vorgegebenen Clusterschwerpunkte die Start-Clusterlösung in Bezug auf ein bestimmtes Gütekriterium zu verbessern. Die partitionierenden Clusterverfahren unterscheiden sich in optimierende Austauschverfahren und Minimal-Distanz-Verfahren. Optimierende Austauschverfahren berechnen zunächst die Clusterschwerpunkte für eine vorliegende Anfangspartition, sowie die Werte der Objekte eines vorgegebenen 4 Anhand der Werte des Gütekriteriums wird für jedes Objekt
Gütekriteriums.
entschieden, ob durch eine Umgruppierung des Objektes eine Verbesserung der Clusterlösung erzielt werden kann. Das Minimal-Distanz-Verfahren wird später am Beispiel der k-Means-Clusteranalyse ausführlich beschrieben. Hierarchische Clusterverfahren sind sehr geeignet bisher unbekannte Clusterstrukturen aufzudecken, während partitionierende Verfahren, von einer Startpartition ausgehend, die Cluster anhand eines gewählten Gütekriteriums iterativ umgruppieren, um eine optimale Clusterlösung zu erhalten.
Im letzten Schritt des Ablaufs eines Clusterverfahrens wird die Anzahl der Cluster bestimmt. Bei partitonierenden Clusterverfahren wird die Clusteranzahl bereits zu Beginn festgelegt und auch nicht mehr im Laufe des Verfahrens verändert. Hingegen bei den hierarchischen Clusterverfahren wird die Clusteranzahl im sequentiellen Ablauf des Verfahrens ermittelt und hängt von der Heterogenität aller Objekte der Datenmatrix ab.
3 siehe Fahrmeir u. a. (1996, S. 453 f.)
4 siehe Eckey u. a. (2002, S. 260)
2 Der Two-Step-Clusteralgorithmus in SPSS
2.1 Problemstellung des Verfahrens
Der Two-Step-Clusteralgorithmus ist ein zweistuges Clusterverfahren zur Klassenbildung. In der ersten Stufe des Verfahrens wird zunächst eine grobe und vereinfachte Clusterung aller Objekte vorgenommen, die dann in der zweiten Stufe mit einer rechenaufwändigeren hierarchischen Clusteranalyse zu präziseren Clustern verdichtet wird. Ziel dieses Clusteralgorithmus ist es, ebenso wie bei den herkömmlichen Clusterverfahren, möglichst homogene Objekte in einem Cluster zusammenzufassen, wobei sich die verschiedenen Cluster möglichst deutlich voneinander unterscheiden sollen.
Dabei unterscheidet sich der Two-Step-Clusteralgorithmus in SPSS im Vergleich zu den anderen Clusterverfahren insbesondere im Algorithmus, nach dem die Clusterbildung vorgenommen wird. Während die zweistuge Clusteranalyse in einem sequentiellen Ablauf zwei Clusterungen durchführt, - zuerst eine vorläuge Clusterung mit einer anschlieÿenden hierarchischen Clusterung
- erfolgt die Clusterbildung bei den üblichen Clusterverfahren in einem einstugen Algorithmus. Die zweistuge Clusteranalyse hat den groÿen Vorteil gegenüber klassischen Clusterverfahren, sehr umfangreiche Datensätze ohne enormen Rechenaufwand zu klassizieren. Es müssen also nicht zu jedem Objektpaar die Distanzen berechnet werden, um die Objekte einer gemeinsamen Gruppe zuzuordnen, die sich am ähnlichsten sind. Benden sich in einem groÿen Datensatz sowohl kategoriale als auch metrischskalierte Variablen, so ist der Two-Step-Clusteralgorithmus auch in der Lage, die Ähnlichkeiten der Objekte bei Vorliegen von gemischtskalierte Merkmalen mit Hilfe der Log-Likelihood Distanz zu bestimmen. Hingegen bei anderen Clusterverfahren können keine Varialben mit unterschiedlichen Skalenniveaus zur Berechnung der Ähnlichkeiten verwendet werden. Hier müssen entweder Distanzmaÿe für Variablen mit einer Nominal-Skala oder für Variablen mit einer metrischen Skala zur Berechnung der Distanzen verwendet werden. Jedoch liefert der Two-Step-Clusteralgorithmus eine ungenauere Clusterlösung als hierarchische Clusterverfahren. Dies liegt daran, dass im ersten Schritt eine sehr grobe Clusterung vorgenommen wird, die zum Ziel hat, alle Objekte, die sich in der rieÿigen
3
Kapitel 2. Der Two-Step-Clusteralgorithmus in SPSS 4
Datenmatrix benden, transparenter zu ordnen, was auch notwendig ist, um die zweite Stufe der Clusterung vorzunehmen.
Es besteht folglich ein Trade-O zwischen der Genauigkeit der Clusterlösung und dem immensen Rechenaufwand. Der Two-Step-Clusteralgorithmus versucht hier einen Mittelweg zu nden, indem in der ersten Stufe eine ziemlich grobe Clusterung in Kauf genommen wird, um die Berechnungen der Distanzen der einzelnen Objektpaare zu vermeiden, die bei einem sehr groÿen Data-Set oft nicht mehr aufgrund der aufwendigen Rechenschritte durchgeführt werden können. Und schlieÿlich wird in der zweiten Stufe auf eine exaktere Clusterbildung gezielt, indem konkrete Berechnungen durchgeführt werden um eine optimale Clusterlösung zu erhalten.
2.2 Ablauf der zweistugen Clusteranalyse
Das Verfahren des Two-Step-Clusteralgorithmus basiert auf dem so genannten BIRCH-Algorithmus, der vorwiegend für die Clusterung sehr umfangreicher Datensätze angewendet wird. 1
Im Folgenden wird ganz kurz der Ablauf des BIRCH-Algorithmus dargestellt.
1. Loading
In der ersten Phase werden alle Objekte des Datensatzes in einem Cluster Feature Baum aufgenommen. Der Clusterbaum versucht die Informationen des Datensatzes bei der Klassikation möglichst detailliert zu reektieren.
2. Optional Condensing
Im zweiten Schritt wird der gesamte Datensatz im Cluster Feature Baum weiterhin verdichtet, indem kleinere Clusterbäume gebildet werden, welche die Objekte noch genauer strukturieren.
3. Global Clustering
In der dritten Phase werden schlieÿlich die Objekte, die den Blättern des Cluster Feature Baumes zugeordnet wurden, zu Sub-Clustern zusammengefasst.
4. Optional Rening
In der letzten Phase wird die grobe Clusterlösung, die beim Global Clustering resultiert, verfeinert und verbessert, indem die Sub-Cluster mit Hilfe einer agglomerativen hierarchischen Clusteranalyse nochmals geclustert werden. Der Ablauf der zweistugen Clusteranalyse orientiert sich in ähnlicher Vorgehensweise am BIRCH-Algorithmus.
1 siehe Zhang u. a. (1997)
Kapitel 2. Der Two-Step-Clusteralgorithmus in SPSS 5
2.2.1 Erste Stufe: Vorläuge Clusterung aller Objekte
In der ersten Stufe des Two-Step-Clusteralgorithmus werden zunächst alle Objekte des gesamten Datensatzes in einer baumartigen Clusterstruktur, die als Cluster Feature Baum bezeichnet wird, geordnet. Der Algorithmus teilt nun alle Fälle sukzessive den einzelnen Blättern bzw. Ästen zu, zu denen der einzelne
Fall die gröÿte Ähnlichkeit aufweist. Zur Veranschaulichung wird nachstehend ein Cluster Feature Baum graphisch dargestellt.
Ausgehend vom Ursprung, der alle Objekte enthält, wird jede Person sukzessive den einzelnen Knoten des Baumes zugeordnet, bis sich schlieÿlich jede Person in einem Blatt bendet, das die vorläugen Sub-Cluster enthält. Wie in der Graphik ersichtlich, stellt jeder Punkt eine einzelne Person des Datensatzes dar. Personen, die sich sehr ähnlich sind, werden zu einer Gruppe zusammengefasst, die im Clusterbaum als Kreis bzw. Punktewolke markiert ist. Jede Person wird also genau einem Blatt zugeordnet, wobei jedes Blatt genau einem übergeordneten Knoten angehört, der im Cluster Feature Baum als Ast dargestellt wird. In den Ästen benden sich dann zusammengehörige Sub-Cluster, die charakteristisch ähnliche Objekte bündeln. Dies wird graphisch im zweiten Ast veranschaulicht. Ebenso werden die Äste groÿeren Ästen zugeordnet, bis schlieÿlich die gröÿten Äste zum Ursprung zurückführen. Die Baumstruktur kann sich in viele Baumebenen verzweigen. Je mehr Verzweigungen und je mehr Knoten, desto genauer und detaillierter werden die Objekte zugeordnet und umso mehr Sub-Cluster werden gebildet. Jedoch bedeutet eine höhere
Kapitel 2. Der Two-Step-Clusteralgorithmus in SPSS 6
Anzahl an Sub-Cluster einen höheren Rechenaufwand in der zweiten Stufe des Two-Step-Clusteralgorithmus. In der Graphik wird ein Cluster Feature Baum mit drei Ebenen gewählt. Im Folgenden wird das Ablaufschema zur Aufnahme 3
eines Falles in den Cluster Feature Baum näher beschrieben:
Im ersten Schritt wird jeder einzelne Fall sukzessive einem Blatt zugeordnet. In welchem Blatt des Cluster Feature Baumes sich der betrachtete Fall bendet, wird anhand des angewendeten Distanzkriteriums entschieden. Da jedoch der Rechenaufwand bei der ersten Stufe der Clusterbildung minimal bleiben soll, wird jedes Cluster bzw. jeder Knoten innerhalb des Clusterbaumes nur anhand weniger verdichteter Kennzahlen beschrieben, insbesondere der Mittelwert und die Varianz bei metrischen Variablen, sowie die Häugkeiten bei kategorialen 4 Im nächsten Schritt wird anschlieÿend anhand der Ähnlichkeit des
Variablen.
zu betrachtenden Falles überprüft, ob der Fall einem Sub-Cluster innerhalb des betreenden Blattes zugeordnet wird oder ob ein neues Sub-Cluster gebildet wird. Weist der betreende Fall eine sehr hohe Ähnlichkeit mit einem Sub-Cluster auf, so wird er in dieser Fallgruppe aufgenommen. Wenn jedoch dieser Fall aufgrund unterschiedlicher Merkmalsausprägungen den Wert für die maximal zulässige Heterogenität dieses vorläugen Clusters überschreitet, so wird eine Aufnahme in das Cluster verhindert und der Fall bildet ein eigenständiges neues Sub-Cluster. Können jedoch in einem Blattknoten keine weiteren Sub-Cluster mehr gebildet werden, so wird der bestehende Blattknoten in zwei neue Blattknoten aufgespaltet, wobei die heterogensten Cluster aus dem urpsrünglichen Blattknoten die Anfangscluster der neuen Blattknoten markieren. Ebenso ist zu überprüfen, ob der übergeordnete Ast die maximale Anzahl der Blattknoten erreicht hat. Ist das der Fall, muss auch der Astknoten in zwei neue Astknoten aufgespaltet werden. Dies kann also zu einer Verzweigung sämtlicher Knoten über mehrere Ebenen des Cluster Feature Baumes führen. Die Baumstruktur kann sich also in eine uferlose Anzahl von Ästen und Blättern ausbreiten. Je genauer der Cluster Feature Baum jedoch strukturiert wird, umso mehr Sub-Cluster werden gebildet. Um die Baumstruktur mit all ihren Astknoten und Blattknoten steuern zu können, werden folgende drei Parameter vorgegeben, welche die Anzahl der Sub-Cluster und somit die Baumstruktur beeinussen.
3 siehe Brosius (2004, S. 704 .)
4 siehe Brosius (2004, S. 703 f.)
Kapitel 2. Der Two-Step-Clusteralgorithmus in SPSS 7
5
Diese drei Parameter lauten:
MXLEVEL (Vorgegebener Wert in SPSS = 3)
MXBRANCH (Vorgegebener Wert in SPSS = 8) INITTRESHOLD (Vorgegebener Wert in SPSS = 0)
Dabei stellt MXLEVEL die maximale Anzahl der Ebenen eines Cluster Feature Baums dar und MXBRANCH die maximale Anzahl der Verzweigungen eines Knotens. Üblicherweise wird in SPSS für MXLEVEL der Wert 3 und für MX-BRANCH der Wert 8 gewählt, sodass bei 3 Baumebenen und 8 Verzweigungen 3 = 512) beträgt. eines Knotens die maximale Anzahl der Sub-Cluster 512 (8 INITTRESHOLD entspricht einem Schwellenwert, der für die Aufnahme weiterer Fälle in einem Blattknoten variiert werden kann. Je mehr Baumebenen und Verzeigungen gewählt werden, desto strukturierter und detaillierter wird der Clusterbaum aufgebaut und desto mehr Sub-Cluster werden gebildet. Die Anzahl der vorläugen Sub-Cluster fällt geringer aus, wenn ein höherer Parameterwert bzw. Schwellenwert für INITTRESHOLD speziziert wird.
2.2.2 Zweite Stufe: Hierarchische Clusterung der Sub-Cluster
Nachdem im ersten Schritt des Clusteralgorithmus die vorläugen Sub-Cluster im Cluster Feature Baum ermittelt wurden, werden jetzt im zweiten Schritt die endgültigen Cluster mittels konkreter Berechnungen in einem hierarchischen agglomerativen Clusterverfahren gebildet. Die Anzahl der Rechenschritte ist abhängig von der Anzahl der vorläugen Sub-Cluster. Allerdings kann für die zweite Stufe die hierarchische Clusteranalyse hinsichtlich des Rechenaufwandes angewendet werden, da die Anzahl der Sub-Cluster deutlich geringer ist als die Gesamtheit aller Fälle im Datensatz. Der Ablauf der hierarchischen Clusterung wird hier nicht näher dargestellt.
2.2.3 Distanzmaÿe des Two-Step-Clusteralgorithmus
Sowohl in der ersten Stufe bei der Bestimmung der vorläuigen Sub-Cluster, als auch in der zweiten Stufe bei der Bestimmung der optimalen Cluster greift SPSS auf zwei Distanzmaÿe zurück. Im Vergleich zu anderen Clusterverfahren kann mit der Log-Likelihood Distanz ein Distanzkriterium gewählt werden, das die Ähnlichkeiten von gemischtskalierten Variablen berechnen kann.
5 siehe Bacher u. a. (2004)
Kapitel 2. Der Two-Step-Clusteralgorithmus in SPSS 8
Log-Likelihood Distanzkriterium
Die Log-Likelihood Distanz d zwischen zwei Clustern i und s kann wie folgt 6
berechnet werden:
ξ s = −n s
ξ (i,s) = −n (i,s)
Die Log-Likelihood Distanz ist sowohl für kategoriale, als auch für intervallskalierte Variablen geeignet. Ziel dieses Proximitätsmaÿes ist es, die Wahrscheinlichkeit, dass die Fälle des Datensatzes einem bestimmten Cluster entsprechen, zu maximieren. Für das wahrscheinlichkeitstheoretische Clustermodell wird für alle Variablen eine gemeinsame Wahrscheinlichkeitsdichtefunktion formuliert, welche die Parameter des Modells mit der Maximum- Likelihood-Schätzmethode schätzt. Es werden also für die Cluster unabhängige multivariate Verteilungen der Variablen angenommen, für die eine gemeinsame Wahr- 7 Dabeiwerden für die metrische
scheinlichkeitsdichtefunktion berechnet wird.
Variablen unabhängige Normalverteilungen mit dem Mittelwert µ ij der j-ten Variable des i-ten Cluster und der Varianz σ 2 ij unterstellt. Für kategoriale Va-
riablen ergeben sich unabhängige multinomiale Verteilungen mit den Wahrscheinlichkeiten π ijl , wobei der Index jl der l-te Kategorie der j-ten Variable entspricht. Es werden nun die Sub-Clusterpaare fusioniert, die am wenigsten die Wahrscheinlichkeit der Zuordnung der Fälle zu Sub-Cluster vermindern.
Euklidisches Distanzmaÿ
Die Euklidische Distanz zwischen zwei Clustern i und s berechnet sich als:
6 siehe Bacher u. a. (2004)
7 siehe (Janssen und Laatz, 2007, S. 494)
Kapitel 2. Der Two-Step-Clusteralgorithmus in SPSS 9
Die Euklidische Distanz kann nur für intervallskalierte Merkmale verwendet werden und entspricht der Wurzel aus der Summe der quadrierten Abweichungen zwischen den Ausprägungen der hier betrachteten Cluster i und s.
Anzahl der optimalen Cluster
Wie bereits erläutert, hängt die Zahl der vorläugen Sub-Cluster von den gewählten Ebenen bzw. Verzweigungen der Knoten des Cluster Feature Baumes ab. Allerdings ist die Anzahl der Sub-Cluster in SPSS nicht ersichtlich, sondern nur die endgültige Anzahl der Cluster. Die Anzahl der optimalen End-Cluster, die in der zweiten Stufe des Clusteralgorithmus ermittelt werden, wird anhand des gewählten Informationskriteriums AIC (Akaike`s Information Criterion) oder BIC (Bayesian Information Criterion) bestimmt.
BIC k = −2l k + r k log n
Bei beiden Modellauswahlkriterien AIC und BIC werden jeweils die maximale Likelihood einer Clusterlösung in logarithmierter Form mit dem Faktor -2 multipliziert. So ergibt sich der Summand: −2l k . Die addierten Ausdrücke 2r k und r k log dienen als Korrekturausgleich für eine Clusterlösung mit k Clustern im Vergleich zu Ergebnissen mit k-1, k-2, ... ,k-n Clustern. Der Summand 2r k entspricht dabei der Anzahl der zu schätzenden Parameter des Clustermodells k. Beim BIC wird die Zahl der zu schätzenden Paramter r k noch zusätzlich mit dem natürlichen Logarithmus aller Fälle n des Datensatzes multipliziert. Bei der automatischen Bestimmung der optimalen Clusteranzahl in SPSS wird die Clusterlösung gewählt, bei der die kleinste BIC-Erhöhung bzw. AIC-Erhöhung relativ zur BIC-Erhöhung bzw. AIC-Erhöhung im letzten Fusionsschritt am
8
niedrigsten ist.
8 siehe Janssen und Laatz (2007, S. 495)
3 Anwendung des Two-Step-Clusteralgorithmus
in der Praxis
3.1 Beschreibung des empirischen Datensatzes
In der Marktforschungspraxis werden üblicherweise sehr umfangreiche Datensätze erhoben, um die Repräsentativität der Studie zu gewährleisten. Folglich wird der Two-Step-Clusteralgorithmus in der Praxis gegenüber anderen herkömmlichen Clusterverfahren, wie den hierarchischen Clusterverfahren, bevorzugt, da die zweistuge Clusteranalyse groÿe Datensätze wesentlich ezienter klassiziert. Der hier vorliegende Datensatz wurde im Rahmen einer Usage & Attitude Studie zum Thema Parfümnutzung erhoben und umfasst m = 48 Variablen (siehe Anhang A) und n = 2000 Frauen, die diese Statements in einer Skala von 1 bis 5 beurteilten. Dabei hatten die 2000 Frauen folgende Beurteilungsmöglichkeiten:
1 = Stimme überhaupt nicht zu
2 = Stimme nicht zu
3 = Indierente Einschätzung zu diesem Statement 4 = Stimme zu 5 = Stimme voll und ganz zu
Bei diesem Datensatz liegt eine Ordinal-Skala bzw. eine Rating-Skala vor. Da die Antwortmöglichkeiten zur Einschätzung der Parfümnutzung ordinalskaliert sind, erfolgt die Zuordnung aller Fälle zu den einzelnen Clustern mit Hilfe der Log-Likelihood Distanz. Es soll nun mit Hilfe des Two-Step-Clusteralgorithmus die optimale Anzahl der Cluster gefunden werden. Dabei sollte jedes Cluster die Frauen enthalten, die sich hinsichtlich der Parfümnutzung am ähnlichsten sind.
3.2 Durchführung der Two-Step-Clusteranalyse
Nachdem der empirische Datensatz kurz erläutert wurde, werden nun die 48 Statements als kategoriale Variablen in SPSS eingegeben und von SPSS
10
Kapitel 3. Anwendung des Two-Step-Clusteralgorithmus in der Praxis 11
der Clusteralgorithmus durchgeführt. Dabei wird als Distanzmaÿ die Log-Likelihood Distanz gewählt, da die 48 Variablen ordinalskaliert sind. Die Anzahl der Cluster wird automatisch von SPSS berechnet. Weiterhin wird als Modellauswahlkriterium das BIC-Kriterium gewählt. Es wird darauf hingewiesen, dass bei der Wahl des AIC-Kriteriums exakt die gleiche Cluserlösung resultiert. Schlieÿlich werden zusätzliche Diagramme ausgegeben, welche die Clusterstruktur in Prozent angeben. Allerdings kann SPSS den Cluster Feature Baum bzw. die sukzessive Zuordnung der einzelnen Frauen zu den jeweiligen Ästen bzw. Blättern des Clusterbaums nicht anzeigen, sodass dem User diese sequentielle Clusterung der einzelnen Fälle vorenthalten bleibt.
3.3 Auswertung der Ergebnisse des Clusterverfahrens
Nachdem der Two-Step-Clusteralgorithmus durchgeführt worden ist, liefert SPSS als optimale Clusterlösung sechs Cluster. Die Clusterverteilung wird
graphisch als Kreisdiagramm dargestellt.
Dabei wird ersichtlich, dass es eine Randgruppe mit 97 Frauen gibt, die deutlich unterrepräsentiert ist. Die anderen Cluster sind gleichmäÿiger verteilt, wobei das dritte und vierte Cluster fast die Hälfte der 2000 befragten Frauen ausmachen. Im Folgenden werden die einzelnen Cluster ausführlich beschrieben und anhand der Statements charakterisiert.
Cluster 1: Die zurückhaltenden Parfum-User
Das erste Cluster, das bei der zweistugen Clusteranalyse dieses Datensatzes resultiert, umfasst 393 Frauen, also ca. 20 Prozent der befragten 2000 Frauen. Bei näherer Betrachtung des Clusters fällt auf, dass sich die Frauen bei vielen Statements überwiegend enthalten. Es gibt folglich keinen klaren Trend der
Quote paper:
Josef Seibold, 2008, Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Vergleich mit der k-Means Clusteranalyse, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Der Rechtsschutz des DRM im Wandel
Eine Analyse des digitalen Rec...
Law - Media, Multimedia Law, Copyright
Scholary Paper (Seminar), 27 Pages
Digitale Produkte und Digital Rights Management
Computer Science - Commercial Information Technology
Termpaper, 17 Pages
Digitale Produkte und Digital Rights Management
Computer Science - Commercial Information Technology
Scholary Paper (Seminar), 18 Pages
Rechtemanagement in Verteilten Systemen mit Web-Services
Computer Science - Internet, New Technologies
Diploma Thesis, 97 Pages
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, A...
Computer Science - Commercial Information Technology
Scholary Paper (Seminar), 27 Pages
Plattform für interaktives Live-Internet-TV
Kostengünstige Distribution/Ve...
Bachelor Thesis, 174 Pages
Neuronale Netze für Clustern und Vorhersage - Methodenvergleich und To...
Computer Science - Commercial Information Technology
Diploma Thesis, 88 Pages
Formate im interaktiven Fernsehen
Eine explorative Analyse
Communications - Movies and Television
Scholarly Paper (Advanced Seminar), 47 Pages
Softwareentwicklung und Vertragstypen
Law - Media, Multimedia Law, Copyright
Scholary Paper (Seminar), 25 Pages
Computer Science - Commercial Information Technology
Scholary Paper (Seminar), 30 Pages
IPTV und WebTV - Der neue Fernsehmarkt und seine Wettbewerber in Deuts...
Communications - Multimedia, Internet, New Technologies
Bachelor Thesis, 84 Pages
'TV 2.0' - Neue Anforderungen an ein altes Medium
Zu Auswirkungen von 'Web 2...
Communications - Movies and Television
Diploma Thesis, 149 Pages
Entwicklungstendenzen des Digitalen Fernsehens
Communications - Multimedia, Internet, New Technologies
Diploma Thesis, 144 Pages
Elektronische Programmführer und ihre Auswirkung auf die Wettbewerbssi...
Communications - Movies and Television
Thesis (M.A.), 135 Pages
Josef Seibold's text Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Vergleich mit der k-Means Clusteranalyse is now available as a printed book
Josef Seibold has published the text Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Vergleich mit der k-Means Clusteranalyse
Josef Seibold has uploaded a new text
SPSS for Sport and Exercise Studies: A Step-By-Step Guide for Students
Nikos Ntoumanis, N. Ntoumanis
0 comments