Leseprobe
Inhaltsverzeichnis
1 Einleitung
2 Standardisierung der Variablen
3 Die Methode der hierarchischen Clusteranalyse
3.1 Distanz-/Proximitätsmaße
3.1.1 Nominalskalierte Variablen
3.1.2 Ordinalskalierte Variablen
3.1.3 Metrische Variablen
3.1.4 Gemischt skalierte Variablen
3.2 Hierarchische Cluster-Algorithmen
3.2.1 Divisive Verfahren
3.2.2 Agglomerative Verfahren
4 Fallstudie: Hierarchischen Clusteranalyse
5 Fazit
6 Literaturverzeichnis
7 Anhang
Tabellenverzeichnis
1 Fallnummer
2 Distanzmatrix durch quadrierte euklidische Distanz
1 Distanzmatrix durch quadrierte euklidische Distanz - Fortsetzung
2 Clusterzuordnung für das Single-Linkage-Verfahren
3 Clusterzuordnung für das Complete-Linkage-Verfahren
4 Clusterzuordnung für das Average-Linkage-Verfahren
5 Clusterzuordnung für das Ward-Verfahren
6 Clusterzuordnung für das Zentroid-Verfahren
Abbildungsverzeichnis
1 Dendogramm für Single-Linkage-Verfahren
2 Dendogramm für Complete-Linkage-Verfahren
3 Dendogramm für Average-Linkage-Verfahren
4 Dendogramm für Ward-Verfahren
5 Dendogramm für Zentroid-Verfahren
1 Einleitung
Die Methode der Clusteranalyse unterscheidet sich deutlich von vielen anderen multivariaten Verfahren, da das Ziel nicht der Nachweis einer Kausalität ist, sondern vielmehr die Einteilung einer Grundgesamtheit in kleinere Einheiten. Spezifischer ausgedrückt dient die Clusteranaly- se dazu, homogene Subgruppen aus einer heterogenen Gruppe herauszuarbeiten. Somit ist das Verfahren ein klassifikatorisches und kein kausal-analytisches. Die erste Problemstellung und gleichzeitig das Ziel der Clusteranalyse ist die Bestimmung der Klassenanzahl. Diese wird nicht vorab festgelegt, sondern ergibt sich vielmehr aus der Beziehungsstruktur der Objekte. Um die Anzahl zu ermitteln, gibt es verschiedene Möglichkeiten, welche nicht alle vorgestellt werden können. Vielmehr beschränkt sich diese Arbeit auf die hierarchische Clusteranalyse, da diese in der Praxis die weiteste Verbreitung gefunden hat. Bei der hierarchischen Clus- teranalyse ist das Finden der Klassenanzahl ein Prozess, da die einzelnen Merkmalsträger auf Grund ihrer Ähnlichkeiten zueinander zu Gruppen zusammengefasst werden. Dies ist ein mehrstufiger Prozess, der im ersten Schritt einzelne Merkmalsträger zusammenfasst und in den darauffolgenden Stufen dann Subgruppen zusammenfügt. Die Anzahl der Klassen hängt somit auch davon ab wie oft man den Gruppierungsprozess vollzieht (Litz 2000: 384 & 385). Daher wird der Cluster-Algorithmus bis zum Maximum, so dass alle Elemente entweder in einem Cluster enthalten sind oder es so viele Cluster wie Objkete gibt, durchlaufen gelassen. Die optimale Anzahl der Gruppen muss der Forscher aus den offerierten Möglichkeiten selbst auswählen.
Dies wird deutlich, wenn man sich den Ablauf der Clusteranalyse vor Augen führt. Der Verlauf einer hierarchischen Clusteranalyse kann in drei grobe Schritte unterteilt werden; 1) die Be- stimmung der Ähnlichkeiten, 2) die Auswahl des Cluster-Algorithmus und 3) die Bestimmung der Clusteranzahl. Im ersten Schritt werden somit jeweils zwei Merkmalsträger miteinander verglichen und deren Ähnlichkeit bzw. Differenz mit Hilfe eines Proximitätsmaßes bzw. eines Distanzmaßes gemessen. Im darauffolgenden Schritt wird ein Cluster-Algorithmus gewählt, welcher die einzelnen Merkmalsträger zu Gruppen zusammenfasst. Dieser Algorithmus wird bis zum Maximum durchlaufen gelassen. Erst wenn dies erreicht ist, kommt es zum dritten Schritt. Es gilt nun zu unterscheiden, welche Clusteranzahl die optimale ist. Hierbei gilt es ein ausgewogenes Maß zwischen "Handhabbarkeit (geringe Clusteranzahl) und Homogenitätsan- forderung (große Clusteranzahl)” zu finden (Backhaus et.al. 2006: 492).
Bevor ein statistisches Verfahren angewandt werden kann, gilt es, einige grundlegende Fra- gen zu klären. Wie lautet das Forschungsziel und kann dieses durch die Anwendung des in Frage kommenden Verfahrens erreicht werden? In dem vorgestellten Fall handelt es sich um die Clusterbildung von verschiedenen Biersorten. Dies könnte beispielsweise für die Marktforschung nützlich sein, da die Clusterisierung der Biersorten zu gezielterer Werbung führen könnte. Das Ziel ist jedoch nur teilweise erfüllt, wenn zwar homogene Cluster erzeugt werden, diese untereinander jedoch nur wenig heterogen sind. Daher sollte der Zweck der Clusteranalyse so definiert werden, dass homogene Subgruppen etabliert werden, welche untereinander eine größtmögliche Distanz aufweisen (Müller 2004:3).
Eine weitere wichtige Frage bezieht sich auf die zur Verfügung stehenden Variablen und ob das Verfahren hierfür anwendbar ist. In dieser Beziehung hat die Clusteranalyse den Vorteil, dass sie prinzipiell für alle Skalierungen anwendbar ist, solange man die korrekten Maßzahlen und Algorithmen nutzt.
Im Folgenden werden die einzelnen zuvor vorgestellten Schritte genauer erläutert und mit Hilfe eines Beispieldatensatzes verdeutlicht. Durchgeführt wird die Clusteranalyse mit SPSS. Daher wird noch eine Stufe der Analyse vorgestellt, die zuvor nicht erwähnt wurde, da sie nicht direkt zur Clusteranalyse gehört, jedoch für eine Durchführung meist unerlässlich ist; die Standardisierung der Variablen.
2 Standardisierung der Variablen
Häufig sind die Daten in unterschiedlichen Dimensionen verfügbar. Um sicher zu stellen, dass es nicht zu Verzerrungen auf Grund unterschiedlicher Gewichtung, hervorgerufen durch die di- versen Dimensionen, kommt, empfiehlt es sich, die Werte vor der Analyse zu standardisieren. Hierzu stehen mehrere Optionen zur Verfügung. Werden die Werte zu Z-Werten transformiert, bedeutet dies, dass die Variablen einen Mittelwert von 0 und eine Standardabweichung von 1 aufweisen. Diese Transformation wird erreicht, indem von jedem Wert der Mittelwert der Stichprobe abgezogen wird und anschließend durch die Standardabweichung der Stichprobe dividiert wird. Diese Standardisierung wird empfohlen, wenn die Cluster-Technik bespielsweise auf der Euklidischen Metrik beruht (Späth 1975: 20).
Weitere Möglichkeiten sind die Standardisierung der Werte auf bestimmte Bereiche, entweder von -1 bis +1 oder von 0 bis +1. Um Variablen im Wertebereich von -1 bis +1 zu erhalten, werden die einzelnen Werte durch die Spannweite der Stichprobe dividiert. Dies ist für genau einen Fall nicht möglich, nämlich wenn die Spannweite 0 beträgt, was bedeutet, dass die Werte alle identisch sind. In diesem Fall ist es auch nicht notwendig die Variablen zu standardisieren. Den Wertebereich von 0 bis +1 erlangt man, indem vom jedem Wert der kleinste vorkommen- de Wert der Stichprobe abzieht und daraufhin durch die Spannweite der Stichprobe dividiert. Soll die maximale Größe der Werte 1 sein, so wird lediglich jeder Wert der Stichprobe durch den größten vorkommenden Wert geteilt, so dass dieser 1 ergibt und folglich alle anderen Werte darunter liegen. Ist das Ziel, dass der Mittelwert der Stichprobe 1 ergibt, wird jeder Wert durch den Stichprobenmittelwert dividiert. Für den Fall, dass der Stichprobenmittelwert 0 beträgt, wird jeder Wert mit 1 addiert. Für den letzten Fall, dass die Standardabweichung 1 betragen soll, ist es notwendig jeden Wert durch die Standardabweichung der Stichprobe zu dividieren. Für den Fall, dass die Standardabweichung der Stichprobe 0 beträgt, ist diese Transformation nicht möglich und die Werte bleiben unverändert (Brosius 1998: 715). Für den Fall das die Variablen in der gleichen Dimension vorliegen, sollte für gewöhnlich von einer Standardisierung abgesehen werden, da in diesem Prozess immer Informationen verloren gehen (Späth 1975: 20)
3 Die Methode der hierarchischen Clusteranalyse
3.1 Distanz-/Proximitätsmaße
Im ersten Schritt der Clusteranalyse geht es darum, die einzelnen Beobachtungen zu vergleichen aufgrund von ihrer Ähnlichkeit bzw. ihrer Differenz. Ist das Ziel Ähnlichkeiten in Distanzen zu transformieren, so ist die Forderung, dass “Objekte eine umso kleinere Distanz haben, je größer ihre Ähnlichkeit ist"(Kaufmann und Pape,in Fahrmeir 1996: 442). Dementsprechend gilt für den Fall das Distanzen in Ähnlichkeiten transformiert werden sollen, das Objekte eine größere Ähnlichkeit haben je kleiner die Distanz ist.
Durch die Berechnung von Ähnlichkeits- bzw. Distanzmaßen so kommt es zu einem Informationsverlust, welcher unabhängig vom genutzten Maß auftritt. Die möglichen Maße unterscheiden sich in ihrer Anwendung besonders hinsichtlich der Skalierung der vorliegenden Variablen, dementsprechend werden sie auch vorgestellt.
3.1.1 Nominalskalierte Variablen
Im Falle von nominalskalierten Daten gilt es zwischen binären und mehrstufigen Merkmalen zu unterscheiden.
Binäre Merkmale
Binäre Merkmale haben jeweils genau zwei Ausprägungen, welche häufig als "Merkmal vor- handen"(codiert mit einer 1) und "Merkmal nicht vorhanden"(codiert mit 0) bezeichnet wer- den. Ein Maß für binäre Merkmale ist der M-Koeffizient (in englisch matching coefficient), welcher den Anteil übereinstimmender Ausprägungen angibt. Die Berechnung erfolgt durch
Abbildung in dieser Leseprobe nicht enthalten
Für den Fall, dass eine unterschiedliche Gewichtung der positiven/negativen Übereinstimmung notwendig ist, kann der M-Koeffizient angepasst werden.
Abbildung in dieser Leseprobe nicht enthalten
In dieser Gleichung bezeichnet [Abbildung in dieser Leseprobe nicht enthalten] die Übereinstimmung und 1 − u die Nichtübereinstimmung. Liegt u bei[Abbildung in dieser Leseprobe nicht enthalten] betrachtetmandenM-Koeffizienten,für u =[Abbildung in dieser Leseprobe nicht enthalten] erhält man den Sokal/Sneath Koeffizient und für u =[Abbildung in dieser Leseprobe nicht enthalten] den Rogers/Tanimoto Koeffizient (Kaufmann und Pa- pe, in Fahrmeir 1996: 444).
Neben den Varianten des Matching Koeffizienten gibt es noch den S-Koeffizienten (similarity coefficient), welcher lediglich die positiven Übereinstimmungen betrachtet.
Abbildung in dieser Leseprobe nicht enthalten
Wie schon bei den Varianten des M-Koeffizienten können die S-Koeffizienten unterschiedliche Gewichtungen der Übereinstimmungen behandeln.
Abbildung in dieser Leseprobe nicht enthalten
Auch bei den Varianten des S-Koeffizienten gilt 0 < u < 1, für u =[Abbildung in dieser Leseprobe nicht enthalten] erhält man den S-Koeffizienten, für u =[Abbildung in dieser Leseprobe nicht enthalten]den Koeffizienten nach Dice und u =[Abbildung in dieser Leseprobe nicht enthalten] ergibt den Koeffizienten nach Sokal/Sneath.1. Unabhängig von der Wahl von u ergibt sich die gleiche Rangordnung durch die S-Koeffizienten, jedoch gilt es zu beachten, dass die Rangordnung welche durch M-Koeffizienten erzeugt wird, normalerweise davon abweicht (Kaufmann und Pape, in Fahrmeir 1996: 445).
Mehrstufige Merkmale
Liegen nominalskalierte Merkmalen mit mehr als zwei Ausprägungen vor so spricht man von mehrstufigen Merkmalen, wobei die Merkmale keineswegs gleich viele Ausprägungen haben müssen. Häufige Anwendung findet der verallgemeinerte M-Koeffizient
Abbildung in dieser Leseprobe nicht enthalten
welcher die Anzahl der übereinstimmenden Ausprägungen ins Verhältnis zur Anzahl der Merkmale setzt. Selbstverständlich lässt sich dieser Koeffizient, ebenso wie die Koeffizienten zuvor, unterschiedlich gewichten bezüglich der Übereinstimmungen und Nichtübereinstimmungen. Ein interessanter Koeffizient ist
Abbildung in dieser Leseprobe nicht enthalten
wobei m i die Anzahl der Ausprägungen des Merkmals x i darstellt und m ∗ = ∑ m i. Ferner gilt
Abbildung in dieser Leseprobe nicht enthalten
Mit diesem Koeffizienten werden somit Objekte, welche in einem Merkmalen mit vielen Aus- prägungen übereinstimmen, einen höheren Wert erzielen als Objekte, die in einem Merkmal übereinstimmen, welches nur wenige Ausprägungen hat (Kaufmann und Pape, in Fahrmeir 1996: 446 & 447).
Es ist nicht möglich pauschal zu bewerten, welcher Koeffizient der "bessere” ist, da dies von der Fragestellung abhängt. Wie wichtig (und aussagekräftig) sind die negativen Übereinstim- mungen? Backhaus et. al verdeutlichen diese Problematik mit zwei eingängigen Beispielen. Während die Ausprägung "Geschlecht” sowohl für positive als auch negative Übereinstim- mung die gleiche Aussagekraft hat, ist dies bei dem Merkmal "Nationalität” mit den Ausprä- gungen "Deutsch” und "nicht Deutsch” beispielsweise nicht gegeben (Backhaus et.al. 2006: 500). Es obliegt somit dem Forscher, das geeignete Maß für seine Forschung zu finden.
3.1.2 Ordinalskalierte Variablen
Eine naheliegende Herangehensweise ist die Transformation von ordinalen Variablen zu no- minalskalierten Variablen. Eine ordinalen Variable mit r -Rängen und somit r Ausprägungen wird in eine nominale Variable mit r − 1 Ausprägungen transformiert. Es wird eine Element betrachtet, welches auf der s-ten Position liegt (es gilt 0 ≤ s ≤ r). Es werden nun den Rängen s −1 der Wert 1 zugewiesen und die Ränge r −1 werden mit 0 codiert. Nach dieser Transfor- mation können die in 3.1.1 vorgestellten Koeffizienten benutzt werden (Steinhausen & Langer 1977: 54).
Es besteht die Möglichkeit die ordinalskalierten Variablen als intervallskaliert zu betrachten. Dies ist jedoch nicht unproblematisch, da den Ränge numerische Werte zugeteilt werden, mit welchen auch die Berechnungen durchgeführt werden, was nicht immer angemessen (und em- pirisch häufig schwierig interpretierbar) ist. Häufig werden die Daten normiert, so dass deren Werte im Intervall [0,1] liegen, was sich besonders bei Merkmalen mit vielen Ausprägungen anbietet2. Mit den normierten Werten sind die Berechnungen für intervallskalierte Variablen zulässig (Kaufmann und Pape, in Fahrmeir 1996: 448 und Steinhausen & Langer 1997: 56 & 57).
Will man keine Transformation durchführen und ist [Abbildung in dieser Leseprobe nicht enthalten] ≥ 0 erfüllt, so kann die skaleninvariante3 "Canberra-Metrik”
Abbildung in dieser Leseprobe nicht enthalten
genutzt werden (Steinhausen & Langer 1997: 57). Bei dieser werden die Abstände der Ausprägungen je Rang berechnet und ins Verhältnis mit der Summer der Ausprägungen je Rang gesetzt. Die Werte werden für jeden Rang berechnet und anschließend aufsummiert.
[...]
1 Die vorgestellten Koeffizienten stellen lediglich eine Auswahl von Möglichkeiten dar. Für weitere Informationen siehe beispielsweise Steinhausen und Langer 1977
2 Normiert wird, indem den einzelnen Ausprägungen Werte von 1 bis m gemäß der Rangfolge zugewiesen werden. Die Werte des Intervalls [0,1] werden mit [Abbildung in dieser Leseprobe nicht enthalten] bezeichnet und durch [Abbildung in dieser Leseprobe nicht enthalten] berechnet (Kaufmann und Pape, in Fahrmeir 1996: 448).
3 Skaleninvariant bedeutet, dass die Transformation zweier Objekte keinen Einfluss auf ihre Distanz hat, denn [Abbildung in dieser Leseprobe nicht enthalten] mit C = [Abbildung in dieser Leseprobe nicht enthalten] und [Abbildung in dieser Leseprobe nicht enthalten] es also gilt, dass d [Abbildung in dieser Leseprobe nicht enthalten] (Kaufmann und Pape, in Fahrmeir 1996: 448).