Inhaltsverzeichnis
1 EINLEITUNG 1
2 ZU DEN DATEN. 1
3 METHODISCHE VORÜBERLEGUNGEN 1
4 DISKUSSION VERSCHIEDENER LÖSUNGSMÖGLICHKEITEN 2
4.1 ZUSAMMENSETZUNG DER CLUSTER UND VERGLEICH DER MITTELWERTE 3
4.2 F- UND T-WERTE 4
5 ENDGÜLTIGES MODELL. 5
5.1 STATISTISCHE ARGUMENTE. 6
5.2 INHALTLICHE ARGUMENTE 6
5.3 ZUSAMMENHANG MIT SOZIODEMOGRAFISCHEN MERKMALEN 8
6 ZUSAMMENFASSUNG 10
7 ANHANG 11
7.1 SYNTAX. 11
7.2 DIE WICHTIGSTEN TABELLEN UND GRAFIKEN 13
1
1 Einleitung
Unter dem Begriff „Clusteranalyse“ versteht man ein Segmentierungsverfahren, mit dem die zu untersuchenden Daten in Gruppen aufgeteilt werden sollen. Diese Gruppeneinteilung wird von Backhaus et al. (2003) folgendermaßen beschrieben:
„Die Mitglieder einer Gruppe sollen dabei eine weitgehend verwandte Eigenschaftsstruktur aufweisen; d.h. sich möglichst ähnlich sein. Zwischen den Gruppen sollen demgegenüber (so gut wie) keine Ähnlichkeiten bestehen. Ein wesentliches Charakteristikum der Clusteranalyse ist die gleichzeitige Heranziehung aller vorliegenden Eigenschaften zur Gruppenbildung. […] Bei allen Problemstellungen, die mit Hilfe der Clusteranalyse gelöst werden können, geht es immer um die Analyse einer heterogenen Gesamtheit von Objekten (z.B. Personen, Unternehmen), mit dem Ziel, homogene Teilmengen von Objekten aus der Objektgesamtheit zu identifizieren.“ 1
Die im Folgenden dargestellte Clusteranalyse hat einen Datensatz der Katholischen Universität Eichstätt zur Grundlage, der sich auf eine 2004 durchgeführte Schülerbefragung bezieht. Leiter der Studie war Prof. Dr. Siegfried Lamnek; das Thema war „Gewalt in der Schule“. Die hier betrachteten Variablen sind acht Täter- und Opfer-Indizes, mittels denen die Schüler in Gruppen eingeteilt werden sollen.
2 Zu den Daten
Die vorliegenden acht Variablen wurden aus einer ganzen Reihe von Items gebildet, in denen die Erfahrungen der Schüler mit verschiedenen Gewalttaten erfasst wurden. Die auf diese Art erzeugten Indizes drücken zum einen die Erlebnisse der Opfer, zum anderen die der Täter aus. Sowohl die Opfer- als auch die Täter-Indizes bestehen jeweils aus vier Dimensionen: physische Gewalt gegen Personen, physische Gewalt gegen Sachen, psychische Gewalt und verbale Gewalt. Jeder Index kann einen Wert zwischen 0 (keinerlei Erfahrungen mit Gewalt aus dem jeweiligen Bereich; Verneinung aller Items) und 10 (sämtliche Items wurden bejaht) annehmen.
Im Datensatz liegen weiterhin eine Reihe soziodemographischer Merkmale vor, mit denen im Anschluss an die Clusteranalyse zusätzlich Korrespondenzanalysen durchgeführt werden können, um Zusammenhänge von den erzeugten Clustern (Gruppen) und Merkmalen grafisch zu veranschaulichen.
3 Methodische Vorüberlegungen
Da der Datensatz aus über 4000 Fällen besteht, ist es zunächst einmal sinnvoll, sich eine 10%ige Zufallsstichprobe zu erstellen. Diese ermöglicht es, Dendogramme anzufertigen und
1 Backhaus, K. et al. (2003). Multivariate Analysemethoden. Eine anwendungsorientierte Einführung. 10. Auflage. Berlin: Springer.
1
sich so einen Überblick über die Daten zu verschaffen und das weitere Vorgehen bei der Analyse zu planen. Nachdem die Stichprobe anhand der Häufigkeitsverteilungen darauf überprüft wurde, ob sie den Verhältnissen im Datensatz entspricht, kann mit der eigentlichen Analyse angefangen werden.
Für die Clusteranalyse können unterschiedliche Fusionsalgorithmen verwendet werden. Im vorliegenden Fall wird sie sowohl mit dem WARD-Verfahren als auch mit Complete Linkage durchgeführt. Beim Complete Linkage Verfahren werden auf jeder Fusionsstufe für alle Klassen die Abstände der am weitesten voneinander entfernten Objekte bestimmt. Fusioniert werden dann diejenigen beiden Klassen, für die dieser Abstand am geringsten ist. Die auf diese Art klassierten Objekte sind also nicht nur dem nächstgelegenen Nachbar ähnlich, sondern allen Objekten innerhalb der Klasse. Beim Ward-Verfahren hingegen werden die Klassen berechnet, indem die quadrierte euklidische Distanz für alle Objektpaare bestimmt wird und dann diejenigen Objekte zu Klassen zusammengefasst werden, bei deren Fusion der geringste Zuwachs des Heterogenitätsmaßes (Fehlerquadratsumme) resultiert. Eine Betrachtung der Dendogramme beider Verfahren ergibt, dass beim Complete Linkage viele sehr schwach besetzte Klassen sowie eine riesige Klasse gebildet werden. Dies ist für die Durchführung einer Clusteranalyse wenig sinnvoll und führt daher zu der Entscheidung, die weiteren Analysen auf dem Ward-Verfahren basieren zu lassen, da die Klassensituation hier deutlich besser aussieht.
Bei der daran anschließenden Entscheidung darüber welche Klassenlösungen man näher untersucht, gilt es zwischen Homogenität und Handhabbarkeit abzuwägen. Einerseits sollen natürlich so viele Klassen wie möglich gebildet werden, um die Daten möglichst genau und so differenziert wie möglich abzubilden. Andererseits möchte man natürlich die Komplexität der Daten verringern und daher möglichst wenige Klassen erzeugen. Um diesem Konflikt zwischen Modellanpassung und Modellökonomie gerecht zu werden wurden im vorliegenden Fall als Obergrenze sieben Klassen für sinnvoll erachtet. Daher werden im Folgenden die 2bis 7-Klassen-Lösungen eingehender betrachtet und ausgewertet.
4 Diskussion verschiedener Lösungsmöglichkeiten
Im Anhang befinden sich zunächst die Kreuztabellen, in denen die Mittelwerte der erzeugten Cluster abgebildet sind (Tabellen A1 bis A5) 2 . Daran schließen dann die Häufigkeitstabellen der jeweiligen Cluster an (Tabellen A6 bis A10). Beide Tabellensets sind jeweils in aufsteigender Reihenfolge dargestellt, da sie im Folgenden in eben dieser Reihenfolge behandelt werden (sozusagen „rückwärts“: nicht wie die Cluster fusioniert, sondern wie sie „aufgespalten“ werden würden; für die Logik der Interpretation ändert diese Umkehrung der Betrachtung nichts). Zuerst wird die Zusammensetzung der Cluster betrachtet und eine Klassendiagnose anhand von Mittelwertvergleichen vorgenommen. Im Anschluss daran wird kurz auf einige Kriterien zur Beurteilung der Homogenität der gefundenen Gruppen eingegangen: die sog. F- und t-Werte (Tabellen A11 bis A15).
2 Die graue Markierung bei den Clusterzahlen gibt jeweils an, welches Cluster im nächsten Schritt aufgespaltet wird (bzw. zu welchem Cluster die vorangegangene Fusion geführt hat). Die unterschiedlich hellen Hervorhebungen bei den Mittelwerten sollen das Erkennen von Gemeinsamkeiten/Unterschieden erleichtern: hellgrau - unter dem Gesamtmittelwert; dunkleres Grau - über dem Gesamtmittelwert; dunkelgrau - deutlich über dem Gesamtmittelwert. Markiert wurden jeweils nur die bisher noch nicht betrachteten Cluster.
2
4.1 Zusammensetzung der Cluster und Vergleich der Mittelwerte 3
Betrachtet man zunächst die 2-Cluster-Lösung (vgl. Anhang, Tabelle A1 und A6), so bietet sich ein relativ unspektakuläres Bild: beide Cluster sind etwa gleich groß (55,5 und 44,5% der Objekte); die erste Gruppe hat überall leicht erhöhte Mittelwerte, während die zweite Gruppe überall (teilweise sehr deutlich) unter dem Gesamtmittelwert liegt. Mehr lässt sich an dieser Stelle noch nicht erkennen.
Im Schritt zur 3-Cluster-Lösung wurde die erste Gruppe in zwei neue Gruppen gesplittet (vgl. Anhang, Tabelle A2). Hier zeigt sich bereits ein erstes interessantes Ergebnis: eine der beiden neuen Gruppen besteht nur aus 97 Objekten (vgl. Anhang, Tabelle A7)! Weiterhin fällt sofort auf, dass diese Gruppe enorme Abweichungen vom Mittelwert bei allen Variablen hatscheinbar handelt es sich dabei um eine Extremgruppe, die besonders viel Erfahrung im Umgang mit Gewalt jeglicher Art hat.
Bei der anderen neu erzeugten Gruppe ist augenscheinlich, dass sämtliche Indizes ebenfalls erhöhte Werte haben, allerdings lange nicht so hoch wie die der Extremgruppe. Die erhöhten Werte sind nicht weiter verwunderlich, wenn man sich in Erinnerung ruft, dass diese Gruppe ja fast gänzlich mit der ersten Gruppe aus der 2-Cluster-Lösung übereinstimmt.
Auch beim Übergang zur 4-Cluster-Lösung wurde wieder die erste Gruppe aufgespaltet. Wir erhalten nun eine Gruppe, die ähnlich der Extremgruppe durchgehend hohe Werte aufweist(vgl. Anhang, Tabelle A3), jedoch nicht annähernd so hohe wie die Extremgruppe selber (abgesehen vom Opfer-Index verbale Gewalt - dieser Wert liegt sogar noch etwas über dem der Extremgruppe; da dieses Cluster noch weiter geteilt wird, muss eine Interpretation dieser Abweichung auf später verschoben werden). Auch die Anzahl der zugeordneten Objekte (vgl. Anhang, Tabelle A8) macht deutlich, dass es sich hierbei kaum um eine weitere Extremgruppe handelt: mit 545 Fällen (und somit rund 1/8 der verfügbaren Fälle) kann man nicht mehr von einer extremen Minderheit sprechen.
Die andere neue Gruppe weist jetzt andere Eigenschaften auf, als die Gruppe vor dem Split hatte: abgesehen von den beiden Indizes, die sich mit der verbalen Gewalt befassen, liegen die Werte jetzt unter den Gesamtmittelwerten. Die Abspaltung der anderen Gruppe hatte also auch deutlichen Einfluss auf die Homogenität innerhalb dieser Gruppe.
Bei der 5-Cluster-Lösung wurde die soeben erzeugte vierte Gruppe erneut geteilt. Wir erhalten nun eine sehr interessante fünfte Gruppe (vgl. Anhang, Tabelle A4): sämtliche Werte der Opfer-Indizes liegen deutlich über dem jeweiligen Mittelwert, wohingegen sämtliche Werte der Täter-Indizes nur geringfügig erhöht sind. Dies lässt auf eine Gruppe von Opfern schließen. Dass auch die Täter-Indizes erhöhte Werte aufweisen stützt diese Interpretation sogar noch - schließlich sind die Opfer von Gewalt dazu gezwungen, sich gegen ihre Übeltäter zur Wehr zu setzen. Auch die Größe von rund 6% der Fälle (vgl. Anhang, Tabelle A9) scheint für eine Opfergruppe annehmbar zu sein.
Die zweite Gruppe besteht ebenfalls aus etwa 6% der Fälle und hat auch inhaltlich einige Auffälligkeiten: abgesehen vom Opfer-Index Gewalt gegen Sachen (der nur eine geringfügige
3 In diesem Abschnitt werden lediglich diejenigen Lösungen dargestellt, die NICHT als endgültiges Modell ausgewählt wurden. Das bevorzugte Modell wird Gegenstand des 5. Kapitels.
3
Erhöhung des Mittelwerts aufweist) sind alle Mittelwerte deutlich erhöht, die beiden Indizes zur verbalen Gewalt sogar extrem.
Das 6-Cluster-Modell schließlich unterscheidet sich von der vorangegangenen Lösung durch die Aufspaltung der 1. Gruppe. Dadurch entsteht eine neue Gruppe, die überall niedrigere Werte aufweist außer bei den beiden Indizes zur verbalen Gewalt; diese sind geringfügig über dem jeweiligen Mittelwert (vgl. Anhang, Tabelle A5). Dies entspricht den Verhältnissen in der soeben geteilten Gruppe, nur sind alle Werte noch weiter gesunken. Die zweite neue Gruppe weist ein etwas eigenartiges Profil auf: der Opfer-Index Gewalt gegen Sachen liegt unter dem allgemeinen Durchschnitt, Opfer Gewalt gegen Personen und Opfer psychischer Gewalt liegen geringfügig über den entsprechenden Mittelwerten und alle anderen Werte liegen im Großen und Ganzen deutlich darüber. Diese Gruppe besteht aus 12% aller Fälle (vgl. Anhang, Tabelle A10), was bei der Interpretation letztlich auch nicht großartig weiterhilft.
4.2 F- und t-Werte 4
Der F-Wert ist ein Kriterium zur Beurteilung der Homogenität einer gefundenen Gruppe. Je kleiner er ist, desto geringer ist die Streuung der Variable in einer Gruppe im Vergleich zur Erhebungsgesamtheit.
Der t-Wert ist ein Kriterium, das Anhaltspunkte zur Interpretation der Cluster liefern soll. Es handelt sich dabei um einen normierten Wert, bei dem eine negative Ausprägung bedeutet, dass die Variable in der betrachteten Gruppe im Vergleich zur Erhebungsgesamtheit unterrepräsentiert ist und eine positive Ausprägung, dass die Variable in der betrachteten Gruppe im Vergleich zur Erhebungsgesamtheit überrepräsentiert ist.
Tabelle 4.2.1 zeigt sowohl F- als auch t-Werte für die 7-Cluster-Lösung. Die grau hervorgehobenen Werte sind diejenigen F-Werte, die 1 überschreiten und somit ein Argument gegen die Homogenität der Gruppe darstellen. Wie man erkennen kann, sind die Cluster 1, 2 und 5 die einzigen, bei denen keinerlei Homogenitätsprobleme vorliegen. Alle anderen Cluster weisen teilweise gruppeninterne Varianzen auf, die in der Untersuchungsgesamtheit niedriger ausfallen würden. Betrachtet man jedoch die F-Werte der anderen Clusterlösungen (vgl. Anhang, Tabellen A11 bis A15), so lässt sich erkennen, dass keine Lösung existiert, in der die Homogenitätsprobleme einzelner Gruppen gänzlich behoben wären. Stattdessen kann man jedoch sehen, dass die F-Werte durch die Aufteilung der einzelnen Cluster insgesamt geringer werden und sich somit dem Idealbild, bei dem alle F-Werte unter 1 wären, zumindest tendenziell annähern. Es stellt sich die Frage, ob weitere Aufspaltungen in noch mehr Cluster noch bessere Ergebnisse des F-Wertes liefern würden; da Lösungen mit mehr als 7 Clustern von vornherein ausgeschlossen wurden spielt dies jedoch keine größere Rolle. Die Ergebnisse, die der t-Wert liefert entsprechen denen, die die gesonderte Betrachtung der Mittelwerte ebenfalls ergibt. Insofern ist eine ausführliche Besprechung der vom t-Wert nicht erforderlich, da dies an anderer Stelle bereits implizit gemacht wurde.
4 In diesem Abschnitt gehe ich nicht weiter auf die unter 4.1 dargestellten Lösungen ein, sondern lediglich auf die letztendlich ausgewählte 7-Cluster-Lösung. Gründe für die getroffene Wahl werden im 5. Kapitel ausführlich behandelt.
4
Tabelle 4.2.1: Übersicht über F- und t-Werte der 7-Cluster-Lösung
Warum letztendlich die 7-Cluster-Lösung den anderen Kandidaten vorgezogen wurde, soll im folgenden Abschnitt geklärt werden.
5 Endgültiges Modell
Tabelle 5.1: Mittelwerte, Standardabweichungen und Varianzen der 7-Cluster-Lösung
5
Tabelle 5.1 fasst noch einmal zusammen, was in Kapitel 4.1 bereits etwas ausführlicher dargestellt wurde, ergänzt um die letzte Aufteilung einer Gruppe in zwei neue. Die bei der 3-Cluster-Lösung angesprochene Extremgruppe zerfällt bei diesem Schritt in die Gruppen 3 und 7.
5.1 Statistische Argumente
Wie man der in Tabelle 5.1.1 dargestellten Häufigkeitsverteilung entnehmen kann, sind die Cluster ihrer Größe nach zu urteilen sehr heterogen. Auf Cluster 1 und 2 fallen bereits über 70% aller Objekte, wohingegen Cluster 3 und 7 gerade einmal 1% der Fälle enthalten. Dies spricht generell eher gegen die Lösung, da normalerweise bei Clusteranalysen eine Gleichbesetzung der Gruppen angestrebt wird. Nichtsdestotrotz spricht die Heterogenität im vorliegenden Fall für dieses Modell; dazu finden sich jedoch in Abschnitt 5.2 nähere Erläuterungen.
Tabelle 5.1.1: Häufigkeitsverteilung der 7-Cluster-Lösung
Wie bereits weiter oben erwähnt wurde, sind auch die F-Werte der 7-Cluster-Lösung nicht frei von Kritik. Bei Cluster 3 geht dies sogar so weit, dass nicht ein einziger F-Wert unter 1 liegt. Trotzdem sind die Werte als akzeptabel anzusehen, da die anderen Lösungen kaum bessere Werte aufweisen und die im Folgenden dargestellte inhaltliche Argumentation die 7-Cluster-Lösung sinnvoll interpretierbar macht.
5.2 Inhaltliche Argumente
Die sieben Cluster können inhaltlich folgendermaßen charakterisiert werden (vgl. hierzu auch Tabelle 5.1):
Cluster 1 - die „braven Schimpfer“: Alle Werte außer den beiden Indizes zur verbalen Gewalt liegen unter dem Gesamtdurchschnitt. Dies kann man dahingehend interpretieren, dass Schüler aus dieser Gruppe nur wenig Erfahrung im Umgang mit Gewalt gemacht haben und im Großen und Ganzen eher harmloser Natur sind. Streitigkeiten werden größtenteils auf ver-
6
Arbeit zitieren:
Florian Wohlkinger, 2007, Clusteranalyse - Ein Anwendungsbeispiel, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Der Rechtsschutz des DRM im Wandel
Eine Analyse des digitalen Rec...
Jura - Medienrecht, Multimediarecht, Urheberrecht
Seminararbeit, 27 Seiten
Digitale Produkte und Digital Rights Management
Informatik - Wirtschaftsinformatik
Seminararbeit, 18 Seiten
Theorie, Einflussfaktoren und ...
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Seminararbeit, 17 Seiten
Digitale Produkte und Digital Rights Management
Informatik - Wirtschaftsinformatik
Hausarbeit, 17 Seiten
Rechtemanagement in Verteilten Systemen mit Web-Services
Informatik - Internet, neue Technologien
Diplomarbeit, 97 Seiten
Logistische Regression - Die Anwendung des Logit- und Probit-Modells
Seminararbeit, 15 Seiten
IPTV und WebTV - Der neue Fernsehmarkt und seine Wettbewerber in Deuts...
Medien / Kommunikation - Multimedia, Internet, neue Technologien
Bachelorarbeit, 84 Seiten
'TV 2.0' - Neue Anforderungen an ein altes Medium
Zu Auswirkungen von 'Web 2...
Medien / Kommunikation - Film und Fernsehen
Diplomarbeit, 149 Seiten
Der Two-Step-Clusteralgorithmus in SPSS: Methodenbeschreibung und Verg...
Hausarbeit (Hauptseminar), 72 Seiten
Entwicklungstendenzen des Digitalen Fernsehens
Medien / Kommunikation - Multimedia, Internet, neue Technologien
Diplomarbeit, 144 Seiten
Plattform für interaktives Live-Internet-TV
Kostengünstige Distribution/Ve...
Informatik - Angewandte Informatik
Bachelorarbeit, 174 Seiten
Florian Wohlkinger hat den Text Clusteranalyse - Ein Anwendungsbeispiel veröffentlicht
Florian Wohlkinger hat einen neuen Text hochgeladen
Unter Berücksichtigung von Sti...
Gerhard Marinell, Gabriele Steckel-Berger
0 Kommentare