Clusteranalyse mit SPSS. Vorüberlegungen, Ziele, Durchführung


Hausarbeit, 2002
23 Seiten, Note: 1,7

Leseprobe

Gliederung:

Abbildungsverzeichnis

0. Zielstellung

1. Das Programm SPSS
1.1 Die Entwicklung von SPSS
1.2 Die Oberflache von SPSS fur Windows

2. Die Clusteranalyse im Allgemeinen
2.1 Ziel der Clusteranalyse
2.2 Voruberlegungen
2.3 AbstandsmaRe
2.4 Verfahren der Clusteranalyse

3. Die Clusteranalyse im speziellen Fall
3.1 Die Daten
3.2 Ziel der Analyse
3.3 Durchfuhrung der Analyse
3.4 Ergebnisse und Interpretation

Literaturverzeichnis

Abbildunqsverzeichnis:

Abb.1: Ausgewahlte Cluster-Algorithmen (nach: Backhaus, Erichson, Plinke, Weiber, Multivariate Analysemethoden, 9.Auflage, 2000, S.348)

Abb.2: Ausgangsdaten fur die Clusteranalyse

Abb. 3: Auswahlfenster der Hierarchischen Clusteranalyse

Abb. 4: Statistik-Auswahlfenster

Abb. 5: Diagramm-Auswahlfenster

Abb. 6: Methoden-Auswahlfenster

Abb. 7: Dendogramm fur Clusteranalyse der Variablen

Abb. 8: Clusterzugehorigkeit der Variablen

Abb. 9: Dendogramm fur Clusteranalyse der Falle

Abb. 10: Clusterzugehorigkeit der Falle

0. Zielstellung

Ziel dieser Hausarbeit ist es, die Durchfuhrung der Clusteranalyse mit Hilfe von SPSS zu erlautern. Dazu wird als erstes einiges uber die Entwicklung und die Funktionsweise von SPSS gesagt werden.

AnschlieRend wird die Clusteranalyse naher erlautert, dabei wird auf die Ziele der Clusteranalyse eingegangen und darauf welche Voruberlegungen vor deren Durchfuhrung getroffen werden sollten.

AuRerdem werden AhnlichkeitsmaRe und einige Fusionierungsmethoden, die fur die Durchfuhrung der Clusteranalyse notig sind im Hinblick auf die Verwendung in SPSS erlautert.

AbschlieRend wird die Durchfuhrung der Clusteranalyse mit Hilfe von SPSS anhand eines konkreten Beispiels dargestellt.

Dabei wird auf die verwendeten Daten, das Ziel dieser Analyse und die Ergebnisse und deren Interpretation eingegangen.

1. Das Programm SPSS

1.1 Die Entwicklung von SPSS

SPSS ist die Abkurzung fur Statistical Product and Service Solutions (fruher: Statistical Package for Social Sciences). Es ist ein weit verbreitetes Werkzeug fur die statistische Analyse sozialwissenschaftlicher Daten, wenn auch nicht das einzige Werkzeug fur diesen Zweck. Zum anderen gibt es auch hochspezialisierte Programme fur bestimmte Anwendungsfalle, zum Beispiel im Bereich verallgemei- nerter linearer Modelle oder fur Mehrebenenanalysen.

Die Anfange von SPSS reichen bis in das Jahr 1965 zuruck: Die erste Version dieses Werkzeuges wurde von Norman Nie und Dale Bent an der Stanford University entwickelt. Dieses wurde auf GroRrechnern in der Programmiersprache Fortran implementiert. Danach erfolgte eine standige Weiterentwicklung.

1983 kam es zu einer vollstandigen Oberarbeitung des Konzeptes zu SPSS: das erweiterte SPSS-X. Seit 1983 gibt es auch Versionen fur den IBM-PC (SPSS fur Windows). Die Verwendung des Windows - basierten SPSS vereinfacht die Arbeit in vielen Fallen durch Menu- und Dialogfensterstrukturen, die viele Anwendungsfalle abdecken. Trotzdem arbeitet im Hintergrund ein Syntax - orientierter Befehlsinter- preter. Und fur immer wiederkehrende oder komplexere Aufgaben steht er dem Anwender immer noch zur Verfugung.

Das Programm gibt es in verschiedenen, unterschiedlich umfangreichen Varianten. Neben dem BASIC - Modul gibt es weitere wichtige Module fur SPSS fur Windows, die hier nur kurz erwahnt werden sollen:

- SPSS Professional Statistics
- SPSS Advanced Statistics
- SPSS Answer T ree
- SPSS Tables, Trends, Categories

Die Implementation von SPSS unter Windows nutzt dabei Techniken, die auch in Tabellenkalkulationsprogrammen und Programmen zur Prasentation von wissenschaftlichen Ergebnissen benutzt werden, somit wird der Einstieg erleichtert. Doch sei hier gesagt: Ohne Kenntnis von statistischen Verfahren und Programm- kenntnissen wird man eben nur einfache Aufgaben realisieren konnen.[1]

1.2 Die Oberflache von SPSS fur Windows

Der Dateneditor:

Die statistischen Daten werden in einer zweidimensionalen Wertetabelle eingetragen. Dabei wird zwischen Fallen und Variablen unterschieden. Als Fall wird ein Element einer Stichprobe bezeichnet. Zu jedem Fall gibt es ein oder mehrere Befragungsergebnisse, das quantifizierbare Ergebnis jeder Frage wird einer Variablen zugeordnet.[2]

Diese konnen in der Variablenansicht des Dateneditors definiert und geandert werden. Jeder Variablen wird ein Name und der Typ zugeordnet. AuRerdem werden das Spaltenformat und die Anzahl der Dezimalstellen festgelegt. Um spater eine bessere Obersicht zu erhalten, sollten Variablen- und Wertelabels sowie die Spaltenanzahl und die Ausrichtung eingegeben werden. Um Fehler bei Berech- nungen zu vermeiden, ist es moglich Standardwerte fur fehlende Werte anzugeben und das Messniveau zu wahlen.

In der Datenansicht konnen nun die aus Befragungen gewonnenen Falle eingetragen werden. Allerdings eignet sich dieser nur zur Eingabe und Korrektur kleiner Datensatze. GroRere Datenmengen konnen mit Hilfe der Module SPSS Data Entry und SPSS Data Entry Builder erstellt werden.

Die Dateneingabe orientiert sich weitestgehend an der in Tabellenkalkulations- Programmen ublichen Vorgehensweise.

Der Viewer:

Hier werden die Ergebnisse angezeigt. Der Viewer kann fur folgende Vorgange verwendet werden:

Durchsuchen der Ergebnisse, Ein- und Ausblenden von ausgewahlten Tabellen und Diagrammen, Andern der Anzeigereihenfolge der Ergebnisse durch Verschieben ausgewahlter Objekte, Verschieben von Objekten zwischen dem Viewer und anderen Anwendungen.

Der Viewer ist in zwei Fensterbereiche aufgeteilt:

Der linke Fensterbereich des Viewers enthalt eine Gliederungsansicht des Inhalts. Der rechte Fensterbereich enthalt Statistiktabellen, Diagramme und Textausgabe.[3]

2. Die Clusteranalyse im Allgemeinen

2.1 Ziel der Clusteranalyse

Unter dem Begriff Clusteranalyse versteht man Verfahren zur Gruppenbildung. Das durch sie zu verarbeitende Datenmaterial besteht im allgemeinen aus einer Vielzahl von Personen bzw. Objekten. Beispielhaft seien die 20000 eingeschriebenen Studenten einer Hochschule genannt. In diesem Fall mogen dies das Geschlecht, das Studienfach, die Semesterzahl, der Studienwohnort, die Nationalitat und der Familienstand sein. Ausgehend von diesen Daten besteht die Zielsetzung der Clusteranalyse in der Zusammenfassung der Studenten zu Gruppen. Die Mitglieder einer Gruppe sollen dabei eine weitgehend verwandte Eigenschaftsstruktur aufweisen, d.h. sich moglichst ahnlich sein. Zwischen den Gruppen sollen demgegenuber (so gut wie) keine Ahnlichkeiten bestehen. Ein wesentliches Charakteristikum der Clusteranalyse ist die gleichzeitige Heranziehung aller vorliegenden Eigenschaften zur Gruppenbildung.

Ihren Ablauf kann man in zwei grundlegende Schritte unterteilen:

1. Schritt: Wahl des ProximitatsmaRes

Man uberpruft fur jeweils zwei Personen die Auspragungen der sechs Merkmale und versucht, durch einen Zahlenwert die Unterschiede bzw. Obereinstimmungen zu messen. Die berechnete Zahl symbolisiert die Ahnlichkeit der Personen hinsichtlich der untersuchten Merkmale.

2. Schritt: Wahl des Fusionierungsalgorithmus

Aufgrund der Ahnlichkeitswerte werden die Personen so zu Gruppen zusammengefasst, dass sich die Studenten mit weitgehend ubereinstimmen- den Eigenschaftsstrukturen in einer Gruppe wieder finden.

Bei allen Problemstellungen, die mit Hilfe der Clusteranalyse gelost werden konnen, geht es immer um die Analyse einer heterogenen Gesamtheit von Objekten (z.B. Personen, Unternehmen), mit dem Ziel, homogene Teilmengen von Objekten aus der Objektgesamtheit zu identifizieren.[4]

2.2 Voruberlegungen

Bevor eine Clusteranalyse durchgefuhrt wird, sollten einige Gberlegungen zur Auswahl und Aufbereitung der Ausgangsdaten angestellt werden.

1) Anzahl der Objekte
2) Problem der AusreiRer
3) Anzahl der zu betrachtenden Merkmale
4) Gewichtung der Merkmale

Wurde eine Clusteranalyse auf Basis einer Stichprobe durchgefuhrt und sollen aufgrund der gefundenen Gruppierungen Ruckschlusse auf die Grundgesamtheit gezogen werden, so muss sichergestellt werden, dass auch genugend Elemente in den einzelnen Gruppen enthalten sind, um die entsprechenden Teilgesamtheiten in der Grundgesamtheit zu reprasentieren.

AuRerdem sollten sog. AusreiRer aus der gegebenen Objektmenge herausge- nommen werden. Sie fuhren dazu, dass der Fusionierungsprozess der ubrigen Objekte stark beeinflusst wird und damit das Erkennen der Zusammenhange zwischen den ubrigen Objekten erschwert wird und Verzerrungen auftreten. Eine Moglichkeit zum Auffinden solcher AusreiRer bietet z.B. das Single-Linkage- Verfahren.

Es sollte auch darauf geachtet werden, dass nur solche Merkmale im Gruppierungsprozess Berucksichtigung finden, die aus theoretischen Gberlegungen als relevant fur den zu untersuchenden Sachverhalt anzusehen sind.

Weiterhin lasst ich i.d.R. nicht bestimmen, ob die betrachteten Merkmale mit unterschiedlichem Gewicht zur Gruppenbildung beitragen sollen, so dass weitgehend eine Gleichgewichtung der Merkmale unterstellt wird.

Hierbei ist darauf zu achten, dass insbesondere durch hoch korrelierende Merkmale bei der Fusionierung der Objekte bestimmte Aspekte uberbetont werden, was wiederum zu einer Verzerrung der Ergebnisse fuhren kann. Weisen zwei Merkmale hohe Korrelation (>0,9) auf, so ist zu uberlegen, ob eines der Merkmale ausge- schlossen werden kann. Andere Moglichkeiten sind das Vorschalten einer explorativen Faktorenanalyse und die Verwendung der Mahalanobis - Distanz.[5] Es sollten weiterhin auch keine konstanten Merkmale, d.h. Merkmale die bei allen Objekten die gleiche Auspragung ausweisen in die Analyse einbezogen werden.

[...]


[1] Dr. Roland Unger, Einfuhrungskurs SPSS, 2000, S.5,6

[2] Dr. Roland Unger, Einfuhrungskurs SPSS, 2000, S.17

[3] SPSS Hilfe, SPSS Version 10

[4] Backhaus, Erichson, Plinke, Weiber, Multivariate Analysemethoden, 9.Auflage, 2000, S.329

[5] Vgl.: Backhaus, Erichson, Plinke, Weiber, Multivariate Analysemethoden, 9.Auflage, 2000, S.380ff

Ende der Leseprobe aus 23 Seiten

Details

Titel
Clusteranalyse mit SPSS. Vorüberlegungen, Ziele, Durchführung
Hochschule
Hochschule für angewandte Wissenschaften Anhalt in Köthen
Veranstaltung
Computergestützte empirische Analyse
Note
1,7
Autor
Jahr
2002
Seiten
23
Katalognummer
V15710
ISBN (eBook)
9783638207492
ISBN (Buch)
9783638644136
Dateigröße
552 KB
Sprache
Deutsch
Schlagworte
Clusteranalyse, SPSS, Computergestützte, Analyse
Arbeit zitieren
Diplom-Betriebswirt Andre Hiller (Autor), 2002, Clusteranalyse mit SPSS. Vorüberlegungen, Ziele, Durchführung, München, GRIN Verlag, https://www.grin.com/document/15710

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Clusteranalyse mit SPSS. Vorüberlegungen, Ziele, Durchführung


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden