Diese Arbeit gliedert sich in zwei Abschnitte: Zunächst wird die Theorie der Clusteranalyse dargestellt, wobei der Fokus auf die hierarchischen Verfahren gelegt wird. Im zweiten Teil wird eine computergestützte Anwendung einer solchen Analyse auf einen selbst erstellten Rohdatensatz dargestellt. Das Ziel dieses Abschnittes ist es eine sinnvoll interpretierbare Klassifikation der vorliegenden Daten aufzudecken.

Das Problem mühsamer und zeitaufwendiger Informationsbeschaffung gehört schon seit vielen Jahren der Vergangenheit an. Durch das Internet, elektronische Datenbanken und Massenspeicher ist die Informationsbeschaffung preiswert und schnell geworden. In Zeiten von „Big-Data“ stellt sich viel mehr die Frage, wie sich die Massen an verfügbaren Informationen systematisch auswerten lassen. Ein mögliches Instrumentarium, um Strukturen in großen Datenmengen zu erkennen, ist die Clusteranalyse.

Aus betriebswirtschaftlicher Sicht ist die Anwendungsbandbreite riesig. Im Marketing ist die Clusteranalyse ein beliebtes Instrument zur Abgrenzung und Beschreibung von Käufersegmenten oder Absatzmärkten. In der Logistikbranche lässt sich die Clusteranalyse im Rahmen der Standortplanung einsetzten, um eine Menge von Standortalternativen auf der Grundlage verschiedener Faktoren zu gruppieren. Im Anschluss kann durch die Interpretation der Analyseergebnisse jenes Cluster herausgestellt werden, das für das Unternehmen hinsichtlich der festgelegten Standortfaktoren die günstigsten Voraussetzungen bietet.

Excerpt

Inhaltsverzeichnis

1 Einleitung

2 Grundlagen der Clusteranalyse

2.1 Ausgangssituation und Anforderungen

2.2 Ähnlichkeits- und Distanzbestimmung in Abhängigkeit des Skalenniveaus

2.3 Verfahren der Clusteranalyse

2.3.1 Agglomerative-hierarchische Verfahren

2.3.2 Ausgewählte Clusteralgorithmen

3 Computergestützte Clusteranalyse eines Testdatensatzes

4 Schluss

Zielsetzung & Themen

Die vorliegende Arbeit untersucht das theoretische Konzept der Clusteranalyse und demonstriert deren praktische Anwendung im Bereich der Standortplanung, um komplexe Datensätze durch Gruppierung auf relevante Kerninformationen zu reduzieren.

Theoretische Grundlagen und Anforderungen der Clusteranalyse
Methoden zur Bestimmung von Ähnlichkeit und Distanz
Differenzierung zwischen verschiedenen Clusteralgorithmen
Praktische Durchführung einer computergestützten Clusteranalyse mittels SPSS
Interpretation und Charakterisierung gebildeter Cluster

Auszug aus dem Buch

2.1 Ausgangssituation und Anforderungen

Die Ausgangsbasis einer Clusteranalyse ist ein zu untersuchender Datensatz, der aus verschiedenen Klassifikationsobjekten (z.B. Unternehmen) besteht. Für jedes dieser Objekte sind Merkmalsausprägungen bzw. Variablen (z.B. Umsatz, Gewinn, Anzahl der Angestellten) bekannt, die sich, wie in Tabelle 1 dargestellt, in einer Rohdatenmatrix anordnen lassen. (Vgl. Backhaus et al., 2000, S. 331)

Die Clusteranalyse zählt zu den struktur-entdeckenden Verfahren der multivariaten Analysemethoden. (Vgl. Backhaus et al., 2000, S. XXI) Ziel ist die Zusammenfassung von Klassifikationsobjekten zu Gruppen. (Vgl. Bacher et al., 2010, S. 15) Dabei sind dem/der Anwender/in zu Analysebeginn die Gruppierungen noch nicht bekannt. Von zentraler Bedeutung ist, dass die Objekte innerhalb einer Gruppe ähnlich sind (interne Homogenität), wogegen sich Objekte, die zu unterschiedlichen Clustern gehören, voneinander unterscheiden sollten (externe Heterogenität). (Vgl. Micheel, 2010, S. 158)

Sind diese Grundvoraussetzungen nicht erfüllt, ist es wenig sinnvoll eine Klassifikation durchzuführen. Abbildung 1 verdeutlicht diesen Sachverhalt. Die untersuchten Klassifikationsobjekte bilden in den Variablen X und Y eine große, relativ dichte Punktewolke, welche sich nicht sinnvoll in Cluster unterteilen lässt. (Vgl. Bacher et al., 2010, S. 17)

Zusammenfassung der Kapitel

1 Einleitung: Die Einleitung erläutert die Bedeutung der Clusteranalyse zur Strukturierung großer Datenmengen und definiert den Aufbau der Arbeit in einen theoretischen und einen anwendungsorientierten Teil.

2 Grundlagen der Clusteranalyse: Dieses Kapitel vermittelt die theoretischen Voraussetzungen, wie die Datenstandardisierung, Distanzmessungen und die Unterscheidung zwischen verschiedenen hierarchischen Clusteralgorithmen.

3 Computergestützte Clusteranalyse eines Testdatensatzes: Hier wird die Theorie anhand eines praktischen Beispiels zur Standortplanung von Gemeinden in Niedersachsen mittels SPSS angewandt und interpretiert.

4 Schluss: Das Fazit fasst die Erkenntnisse zusammen und weist auf die Abhängigkeit der Ergebnisse von der Datenwahl sowie dem gewählten Algorithmus hin, was einen gewissen Manipulationsspielraum impliziert.

Schlüsselwörter

Clusteranalyse, Hierarchische Verfahren, Standortplanung, Distanzmaß, Multivariate Analysemethoden, SPSS, Interne Homogenität, Externe Heterogenität, Ward-Verfahren, Single-Linkage, Datenreduktion, Rohdatenmatrix, z-Transformation, Klassifikation, Standortfaktoren.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit behandelt die Methodik und praktische Umsetzung von Clusteranalysen zur Klassifikation von Objekten in großen Datensätzen.

Welche zentralen Themenfelder werden abgedeckt?

Die zentralen Felder umfassen die theoretischen Anforderungen an Cluster, Distanzbestimmungen, verschiedene Algorithmen (insbesondere agglomerativ-hierarchische Verfahren) und deren Anwendung in der Standortplanung.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, ein Verständnis für die Durchführung einer Clusteranalyse zu entwickeln und durch eine computergestützte Anwendung eine sinnvoll interpretierbare Klassifikation von Testdaten zu erstellen.

Welche wissenschaftlichen Methoden kommen zum Einsatz?

Es werden agglomerativ-hierarchische Clusteranalyseverfahren (Single-Linkage zur Ausreißeridentifikation und das Ward-Verfahren zur Gruppierung) sowie statistische Standardisierungsverfahren (z-Transformation) verwendet.

Was wird im Hauptteil der Arbeit behandelt?

Im Hauptteil werden neben den theoretischen Grundlagen der Distanz- und Ähnlichkeitsmessung auch der prozessuale Ablauf der Clusterbildung und die computergestützte Analyse eines Datensatzes mit SPSS detailliert dargestellt.

Durch welche Schlüsselwörter lässt sich die Arbeit charakterisieren?

Die Arbeit lässt sich durch Begriffe wie Clusteranalyse, Standortplanung, Ward-Verfahren, multivariate Statistik und Datenklassifikation beschreiben.

Warum wird im Anwendungsbeispiel zunächst das Single-Linkage-Verfahren genutzt?

Das Single-Linkage-Verfahren wird angewandt, um Ausreißer in den Daten zu identifizieren und zu eliminieren, bevor die eigentliche Gruppierung mit dem präziseren Ward-Verfahren erfolgt.

Welche Bedeutung hat das Ward-Verfahren in der Untersuchung?

Das Ward-Verfahren wird als der entscheidende Algorithmus zur tatsächlichen Gruppierung eingesetzt, da es auf metrische Daten spezialisiert ist und kompakte Cluster durch Minimierung der Fehlerquadratsumme bildet.

Excerpt out of 25 pages - scroll top

Details

Title: Eine statistische Clusteranalyse zur Analyse von Datensätzen. Theorie und Praxis
College: University of Hamburg
Grade: 2,0
Author: Luca Müller (Author)
Publication Year: 2017
Pages: 25
Catalog Number: V541372
ISBN (eBook): 9783346173546
Language: German
Tags: analyse clusteranalyse datensätzen eine praxis theorie
Product Safety: GRIN Publishing GmbH

Quote paper: Luca Müller (Author), 2017, Eine statistische Clusteranalyse zur Analyse von Datensätzen. Theorie und Praxis, Munich, GRIN Verlag, https://www.grin.com/document/541372

Eine statistische Clusteranalyse zur Analyse von Datensätzen. Theorie und Praxis