Um Clusteranalyse zu verstehen, sollte vorerst definiert werden, was unter einem „Cluster“ verstanden wird. Ein Cluster ist eine Sammlung von Datenobjekten, die ähnliche Eigenschaften besitzen. Das bedeutet, dass sich die Objekte innerhalb derselben Gruppe ähneln. Sie unterscheiden sich jedoch sehr mit den Objekten in anderen Clustern.

Ziel der Clusteranalyse, die auch Clustering oder Datensegmentierung genannt wird, die Objekte in eine homogene Gruppe zu teilen. Die Clusteranalyse besteht darin, Datenpunkte in eine Gruppe von Clustern oder Gruppen zu partitionieren. Um Objekte Clustern zu können, müssen diese über Proximitätsmaße (Euklidischer Abstand, Manhattan-Abstand) miteinander verglichen werden. Objekte mit geringer Distanz zueinander werden dabei in ein Cluster eingeteilt.

Mittels Clusteranalyse kann man klassifizieren ohne die Klassen vorher zu kennen, dies wird auch nichtüberwachtes Lernen (Unsupervised Learning) genannt. In dem Sinne gibt es beim Clustering auch keine Trainingsdaten. Dies ist sehr verschieden von der Klassifizierung, die überwachtes Lernen erfordert. Es ist nicht sinnvoll das Clusterverfahren bei allen Datensätzen anzuwenden, denn manche Datensätze weisen keine Struktur auf und sind nur zufällig angeordnete Punkte, wo kein Cluster erkennbar ist. Die Folge wäre, dass der Datensatz falsch geclustert wird und die natürliche Datenstruktur nicht wiedergegeben werden kann. In dieser Arbeit wird auf der linken Seite der Abbildung 1 sieht man Datenpunkte, die mittels Clusteranalyse in vier Clustern eingeteilt wurden. Diese vier Cluster ähneln sich in ihren Eigenschaften. Je nach Methode können diese Objekte zu einem oder mehreren Clustern gehören. In dieser Arbeit werden beide Methoden wie K-Means und DBSCAN untersucht, angewendet und anschließend verglichen.

Excerpt

Inhaltsverzeichnis

1 Einleitung

1.1 Was ist eine Clusteranalyse

1.2 Proximitätsmaße

2 Partitionierendes Clustering

2.1 K-Means Algorithmus

2.2 Initialisierung des K-Means

2.3 K-Means Umsetzung in R

3 Der Iris Datensatz

4 Dichtebasiertes Clustering DBSCAN

4.1 Dichteerreichbarkeit

4.2 DBSCAN Umsetzung in R

5 Fazit

Zielsetzung und thematische Schwerpunkte

Die vorliegende Arbeit hat das Ziel, die Funktionsweise und Anwendung zweier gängiger Clustering-Verfahren, K-Means und DBSCAN, zu erläutern und deren Leistungsfähigkeit am Beispiel des bekannten Iris-Datensatzes zu vergleichen. Dabei wird insbesondere untersucht, wie diese Algorithmen Daten segmentieren und welche Herausforderungen bei der praktischen Implementierung in der Programmiersprache R auftreten.

Grundlagen der Clusteranalyse und Proximitätsmaße
K-Means: Algorithmus, Initialisierung und praktische Umsetzung
Eigenschaften und Anwendung des Iris-Datensatzes
DBSCAN: Dichtebasiertes Clustering und Dichteerreichbarkeit
Vergleichende Analyse der beiden Verfahren hinsichtlich ihrer Anwendbarkeit

Auszug aus dem Buch

1.1 Was ist eine Clusteranalyse

Ziel der Clusteranalyse, die auch Clustering oder Datensegmentierung genannt wird, die Objekte in eine homogene Gruppe zu teilen. Die Clusteranalyse besteht darin, Datenpunkte in eine Gruppe von Clustern oder Gruppen zu partitionieren. Um Objekte Clustern zu können, müssen diese über Proximitätsmaße (Euklidischer Abstand, Manhattan-Abstand) miteinander verglichen werden. Objekte mit geringer Distanz zueinander werden dabei in ein Cluster eingeteilt.

Mittels Clusteranalyse kann man klassifizieren ohne die Klassen vorher zu kennen, dies wird auch nichtüberwachtes Lernen (Unsupervised Learning) genannt. In dem Sinne gibt es beim Clustering auch keine Trainingsdaten. Dies ist sehr verschieden von der Klassifizierung, die überwachtes Lernen erfordert. Es ist nicht sinnvoll das Clusterverfahren bei allen Datensätzen anzuwenden, denn manche Datensätze weisen keine Struktur auf und sind nur zufällig angeordnete Punkte, wo kein Cluster erkennbar ist.

Zusammenfassung der Kapitel

1 Einleitung: Definition der Clusteranalyse als Segmentierungsverfahren und Abgrenzung zu anderen Lernmethoden sowie Einführung in die Proximitätsmaße.

2 Partitionierendes Clustering: Vorstellung des K-Means Algorithmus, Erläuterung der Zielfunktion und praktische Umsetzung in der Programmiersprache R.

3 Der Iris Datensatz: Beschreibung des zur Analyse verwendeten Datensatzes mit seinen vier Attributen und drei Blumenarten.

4 Dichtebasiertes Clustering DBSCAN: Einführung in das dichtebasierte Verfahren DBSCAN, dessen Parameter Epsilon und MinPts sowie die Implementierung in R.

5 Fazit: Zusammenfassende Bewertung beider Clustering-Methoden und deren Einsatzgebiete in der Forschung und Praxis.

Schlüsselwörter

Clusteranalyse, K-Means, DBSCAN, Iris-Datensatz, Proximitätsmaße, Euklidischer Abstand, Unsupervised Learning, Datensegmentierung, Clusterzentren, R, Dichteerreichbarkeit, Ausreißer, Klassifizierung, Marktsegmentierung, Segmentierungsverfahren.

Häufig gestellte Fragen

Worum geht es in der Arbeit im Kern?

Die Arbeit behandelt grundlegende Methoden der Clusteranalyse und demonstriert deren Anwendung und Vergleich anhand der Algorithmen K-Means und DBSCAN.

Was sind die zentralen Themenfelder?

Die Schwerpunkte liegen auf der algorithmischen Funktionsweise von K-Means und DBSCAN, der Vorbereitung von Daten sowie der praktischen Implementierung dieser Verfahren in R.

Welches Ziel verfolgt die Arbeit?

Das Ziel ist es, die Funktionsweise von Clustering-Algorithmen zu erklären und an einem praktischen Datensatz zu zeigen, wie Cluster identifiziert werden.

Welche wissenschaftliche Methode kommt zum Einsatz?

Es wird eine anwendungsorientierte Analyse durchgeführt, bei der ein theoretischer Rahmen für Clustering-Verfahren mit einer praktischen Umsetzung in R kombiniert wird.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil gliedert sich in die theoretische Einführung, die detaillierte Beschreibung und Umsetzung von K-Means, die Vorstellung des Iris-Datensatzes sowie die Erläuterung von DBSCAN.

Was zeichnet die Clusteranalyse aus?

Als Methode des unüberwachten Lernens ermöglicht sie die Gruppierung von Daten ohne vorherige Kenntnis der Klassenzugehörigkeit oder Trainingsdaten.

Was ist das Besondere am K-Means Algorithmus?

K-Means ist ein iterativer und sehr effizienter Algorithmus, der Daten in eine vordefinierte Anzahl an Clustern partitioniert, jedoch empfindlich auf Startpositionen reagiert.

Wie unterscheidet sich DBSCAN von K-Means?

DBSCAN ist dichtebasiert, erfordert keine Vorab-Festlegung der Clusteranzahl und ist robuster gegenüber Ausreißern sowie geeignet für beliebig geformte Cluster.

Warum wird der Iris-Datensatz genutzt?

Der Datensatz dient als standardisiertes Beispiel, um die Wirksamkeit der Clustering-Algorithmen durch den Vergleich der berechneten Cluster mit den tatsächlichen Pflanzenarten zu prüfen.

Welche Rolle spielt der "Ellenbogen-Punkt"?

Der Ellenbogen-Punkt in der grafischen Darstellung dient als Hilfsmittel zur Bestimmung der optimalen Anzahl an Clustern (K) für den K-Means Algorithmus.

Excerpt out of 27 pages - scroll top

Details

Title: Clustering. Die Clusteranalysen K-means und DBSCAN im Vergleich
College: Reutlingen University
Grade: 1,3
Author: Aylin Gürkan (Author)
Publication Year: 2018
Pages: 27
Catalog Number: V452144
ISBN (eBook): 9783668849570
ISBN (Book): 9783668849587
Language: German
Tags: clustering k-means dbscan
Product Safety: GRIN Publishing GmbH

Quote paper: Aylin Gürkan (Author), 2018, Clustering. Die Clusteranalysen K-means und DBSCAN im Vergleich, Munich, GRIN Verlag, https://www.grin.com/document/452144

Clustering. Die Clusteranalysen K-means und DBSCAN im Vergleich