Das Finalziel der vorliegenden Arbeit besteht darin eine hierarchische Clusteranalyse in R im Rahmen eines Praxisbeispiels, und den dazugehörigen Daten, durchzuführen. In der modernen Wirtschaft spielt die Analyse von Daten bei der Bewältigung von gegenwärtigen Aufgabenstellungen eine immer größere Rolle. Die Gewinnung von relevanten Erkenntnissen aus den weltweit stetig wachsenden Datenbeständen ist für Wirtschaftsunternehmen in Hinsicht auf die Sicherung der Wettbewerbsfähigkeit von zentraler Bedeutung. Während 2022 lediglich ein Volumen 103,66 Zettabyte an Daten global generiert, beziehungsweise repliziert wurde, sollen es laut Prognose bereits 284,3 Zettabyte im Jahr 2027 sein. Weiterhin ermöglichen die heutzutage zur Verfügung stehenden Rechenkapazitäten zur Unterstützung von Entscheidungsprozessen eine Quantifizierbarkeit und Auswertung von Daten nahezu ohne Einschränkungen.

Zur Analyse von Daten stehen unterschiedlichste statistische Verfahren bereit. Im Zuge der Bearbeitung des Laborberichts wird eine hierarchische Clusteranalyse in R zu bestehenden Daten durchgeführt. Bei der statistischen Programmiersprache R handelt es sich um eine freie Sprache für statistische Berechnungen und Darstellungen. Dessen Beliebtheit zeigt sich vor allem im PYPL-Index, in welchem R mit 4,6% im August 2024 als sechst beliebteste Programmiersprache aufgeführt wird. Nach einer eintägigen Einführung in die Umgebung von R folgt in dieser Arbeit die praktische Umsetzung einer Clusteranalyse. Dabei wird im Produktivumfeld die R-Konsole eingesetzt.

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis
Tabellenverzeichnis
1 Einleitung
- 1.1 Begründung der Problemstellung
- 1.2 Aufbau und Zielsetzung der Arbeit
2 Theoretische Grundlagen
- 2.1 Data Mining und Clusteranalyse
- 2.2 Datenauswahl- und Vorbereitung
- 2.3 Bestimmung des Proximitätsmaßes
- 2.4 Festlegung des Fusionierungsalgorithmus
- 2.5 Ermittlung der Clusteranzahl und Interpretation
3 Clusteranalyse
- 3.1 Datenvorbereitung und -überblick
- 3.2 Definition der Distanzfunktion und Vorreduktion durch k-Means
- 3.3 Berechnung der Distanzmatrix
- 3.4 Hierarchische Clusteranalyse
  - 3.4.1 Ermittlung der zusammenzuführenden Cluster
  - 3.4.2 Aktualisierung der Distanzmatrix
  - 3.4.3 Nachvollziehbarkeit durch Clusterzuordnung
- 3.5 Erstellung der Hauptfunktion
- 3.6 Ermittlung von Ausreißern und Benamung
4 Schluss
- 4.1 Zusammenfassung
- 4.2 Kritische Würdigung
Anhang
Anhang 1: Vollständiger Code der Clusteranalyse Teil eins
Anhang 2: Vollständiger Code der Clusteranalyse Teil zwei
Anhang 3: Vollständiger Code der Clusteranalyse Teil drei
Anhang 4: Vollständiger Code der Clusteranalyse Teil vier
Anhang 5: Vollständiger Code der Clusteranalyse Teil fünf
Anhang 6: Vollständiger Code der Clusteranalyse Teil sechs
Literaturverzeichnis

Zielsetzung & Themen

Das Hauptziel dieser Arbeit ist die Durchführung einer hierarchischen Clusteranalyse in R basierend auf einem Praxisbeispiel mit dazugehörigen Daten. Die Forschungsfrage konzentriert sich darauf, wie mithilfe von R eine sinnvolle Anzahl von Clustern gebildet, benannt und Ausreißer identifiziert werden können.

Umsetzung einer hierarchischen Clusteranalyse in R.
Erklärung theoretischer Grundlagen von Data Mining und Clusteranalyse.
Datenvorbereitung und -visualisierung mittels Streudiagrammen.
Definition und Anwendung von Distanzfunktionen und k-Means zur Datenvorreduktion.
Festlegung von Fusionierungsalgorithmen, insbesondere Single-Linkage.
Identifikation und Benennung von Clustern sowie Erkennung von Ausreißern.

Auszug aus dem Buch

3.1 Datenvorbereitung und -überblick

Zur zweckgerichteten Verarbeitung der Rohdaten in R werden diese zu Beginn der Analyse primär in die Umgebung, beziehungsweise den Arbeitsspeicher des Systems importiert. Hierbei existieren unterschiedliche Möglichkeiten Daten aus Quellen zu beziehen, wobei sich der Autor dieser Arbeit für die Option des Imports über eine CSV-Datei entschieden hat. Ein wesentlicher Grund hierfür ist die Einfachheit des Importprozesses und eindeutige Angabe des Speicherorts, wobei letzteres die Identifizierung der einzulesenden Daten durch die Angabe von Datei- und Pfadnamen ermöglicht und folglich Konflikte vermeidet. Unter Angabe des absoluten Pfadnamens „C:\\Daten\\Dokumente\\4_IMG60_BusinessIntelligence\\Daten.csv“ im Rahmen der Funktion read.csv() kann der Inhalt der CSV-Datei aus der Aufgabenstellung mit Hilfe einer Linkszuweisung, welche durch die beiden Zeichen <- realisiert wird, direkt in ein Objekt der Klasse Dataframe geladen werden. Hierbei wurde sich für den Objektnamen data entschieden.

Bei genauer Betrachtung der importierten Daten kann in der ersten Spalte ein Index festgestellt werden. Da dieser jedoch für die kommenden Berechnungen nicht von Relevanz ist und zu Verzerrungen im Ergebnis führt muss eine entsprechende Entfernung der Spalte aus dem Objekt erfolgen. Dies kann in R durch die Verwendung von eckigen Klammern und einer erneuerten Linkszuweisung erreicht werden, wobei diese Art von Klammern den Zugriff auf einzelne Elemente oder ganze Spalten, beziehungsweise Zeilen erlauben. Ferner werden alle übrigen Variablen in data, welche als numerische Werte vorliegen, aus Gründen des hohen Informationsgehalts und der Unabhängigkeit zueinander in die nachfolgenden Berechnungen mit einbezogen.

Zur Schaffung eines schnellen und groben Überblicks über die eingespielten Daten kann die Funktion summary(data) verwendet werden. Dabei werden unter anderem numerische minimale und maximale Werte, sowie Medianwerte hinsichtlich der einzelnen Kategorien angezeigt. Da diese Beschreibung der Informationen in ihrem Informationsgehalt jedoch limitiert ist wird eine visuelle Darstellung der datenbezogenen Zusammenhänge in Form von Streudiagrammen mit der Funktion pairs() umgesetzt.

Zusammenfassung der Kapitel

1 Einleitung: Dieses Kapitel begründet die Relevanz der Datenanalyse in der modernen Wirtschaft und stellt den Aufbau sowie die Zielsetzung der Arbeit vor, die sich auf die Durchführung einer hierarchischen Clusteranalyse in R konzentriert.

2 Theoretische Grundlagen: Hier werden grundlegende Konzepte des Data Mining und der Clusteranalyse erläutert, einschliesslich der Schritte zur Datenvorbereitung, Bestimmung von Proximitätsmaßen, Festlegung von Fusionierungsalgorithmen und der Interpretation der Clusteranzahl.

3 Clusteranalyse: In diesem Hauptteil wird die praktische Implementierung einer hierarchischen Clusteranalyse in R beschrieben, von der Datenvorbereitung über die Definition der Distanzfunktion und Vorreduktion mittels k-Means bis hin zur detaillierten Durchführung der hierarchischen Clusteranalyse-Schritte und der Identifikation von Ausreißern.

4 Schluss: Dieses Kapitel fasst die Ergebnisse der durchgeführten Clusteranalyse zusammen und bietet eine kritische Würdigung der Arbeit, in der Stärken hervorgehoben und Verbesserungspotenziale diskutiert werden.

Schlüsselwörter

Clusteranalyse, R, Data Mining, hierarchische Clusteranalyse, Distanzfunktion, k-Means, Fusionierungsalgorithmus, Datenvorbereitung, Ausreißererkennung, Streudiagramme, Proximitätsmaß, Business Intelligence, Datenanalyse, Statistik, Algorithmus.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit behandelt die Durchführung und Dokumentation einer hierarchischen Clusteranalyse mit der statistischen Programmiersprache R, angewendet auf ein konkretes Praxisbeispiel und dessen Daten.

Was sind die zentralen Themenfelder?

Die zentralen Themenfelder sind Data Mining, hierarchische Clusteranalyse, Datenvorbereitung, Distanzmessung, Fusionierungsalgorithmen und die Interpretation von Clustering-Ergebnissen in der Programmiersprache R.

Was ist das primäre Ziel oder die Forschungsfrage?

Das primäre Ziel ist die Realisierung einer hierarchischen Clusteranalyse in R für ein Praxisbeispiel, einschliesslich der Erstellung von Streudiagrammen, Definition einer Abstandsfunktion, Bildung von Clustern, Benennung und Identifikation von Ausreißern.

Welche wissenschaftliche Methode wird verwendet?

Es wird eine hierarchische Clusteranalyse unter Verwendung von agglomerativen Verfahren (speziell Single-Linkage) durchgeführt, ergänzt durch die Vorreduktion von Daten mittels des k-Means-Algorithmus.

Was wird im Hauptteil behandelt?

Der Hauptteil befasst sich mit der detaillierten praktischen Umsetzung der Clusteranalyse in R, beginnend mit Datenimport und -vorbereitung, der Definition einer euklidischen Distanzfunktion, der Anwendung von k-Means und der schrittweisen hierarchischen Clusterbildung, einschliesslich der Verfolgung und Aktualisierung von Clustern.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die Arbeit wird charakterisiert durch Schlüsselwörter wie Clusteranalyse, R, Data Mining, hierarchisch, Distanzfunktion, k-Means, Fusionierungsalgorithmus, Datenvorbereitung, Ausreißererkennung und Streudiagramme.

Welche Rolle spielt die k-Means-Methode in dieser Arbeit?

Die k-Means-Methode wird zur Vorreduktion des Datenbestands eingesetzt, um vergleichsweise homogene Gruppen zu bilden und so die Performance und Nachvollziehbarkeit des späteren hierarchischen Clusterbildungsprozesses zu steigern.

Warum wurde das Single-Linkage-Verfahren für die Clusteranalyse gewählt?

Das Single-Linkage-Verfahren wurde gewählt, weil es als kontrahierender Algorithmus gut geeignet ist, viele kleine Gruppen zu bilden, was wiederum eine gute Grundlage zur Identifikation von Ausreißern bietet.

Wie werden Ausreißer in dieser Clusteranalyse identifiziert und benannt?

Ausreißer werden durch die Analyse der aufbereiteten Clustering-Ergebnisse identifiziert, indem Cluster, die sich lediglich aus einem einzigen ursprünglichen Cluster zusammensetzen, als solche erkannt und die Cluster entsprechend ihrer Merkmalsausprägungen (z.B. Länge, Steigung, Höhe) kategorisiert und benannt werden.

Welche Verbesserungspotenziale werden in der kritischen Würdigung genannt?

Die kritische Würdigung nennt Verbesserungspotenziale hinsichtlich des Umfangs und Detaillierungsgrades des Programmiercodes, der Nachvollziehbarkeit der k-Means-Vorreduktion und der Clusterbenennung sowie der Auswahl des Fusionierungsalgorithmus, wobei Average-Linkage für größere Datenstrukturen mehr Balance bieten könnte.

Ende der Leseprobe aus 38 Seiten - nach oben

Details

Titel: Clusteranalyse mit R
Hochschule: AKAD University, ehem. AKAD Fachhochschule Stuttgart
Note: 1,0
Autor: Fabian Schnabel (Autor:in)
Erscheinungsjahr: 2024
Seiten: 38
Katalognummer: V1683772
ISBN (PDF): 9783389173824
ISBN (Buch): 9783389173831
Sprache: Deutsch
Schlagworte: Laborbericht Clusteranalyse R Business Intelligence Data Mining Distanzmatrix Hierarchische Clusteranalyse Programmierung mit R
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Fabian Schnabel (Autor:in), 2024, Clusteranalyse mit R, München, GRIN Verlag, https://www.grin.com/document/1683772

Clusteranalyse mit R