Analyse der Kundenabwanderung mit dem Classification And Regression Trees-Verfahren


Seminararbeit, 2019
23 Seiten, Note: 1,7

Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis I Abkürzungsverzeichnis

1 Einleitung

2 Prozess des Knowledge Discovery in Databases
2.1 Auswahl
2.2 Vorverarbeitung
2.3 Transformation
2.4 Data Mining mit dem Entscheidungsbaumverfahren
2.4.1 Grundlagen
2.4.2 Classification And Regression Trees-Algorithmus
2.5 Interpretation

3 Anwendungsbeispiel in der Telekommunikation
3.1 Auswahl
3.2 Vorverarbeitung
3.3 Transformation
3.4 Data Mining mit dem Entscheidungsbaumverfahren
3.5 Interpretation

4 Fazit

Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Die fünf Phasen des KDD-Prozesses

Abbildung 2: Beispiel für einen einfachen Entscheidungsbaum

Abbildung 3: Berechnung des Gini-Indexes für eine Datenmenge mit zwei Klassen

Abbildung 4: Laden und Abfrage der Anzahl der Tupel und Attribute

Abbildung 5: Überprüfung von Nullwerten und Redundanzen

Abbildung 6: Diskretisierung von Zeichenketten und booleschen Werten

Abbildung 7: Reduktion der Dimensionalität und Trennung der Trainings- und Testdaten

Abbildung 8: Training des CART-Entscheidungsbaums

Abbildung 9: Erzeugter CART-Entscheidungsbaum

Abbildung 10: Genauigkeitsprüfung des Modells

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Einleitung

Um neue Kunden zu gewinnen, muss intensiv in Marketing-Strategien und Sonderaktionen investiert werden. Deshalb ist es oft sinnvoller, die Beziehungen zu den bestehenden Kunden zu stärken. Studien zeigen, dass die Kosten für die Akquise eines neuen Kunden fünfmal höher sind als die Kosten für die Beibehaltung eines bestehenden Kunden.1 Der Grund dafür ist, dass langjährige Kunden mit der Zeit immer mehr Dienste und Produkte des gleichen Unternehmens in Anspruch nehmen. Die Reduzierung der Kundenabwanderung ist deshalb von großer Bedeutung – insbesondere für Serviceunternehmen, die in einem Umfeld mit hohem Wettbewerb arbeiten. Der Verlust, der durch die Kündigung eines bestehenden Vertrags entsteht, kann also nicht nur durch die Gewinnung eines Neukunden ausgeglichen werden.

Heutzutage werden Data Mining-Verfahren im Kundenbeziehungsmanagement (engl. Customer Relationship Management, CRM) verwendet, um in Kundendaten Muster zu finden, die einen Wettbewerbsvorteil für das Unternehmen bergen könnten. Computergestützte CRM-Tools speichern eine Reihe von Kundeninformationen, womit erste Abwanderungssignale eines Kunden frühzeitig erkannt werden können. Die Erkennung dieser Signale ist also der erste Schritt, um Kundenabwanderung durch Gegenmaßnahmen zu verhindern.

Der Fokus der Untersuchung liegt auf einem häufig verwendeten Data Mining-Verfahren, dem Entscheidungsbaumverfahren. Das Hauptziel besteht darin, herauszufinden, wie Kundenabwanderung mithilfe des Algorithmus „Classification and Regression Trees“ (CART) analysiert werden kann. Hierzu muss beantwortet werden, welche Schritte zur Wissensaufdeckung aus Daten nötig sind. Darüber hinaus muss erklärt werden, wie ein Entscheidungsbaum der Variante CART gestaltet wird.

Im Folgenden wird der Prozess des Knowledge Discovery in Databases (KDD) als systematische Herangehensweise behandelt, um Wissen aus Datenbeständen zu gewinnen (vgl. Kapitel 2). Die einzelnen Schritte des KDD-Prozesses werden erklärt. Dabei liegt der Schwerpunkt auf dem Kernprozess des KDD-Prozesses, dem Data Mining, welches genauer erläutert wird. In Kapitel 3 werden Kundendaten der Telekommunikationsbranche mithilfe des Entscheidungsbaumverfahrens der Variante CART im Rahmen des KDD- Prozesses analysiert und bewertet. Die Telekommunikationsbranche eignet sich gut zur Analyse der Kundenabwanderung, da der Erfolg ihres Geschäftsmodells stark von der Bindung ihrer vertraglichen Kunden abhängt.2 Kapitel 4 beendet die Arbeit mit einer kritischen Diskussion über die Zielerreichung sowie über die Möglichkeiten und Grenzen des vorgestellten Verfahrens.

2 Prozess des Knowledge Discovery in Databases

Oft wird das Data Mining als umfassender Prozess zur Musterentdeckung in großen Datenbeständen verstanden. Das Data Mining ist jedoch nur die Anwendung von rechnergestützten mathematischen und statistischen Algorithmen zur Extraktion von Mustern in Daten, die als Teilschritt in das KDD eingebettet ist. Zur Entdeckung und Interpretation von nützlichem Wissen aus Daten wird beim KDD ein mehrstufiger, interaktiver und iterativer Prozess durchlaufen. Dies bedeutet, dass Phasen neu iteriert werden können, um die Ergebnisse zu verbessern. Der KDD-Prozess enthält sowohl Vorstufen vor dem Data Mining, die die Vorbereitung der Daten betreffen, als auch eine Nachstufe, die das Ergebnis des Data Mining interpretiert.3 Die folgende Abbildung zeigt die verschiedenen Phasen und Interaktionen des KDD-Prozesses.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Die fünf Phasen des KDD-Prozesses4

In diesem Kapitel werden die Phasen des KDD-Prozesses erläutert und dessen Grundbegriffe definiert. Anschließend werden die ersten drei Phasen beschrieben, die zur Vorbereitung von Daten für das Data Mining-Verfahren nötig sind. Diese Phasen sind die Auswahl (vgl. Abschnitt 2.1), Vorverarbeitung (vgl. Abschnitt 2.2) und Transformation (vgl. Abschnitt 2.3) von Daten. In der vierten Phase, dem Data Mining, wird hier ein Entscheidungsbaumverfahren der Variante CART für die Modellierung der Kundenabwanderung verwendet. Dieses wird im Abschnitt 2.4 genauer erläutert. Als letztes wird im Abschnitt 2.5 die Phase der Interpretation der Ergebnisse aus dem verwendeten Entscheidungsbaumverfahren beschrieben.

2.1 Auswahl

Bevor die Daten für den KDD-Prozess ausgewählt werden können, muss eine klare Zielsetzung formuliert werden. Ein gut definiertes Ziel setzt ein Verständnis des Anwendungsbereiches voraus und baut das bereits bekannte Anwendungswissens weiter aus.5 Auf diesem Hintergrund können die Daten untersucht und selektiert werden.

Ziel der Datenauswahl ist es, geeignete Datensätze zu finden, die relevant für das Erreichen der Zielsetzung sind. Das heißt, es muss zuerst festgestellt werden, in welchen Daten sich das Wissen befindet. Diese Phase ist von großer Bedeutung, da sie die Basis für die nächsten Phasen des KDD-Prozesses darstellt.

Die klassischen Datenquelle für das Data Mining sind heute die relationalen Datenbanken. Oft sind aber die Daten in mehreren Tabellen, Datenschemas oder operativen Anwendungen verteilt. Darüber hinaus müssen ggf. Daten aus anderen Quellen abgefragt oder erhoben werden, z. B. aus Online Daten-Plattformen, Umfragen, Click-Streams sowie aus nicht-relationalen (NoSQL) Datenbanken. Während des KDD-Prozesses kann die Auswahl-Phase wiederholt werden, wenn zum Beispiel erkannt wird, dass zusätzliche Daten für die Analyse nötig sind.6 Dann werden alle fünf Phasen des KDD-Prozesses erneut durchlaufen.

2.2 Vorverarbeitung

In der Phase der Vorverarbeitung werden die benötigten Daten integriert und konsistent gemacht. Da Daten aus unterschiedlichen Datenbanksystemen stammen können, müssen sie oft in eine einheitliche Form integriert werden. Zum Beispiel können Abteilungen unterschiedliche Namen für dieselbe Ausprägung eines Attributs verwenden oder Daten nach verschiedenen Einheiten bzw. Zeiträumen aggregieren. Eine weitere Aufgabe der Vorverarbeitung ist die Datenbereinigung, wobei Ausreißer entfernt und Null-Werte im Datensatz bearbeitet werden. Die Methoden der Datenbereinigung können sehr einfach sein, z. B. das Ersetzen von Null-Werten durch Durchschnittswerte. Sie können aber auch komplexere und rechenintensivere Verfahren beinhalten, wie den Einsatz spezieller Data Mining-Methoden zur Vorhersage fehlender Werte.7

Die Arbeitsschritte in dieser Phase sind oft nicht komplex, nehmen aber häufig den größten Teil des Zeitaufwands im KDD-Prozess in Anspruch. Durch den Einsatz eines Data Warehouses kann dieser Aufwand stark reduziert werden, da die Daten dort bereits im Rahmen eines ETL-Prozesses in integrierter und konsistenter Form abgespeichert werden.8

Der vorverarbeitete Datensatz kann schließlich im Dateiformat „Comma Separated Values“ (CSV) zusammengefasst werden, damit er mit weiteren Datenverarbeitungsprogrammen bearbeitet werden kann.

2.3 Transformation

Die dritte Phase des KDD-Prozesses, die Transformation, bereitet die Daten auf, damit diese sich für die anschließenden Data Mining-Methoden eignen. Die einfachste Transformation ist die Selektion von Attributen. Hierbei wird die Anzahl der Attribute auf die für die Analyse relevanten Attribute eingeschränkt.

Manche Data Mining-Verfahren können Attribute des Datentyps „Zeichenketten“ (engl. Strings) nicht verarbeiten. Diese müssen deshalb transformiert werden. So müssen z. B. fünf kategorische Ausprägungen genau fünf diskreten bzw. ganzzahligen Werten zugeordnet werden.

Eine andere Operation bei der Transformation ist die Bildung von Kategorien aus kontinuierlichen Werten. So kann die Anzahl der möglichen Ausprägungen reduziert

werden, wenn z. B. der numerische Wert 5 für „Anzahl der Personen“ durch den kategorischen Wert „>2“ ersetzt wird.9

Bei der Daten-Transformation muss jedoch beachtet werden, dass bei vielen Operationen Informationen verloren gehen. Deshalb sollten diese Operationen mit großer Sorgfalt durchgeführt werden. Durch andere Verfahren, wie die Hauptkomponentenanalyse (engl. Principal Component Analysis), kann die Dimensionalität des Datensatzes, also die Anzahl der Attribute, reduziert werden, ohne dass dabei viele Informationen verloren gehen. Allerdings sind diese Verfahren statistisch komplexer und wesentlich rechenintensiver als die vorgenannten.10

Da Kundendaten hoch dimensional sein können, sollten geeignete Kundenattribute für die Analyse der Kundenabwanderung verwendet werden.11 Deshalb ist es sinnvoll, sich auf diese aussagekräftigen Attribute zu beschränken, die das Kundenverhalten widerspiegeln, wie die Länge der einzelnen Telefongespräche. Ferner sind Kundendaten wichtig, die die Wahrnehmung des Unternehmens quantifizieren. Ein Beispiel hierfür ist die Anzahl der Anrufe bei der Kundenbetreuung. Des Weiteren können demografische Kundeninformationen, z. B. Alter und Familienstand verwendet werden. Schließlich können andere Makro-Indikatoren, etwa die Verfügbarkeit des mobilen Funkdienstes in bestimmten Bundesländern, die Kundenabwanderung beeinflussen. Im Idealfall wird die Modellierung des Entscheidungsbaums mehrmals mit unterschiedlichen Kombinationen von Kundenattributen durchgeführt, um zu überprüfen, ob bestimmte Attributkombinationen zu besseren Ergebnissen des Data Mining-Modells führen.

Schließlich wird der Datensatz vor dem Data Mining-Verfahren in einen Trainings- und einen Testsatz geteilt. Hierfür ist es notwendig, dass im Datensatz die Labels bzw. abhängigen Variablen vorliegen. Der Trainingssatz wird für die Erzeugung des Data Mining-Modells verwendet. Die Abtrennung eines kleineren Testsatzes ist wichtig, um anhand von Daten, die das Data Mining-Modell noch nie zuvor gesehen hat, dessen Genauigkeit zu ermitteln.12

[...]


1 Vgl. Arsan & Cimenli 2016, S. 550

2 Der Datensatz wurde aus der öffentlichen Datenplattform „Kaggle“ heruntergeladen und befindet sich unter: https://www.kaggle.com/blastchar/telco-customer-churn

3 Vgl. Fayaad 1996, S. 42

4 In Anlehnung an Bankhofer & Vogel 2008, S. 254

5 5 Vgl. Ester & Sander 2000. S. 2 f.

6 Vgl. Maimon & Rokach 2010, S. 2

7 Vgl. Maimon & Rokach 2010, S. 3

8 Vgl. Fayyad 1996, S. 40 und Ester & Sander 2000, S. 3

9 Vgl. Alpar & Niedereichholz 2000, S. 6 f.

10 Vgl. Maimon & Rokach 2010. S. 53 ff.

11 Vgl. Lasarov & Capota 2007, S. 2 f.

12 Vgl. Maimon & Rokach 2010. S. 4

Ende der Leseprobe aus 23 Seiten

Details

Titel
Analyse der Kundenabwanderung mit dem Classification And Regression Trees-Verfahren
Hochschule
Europäische Fachhochschule Brühl
Note
1,7
Autor
Jahr
2019
Seiten
23
Katalognummer
V499723
ISBN (eBook)
9783346028945
Sprache
Deutsch
Schlagworte
data science, Entscheidungsbaum, Decision Tree, Machine Learning, Wirtschaftsinformatik, Decision Trees, CART, Classification and Regression Trees
Arbeit zitieren
Nelson Fleig Aponte (Autor), 2019, Analyse der Kundenabwanderung mit dem Classification And Regression Trees-Verfahren, München, GRIN Verlag, https://www.grin.com/document/499723

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Analyse der Kundenabwanderung mit dem Classification And Regression Trees-Verfahren


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden