Mit zunehmendem Wettbewerb wird die Kundenbindung zu einer der größten Herausforderungen für Kundendienstleister und insbesondere dem Bankensektor.
Die stetige Weiterentwicklung von Machine Learning als Teilgebiet der künstlichen Intelligenz bietet heute die Möglichkeit, ein effektives, datengetriebenes Customer Relationship Management zu implementieren. Die Aufstellung eines Prognosemodells, welches abwanderungsgefährdete Kunden frühzeitig identifizieren kann, ist in diesem Zusammenhang ein vielversprechendes Werkzeug zur Verbesserung des Customer Churn Managements.
Im Rahmen dieser Arbeit wird gezeigt, wie moderne Machine Learning-Methoden erfolgreich eingesetzt werden können, um zuverlässige Vorhersagemodelle von Kundenabwanderungen zu modellieren und evaluieren. In einem Praxisteil werden hierbei fiktive Kundendaten einer Bank mit der Open Source-Programmiersprache Python analysiert.
Inhaltsverzeichnis
1 Einleitung
1.1 Problemstellung
1.2 Zielsetzung
1.3 Struktur der Arbeit
2 Grundlagen Machine Learning
2.1 Definition und Einordnung
2.2 Arten von Machine Learning
2.3 Datentypen
2.4 Training und Testing
2.4.1 Hold-Out-Verfahren
2.4.2 Kreuzvalidierung
2.5 Evaluation
2.5.1 Konfusionsmatrix
2.5.2 Performance-Metriken
2.5.3 Performance-Kurven
3 Machine Learning-Methoden zur Klassifikation
3.1 k-Nearest-Neighbours
3.2 Naive Bayes-Klassifikator
3.3 Logistische Regression
3.4 Support Vector Machine
3.5 Entscheidungsbaum
3.6 Random Forest
3.7 Gradient Boosting Machine
3.8 Künstliches Neuronales Netz
4 CRISP-DM
5 Umsetzung eines Vorhersagemodells im Churn Management
5.1 Data Understanding
5.2 Data Preparation
5.2.1 Aufteilung in Trainings- und Testdaten
5.2.2 Feature Transformation
5.2.3 Behandlung des Klassen-Ungleichgewichtes
5.3 Modeling
5.3.1 Wahl der Performance-Metrik
5.3.2 Modellerstellung
5.3.3 Gesamtevaluation
5.3.4 Wichtigkeit der Features
6 Diskussion
7 Schlussbetrachtung
Zielsetzung & Themen
Die Arbeit verfolgt das Ziel, Machine Learning-Methoden zur Vorhersage von Kundenabwanderungen im Bankensektor zu identifizieren und zu evaluieren. Die Forschungsfrage konzentriert sich darauf, wie ein datengetriebenes Prognosemodell dazu beitragen kann, abwanderungsgefährdete Kunden frühzeitig zu identifizieren und somit ein proaktives Churn Management zu ermöglichen.
- Analyse und Anwendung von Machine Learning-Algorithmen zur Klassifikation.
- Implementierung der Projektmethodik CRISP-DM für ein bankenspezifisches Vorhersagemodell.
- Umgang mit unbalancierten Datensätzen durch Sampling-Methoden wie Undersampling und SMOTE.
- Evaluation der Modellgüte mittels Performance-Metriken wie AUC-Score und Konfusionsmatrix.
- Identifikation der wichtigsten Einflussfaktoren (Features) für die Abwanderungswahrscheinlichkeit.
Auszug aus dem Buch
3.1 k-Nearest-Neighbours
Die k-Nearest Neighbour-Klassifikation (kNN) verfolgt den Ansatz, dass einander ähnlich gemessene Werte zur selben Klasse gehören. Das Neighbours im Namen des Algorithmus symbolisieren in diesem Zusammenhang die „ähnlichen Werte“ [15]. Mit Hilfe von Abbildung 5 wird die Funktionsweise des kNN-Klassifikators graphisch verdeutlicht.
Abbildung 5 zeigt ein binäres Klassifikationsproblem für die zwei Klassen blauer Kreis und grüne Raute. Die Datenpunkte werden mit den zwei Features x1 und x2 beschrieben. Das Ziel ist es, die nächsten k Nachbarn von dem neuen Datenpunkt Punkt 1 zu ermitteln, um dann die Klasse des Punktes bestimmen zu können. Für k = 5 werden im ersten Schritt die fünf nächsten Nachbarn ermittelt. Diejenige Klasse, die unter den fünf nächsten Datenpunkten am häufigsten vertreten ist, wird ebenso die prognostizierte Klasse von Punkt 1. Im Beispiel von Abbildung 5 wird die Klasse blauer Kreis von der Klasse grüne Raute mehrheitlich überstimmt, weshalb die Observation Punkt 1 ebenfalls als Raute klassifiziert wird [15].
Um einen Gleichstand bei der Abstimmung zu vermeiden, sollte eine ungerade Anzahl an k gewählt werden. Im Falle eines Gleichstandes für eine gerade Anzahl an k gewinnt die Klasse, die in Summe die geringste Distanz zum untersuchten Punkt aufweist. Für den Fall, dass die Distanz ebenso dieselbe wäre, wird die Klassen-zugehörigkeit bevorzugt, die zuerst in den Trainingsdaten erscheint. Ein optimaler Wert für k muss im Zuge des Trainigsprozesses durch eine Parameteroptimierung ermittelt werden [39].
Zusammenfassung der Kapitel
1 Einleitung: Beschreibt die Problemstellung des Churn Managements, die Zielsetzung der Arbeit sowie die Struktur des weiteren Vorgehens.
2 Grundlagen Machine Learning: Vermittelt grundlegende Begriffe, Arten des maschinellen Lernens, Trainings- und Teststrategien sowie Methoden zur Evaluation von Modellen.
3 Machine Learning-Methoden zur Klassifikation: Stellt verschiedene Algorithmen für Klassifikationsprobleme vor, darunter kNN, Naive Bayes, Logistische Regression, SVM, Entscheidungsbäume, Random Forest, Gradient Boosting und Neuronale Netze.
4 CRISP-DM: Erläutert den "Cross Industry Standard Process for Data Mining" als strukturellen Referenzrahmen für die Durchführung von Data-Mining-Projekten.
5 Umsetzung eines Vorhersagemodells im Churn Management: Behandelt die praktische Anwendung der Methoden auf einen Bankendatensatz, einschließlich Datenaufbereitung, Modellierung und Evaluation der Vorhersageergebnisse.
6 Diskussion: Reflektiert die Ergebnisse der Arbeit und erörtert Limitationen sowie Potenziale für die praktische Anwendung in Unternehmen.
7 Schlussbetrachtung: Fasst die wesentlichen Erkenntnisse zusammen und gibt einen Ausblick auf die Bedeutung von Machine Learning im Kundenbindungsmanagement.
Schlüsselwörter
Machine Learning, Churn Management, Bankensektor, Klassifikation, Vorhersagemodell, CRISP-DM, AUC-Score, Kundendaten, Kundenbindung, Datenaufbereitung, Random Forest, Gradient Boosting, Support Vector Machine, Klassen-Ungleichgewicht, SMOTE.
Häufig gestellte Fragen
Worum geht es in der Arbeit grundlegend?
Die Masterarbeit befasst sich mit der Entwicklung und Evaluation von Machine Learning-Modellen, um Kundenabwanderungen (Churn) im Bankensektor vorherzusagen.
Was sind die zentralen Themenfelder?
Zentrale Themen sind die theoretischen Grundlagen des maschinellen Lernens, der Data-Mining-Standard CRISP-DM, der Umgang mit unbalancierten Daten sowie die Anwendung und der Vergleich verschiedener Klassifikations-Algorithmen.
Welche wissenschaftliche Methode wird verwendet?
Es wird eine quantitative, datengetriebene Methodik nach dem CRISP-DM-Standard verwendet, die den gesamten Zyklus von der Datenexploration bis zur finalen Modellauswahl umfasst.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in eine theoretische Einführung in ML-Methoden (Kapitel 2 und 3) sowie eine detaillierte praktische Umsetzung und Evaluierung anhand eines realen Bankendatensatzes (Kapitel 5).
Welche Algorithmen werden konkret verglichen?
Verglichen werden k-Nearest-Neighbours, Naive Bayes, Logistische Regression, Support Vector Machine, Entscheidungsbaum, Random Forest, Gradient Boosting Machine und Künstliche Neuronale Netze.
Warum ist das "Klassen-Ungleichgewicht" ein Problem?
Da in der Bankenpraxis deutlich mehr Kunden bleiben als abwandern, führt dies zu einem "imbalanced data"-Problem, das ohne entsprechende Sampling-Techniken die Modellgüte verfälschen kann.
Welches Modell erzielt laut dieser Arbeit die besten Ergebnisse?
Der Random Forest sowie die Gradient Boosting Machine erzielen in der vorliegenden Analyse die besten Vorhersageergebnisse hinsichtlich des AUC-Scores.
Warum spielt die Feature-Wichtigkeit eine Rolle?
Die Analyse der Feature Importance hilft Unternehmen zu verstehen, welche Kundeneigenschaften (wie Alter, Anzahl der Produkte oder Kontostand) den stärksten Einfluss auf die Kündigungsabsicht haben.
- Citar trabajo
- Anonym (Autor), 2020, Machine Learning-Methoden zur Vorhersage von Kundenabwanderungen im Bankensektor, Múnich, GRIN Verlag, https://www.grin.com/document/1334247