Institut für Entscheidungstheorie und Unternehmensforschung
Universität Karlsruhe (TH)
Einsatzmöglichkeiten von ausgewählten
Data Mining Verfahren
im Bereich Financial Services
Diplomarbeit
von
Hans-Peter Neeb
5. August 1999
Inhaltsverzeichnis
1. Einleitung ... 13
1.1. Motivation ... 13
1.2. Aufbau der Arbeit ... 13
2. Kundenorientierte Marketingbestrebungen ... 15
2.1. Kundenpotential ... 15
2.2. Kundensegmentierung ... 16
2.3. Direct Marketing ... 17
2.4. Database Marketing ... 18
3. Der Bankenbereich 19
3.1. Unternehmen ... 19
3.2. Das Bankgeschäft ... 22
3.3. Bankleistung ... 22
3.4. Bankmarketing ... 23
3.4.1. Qualitätspolitik ... 23
3.4.2. Preispolitik ... 24
3.4.2.1. Kreditgeschäft ... 24
3.4.2.2. Zahlungsverkehr ... 25
3.4.3. Vertriebspolitik ... 25
3.4.4. Kommunikationspolitik ... 26
3.5. Mögliche Einsatzfelder des Data Mining ... 26
4. Knowledge Discovery in Databases (KDD) ... 28
4.1. Begriffsdefinition ... 28
4.2. Der KDD-Prozeß ... 29
4.3. Data Mining ... 31
4.3.1. Einordnung des Begriffs ... 31
4.3.2. Aufgaben des Data Mining ... 33
4.3.3. Auslöser der Entwicklung ... 35
4.3.4. Probleme im Vorfeld ... 36
4.3.4.1. Datenproblematik ... 37
4.3.4.2. Verfahrensproblematik ... 39
5. Datengrundlagen ... 41
5.1. Informationsniveau ... 41
5.1.1. Betrachtung einzelner Merkmale ... 41
5.1.2. Betrachtung gemischter Merkmale ... 43
5.2. Datencharakteristika ... 45
5.2.1. eindimensionale Auswertung ... 45
5.2.1.1. Deskriptive Statistik ... 45
5.2.1.2. Lageparameter ... 45
5.2.1.3. Streuungsparameter ... 46
5.2.1.4. Induktive Statistik ... 47
5.2.2. Zweidimensionale Auswertung ... 48
5.3. Weiterführende Datenbearbeitung ... 48
5.3.1. Transformation ... 49
5.3.2. Skalierung qualitativer Daten ... 49
6. Verfahren ... 52
6.1. Modellbildung ... 52
6.1.1. Modellformulierung ... 54
6.1.2. Modellentstehung ... 56
6.1.3. Modellevaluierung ... 57
6.1.4. Modellanwendung ... 58
6.2. Einteilung in Verfahrensgruppen ... 58
6.2.1. Gerichtete Verfahren ... 59
6.2.1.1. Darstellung der verschiedenen Verfahrenstypen ... 59
6.2.1.2. Vorgehensweise der Verfahren ... 60
6.2.1.3. Verfahrensvergleich ... 64
6.2.2. Ungerichtete Verfahren ... 69
6.2.2.1. kombiniert ungerichtet-gerichtetes Vorgehen ... 71
6.3. Statistik ... 73
6.3.1. Korrelationsanalyse ... 73
6.3.1.1. Kontingenzanalyse ... 74
6.3.1.2. Pearsonsche Korrelationsanalyse ... 75
6.3.1.3. Multiple Korrelation ... 76
6.3.1.4. Kanonische Korrelation ... 77
6.3.1.5. Chi-Quadrat-Unabhängigkeitstest ... 77
6.3.2. Regression ... 77
6.3.2.1. Kategoriale Regression ... 79
6.3.2.2. Multikollinearität ... 80
6.3.3. Varianzanalyse ... 82
6.4. Numerische Taxonomie ... 83
6.4.1. Clusteranalyse ... 84
6.4.1.1. Unterscheidung der verschiedenen Verfahren ... 84
6.4.1.2. Agglomerative Methoden ... 86
6.4.1.3. Partionierende Methoden ... 87
6.4.1.4. Unscharfe Verfahren ... 88
6.4.1.5. Konzeptionelles Clustern ... 88
6.4.2. K-Nächste-Nachbarn ... 93
6.4.3. Diskriminanzanalyse ... 94
6.5. Entscheidungsbäume ... 97
6.5.1. Charakteristika und Ablaufschema ... 97
6.5.2. AID ... 100
6.5.3. CART ... 101
6.5.3.1. Modellgüte ... 101
6.5.3.2. Modellerstellung ... 105
6.5.3.3. Kostenbetrachtung ... 107
6.5.3.4. Pruning ... 109
6.5.4. CHAID ... 110
6.5.5. FAID ... 111
6.5.6. C4.5 ... 112
6.5.6.1. Der ID3-Algorithmus ... 112
6.5.6.2. Erweiterungen zum C4.5-Algorithmus ... 114
6.6. Neuronale Netze ... 119
6.6.1. Einsatzfeld ... 119
6.6.2. Überblick über Aufbau und Funktionsweise ... 119
6.6.3. Entstehung und Entwicklung ... 122
6.6.4. Multi-Layer Perceptron mit Backpropagation ... 122
6.6.4.1. MLP-Topologie ... 124
6.6.4.2. Backpropagation-Lernregel ... 126
6.6.4.3. Genetischer Algorithmus ... 126
6.6.5. Radiale Basisfunktionen ... 129
6.7. Vektorquantifizierung ... 130
6.7.1. Kohonen-SOM ... 131
6.7.1.1. Gerichtete SOM ... 132
6.7.1.2. Fuzzy-SOM ... 133
6.7.2. Lernende Vektorquantifizierung ... 134
6.7.2.1. Erweiterte LVQ ... 135
7. Beschriebene Anwendungsfälle in der Literatur ... 138
7.1. Anwendung von Verfahren ... 138
7.1.1. Kundensegmentierung unter Nutzung externer Daten ... 138
7.1.2. Kundensegmentierung anhand Fuzzy-Datenanalysen ... 144
7.1.3. Marktsegmentierung bei Privatkunden auf der Basis von
Einstellungen ... 145
7.1.3.1. Gerichtetes Erlernen von Kundenbedürfnissen ... 145
7.2. Vergleiche von Verfahren ... 147
7.2.1. STATLOG-Studie ... 147
7.2.2. Studie von Curram/ Mingers ... 149
7.2.3. Vergleiche von Berry/ Linoff ... 149
8. Anwendungsbeispiele ... 157
8.1. Bank ... 157
8.1.1. Die Datenbasis ... 157
8.1.2. Selektion ... 157
8.1.3. Preprocessing ... 159
8.1.4. Data Mining Schritt ... 161
8.1.4.1. Diskriminanzanalyse ... 161
8.1.4.2. CHAID ... 162
8.1.4.3. CART ... 165
8.1.4.4. Quest ... 168
8.1.4.5. Neuronales Netz ... 168
8.1.5. Interpretation ... 170
8.1.6. Kohonen-Netz ... 176
8.2. Versicherung ... 179
8.2.1. Die Datenbasis ... 179
8.2.2. Stornoanalyse ... 179
8.2.2.1. Bivariate Deskriptive Statistik ... 182
8.2.2.2. Diskriminanzanalyse ... 184
8.2.2.3. CHAID ... 186
8.2.2.4. CART ... 189
8.2.2.5. Neuronales Netz ... 190
8.2.2.6. Interpretation ... 193
8.2.2.7. Kohonen-Netz ... 195
8.2.3. Cross Selling ... 198
8.3. Bausparen ... 202
8.3.1. Die Datenbasis ... 202
8.3.2. Selektion ... 203
8.3.3. Preprocessing ... 204
8.3.4. Data Mining Schritt ... 204
8.3.4.1. Bivariate deskriptive Statistik ... 204
8.3.4.2. CHAID ... 204
8.3.4.3. Diskriminanzanalyse ... 205
8.3.4.4. Neuronales Netz ... 205
8.3.5. Interpretation ... 206
9. Darstellung der verwendeten Software ... 210
9.1. Statistik ... 211
9.1.1. SPSS ... 211
9.2. Entscheidungsbäume ... 212
9.2.1. CHAID ... 213
9.2.2. AnswerTree ... 214
9.2.3. Scenario ... 215
9.3. Neuronale Netze ... 215
9.3.1. SENN ... 215
9.3.2. SphinxVision ... 215
10.Kritische Würdigung ... 217
11.Danksagung ... 219
A. Verzeichnis der Bezeichnungen ... 220
B. Erfahrungen und Erfolge der Praxis ... 221
B.1. Gründe für den Erfolg ... 221
B.2. Erfolge aufgrund gezielter Datenanalyse ... 222
C. Ergänzende Angaben zu der Financial Services Branche ... 224
C.1. Die internationale Bankenlandschaft ... 224
C.2. Die internationale Versicherungslandschaft ... 226
D. Maschinelles Lernen ... 228
D.1. Unterscheidung der Lernstrategien ... 228
D.2. Art der Wissensrepräsentation ... 229
D.3. Induktives Lernen ... 231
D.4. Klassifizierung der Lernverfahren ... 231
E. Vertiefende Ausführungen zu ausgewählten Data Mining Verfahren ... 233
E.1. Bezeichnungen für (un)gerichtetes Lernen ... 233
E.2. Bezeichnung der Merkmalsarten ... 233
E.3. Vergleich der Begriffe aus verschiedenen Forschungsrichtungen ... 234
F. Ergebnistabellen der Auswertung des Versicherungsfalles ... 235
G. Abbildungen ... 241
G.1. Konsumentenverhalten und Marktforschung ... 241
G.2. Konzeptioneller Cluster/S Algorithmus ... 242
H. Beweise ... 243
H.1. Vektorquantifizierung ... 243
H.2. Lernende Vektorquantifizierung ... 244
1. Einleitung
1.1. Motivation
Die vorliegende Arbeit beleuchtet mögliche Anwendungsfelder des Data Mining in der Finanzbranche, stellt einige gängige Methoden aus unterschiedlichen Forschungsbereichen vor, beschreibt bei welchen Problemstellungen sie zum Einsatz gelangen und zeigt exemplarisch die Vorgehensweise an Beispielen.
Die Branche der Banken und Versicherungen, die in Europa als eine der wenigen Wirtschaftszweige von kontinuierlichem Wachstum und steigenden Gewinnen geprägt war, befindet sich momentan in einem strukturellen Anpassungsprozeß. Dieser spiegelt sich in Unternehmensübernahmen bzw. -fusionen oder Konzentrationsbestrebungen wieder. Die einhergehenden Rationalisierungen haben das Ziel, die Erfolgsquoten zu erhöhen und Kosten zu senken. Sie müssen unter anderem auf der Marketingseite durch eine bessere Nutzung der vorhandenen und Erschließung neuer Kundenpotentiale erreicht werden. Den Schlüssel dazu bieten neue Informationstechnologien und Methodenwie das Data Mining.
Der Begriff des Data Mining ist erst in den 90er Jahren entstanden. Unter diesem Titel werden gemeinsam Verfahren diskutiert und verglichen, die jedoch schon seit langem in unterschiedlichen Wissenschaftsbereichen existieren. Dazu gehören die drei Gebiete Statistik, Maschinelles Lernen (siehe Kapitel D) und Datenbanktechnologien. [Fay, S.23f] Die Zusammenführung unter einer zentralen Bezeichnung erleichtert die Entstehung einheitlicher Begriffsbestimmungen und Vorgehensweisen. Durch situationsspezifische Selektion wird somit eine adäquate Behandlung der diversen Aufgabenstellungen ermöglicht. Als Alternative des Schlagwortes Data Mining verwendet man auch die Begriffe Datenanalyse oder Datenmustererkennung1.
1.2. Aufbau der Arbeit
Das Kapitel 2 behandelt allgemeine Ansätze, wie man Potentiale im Kundenstamm einer Unternehmung erschließt oder neue schafft. Dabei werden einige angrenzende Themengebiete angesprochen, die den Einsatz von Data Mining Methoden im Marketing nach sich ziehen.
In Kapitel 3 wird speziell auf den Bankenbereich Bezug genommen. Dabei ist einerseits das Bankengeschäft vorzustellen, um zu erläutern in welchen Sparten sich eine Bank im Finanzsektor betätigt. Andererseits stellt man dar, welche Mittel dem Bankmarketing zur Verfügung stehen. Abschließend wird beleuchtet, in welchen Geschäftsfeldern der Einsatz des Data Mining am sinnvollsten erscheint, welche typischen Aufgabenstellungen existieren und inwieweit schon diese Methoden in Verwendung sind.
Das folgende Kapitel 4 ordnet den Begriff Data Mining in den Bereich Knowledge Discovery in Databases (KDD) ein. Dabei werden die geschichtliche Entwicklung, die beeinflussenden Forschungsbereiche und der ablaufende Analyseprozeß angesprochen. Zudem werden wesentliche Begriffe definiert, und es findet eine Einteilung in die wichtigsten Analyseziele bzgl. des Kontextes der Arbeit statt.
In Kapitel 5 werden die Eigenschaften und Beschreibungsmöglichkeiten der Datenbasis behandelt. Inhalt sind ebenfalls die nötigen Vorverarbeitungsschritte.
Der Kern der Arbeit ist das Kapitel 6, in dem eine Einteilung der Methoden in Bezug auf die Untersuchungsziele stattfindet und eine Analyse der Stärken und Schwächen anhand eines Kriterienkatalogs durchgeführt wird. Danach werden die einzelnen Verfahren aus den verschiedenen Forschungsbereichen vorgestellt.
Es folgt das Kapitel 8 mit Anwendungsbeispielen, an denen die Vorgehensweise anhand von Beispielen nachvollzogen werden kann. Sie dienen als mögliche Vorgehensweise für ähnliche Problemstellungen. Hauptziel ist allerdings der Verfahrensvergleich bzgl. einiger ausgewählter Kriterien.
Das Kapitel 9 bietet einen Überblick über die in dieser Analyse verwendete Software. Sie wird in Ihrem Leistungsumfang dargestellt und ein Stärken-Schwächen-Vergleich durchgeführt.
Die kritische Würdigung in Kapitel 10 rekapituliert die wesentlichen Aspekte beim Einsatz von Data Mining und geht auf den Nutzen ein, nennt aber auch die Gefahren, die mit seiner Anwendung verbunden sind.
2. Kundenorientierte
Marketingbestrebungen
Im folgenden Abschnitt sollen die Begriffe Kundenpotential und Kundensegmentierung sowie Direct und Database Marketing, die den Einsatz des Data Mining im Marketing begründen, näher erläutert und die Zusammenhänge untereinander veranschaulicht werden. Die eigentliche Analyse wird im Data Mining durchgeführt, jedoch findet sie aufgrund verschiedener Untersuchungsziele statt bzw. wird sie in unterschiedliche Prozesse eingebunden. Im Anhang B sind dazu einige unterstützende Aussagen für die gezielte Datenanalyse aufgeführt.
2.1. Kundenpotential
Die Kundenpotentialanalyse ist bestrebt vorhandene Potentiale aufzudecken bzw. neue zu erschließen. Die Begrifflichkeiten Markt- und Absatzpotential beschreiben eher markt- bzw. unternehmensbezogene Gesichtspunkte. Hüttner [Hü82] definiert sie als "die Gesamtheit möglicher Absatzmengen eines Marktes für ein bestimmtes Produkt\ und " Anteil am Marktpotential, den das Unternehmen maximal erreichen zu können glaubt.\ " Der Begriff Kundenpotential sollte daher generell als kundenspezifische Chancen bzw. Risiken verstanden und der Begriff Kundenpotentialanalyse als die Identifikation und Bewertung von gegenwärtigen bzw. zukünftigen Kundenchancen und -risiken definiert werden.\ Er "... wird im Zusammenhang mit den potentiellen Kunden, der Entwicklung des zukünftigen Kundenstamms, den Abschluß von zusätzlichen Geschäften bzw. der Wertigkeit von Kundenbeziehungen verwendet.\ [Sch95, S.18, 20]
Potentielle Kunden
Bei der Erklärung dieses Begriffs wird eine Parallele zum Einzelhandel gezogen. "Je breiter und tiefer ein Sortiment im Handel ist, desto mehr potentielle Kunden werden angesprochen.\ [Sch95] Die Angebotspalette bestimmt damit, welche Interessenten von dem Unternehmen Leistungen beziehen könnten und somit den Kreis, bei dem eine Kontaktaufnahme sinnvoll erscheint.
Entwicklung des zuküunftigen Kundenstamms
Dem Zeitaspekt muß wegen der demographischen Entwicklung der Kunden Rechnung getragen werden. In den verschiedenen Lebensabschnitten macht nur eine Auswahl von Finanzprodukten Sinn. Zum 18. Geburtstag ist z.B. das Angebot einer KFZ-Versicherung interessant. Jugendliche um die 20 sind weiterhin Adressaten von Bausparverträgen und Altervorsorgeprodukten. Mit etwa 25 oder 30 Jahren rücken Hausrats-, Lebensversicherungen und Sparpläne in das Blickfeld. Im Alter von ca. 40 benötigt man Berater für das Vermögensmanagement und ab 60 kümmert man sich um die Wiederanlage von auslaufenden Lebensversicherungen oder Rentensparplänen. Die genannten Zeitpunkte sind individuell verschieden, weil berufliche Werdegänge, Bildungs- und Einkommensniveau, Risikobereitschaft und Aufgeschlossenheit sowie Kenntnis im Bereich der Finanzprodukte variieren. Auch die Betrachtung von dritten Personen, wie z.B. Partner, Kinder oder Eltern, ist hilfreich. So läßt sich vielleicht abschätzen, wann und in welcher Höhe eine Erbschaft eintritt.
[...]
1 [HBM97, S.601]
Quote paper:
Hans-Peter Neeb, 1999, Einsatzmöglichkeiten von ausgewählten DATA MINING VERFAHREN im Bereich Financial Services, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Maßgeblichkeit der Handelsbilanz für die Steuerbilanz
(unter Berücksichtigung des Bi...
Business economics - Accounting and Taxes
Termpaper, 14 Pages
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Presentations, Models, Tutorials, Instructions
Elaboration, 35 Pages
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Presentations, Models, Tutorials, Instructions
Elaboration, 15 Pages
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Presentations, Models, Tutorials, Instructions
Elaboration, 25 Pages
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Presentations, Models, Tutorials, Instructions
Elaboration, 20 Pages
Erstellen einer schriftlichen Hausarbeit
Presentations, Models, Tutorials, Instructions
Termpaper, 14 Pages
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Presentations, Models, Tutorials, Instructions
Script, 46 Pages
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Presentations, Models, Tutorials, Instructions
Elaboration, 39 Pages
Business economics - Marketing, Corporate Communication, CRM, Market Research: Einsatzmöglichkeiten von ausgewählten DATA MINING VERFAHREN im Bereich Financial Services is now available as a printed book
Hans-Peter Neeb likes Einsatzmöglichkeiten von ausgewählten DATA MINING VERFAHREN im Bereich Financial Services
Hans-Peter Neeb has published the text Einsatzmöglichkeiten von ausgewählten DATA MINING VERFAHREN im Bereich Financial Services
Information-Statistical Data Mining
Warehouse Integration with Exa...
Bon K. Sy, Arjun K. Gupta
Tapping Into Unstructured Data: Integrating Unstructured Data and Text...
Integrating Unstructured Data ...
William H. Inmon, Anthony Nesavich
Data Warehousing and Knowledge Discovery
6th International Conference, ...
Yahiko Kambayashi, Mukesh Mohania, Wolfram Wöß
0 comments