Für fast alle Entscheidungen in Unternehmen werden Daten benötigt. Information als Produktionsfaktor gewinnt heute immer mehr an Bedeutung. Während kleine Unternehmen oftmals noch überschaubare Datenbestände verwalten müssen, produzieren und sammeln große internationale Unternehmen mehr Daten innerhalb einer Woche, als ein Mensch in seinem Leben lesen könnte [ADRI96, S. 2]. Dieses Datenwachstum führt dazu, dass Unternehmen „den Wald vor lauter Bäumen nicht mehr sehen“, da diese Datenmengen selbst für große Unternehmen ohne maschinelle Unterstützung einfach nicht mehr handhabbar sind. Immer mehr Daten bedeuten deswegen immer weniger Information. Aus diesem Grund dürfen Daten nicht nur gesammelt werden, sondern müssen konsistent und nutzbar aufbereitet werden. Hier spricht man vom so genannten „data warehousing“ [ADRI96, S. 2; BERR97, S. 3-4]. Data Warehouses sind integrierte Datenbestände, die eine Schicht zwischen den analytischen und operativen Informationssystemen eines Unternehmens bilden [MERT01, S. 131]. Um schließlich einen Nutzen aus diesen Daten generieren zu können müssen die Daten analysiert, verstanden und in entscheidungsunterstützende Informationen umgewandelt werden. Dies ist die Aufgabe von „Data Mining“ [BERR97, S. 3-4].
Inhaltsverzeichnis
1 Einführung
2 Data Mining
2.1 Was ist Data Mining?
2.2 Warum findet Data Mining erst jetzt so viel Beachtung?
2.3 Abgrenzung zu anderen Datenanalyseverfahren
2.3.1 Data Mining und SQL
2.3.2 Data Mining und traditionelle Statistik
2.3.3 Data Mining und Online Analytical Processing (OLAP)
2.4 Data Mining und Ethik
2.5 Data Mining-Algorithmen und Methoden
2.5.1 Data Mining zum Auffinden von Zusammenhängen
2.5.2 Data Mining zum Auffinden von Strukturen
2.5.3 Data Mining zum Generieren von Regeln
2.5.4 Weitere Data Mining-Methoden
3 Data Mining-Prozessmodell CRISP-DM
3.1 Business Understanding
3.2 Data Understanding
3.3 Data Preparation
3.4 Modelling
3.5 Evaluation
3.6 Deployment
4 Data Mining mit SPSS Clementine 9.0
4.1 SPSS GmbH
4.2 Marktsituation
4.3 SPSS Clementine 9.0
5 Anwendungsbeispiel Kündigeranalyse bei O2
5.1 Problemstellung
5.2 Vorgehensweise
5.3 Ergebnis
6 Fazit und Ausblick
Zielsetzung & Themen
Die Arbeit untersucht die theoretischen Grundlagen und die praktische Anwendung von Data Mining-Techniken unter Verwendung der Software SPSS Clementine, mit dem Ziel, die methodische Vorgehensweise anhand eines realen Unternehmensbeispiels zur Churn-Prävention zu illustrieren.
- Grundlagen und Abgrenzung von Data Mining zu klassischen Analyseverfahren
- Einführung in das CRISP-DM-Prozessmodell
- Marktübersicht und Leistungsfähigkeit von Data Mining-Softwaretools
- Analyse und Anwendung von Data Mining in SPSS Clementine
- Praktisches Beispiel der Kündigeranalyse (Churn-Prävention) bei O2
Auszug aus dem Buch
2.1 Was ist Data Mining?
Data Mining vereinigt eine Vielzahl teilweise sehr unterschiedlicher Ideen und Techniken aus den Fachdisziplinen Statistik und Datenanalyse, künstliche Intelligenz, Datenbanktheorie und -praxis, maschinelles Lernen, Muster- und Regelerkennung [BERR97, S. 4; RESC05, S. 458; WILD01, S. 95-96]. Im Idealfall erfolgt der Prozess des Data Mining zur Erkennung dieser Muster und Zusammenhänge vollautomatisch. So vermitteln es zumindest häufig die Medien und Hersteller von Data Mining-Werkzeugen. Von diesem Idealzustand sind wir heute aber noch weit entfernt, so dass man besser von teilweise automatisch spricht [MERT01, S. 130]. Es darf hier nicht die falsche Vorstellung entstehen, dass Data Mining gleichzusetzen ist mit „eine Menge an Daten in einen Trichter werfen, um automatisch relevante Zusammenhänge zu bekommen“ [TRIP04]. Der Data Mining-Prozess (siehe Kapitel 3) erfolgt i. d. R. in mehreren Stufen, interaktiv und vor allem iterativ, bei dem der Anwender häufig Entscheidungen auf Basis subjektiv bewerteter Informationen treffen muss [WILD01, S. 97]. Während in Kapitel 1 noch von großen Datenmengen gesprochen wurde auf die Data Mining angewendet werden kann, so darf hier nicht das Missverständnis entstehen, dass Data Mining nicht durchaus auch auf kleine Datenbestände angewendet werden kann, um bedeutungsvolle Muster zu entdecken [HORN05].
Häufig werden in der Literatur die Begriffe Data Mining und Knowledge Discovery in Databases (KDD) synonym verwendet. Auf der ersten internationalen KDD-Konferenz 1995 in Montreal wurde jedoch festgelegt, dass der Begriff KDD den gesamten Prozess der Wissensextraktion aus Datenquellen umschreibt, Data Mining dagegen nur für den Entdeckungsprozess des KDD-Prozesses verwendet werden soll [ADRI96, S. 5].
Zusammenfassung der Kapitel
1 Einführung: Die Einleitung verdeutlicht die Bedeutung von Daten als Produktionsfaktor und die Notwendigkeit von Data Mining zur Generierung von Informationen in einer wachsenden Datenflut.
2 Data Mining: Dieses Kapitel definiert den Begriff Data Mining, grenzt ihn von SQL, Statistik und OLAP ab und führt die wichtigsten Algorithmen und ethischen Aspekte ein.
3 Data Mining-Prozessmodell CRISP-DM: Hier wird das standardisierte, zyklische Prozessmodell CRISP-DM mit seinen sechs Phasen vorgestellt, das die Effizienz von Data Mining-Projekten sicherstellt.
4 Data Mining mit SPSS Clementine 9.0: Dieses Kapitel beleuchtet den Markt für Data Mining-Tools, positioniert SPSS Clementine als führende Workbench und erläutert deren visuelle Programmierung.
5 Anwendungsbeispiel Kündigeranalyse bei O2: Das Kapitel veranschaulicht die praktische Anwendung der zuvor erläuterten Konzepte durch die Umsetzung einer Churn-Präventions-Strategie bei einem Mobilfunkanbieter.
6 Fazit und Ausblick: Das Fazit fasst den Stellenwert von Data Mining als aufstrebende Technologie zusammen und identifiziert Text- und Webmining als zukünftige Herausforderungen.
Schlüsselwörter
Data Mining, SPSS Clementine, CRISP-DM, Business Understanding, Data Understanding, Data Preparation, Modellierung, Evaluation, Deployment, Churn-Analyse, Klassifikation, Clustering, Neuronale Netze, Entscheidungsbäume, Kundenwert.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt den Einsatz von Data Mining-Methoden zur Wissensgewinnung aus großen Datenbeständen, mit einem besonderen Fokus auf die praktische Implementierung mittels der Software SPSS Clementine.
Was sind die zentralen Themenfelder der Arbeit?
Die Arbeit deckt die theoretischen Grundlagen des Data Mining, die methodische Vorgehensweise nach dem CRISP-DM-Standard, eine Marktübersicht von Softwarewerkzeugen und ein detailliertes Anwendungsbeispiel ab.
Welches primäre Ziel verfolgt die Arbeit?
Das primäre Ziel ist es, den gesamten Data Mining-Prozess von der Datenaufbereitung bis zur Modellanwendung verständlich zu machen und dessen Nutzen für Unternehmen anhand eines Praxisbeispiels aufzuzeigen.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit stützt sich auf das standardisierte Prozessmodell CRISP-DM (Cross-Industry Standard Process for Data Mining) als methodischen Rahmen für alle Projektphasen.
Was wird im Hauptteil der Arbeit behandelt?
Im Hauptteil werden neben den theoretischen Verfahren (Klassifikation, Clustering) insbesondere das CRISP-DM-Prozessmodell sowie die Funktionen und die Bedienung der Software SPSS Clementine tiefgehend erläutert.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit wird maßgeblich durch Begriffe wie Data Mining, SPSS Clementine, CRISP-DM, Churn-Analyse, Klassifikation und Kundenwert charakterisiert.
Was unterscheidet Data Mining von traditionellen statistischen Verfahren?
Während die Statistik primär Hypothesen prüft, konzentriert sich Data Mining auf die Suche nach bisher unbekannten Mustern, Strukturen und Zusammenhängen in großen Datenmengen.
Warum ist das Anwendungsbeispiel bei O2 für die Arbeit wichtig?
Das O2-Beispiel dient als konkrete Demonstration dafür, wie die theoretischen Phasen des CRISP-DM-Modells in einer realen Geschäftsumgebung angewendet werden, um die Kundenabwanderung (Churn) präventiv zu bekämpfen.
Welche Rolle spielt die Datenaufbereitung (Data Preparation) im Data Mining-Prozess?
Die Datenaufbereitung ist der zeitaufwendigste Schritt, da sie die Bereinigung und Transformation der Rohdaten in eine für Algorithmen verarbeitbare Form sicherstellt, was den Erfolg des gesamten Modells maßgeblich bestimmt.
- Quote paper
- Christian Fuchs (Author), 2005, Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele), Munich, GRIN Verlag, https://www.grin.com/document/45918