Durch die Informationsflut haben die Datenmengen in den letzten Jahren rasant zugenommen. Diese Datenberge können wertvolle Informationen enthalten, die zum Verständnis von wichtigen Zusammenhängen beitragen oder die Entscheidungsträger innerhalb eines Unternehmens bei wichtigen Entscheidungen unterstützen. Nicht zu unrecht wird Wissen oftmals als vierter Produktionsfaktor oder als entscheidender Wettbewerbsfaktor bezeichnet. Doch dieses Wissen in den Datenbergen kann oft nicht oder nur unzureichend genutzt werden. Denn Daten sind nicht gleich Information, bzw. Wissen. Im Gegensatz zu den herkömmlichen Verfahren, die auf einfachen statistischen Methoden und Datenbankmanagementsystemen basieren, verbinden Data-Mining Verfahren Methoden aus den Bereichen Statistik, Maschinelles Lernen, Datenbanken und Visualisierung. Diese unterstützen den Benutzer dabei, in großen Datenbeständen verborgene und für das Unternehmen wertvolle Daten aufzufinden. Mithilfe von Data Mining können die Unternehmen quasi einen Blick in die Zukunft werfen und Ereignisse mit einer gewissen Wahrscheinlichkeit voraussagen.
In der nachfolgenden Arbeit wird zuerst in einer Einführung dargestellt, was man unter Data-Mining versteht und der Data-Mining Prozess anhand des CRISP- DM Modells erklärt. Anschließend werden die Data Mining Aufgaben und ihnen zugeordnete Methoden anhand von Beispielen veranschaulicht.
Um die große Bedeutung für die Praxis zu verdeutlichen wird danach ein Überblick der wichtigsten Anwendungsfelder gegeben. Da ein Data Mining ohne Daten unmöglich ist, muss der Zielkonflikt zwischen Data Mining und dem Datenschutz diskutiert werden, bevor in einem Fazit auf die zukünftige Bedeutung des Data Mining eingegangen wird.
Inhaltsverzeichnis
1. Einführung und Inhalt der Arbeit
2. Data-Mining
2.1 Der CRISP Data Mining Prozess
2.1.1 Business Understanding
2.1.2 Data Understanding
2.1.3 Data Preperation
2.1.4 Modeling
2.1.5 Evaluation
2.1.6 Deployment
2.2 Phasen des Data Mining
3. Aufgaben und geeignete Methoden des Data Mining
3.1 Segmentierung
3.1.1 Clusteranalyse als Methode der Segmentierung
3.1.2 Beispiel: Single- Linkage Verfahren
3.2 Klassifikation
3.2.1 Entscheidungsbäume als Methode der Klassifikation
3.2.2 Fallbeispiel Werbeaktion einer Autoversicherung
3.3 Prognose
3.4 Abhängigkeitsanalyse
3.4.1 Abhängigkeitsanalyse mit Assoziationsregeln
3.4.2 Beispiel Getränketransaktionen
3.5 Abweichungsanalyse
4. Anwendungsfelder
5. Data Mining Werkzeuge
5.1 IBM Intelligent Miner
5.2 SPSS Clementine
5.3 SAS Enterprise Miner
6. Zielkonflikt Data Mining und Datenschutz
7. Fazit
Zielsetzung & Themen
Die vorliegende Arbeit untersucht den Prozess des Data Mining als Instrument zur Gewinnung wertvoller Informationen aus umfangreichen Datenbeständen und beleuchtet dessen Bedeutung für die betriebswirtschaftliche Praxis. Dabei wird insbesondere analysiert, wie durch strukturierte Prozessmodelle, Methoden der Segmentierung, Klassifikation und Abhängigkeitsanalyse verborgene Potenziale in Massendaten identifiziert und für unternehmerische Entscheidungsprozesse nutzbar gemacht werden können.
- Grundlagen und Prozessmodelle des Data Mining (CRISP-DM)
- Methodische Ansätze zur Datenanalyse (Clusteranalyse, Entscheidungsbäume, Assoziationsregeln)
- Anwendungsfelder in Marketing, Vertrieb und Produktionsplanung
- Technologische Lösungsansätze und marktführende Data Mining Werkzeuge
- Ethik und Zielkonflikte zwischen Datennutzung und Datenschutz
Auszug aus dem Buch
3.1.2 Beispiel: Single- Linkage Verfahren
Das Single- Linkage Verfahren ist ein agglomeratives hierarchisches Verfahren. Bei diesem Verfahren bildet im Anfangszustand jedes Objekt ein eigenes Cluster. Dann werden alle Cluster paarweise verglichen und die ähnlichsten Cluster zu einem größeren Cluster zusammengefasst. Dieses Verfahren ist auf wenige tausende Elemente beschränkt, da alle Objekte paarweise verglichen werden müssen. Weiterhin muss bei dieser Methode beachtet werden, dass einmal getroffene Zusammenfassungen von Clustern nicht mehr rückgängig gemacht werden können und Ausreißer zu Problemen bei der Analyse führen können30.
Deshalb muss schon bei der Auswahl des Verfahrens genau geklärt sein, welche Eigenschaften die zu betrachtenden Daten haben und welche Ziele mit der Analyse verfolgt werden sollen, bzw. welche Ergebnisse erwartet werden, damit die ausgewählte Methode optimal darauf abgestimmt ist.
Zusammenfassung der Kapitel
1. Einführung und Inhalt der Arbeit: Erläutert die wachsende Bedeutung von Data Mining zur Bewältigung der Informationsflut und gibt einen Ausblick auf die behandelten Prozessschritte.
2. Data-Mining: Definiert Data Mining als Prozess und führt das CRISP-DM Modell als zentralen Standard für die industrielle Anwendung ein.
3. Aufgaben und geeignete Methoden des Data Mining: Detaillierte Darstellung der gängigen Methoden zur Segmentierung, Klassifikation, Prognose sowie Analyse von Abhängigkeiten und Abweichungen.
4. Anwendungsfelder: Gibt einen Überblick über die vielfältigen Einsatzbereiche von Data Mining, insbesondere in Marketing, Vertrieb und Produktion.
5. Data Mining Werkzeuge: Stellt spezialisierte Softwarelösungen und Suites wie IBM Intelligent Miner, SPSS Clementine und SAS Enterprise Miner vor.
6. Zielkonflikt Data Mining und Datenschutz: Diskutiert die rechtlichen und ethischen Spannungsfelder zwischen der datengetriebenen Erkenntnisgewinnung und dem Schutz personenbezogener Daten.
7. Fazit: Resümiert die Notwendigkeit von fachlicher Expertise bei der Wahl der Mining-Methode und betont die zukünftige Bedeutung der Integration komplexer Datentypen.
Schlüsselwörter
Data Mining, CRISP-DM, Segmentierung, Klassifikation, Clusteranalyse, Entscheidungsbäume, Assoziationsregeln, Prognose, Datenschutz, Business Understanding, Data Preparation, Modellierung, Support, Konfidenz, Wissensgewinnung
Häufig gestellte Fragen
Worum geht es in dieser Studienarbeit grundsätzlich?
Die Arbeit behandelt die systematische Nutzung von Data Mining zur Extraktion von Wissen aus Massendaten in betriebswirtschaftlichen Kontexten.
Was sind die zentralen Themenfelder der Arbeit?
Die Arbeit umfasst Prozessmodelle, spezifische Analysemethoden (Cluster, Klassifikation, Assoziation), Anwendungsbeispiele sowie die technologische Unterstützung durch Mining-Tools.
Was ist das primäre Ziel der Untersuchung?
Ziel ist es, den Nutzen von Data Mining als strategischen Wettbewerbsfaktor für Unternehmen aufzuzeigen und den methodischen Ablauf anhand des CRISP-DM Modells zu erklären.
Welche wissenschaftlichen Methoden werden beschrieben?
Die Arbeit erläutert insbesondere die Clusteranalyse (Single-Linkage), Entscheidungsbäume zur Klassifikation sowie die Analyse mittels Assoziationsregeln (Support, Konfidenz, Lift).
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die Vorstellung des CRISP-DM Prozesses, die Beschreibung der methodischen Aufgaben (Segmentierung bis Abweichungsanalyse) und die Evaluierung marktführender Software-Tools.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit wird durch Begriffe wie CRISP-DM, Segmentierung, Clusteranalyse, Entscheidungsbäume, Assoziationsregeln und Datenschutz definiert.
Wie unterscheidet sich das CRISP-DM Modell von anderen Ansätzen?
Es legt den Fokus weniger auf technische Spezifikationen als auf die betriebswirtschaftlichen Projektziele und versteht Data Mining als einen dynamischen, iterativen Prozess.
Welche Bedeutung kommt dem Datenschutz im Data Mining zu?
Aufgrund strenger Datenschutzgesetzgebungen müssen Unternehmen sicherstellen, dass Daten nur für den Zweck verwendet werden, für den sie erhoben wurden, was zu einem ständigen Zielkonflikt führt.
- Quote paper
- Diplom-Betriebswirtin (FH) Sandra Feist (Author), 2005, Data Mining als Hilfsmittel für gezielte Datensuche, Munich, GRIN Verlag, https://www.grin.com/document/70663