Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)


Seminararbeit, 2005
26 Seiten, Note: 1,3

Leseprobe

Inhaltsverzeichnis

1 Einführung

2 Data Mining
2.1 Was ist Data Mining?
2.2 Warum findet Data Mining erst jetzt so viel Beachtung?
2.3 Abgrenzung zu anderen Datenanalyseverfahren
2.3.1 Data Mining und SQL
2.3.2 Data Mining und traditionelle Statistik
2.3.3 Data Mining und Online Analytical Processing (OLAP)
2.4 Data Mining und Ethik
2.5 Data Mining-Algorithmen und Methoden
2.5.1 Data Mining zum Auffinden von Zusammenhängen
2.5.2 Data Mining zum Auffinden von Strukturen
2.5.3 Data Mining zum Generieren von Regeln
2.5.4 Weitere Data Mining-Methoden

3 Data Mining-Prozessmodell CRISP-DM
3.1 Business Understanding
3.2 Data Understanding
3.3 Data Preparation
3.4 Modelling
3.5 Evaluation
3.6 Deployment

4 Data Mining mit SPSS Clementine 9.0
4.1 SPSS GmbH
4.2 Marktsituation
4.3 SPSS Clementine 9.0

5 Anwendungsbeispiel Kündigeranalyse bei O2
5.1 Problemstellung
5.2 Vorgehensweise
5.3 Ergebnis

6 Fazit und Ausblick

Quellenverzeichnis

1 Einführung

Für fast alle Entscheidungen in Unternehmen werden Daten benötigt. Information als Produktionsfaktor gewinnt heute immer mehr an Bedeutung. Während kleine Unter-nehmen oftmals noch überschaubare Datenbestände verwalten müssen, produzieren und sammeln große internationale Unternehmen mehr Daten innerhalb einer Woche, als ein Mensch in seinem Leben lesen könnte [ADRI96, S. 2]. Dieses Datenwachs-tum führt dazu, dass Unternehmen „den Wald vor lauter Bäumen nicht mehr sehen“, da diese Datenmengen selbst für große Unternehmen ohne maschinelle Unterstüt-zung einfach nicht mehr handhabbar sind. Immer mehr Daten bedeuten deswegen immer weniger Information. Aus diesem Grund dürfen Daten nicht nur gesammelt werden, sondern müssen konsistent und nutzbar aufbereitet werden. Hier spricht man vom so genannten „data warehousing“ [ADRI96, S. 2; BERR97, S. 3-4]. Data Ware-houses sind integrierte Datenbestände, die eine Schicht zwischen den analytischen und operativen Informationssystemen eines Unternehmens bilden [MERT01, S. 131]. Um schließlich einen Nutzen aus diesen Daten generieren zu können müssen die Da-ten analysiert, verstanden und in entscheidungsunterstützende Informationen umge-wandelt werden. Dies ist die Aufgabe von „Data Mining“ [BERR97, S. 3-4].

2 Data Mining

Der Begriff Data Mining ist eine Anlehnung an ein bekanntes Bild aus dem Bergbau (Mining). Dort werden unter großem technologischem Aufwand enorme Gesteins-mengen abgebaut und aufbereitet, um Edelmetalle und -steine zu fördern. Beim Data Mining wird ähnlich wie beim Bergbau versucht, in großen Datenmengen unter Mit-hilfe entsprechender Methoden neue, nicht-triviale Strukturen, Trends und Zusam-menhänge zu finden [OTTE04, S. 17; WILD01, S. 13]. Der Begriff „Data Mining“ kann dabei ins Deutsche mit „Datenmustererkennung“ übersetzt werden [RESC05, S. 458; WILD01, S. 95].

2.1 Was ist Data Mining?

Data Mining vereinigt eine Vielzahl teilweise sehr unterschiedlicher Ideen und Tech-niken aus den Fachdisziplinen Statistik und Datenanalyse, künstliche Intelligenz, Datenbanktheorie und -praxis, maschinelles Lernen, Muster- und Regelerkennung [BERR97, S. 4; RESC05, S. 458; WILD01, S. 95-96]. Im Idealfall erfolgt der Pro-zess des Data Mining zur Erkennung dieser Muster und Zusammenhänge vollauto-matisch. So vermitteln es zumindest häufig die Medien und Hersteller von Data Mining-Werkzeugen. Von diesem Idealzustand sind wir heute aber noch weit ent-fernt, so dass man besser von teilweise automatisch spricht [MERT01, S. 130]. Es darf hier nicht die falsche Vorstellung entstehen, dass Data Mining gleichzusetzen ist mit „eine Menge an Daten in einen Trichter werfen, um automatisch relevante Zu-sammenhänge zu bekommen“ [TRIP04]. Der Data Mining-Prozess (siehe Kapitel 3) erfolgt i. d. R. in mehreren Stufen, interaktiv und vor allem iterativ, bei dem der Anwender häufig Entscheidungen auf Basis subjektiv bewerteter Informationen tref-fen muss [WILD01, S. 97]. Während in Kapitel 1 noch von großen Datenmengen ge-sprochen wurde auf die Data Mining angewendet werden kann, so darf hier nicht das Missverständnis entstehen, dass Data Mining nicht durchaus auch auf kleine Da-tenbestände angewendet werden kann, um bedeutungsvolle Muster zu entdecken [HORN05].

Häufig werden in der Literatur die Begriffe Data Mining und Knowledge Discovery in Databases (KDD) synonym verwendet. Auf der ersten internationalen KDD-Kon-ferenz 1995 in Montreal wurde jedoch festgelegt, dass der Begriff KDD den gesam-ten Prozess der Wissensextraktion aus Datenquellen umschreibt, Data Mining dage-gen nur für den Entdeckungsprozess des KDD-Prozesses verwendet werden soll [ADRI96, S. 5].

Konkrete Problemstellungen die man mit Data Mining lösen kann betreffen ty-pischerweise die Klassifikation (Erkennen von Zusammenhängen in Daten), die Vor-hersage (Prognose von Verhalten), das Clustering (Auffinden von Strukturen in Da-ten) und die Regelgenerierung (Auffinden von Regeln) [OTTE04, S. 119; WILD01, S. 103]. Auf diese Problemstellungen wird in Kapitel 2.5 näher eingegangen.

2.2 Warum findet Data Mining erst jetzt so viel Beachtung?

Nun stellt sich natürlich die Frage, warum Data Mining erst jetzt an Bedeutung ge-wonnen hat und nicht schon viel früher angewendet wurde. Der plötzliche Aufstieg und Erfolg des Data Mining kann auf die folgenden Faktoren zurückgeführt werden:

- Unternehmen sammeln heute Terabytes an Daten, welche eine Masse ver-steckter Information enthalten,
- Daten werden automatisch und konsistent gespeichert (Data Warehousing),
- die Rechenleistung moderner Computer lässt selbst rechenintensivste Data Mining-Anwendungen zu,
- der Wettbewerbsdruck steigt stetig und damit der Druck auf die Unterneh-men, die in ihren Daten verborgenen gewinnbringenden Informationen zu nutzen und
- Umfangreiche Data Mining-Softwarelösungen haben sich am Markt etabliert und sind verfügbar [BERR97, S. 6-10; ADRI96, S. 5].

2.3 Abgrenzung zu anderen Datenanalyseverfahren

Was kann nun Data Mining, was klassische Datenanalyseverfahren wie z. B. Daten-banktechnologien, Statistik oder Online Analytical Processing (OLAP) nicht kön-nen? Wo liegen die Grenzen dieser Verfahren bzw. die Vorteile von Data Mining? Abbildung 1 zeigt eine Einbettung des Data Mining in benachbarte Disziplinen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Einordnung des Data Mining; in Anlehnung an [OTTE04, S. 22].

2.3.1 Data Mining und SQL

SQL ist eine standardisierte, mächtige Abfrage- und Berichtssprache, für gelegent-liche Benutzer jedoch zu schwierig [LUST99, S. 250]. Data Mining kann keine Ab-fragesprache ersetzen, eröffnet dem Nutzer aber eine Menge zusätzlicher Möglich-keiten. Will man mit SQL gezielt Informationen aus einer Datenbank abfragen, so muss man Abfrage für Abfrage an diese Datenbank richten, was äußerst zeitintensiv ist und schnell unübersichtlich werden kann. Data Mining-Algorithmen wie z. B. ein neuronales Netz oder ein Genetischer Algorithmus können Antworten auf diese Ab-fragen automatisch und oftmals innerhalb weniger Minuten oder Stunden finden [ADRI96, S. 6-7; HORN05; OTTE04, S. 22-24].

Zusammenfassend kann gesagt werden: Immer dann, wenn man exakt weiß, wonach man in einem Datenbestand sucht, sollte man SQL benutzen. Wenn man jedoch nur eine vage Vorstellung hat, wonach man eigentlich sucht, sollte man auf Data Mining zurückgreifen [ADRI96, S. 7].

2.3.2 Data Mining und traditionelle Statistik

Zyniker, die ironisch auf das explosiv ansteigende Interesse am Bereich Data Mining blicken könnten behaupten: Data Mining ist nichts anderes als traditionelle Statistik plus Marketing [WITT01, S. 28]. Die Realität zeigt, dass zwischen beiden Diszipli-nen enge Verbindungen bestehen. Basis jeder Datenanalyse und damit eines jeden Data Mining-Prozesses (siehe Kapitel 3) ist die traditionelle Statistik. Besonders auf der multivariaten Statistik (es werden hier Abhängigkeiten zwischen mehreren Merk-malen untersucht) baut Data Mining auf und kann deswegen auch als fortgeschrittene nichtlineare, multivariate Datenanalyse bezeichnet werden [OTTE04, S. 24]. Unter-schiede zwischen traditioneller Statistik und Data Mining bestehen dahingehend, dass Statistik häufig mit dem Überprüfen von Hypothesen zu tun hat, während Data Mining sich eher mit der Suche nach der Menge möglicher Hypothesen beschäftigt. Des Weiteren wird traditionelle Statistik häufig auf univariate (nur ein Merkmal wird untersucht) Problemstellungen angewendet, im Gegensatz dazu untersucht Data Mi-ning fast immer Abhängigkeiten mehrerer Variablen [HORN05; WITT01, S. 28-29]. Data Mining erfordert besonders in der Datenaufbereitungsphase viel statistisches Denkvermögen, der Benutzer benötigt jedoch kein „Statistik-Studium“! Für alle Data Mining-Modelle gilt jedoch generell: Garbage in, garbage out! Ein Data Mining-Mo-dell ist nur so gut, wie die Daten mit denen es arbeiten soll. Sind bereits in den Daten gravierende statistische Fehler enthalten, kann auch das beste Modell keine nützli-chen Informationen aus diesen Daten fördern [HORN05].

2.3.3 Data Mining und Online Analytical Processing (OLAP)

Im Gegensatz zu SQL erlauben OLAP-Werkzeuge auch gelegentlichen Benutzern flexible multidimensionale Abfragen. Deren Methoden sind jedoch abfragezentriert und von der Analysekomplexität her eingeschränkt. Data Mining-Werkzeuge ermög-lichen komplexere Analysen [LUST99, S. 250]. Hauptunterschied zwischen beiden Disziplinen ist, dass OLAP-Werkzeuge weder lernen, noch neues Wissen generieren und auch keine neuen Lösungen aufzeigen können. Data Mining dagegen ist wesent-lich mächtiger. Data Mining-Werkzeuge ermöglichen Prognosen der Zukunft, wäh-rend der Fokus von OLAP eher auf vergangenheitsbezogenen Auswertungen liegt [ADRI96, S. 56; HORN05]. Tabelle 1 zeigt typische Aufgaben- und Fragestellungen der beiden Disziplinen aus verschiedenen Problembereichen.

[...]

Ende der Leseprobe aus 26 Seiten

Details

Titel
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
Hochschule
Bayerische Julius-Maximilians-Universität Würzburg  (Lehrstuhl für BWL und Wirtschaftsinformatik)
Veranstaltung
Hauptseminar Wirtschaftsinformatik
Note
1,3
Autor
Jahr
2005
Seiten
26
Katalognummer
V45918
ISBN (eBook)
9783638432382
Dateigröße
957 KB
Sprache
Deutsch
Schlagworte
Data, Mining, SPSS, Clementine, Methoden, Anwendungsbeispiele), Hauptseminar, Wirtschaftsinformatik
Arbeit zitieren
Christian Fuchs (Autor), 2005, Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele), München, GRIN Verlag, https://www.grin.com/document/45918

Kommentare

  • Gast am 11.2.2012

    Hallo Christian,

    deine Arbeit hat mir sehr geholfen endlich einen Überblick über SPSS zu bekommen, nun würde ich gern die Unterlagen von Clementine Workshop "Train the Trainer" mir genau anschauen kann die aber nicht finden:((( Besteht eine Möglichkeit die zu bekommen?

    LG, Liza

  • Christian Fuchs am 16.2.2012

    Kann ich gerne. Ich bräuchte nur deine E-Mail-Adresse.

    VG, Christian

Im eBook lesen
Titel: Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden