Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
1 Einführung
Für fast alle Entscheidungen in Unternehmen werden Daten benötigt. Information als Produktionsfaktor gewinnt heute immer mehr an Bedeutung. Während kleine Unternehmen oftmals noch überschaubare Datenbestände verwalten müssen, produzieren und sammeln große internationale Unternehmen mehr Daten innerhalb einer Woche, als ein Mensch in seinem Leben lesen könnte [ADRI96, S. 2]. Dieses Datenwachstum führt dazu, dass Unternehmen „den Wald vor lauter Bäumen nicht mehr sehen“, da diese Datenmengen selbst für große Unternehmen ohne maschinelle Unterstützung einfach nicht mehr handhabbar sind. Immer mehr Daten bedeuten deswegen immer weniger Information. Aus diesem Grund dürfen Daten nicht nur gesammelt werden, sondern müssen konsistent und nutzbar aufbereitet werden. Hier spricht man vom so genannten „data warehousing“ [ADRI96, S. 2; BERR97, S. 3-4]. Data Warehouses sind integrierte Datenbestände, die eine Schicht zwischen den analytischen und operativen Informationssystemen eines Unternehmens bilden [MERT01, S. 131]. Um schließlich einen Nutzen aus diesen Daten generieren zu können müssen die Daten analysiert, verstanden und in entscheidungsunterstützende Informationen umge-wandelt werden. Dies ist die Aufgabe von „Data Mining“ [BERR97, S. 3-4].
2 Data Mining
Der Begriff Data Mining ist eine Anlehnung an ein bekanntes Bild aus dem Bergbau (Mining). Dort werden unter großem technologische m Aufwand enorme Gesteinsmengen abgebaut und aufbereitet, um Edelmetalle und -steine zu fördern. Beim Data Mining wird ähnlich wie beim Bergbau versucht, in großen Datenmengen unter Mithilfe entsprechender Methoden neue, nicht-triviale Strukturen, Trends und Zusammenhänge zu finden [OTTE04, S. 17; WILD01, S. 13]. Der Begriff „Data Mining“ kann dabei ins Deutsche mit „Datenmustererkennung“ übersetzt werden [RESC05, S. 458; WILD01, S. 95].
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
2.1 Was ist Data Mining?
Data Mining vereinigt eine Vielzahl teilweise sehr unterschiedlicher Ideen und Techniken aus den Fachdisziplinen Statistik und Datenanalyse, künstliche Intelligenz, Datenbanktheorie und -praxis, maschinelles Lernen, Muster- und Regelerkennung [BERR97, S. 4; RESC05, S. 458; WILD01, S. 95-96]. Im Idealfall erfolgt der Prozess des Data Mining zur Erkennung dieser Muster und Zusammenhänge vollautomatisch. So vermitteln es zumindest häufig die Medien und Hersteller von Data Mining-Werkzeugen. Von diesem Idealzustand sind wir heute aber noch weit entfernt, so dass man besser von teilweise automatisch spricht [MERT01, S. 130]. Es darf hier nicht die falsche Vorstellung entstehen, dass Data Mining gleichzusetzen ist mit „eine Menge an Daten in einen Trichter werfen, um automatisch relevante Zusammenhänge zu bekommen“ [TRIP04]. Der Data Mining-Prozess (siehe Kapitel 3) erfolgt i. d. R. in mehreren Stufen, interaktiv und vor allem iterativ, bei dem der Anwender häufig Entscheidungen auf Basis subjektiv bewerteter Informationen treffen muss [WILD01, S. 97]. Während in Kapitel 1 noch von großen Datenmengen gesprochen wurde auf die Data Mining angewendet werden kann, so darf hier nicht das Missverständnis entstehen, dass Data Mining nicht durchaus auch auf kleine Datenbestände angewendet werden kann, um bedeutungsvolle Muster zu entdecken [HORN05].
Häufig werden in der Literatur die Begriffe Data Mining und Knowledge Discovery in Databases (KDD) synonym verwendet. Auf der ersten internationalen KDD-Konferenz 1995 in Montreal wurde jedoch festgelegt, dass der Begriff KDD den gesamten Prozess der Wissensextraktion aus Datenquellen umschreibt, Data Mining dagegen nur für den Entdeckungsprozess des KDD-Prozesses verwendet werden soll [ADRI96, S. 5].
Konkrete Problemstellungen die man mit Data Mining lösen kann betreffen typischerweise die Klassifikation (Erkennen von Zusammenhängen in Daten), die Vorhersage (Prognose von Verhalten), das Clustering (Auffinden von Strukturen in Daten) und die Regelgenerierung (Auffinden von Regeln) [OTTE04, S. 119; WILD01, S. 103]. Auf diese Problemstellungen wird in Kapit el 2.5 näher eingegangen.
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
2.2 Warum findet Data Mining erst jetzt so viel Beachtung?
Nun stellt sic h natürlich die Frage, warum Data Mining erst jetzt an Bedeutung gewonnen hat und nicht schon viel früher angewendet wurde. Der plötzliche Aufstieg und Erfolg des Data Mining kann auf die folgenden Faktoren zurückgeführt werden:
• Unternehmen sammeln heute Terabytes an Daten, welche eine Masse versteckter Information enthalten,
• Daten werden automatisch und konsistent gespeichert (Data Warehousing),
• die Rechenleistung moderner Computer lässt selbst rechenintensivste Data Mining-Anwendungen zu,
• der Wettbewerbsdruck steigt stetig und damit der Druck auf die Unternehmen, die in ihren Daten verborgenen gewinnbringenden Informationen zu nutzen und
• Umfangreiche Data Mining-Softwarelösungen haben sich am Markt etabliert und sind verfügbar [BERR97, S. 6-10; ADRI96, S. 5].
2.3 Abgrenzung zu anderen Datenanalyseverfahren
Was kann nun Data Mining, was klassische Datenanalyseverfahren wie z. B. Datenbanktechnologien, Statistik oder Online Analytical Processing (OLAP) nicht können? Wo liegen die Grenzen dieser Verfahren bzw. die Vorteile von Data Mining? Abbildung 1 zeigt eine Einbettung des Data Mining in benachbarte Disziplinen.
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
Abbildung 1: Einordnung des Data Mining; in Anlehnung an [OTTE04, S. 22].
2.3.1 Data Mining und SQL
SQL ist eine standardisierte, mächtige Abfrage- und Berichtssprache, für gele gentliche Benutzer jedoch zu schwierig [LUST99, S. 250]. Data Mining kann keine Abfragesprache ersetzen, eröffnet dem Nutzer aber eine Menge zusätzlicher Möglichkeiten. Will man mit SQL gezielt Informationen aus einer Datenbank abfragen, so muss man Abfrage für Abfrage an diese Datenbank richten, was äußerst zeitintensiv ist und schnell unübersichtlich werden kann. Data Mining-Algorithmen wie z. B. ein neuronales Netz oder ein Genetischer Algorithmus können Antworten auf diese Abfragen automatisch und oftmals innerhalb weniger Minuten oder Stunden finden [ADRI96, S. 6-7; HORN05; OTTE04, S. 22-24].
Zusammenfassend kann gesagt werden: Immer dann, wenn man exakt weiß, wonach man in einem Datenbestand sucht, sollte man SQL benutzen. Wenn man jedoch nur eine vage Vorstellung hat, wonach man eigentlich sucht, sollte man auf Data Mining zurückgreifen [ADRI96, S. 7].
2.3.2 Data Mining und traditionelle Statistik
Zyniker, die ironisch auf das explosiv ansteigende Interesse am Bereich Data Mining blicken könnten behaupten: Data Mining ist nichts anderes als traditionelle Statistik plus Marketing [WITT01, S. 28]. Die Realität zeigt, dass zwischen beiden Dis ziplinen enge Verbindungen bestehen. Basis jeder Datenanalyse und damit eines jeden Data Mining-Prozesses (siehe Kapitel 3) ist die traditionelle Statistik. Besonders auf der multivariaten Statistik (es werden hier Abhängigkeiten zwischen mehreren Merkmalen untersucht) baut Data Mining auf und kann deswegen auch als fortgeschrittene nichtlineare, multivariate Datenanalyse bezeichnet werden [OTTE04, S. 24]. Unterschiede zwischen traditioneller Statistik und Data Mining bestehen dahingehend, dass Statistik häufig mit dem Überprüfen von Hypothesen zu tun hat, während Data Mining sich eher mit der Suche nach der Menge möglicher Hypothesen beschäftigt. Des Weiteren wird traditionelle Statistik häufig auf univariate (nur ein Merkmal wird untersucht) Problemstellungen angewendet, im Gegensatz dazu untersucht Data Mi-
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
ning fast immer Abhängigkeiten mehrerer Variablen [HORN05; WITT01, S. 28-29]. Data Mining erfordert besonders in der Datenaufbereitungsphase viel statistisches Denkvermögen, der Benutzer benötigt jedoch kein „Statistik-Studium“! Für alle Data Mining-Modelle gilt jedoch generell: Garbage in, garbage out! Ein Data Mining-Modell ist nur so gut, wie die Daten mit denen es arbeiten soll. Sind bereits in den Daten gravierende statistische Fehler enthalten, kann auch das beste Modell keine nützlichen Informationen aus diesen Daten fördern [HORN05].
2.3.3 Data Mining und Online Analytical Processing (OLAP)
Im Gegensatz zu SQL erlauben OLAP-Werkzeuge auch gelegentlichen Benutzern flexible multidimensionale Abfragen. Deren Methoden sind jedoch abfragezentriert und von der Analysekomplexität her eingeschränkt. Data Mining-Werkzeuge ermöglichen komplexere Analysen [LUST99, S. 250]. Hauptunterschied zwischen beiden Disziplinen ist, dass OLAP-Werkzeuge weder lernen, noch neues Wissen generieren und auch keine neuen Lösungen aufzeigen können. Data Mining dagegen ist wesentlich mächtiger. Data Mining-Werkzeuge ermöglichen Prognosen der Zukunft, während der Fokus von OLAP eher auf vergangenheitsbezogenen Auswertungen liegt [ADRI96, S. 56; HORN05]. Tabelle 1 zeigt typische Aufgaben- und Fragestellungen der beiden Disziplinen aus verschiedenen Problembereichen.
Tabelle 1: Vergleich OLAP - Data Mining; in Anlehnung an [HORN05; TRIP04].
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
2.4 Data Mining und Ethik
Data Mining hat besonders dann ernsthafte ethische Konsequenzen, wenn Daten über Menschen verwendet werden. Anwender von Data Mining- Techniken müssen sich ihrer Verantwortung und der ethischen Probleme, die ihre jeweilige Anwendung mit sich bringt, bewusst sein. Gerade bei der Anwendung auf Menschen wird Data Mining oftmals für Unterscheidungen genutzt (wer bekommt einen Kredit, ein spezielles Angebot, etc.). Entscheidungen hinsichtlich Rasse, Sexualität oder Religion sind nicht nur unethisch, sondern überdies auch verboten. Aus diesem Grund sollten Menschen üblicherweise bevor sie persönliche Daten preisgeben darauf aufmerksam gemacht werden, wofür diese Daten verwendet, wie die Daten geschützt werden und gegebenenfalls, welche Rechtsansprüche bestehen. Vor jeder Verwendung persönlicher Daten muss sich der Anwender fragen: Ist es ethisch vertretbar, diese Daten in diesem Kontext zu nutzen? Es muss immer beachtet werden, für welchen Zweck Daten gesammelt wurden und welche Schlussfolgerungen daraus erlaubt sind. Des Weiteren muss festgelegt werden, wer auf bestimmte Daten zugreifen und diese verwenden darf. Jeder Anwender einer fortschrittlichen Technologie wie Data Mining sollte beurteilen können was mit dieser Technologie machbar ist [WITT01, S. 35-37]. „Data Mining ist eine Technologie, die man ernst nehmen sollte“ [WITT01, S. 37].
2.5 Data Mining-Algorithmen und Methoden
Nachdem nun ausführlich beschrieben wurde, was unter dem Begriff „Data Mining“ zu verstehen ist bzw. wie er gegenüber anderen verwandten Disziplinen abgegrenzt werden kann, sollen nun im Folgenden die wichtigsten Algorithmen und Methoden zur Wissensentdeckung vorgestellt werden. Im Rahmen dieser Arbeit werden vier grundsätzliche Gruppen von Data Mining- Algorithmen aufgezeigt:
• Data Mining zum Auffinden von Zusammenhängen,
• Data Mining zum Auffinden von Strukturen,
• Data Mining zum Generieren von Regeln und
Arbeit zitieren:
Christian Fuchs, 2005, Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele), München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Der Rechtsschutz des DRM im Wandel
Eine Analyse des digitalen Rec...
Jura - Medienrecht, Multimediarecht, Urheberrecht
Seminararbeit, 27 Seiten
Rechtemanagement in Verteilten Systemen mit Web-Services
Informatik - Internet, neue Technologien
Diplomarbeit, 97 Seiten
Digitale Produkte und Digital Rights Management
Informatik - Wirtschaftsinformatik
Seminararbeit, 18 Seiten
Digitale Produkte und Digital Rights Management
Informatik - Wirtschaftsinformatik
Hausarbeit, 17 Seiten
Der Markt der Fernsehprogrammzeitschriften in Deutschland
Medien / Kommunikation - Printmedien, Presse
Hausarbeit, 21 Seiten
Internet als neue Datenerhebungsmethode in der Psychologie - Die Verwe...
Diplomarbeit, 196 Seiten
Handynutzungsverhalten Jugendlicher
Eine Fallstudie
Medien / Kommunikation - Forschung und Studien
Magisterarbeit, 131 Seiten
Analyse und Gestaltung von Geschäftsmodellen im digitalen Fernsehen
Medien / Kommunikation - Medienökonomie, -management
Diplomarbeit, 169 Seiten
Das Stichprobenproblem in der empirischen Sozialforschung
Eine forschungshistorische und...
Soziologie - Methodologie und Methoden
Diplomarbeit, 114 Seiten
Konvergenz von Internet und Fernsehen - Strategische Implikationen für...
Medien / Kommunikation - Medienökonomie, -management
Diplomarbeit, 151 Seiten
Probleme und Möglichkeiten der Anwendung und des Einsatzes der telefon...
Eine kritische Darstellung der...
Soziologie - Methodologie und Methoden
Bachelorarbeit, 35 Seiten
Sexualerziehung in der BRAVO i...
Pädagogik - Pädagogische Soziologie
Hausarbeit (Hauptseminar), 27 Seiten
Elektronische Programmführer und ihre Auswirkung auf die Wettbewerbssi...
Medien / Kommunikation - Film und Fernsehen
Magisterarbeit, 135 Seiten
Fragebogeneffekte bei Online-Befragungen
Medien / Kommunikation - Methoden und Forschungslogik
Magisterarbeit, 158 Seiten
Christian Fuchs hat den Text Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele) kommentiert
Maksakowa Jelisaweta hat den Text Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele) kommentiert
Christian Fuchs hat den Text Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele) veröffentlicht
Data Mining Methods for Knowledge Discovery
Krzysztof J. Cios, Roman W. Swiniarski, Witold Pedrycz
Principles of Data Mining and Knowledge Discovery
Second European Symposium, PKD...
Jan M. Zytkow, Mohamed Quafafou
Principles of Data Mining and Knowledge Discovery
Third European Conference, PKD...
Jan Rauch, Jan Zytkow
Maksakowa Jelisaweta
Hallo Christian,
deine Arbeit hat mir sehr geholfen endlich einen Überblick über SPSS zu bekommen, nun würde ich gern die Unterlagen von Clementine Workshop "Train the Trainer" mir genau anschauen kann die aber nicht finden:((( Besteht eine Möglichkeit die zu bekommen?
LG, Liza
am Saturday, February 11, 2012-
Christian Fuchs
Kann ich gerne. Ich bräuchte nur deine E-Mail-Adresse.
VG, Christian
am Thursday, February 16, 2012-