Techniken des Data Mining, Knowledge Discovery und SPSS


Seminararbeit, 2004

32 Seiten, Note: 1,7


Leseprobe

Inhalt

1 Einleitung
1.1 Definition und Ziele des Data Mining
1.2 Vorgehensweise
1.3 Probleme beim Data Mining
1.4 Aufbereitung der Daten

2 Data Mining und Knowledge Discovery
2.1 Definition: „Knowledge Discovery“
2.2 Die Phasen des Knowledge Discovery

3 Data Mining als Bestandteil des Data Warehousing

4 Techniken des Data Mining
4.1 Klassifikation und Entscheidungsbaum
4.1.1 Ziele der Verfahren
4.1.2 Beschreibung der Klassifikation und des Entscheidungsbaums
4.1.3 Anwendungsbeispiel eines Entscheidungsbaums
4.1.4 Probleme bei Klassifikation und Entscheidungsbaum
4.2 Die Assoziationsregeln
4.2.1 Ziel der Assoziationsregeln
4.2.2 Erzeugung von Assoziationsregeln
4.2.3 Anwendungsbeispiel von Assoziationsregeln
4.2.4 Probleme bei Assoziationsregeln
4.3 Das Clustering
4.3.1 Ziel des Clustering
4.3.2 Beschreibung des Clustering
4.3.3 Anwendungsbeispiel des Clustering
4.3.4 Probleme beim Clustering

5 Data Mining mit SPSS
5.1 Was ist SPSS?
5.2 Ein Beispiel zur Entscheidungsbaum-Analyse

6 Data Mining mit SAS
6.1 Das Unternehmen „SAS“
6.2 Die Lösungen von SAS
6.3 Die Brücke zwischen Theorie und Praxis: Musterbeispiel KSFE

7 Zusammenfassung und Ausblick

Literaturverzeichnis

1 Einleitung

1.1 Definition und Ziele des Data Mining

Schon seit ewigen Zeiten sammelt der Mensch Daten. Über seine Mitmenschen, die Umwelt, schlicht über was, womit er tagtäglich in Berührung kommt. Mit Beginn des Computerzeitalters wurde es möglich, diese optimal zu speichern und einer Vielzahl von Menschen zur Verfügung zu stellen. Diese Entwicklung steigerte sich in den 1990er Jahren, als der Trend zu immer günstigeren Massenspeichergeräten einsetzte, der bis heute anhält. Die Fülle der Daten hat mittlerweile einen unüberschaubaren Grad erreicht. Sämtliche Insitutionen, ob Unternehmen, staatliche Organe, Kirchen, Vereine oder Privatpersonen; überall werden Daten gespeichert. Dabei stellt sich heute ein neues Problem: vielfach sind in den großen Datenmengen wertvolle Informationen enthalten, die der Mensch, da sie nicht unmittelbar ersichtlich sind, nicht wahrnehmen kann.

Data Mining (DM) soll nun einen Ansatz bieten, das in den Daten implizit vorhandene Wissen zu explizieren, also offenkundig zu machen. Dazu werden die Daten analysiert und nach Auffälligkeiten, Gemeinsamkeiten oder allgemein Besonderheiten gesucht. Obwohl es für das Data Mining als relativ jungen Zweig der Wirtschaftsinformatik noch keine allgemein gültige Definition gibt, lässt sich Data Mining meines Erachtens mit folgender Definition sehr treffend beschreiben:

„Unter Data Mining versteht man das systematische (in der Regel automatisierte oder halbautomatisierte) Entdecken und Extrahieren wertvoller, nicht trivialer und wichtiger Informationen aus großen Mengen von Daten“ (http://www.net-lexikon.de/Data-Mining.html vom 15.02.04).

1.2 Vorgehensweise

Klassische uni-, bi- oder multivariate statistische Verfahren suchen nach Auffälligkeiten und Zusammenhängen im ein-, zwei- oder mehrdimensionalen Raum. Data Mining greift diese Verfahren auf und geht dabei noch einen Schritt weiter: DM ist ein ganzheitlicher Ansatz, interessante Zusammenhänge in Datenbestände zu finden und zu extrahieren. „Es werden bereits bekannte Lösungsansätze aus dem Bereich der künstlichen Intelligenz wie neuronale Netze als nichtlineare Prognoseverfahren, die biologischen Informationsverarbeitungen nachempfunden werden und „selbständig lernen“, sowie herkömmliche statistische Verfahren berücksichtigt. Data Mining steht also nicht nur für eine bestimmte Analyse, sondern für eine ganze Reihe von Verfahren“ (http://www.lfd.nrw.de/pressestelle/presse_7_1_02_5.html# 2_2_2mining vom 22.02.04). Neu ist insbesondere auch „die Zielvorstellung, 'interessante', 'bisher noch nicht bekannte' und/oder 'ökonomisch verwertbare' Informationen zu gewinnen“ (Hippner, Küsters, Meyer und Wilde 2001).

Da DM-Konzepte in der Regel in Unternehmen eingesetzt werden, sollen im Folgenden die Stufen aufgezeigt werden, die für eine Integration von Data Mining in einer Unternehmung durchlaufen werden sollten (vgl. http://www.data-mining.de/miningstufen.htm vom 25.01.04).

- Zielformulierung: In der Regel soll das Data Mining in einem Unternehmen genutzt werden, um wertvolle Informationen für das Management zu liefern, das darauf aufbauend strategische Entscheidungen treffen kann. In einer ersten Phase ist deshalb das Management gefragt, entsprechende strategische Unternehmensziele zu formulieren. Beispielsweise könnte der Wunsch des Managements darin bestehen, vorhandene Kunden zu halten und Neukunden zu gewinnen.
- Ziel-Operationalisierung: Aufbauend auf den allgemeinen Zielen des Managements müssen die Ziele operationalisiert werden, um eine DM-Aufgabe formulieren zu können. Im vorliegenden Beispiel könnte eine Konkretisierung darin bestehen, herauszufinden, wie sich die zukünftige Abwanderungswahrscheinlichkeit eines Kunden vorhersehen lässt.
- Daten-Audit: In der Stufe des Daten-Audit wird untersucht, welche der vorhandenen Daten geeignet sein könnten, die in der zweiten Stufe formulierte Data Mining-Aufgabe zu erreichen. Neben den im Unternehmen vorhandenen Daten sollten dabei auch externe Daten verwendet werden, da die eigenen Daten i.d.R. nicht ausreichen.
- Methodenwahl: In der vierten Stufe wird aus den gegebenen Data Mining-Methoden eine für das Ziel geeignete ausgewählt. Neben den Rahmenbedingungen, die bei der Zielformulierung gesetzt wurden, spielen auch die zu analysierenden Daten eine große Rolle in dieser Stufe.
- Flatfile-Erstellung: Nach der Auswahl der Methode wird eine Datei erstellt, die ausschließlich alle relevanten Informationen enthält. Hier können auch Aggregationsprozesse notwendig sein, um die Daten aufzubereiten.
- Datentransformation: Die aggregierten Daten müssen anschließend transformiert werden. Je nach gewählter Mehode müssen die Merkmale in diskrete, binäre oder stetige Merkmale gewandelt werden.
- Entwicklung: Nun beginnt der eigentlich Data Mining-Prozess. Die im Flatfile vorhandenen Daten werden mit der gewählten Methode analysiert.
- Ökonomische Validierung: Die Ergebnisse des DM müssen zwingend auf ihre Korrektheit bzw. Sinnhaftigkeit geprüft werden. Werden beispielsweise für das Ziel unwichtige Daten in die Analyse einbezogen und zu schwer gewichtet, können Ergebnisse entstehen, die ökonomisch nicht nachzuvollziehen sind. Sinnvoll ist dabei auch, das Verfahren auf mehrere Testbestände anzuwenden, bei denen die Ergebnisse bereits bekannt sind. So kann untersucht werden, ob sinnvolle Ergebnisse geliefert werden.
- Implementierung und Roll-Out: Sind die Ergebnisse als zufrieden stellend beurteilt worden, so können nun die erhaltenen Erkenntnisse in die bestehenden betrieblichen Prozesse integriert werden.
- Feed Back und Controlling: Wie bei allen Softwarelösungen ist auch bei einem Data Mining-Tool ein Feed Back der Benutzer einzuholen. Außerdem muss die Anwendung überwacht und regelmäßig auf Aktualität kontrolliert werden.

1.3 Probleme beim Data Mining

Das größte Problem beim Data Mining besteht im Zusammenhang mit den zu analysierenden Daten. Schon bei der Verwendung der Daten bestehen rechtliche Fragen für das Unternehmen. Laut Edda Müller, Vorsitzende des Bundesverbandes der Verbraucherzentralen (vzbv) gibt es „zum Teil gravierende Verstöße gegen Datenschutzregeln“ insbesondere bei den über 22 Millionen Kundenkarten in Deutschland („Sorgloser Umgang mit Daten“, Sulzbach-Rosenberger Zeitung vom 21.01.04).

Doch auch bei einer bestehenden Sicherheit über die Rechtmäßigkeit der verwendeten Daten sind einige Probleme für DM-Spezialisten signifikant (vgl. Muksch und Behme 2000):

- Unvollständigkeit und Spärlichkeit der Daten

In der Realität ist zu beobachten, dass die Daten einer Datenbasis sehr „lückenhaft“ gefüllt sind. Ein Beispiel sei die email-Adresse der Kunden eines Unternehmens. Ist diese in der Datenbank nicht gefüllt, so kann nicht ohne weiteres unterschieden werden, ob der Kunde keine Mailadresse besitzt oder diese nicht angegeben hat.

- Dynamik der Daten

Data Mining-System arbeiten in der Regel offline. Dadurch entsteht das Problem, dass die Daten nicht immer auf dem aktuellsten Stand gehalten werden können. So ist ein exaktes Ergebnis nicht sicher gestellt.

- Datenschmutz

Gewöhnlich basieren DM-Tools auf Daten, die an irgendeiner Stelle des Unternehmens per Hand erfasst wurden (evtl. auch durch den Kunden selbst). Eine falsche oder ungenaue Eingabe von Daten ist „vorprogrammiert“ und muss vor der Verwendung der Daten beseitigt werden.

- Redundanz

Das Vorhandensein von Redundanzen kann dazu führen, dass diese als „Ergebnis“ der Anwendung des Data Mining-Verfahrens präsentiert wird. Redundanzen sind vor Anwendung des Programms zu entfernen.

- Irrelevante Felder

Für die Auswertung unwichtige Felder müssen vor der Analyse durch die Erstellung eines Flatfiles (vgl. auch Abschnitt 1.2) eliminiert werden.

- Datenvolumen

Data Mining-Tools werden in der Regel auf kleinen Datenbeständen entwickelt (ca. 10.000 bis 100.000 Datensätze). Dabei ergibt sich ein Trade-Off zwischen der Anzahl der Daten und dem eingesetzten Rechenaufwand. Je mehr Daten untersucht werden, um so besser werden die Ergebnisse, der Aufwand steigt jedoch an.

Weitere Probleme, die nicht im Zusammenhang mit den zu verwendenden Daten stehen, sind zum einen die Abhängigkeit der Verfahren vom Entwickler. Dieser wird tendenziell diese Methoden anwenden, mit denen er bereits gute Erfahrungen gemacht hat. Außerdem kann er schon mit Hypothesen die Entwicklung beginnen, was dazu führen kann, dass das DM-Tool durch die Subjektivität des Entwicklers „beeinflusst“ wird.

Weiterhin stellt die Aufbereitung der gewonnenen Daten ein Problem dar (vgl. Abschnitt 1.4).

Schließlich sind die erhaltenen Ergebnisse keinesfalls immer auch für das Unternehmen interessant: So können Redundanzen „zu Tage treten“, bedeutungslose oder bereits bekannte Zusammenhänge aufgezeigt werden oder Trivialitäten als „Ergebnisse“ präsentiert werden.

1.4 Aufbereitung der Daten

Wie bereits in Abschnitt 1.3 ausführlicher dargelegt, bestehen die größten Probleme beim Data Mining durch die zu Grunde liegenden Daten. Dementsprechend nimmt die Aufbereitung der Daten (auch „data cleaning“) einen großen Bestandteil des Vorgangs beim Data Mining ein. Folgende Verfahren können im Vorlauf des DM in Frage kommen:

- Behandlung fehlender Attributswerte

Die einfachste Möglichkeit, fehlende Werte eines Attributs zu behandeln ist, dieses Attribut bei der Auswertung nicht zu berücksichtigen. Diese Möglichkeit ist jedoch nicht immer wünschenswert. Ein zweiter Weg besteht darin, fehlende Werte zu ergänzen, beispielsweise durch das arithmetische Mittel der gefüllten Attributwerte. Schließlich können fehlende Werte besonders gekennzeichnet werden, beispielsweise „durch Einträge [...], die außerhalb des Gültigkeitsbereichs liegen, beispielsweise eine negative Zahl (z.B. -1) in einem numerischen Feld, das normalerweise nur positive Zahlen enthalten darf“ (Witten und Frank 2001).

- Behandlung doppelt vorhandener Datensätze

Redundante Datensätze lassen sich mit Hilfe einfacher Methoden herausfiltern. Doppelte Datensätze sollten im Rahmen der Aufbereitung der Daten entfernt werden.

- Datenanreicherung

Bei der Analyse der Daten kann die Erkenntnis zu Tage treten, dass die vorhandenen Daten für die Analyse nicht ausreichen. In diesem Fall ist es notwendig, weitere Datenquellen zu erschließen. Eine Möglichkeit hierzu ist der Zukauf von Fremddaten (z.B. mikrogeographische Daten). Dass hier die Grenze zwischen legaler und illegaler Datenbeschaffung sehr eng gezogen ist, soll an dieser Stelle nur erwähnt werden.

- Datenreduktion

Umgekehrt kann es der Fall sein, dass die vorhandene Datenfülle im Data Mining-Verfahren nicht verarbeitet werden kann. Hier ist es angebracht, bestimmte Daten aus der Analyse auszuschließen. Dabei muss man sich jedoch absolut sicher sein, dass das Entfernen der Daten keinen Einfluss auf das Ergebnis haben kann.

- Kodierung der Attribute

Viele Attribute der Daten liegen in textualer Form vor, die durch eine entsprechende Kodierung auswertbar gemacht werden können. So können z.B. in einem Vorlauf im Attribut „Geschlecht“ die Ausprägungen „männlich“ oder „weiblich“ durch nummerische Werte ersetzt werden.

[...]

Ende der Leseprobe aus 32 Seiten

Details

Titel
Techniken des Data Mining, Knowledge Discovery und SPSS
Hochschule
FernUniversität Hagen
Veranstaltung
Wirtschaftsinformatik
Note
1,7
Autor
Jahr
2004
Seiten
32
Katalognummer
V80443
ISBN (eBook)
9783638897907
ISBN (Buch)
9783638904230
Dateigröße
2910 KB
Sprache
Deutsch
Anmerkungen
Die Seminararbeit war teil eines Seminars des Studiums der Wirtschaftswissenschaften der FernUniversität Hagen. Die Benotung bezog sich dabei (ohne genauere Detaillierung) auf die Seminararbeit sowie einen darauf aufbauenden Vortrag im Rahmen des Seminars.
Schlagworte
Data, Mining, Wirtschaftsinformatik
Arbeit zitieren
Holger Herrmann (Autor), 2004, Techniken des Data Mining, Knowledge Discovery und SPSS, München, GRIN Verlag, https://www.grin.com/document/80443

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Techniken des Data Mining, Knowledge Discovery und SPSS



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden