Einführung in den Einsatz von Data Mining


Diplomarbeit, 2003

92 Seiten, Note: 1,3


Leseprobe


Inhalt

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1. Zielstellung und Vorgehensweise

2. Grundlagen des Data Mining
2.1 Daten und Skalen
2.2 Die Entwicklung der Datensammlung und –Auswertung
2.2.1 Historische Entwicklung
2.2.2 Das Data Warehouse Konzept
2.2.3 Definition von Data Mining und KDD

3. Vorgehensweise beim Data Mining
3.1 Analyse des Anwendungsgebietes
3.2 Datenaufbereitung
3.3 Methoden der Datenanalyse
3.4 Datenpräsentation
3.5 Basismethoden des Data Mining
3.6 Software
3.6.1 Weka
3.6.2 SPSS 10 für Windows
3.6.3 Clementine 7.0

4. Solvay Soda Deutschland GmbH
4.1 Allgemeines
4.2 Die Störungsdatenbank

5. Durchführung des Data Mining
5.1 Vermutete Zusammenhänge
5.2 Auswahl der Analysemethoden und der Software
5.4 Übernahme der Daten
5.5 Die Attribute
5.6 Vorbereitung der Daten
5.7 Anwendung der Analysemethoden
5.7.1 Deskriptive Statistiken
5.7.2 Vergleich der Zeitdauer mit anderen Attributen
5.7.3 Kreuztabellen wichtiger Attribute
5.7.4 Diskriminanzanalyse

6. Fazit

Anhang
I. Störungsdaten (Tabellen mit Datenauszügen)
II. Ergebnisse der Datenanalysen
III. Diagramme zu Abschnitt 5.7.3

Literaturverzeichnis

Erklärung

Abbildungsverzeichnis

Abbildung 1: Entwicklung Computergestützter Informationssysteme

Abbildung 2: Das Data Warehouse Konzept im weiteren Sinn

Abbildung 3: Einordnung des Data Mining im KDD Prozess

Abbildung 4: Beispiel für die Clusterung

Abbildung 5: Beispiel für die Mustererkennung

Abbildung 6: Entscheidungsbaum (Störungen an Pumpen)

Abbildung 7: Weka während der Clusterung

Abbildung 8: Beispiel einer *.ARFF - Datei

Abbildung 9: Daten-Editor von SPSS 10 für Windows

Abbildung 10: Viewer von SPSS 10 für Windows

Abbildung 11: Oberfläche von Clementine

Abbildung 12: Beispielausgabe von Clementine

Abbildung 13: Weltweite Standorte SOLVAY’s

Abbildung 14: Balkendiagramm des Zeitaufwandes

Abbildung 15: Balkendiagramm des diskretisierten Zeitaufwandes

Abbildung 16: Balkendiagramm der Temperatur

Abbildung 17: Balkendiagramm der Produktionswerte

Abbildung 18: Balkendiagramm der diskretisierten Produktionswerte

Abbildung 19: Balkendiagramm der MeßstellenKN

Abbildung 20: Balkendiagramm der Bearbeiter

Abbildung 21: Balkendiagramm der Wochentage

Abbildung 22: Balkendiagramm der Kennzeichen

Abbildung 23: Balkendiagramm der Schichten

Abbildung 24: Häufigkeit der Zeit und des Wochentages

Abbildung 25: Häufigkeit der Zeit und Kennzeichen

Abbildung 26: Häufigkeit der Zeit und Schicht

Abbildung 27: Häufigkeit der Zeit und Bearbeiter

Abbildung 28: MKN – Häufigkeiten

Abbildung 29: Bearbeiter – Häufigkeiten

Abbildung 30: Wochentag – Häufigkeiten

Abbildung 31: Kennzeichen – Häufigkeiten

Abbildung 32: Schicht – Häufigkeiten

Abbildung 33: Zeitaufwand - Häufigkeiten

Tabellenverzeichnis

Tabelle 1: Entwicklung des Data Mining

Tabelle 2: Checkliste der Vorarbeiten

Tabelle 3: Bedeutung der KZ

Tabelle 4: Übersicht der Analysemethoden

Tabelle 5: Nutzen der Attribute für Data Mining

Tabelle 6: Übersicht der transformierten Werte

Tabelle 7: Übersicht der diskretisierten Werte

Tabelle 8: Statistiken für Zeit, Temperatur und Produktion

Tabelle 9: Statistiken für Messstelle, Wochentag, KZ, Schicht

Tabelle 10: Häufigkeiten des diskretisierten Zeitaufwandes

Tabelle 11: Häufigkeiten der diskretisierten Temperatur

Tabelle 12: Häufigkeiten der diskretisierten Produktionen

Tabelle 13: Häufigkeiten der Bearbeiter

Tabelle 14: Häufigkeiten der Wochentage

Tabelle 15: Häufigkeiten der Kennzahlen

Tabelle 16: Häufigkeiten der Schichten

Tabelle 17: Kreuztabelle Zeitaufwand und Wochentag

Tabelle 18: Kreuztabelle Zeitaufwand und Kennzeichen

Tabelle 19: Kreuztabelle Zeitaufwand und Schicht

Tabelle 20: Kreuztabelle Zeitaufwand und Bearbeiter

Tabelle 21: Kreuztabelle Produktion und Temperatur

Tabelle 22: Kreuztabelle Kennzeichen und Wochentag

Tabelle 23:Klassifizierungsergebnisse der Diskriminanzanalyse

Tabelle 24: Auszug aus der Störungsdatenbank

Tabelle 25: Auszug aus den Produktions- und Temperaturwerten

Tabelle 26: Zusammengeführte und transformierte Werte

Tabelle 27: Häufigkeitstabelle des Zeitaufwandes

Tabelle 28: Häufigkeitstabelle der Tagestemperaturen

Tabelle 29: Häufigkeiten der MKN (>2)

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1. Zielstellung und Vorgehensweise

Zielstellung

Diese Arbeit soll eine Einführung in den Einsatz von Data Mining bei der Störungsbeseitigung geben. Als Testobjekt wurde die Störungsdatenbank der SOLVAY Deutschland GmbH in Bernburg gewählt. Es soll geprüft werden, ob diese die Voraussetzungen für Data Mining – Analysen erfüllt und welche Ergebnisse erzielt werden können. Des Weiteren soll ein Ausblick auf weitere Möglichkeiten des Data Mining – Einsatzes gegeben werden. Das Interesse an Data Mining wurde durch ständig auftauchende Berichte, abgehaltene Konferenzen und Wettbewerbe geweckt. Wie z.B. durch den Artikel von Michael Gonzales, dem Geschäftsführer der „Focus Group, Ltd „ einer Unternehmensberatung, die sich auf Data Mining spezialisiert hat.

“Today's business intelligence solutions must grapple with the rising flood of data, both in terms of the number of records as well as their size. For example, not only do businesses keep information about existing customers, but more and more they also keep information about previous customers for win-back campaigns and about prospective customers for acquisition models. Many businesses are attempting to analyze incredibly detailed data, as well. Data mining is uniquely qualified to inspire informational insight from massive amounts of detailed data.”[1]

In seinem Artikel beschreibt er die Notwendigkeit der Nutzung von Data Mining für die Bewältigung der Informationsflut und den daraus entstehenden Informationsvorsprung gegenüber anderen Unternehmen. Seiner Meinung ist die Bereitstellung der Daten durch ein Data Warehouse die wichtigste Voraussetzung für die Durchführung von Data Mining – Projekten, da 80% der benötigten Zeit für die Datenaufbereitung benötigt werden. Durch die richtige Vorbereitung der Daten können schneller Ergebnisse erzielt werden und diese für die Entscheidungs-findung genutzt werden.

Vorgehensweise

Als Einführung in das Thema, werden im nächsten Kapitel die Grundlagen des Data Mining dargelegt. Dazu wird als erstes auf die Einordnung der Daten in die unterschiedlichen Skalen eingegangen und die historische Entwicklung von Data Mining wird geklärt. Danach wird das Data Warehouse als geeignete Grundlage für Data Mining vorgestellt und Data Mining im Zusammenhang mit dem KDD- Prozess definiert.

Im dritten Kapitel wird die Vorgehensweise beim Data Mining erläutert. Dazu werden alle Schritte von der Analyse des Anwendungsgebietes, über die Datenvorbereitung und die einzelnen Analysemethoden durchleuchtet. Es wird bei den Methoden allerdings nicht auf die mathematischen Einzelheiten eingegangen, da dies den Umfang der Arbeit sprengen würde. Am Schluss des Kapitels werden drei unterschiedliche Softwarelösungen gezeigt.

Im vierten Kapitel werden die Solvay GmbH und die Störungsdatenbank vorgestellt. Im fünften Kapitel wird die Durchführung des Data Mining dokumentiert. Dazu werden als erstes aufgestellte Vermutungen beschrieben. Danach wird die Vorgehensweise bei der Auswahl der Analysemethoden und der Software sowie bei der Datenübernahme gezeigt. Vor der Anwendung der Analysemethoden werden die Attribute und die Datenvorbereitung dargestellt.

Im letzten Kapitel werden die Ergebnisse der Arbeit zusammengefasst und weiterführende Möglichkeiten und dafür notwendige Voraussetzungen aufgezeigt.

2. Grundlagen des Data Mining

2.1 Daten und Skalen

Daten liegen in großen Mengen und auf vielfältigste Art und Weise in Unternehmen vor. Um aus Daten jedoch Informationen gewinnen zu können, müssen diese strukturiert und formatiert werden. Formatierte schriftliche Daten haben eine hierarchische Struktur und können stufenweise zu Einheiten, sog. Datenobjekten, zusammengefasst werden:[2]

Zeichen à Datenfeld à Datensatz à Datei à Datenbank

Die unterste Stufe repräsentieren Zeichen, die als Menge den Zeichen-vorrat bilden. Dies können Buchstaben, Ziffern oder Sonderzeichen sein, die schließlich Daten erzeugen. Daten wiederum sind Fakten, die keinen direkten Verwendungsbezug haben. Sie werden in der oben dargestellten Hierarchie auf Datenträgern gespeichert.[3]

Wissen kann erst aus diesen Daten entnommen werden, wenn der Benutzer durch unterschiedliche Analysemethoden zusätzliche Informationen generiert hat. Dies sind z.B. Häufigkeiten, der Mittelwert oder unterschiedliche Lageparameter. Um die Analysen durchführen zu können, muss sich der Anwender über die Merkmalsausprägung, und Skalierung der Daten im Klaren sein.

Als quantitative Merkmale bezeichnet man Merkmale, deren Merkmalsausprägungen Zahlen sind (z.B. Produktionshöhe oder Temperatur). Qualitativen Merkmale hingegen sind alle übrigen Merkmalsausprägungen (z.B. Kennzeichen, Schicht oder Mitarbeiter als Buchstabenangaben). Ersetzt man diese verbalen Ausdrücke durch Zahlen, so wird ein qualitatives formal zu einem quantitativen Merkmal.[4]

Weiterhin spielt die Skalierung der Daten eine wichtige Rolle. So bietet zum Beispiel ein berechneter Mittelwert aus Datumsangaben keine sinnvollen Informationen. Um Berechnungen durchführen zu können benötigt die Software also Angaben zur Skalierung. Die wichtigsten Skalierungen numerischer Merkmalsausprägungen sind:

Nominalskala: Die Ausprägungen des Merkmals dienen lediglich zur Unterscheidung. Die zugeordneten Zahlen können willkürlich in andere transformiert werden. Die Buchstaben, die die unterschiedlichen Schichten in der Störungsdatenbank darstellen, wurden in die Zahlen1, 2, 3 umgewandelt, könnten aber auch durch andere ersetzt werden. Die Reihenfolge spielt also keine Rolle.

Ordinalskala (oder Rangskala): Die Ausprägungen werden hier nicht nur durch die Zahlen unterschieden, sondern auch in eine bestimmte Reihenfolge gebracht. Hierzu zählen z.B. Prioritätsangaben bei Reparaturaufträgen. Da die Zahlen lediglich eine Rangordnung angeben, können diese in andere Zahlen transformiert werden, solange die Ordnung erhalten bleibt.

Kardinalskala (oder metrische Skala): Die Ausprägungen spiegeln nicht nur eine Reihenfolge wider, sondern geben außerdem an, in welchem Ausmaß sich die verschiedenen Merkmalsausprägungen unterscheiden. Beispiele hierfür sind alle monetären Größen sowie die Variablen der Physik und Chemie (z.B. Temperatur, Umsatz, Produktion). Viele Analysen können nur bei kardinalskalierten Merkmalen durchgeführt werden. Diese Skala teilt man genauer in die Intervallskala (Abstände können verglichen werden), die Verhältnisskala (zusätzlich existiert ein natürlicher Nullpunkt) und die Absolutskala (hinzu kommt noch eine natürliche Einheit) ein.[5]

2.2 Die Entwicklung der Datensammlung und –Auswertung

2.2.1 Historische Entwicklung

Mit der Zunahme der Bedeutung des Informationssektors in den letzten 50 Jahren wurde der Wandel der Volkswirtschaften von der Industrie- zur Informationsgesellschaft vollzogen. Dabei avancierte die Informatik zur Basistechnologie, d.h. sie durchdringt alle Bereiche der Wirtschaft und wird somit zu einem wichtigen, unverzichtbaren Produktionsfaktor. Durch den Einsatz der Informatik soll die Effizienz ihrer Einsatzbereiche steigen.[6]

Durch die damit einhergehende Datenspeicherung in kommerziellen Datenbanken ist die Datenmenge mit der Zeit unüberschaubar geworden und wächst ständig weiter an. Nach Schätzungen verdoppelt sich die weltweit verfügbare Datenmenge etwa alle 20 Monate.[7]

Es fällt deshalb immer schwerer, aus dieser Fülle ungeordneter Daten schnell und verlässlich wichtige Informationen herauszufiltern. Dies führte zu einem gesteigerten Interesse an Methoden, die automatisch nützliches Wissen aus großen Datenbanken filtern können. Die Bedeutung der Information wird deutlich, wenn man erkennt, dass vor jeder Entscheidung zunächst ein Informationsproblem besteht. Informationen sind also die Grundlage für Entscheidungen.

Die im Unternehmen anfallenden operativen Daten wurden meist über Nacht durch Batchprogramme nach Informationen durchsucht. Diese Programme werden mehr und mehr durch Online Transaction Processing (OLTP) – Programme verdrängt. Dabei findet eine direkte Kommunikation zwischen dem Benutzer und dem Datenbestand statt. Operative Daten führen so zu operationellen Lösungen. Für die Entscheidungsfindung sind jedoch so genannte Informationslösungen wie z.B. Abfragen, Auswer-tungen und Analysen nötig. Diese für die Datenanalyse entwickelten Lösungen werden als Online Analytical Processing (OLAP) bezeichnet.[8]

Informationen zur richtigen Zeit sind für die korrekte Entscheidungsfindung unverzichtbar. Um diese Aufgabe zu erfüllen werden seit über 25 Jahren DV-Lösungen entwickelt.

So startete man bereits in den 60er Jahren den Versuch mittels Manage-ment Information Systems (MIS) Informationen als Entscheidungshilfe zu nutzen, was aber wegen der geringen Rechenleistung oft scheiterte. Des Weiteren unterstützten MIS weder die Problemstrukturierung, noch boten sie konkrete Lösungsverfahren.

Anfang der 70er Jahre rückte das Rechungswesen und das Controlling in den Mittelpunkt der Managementunterstützung. Diese sollten mit Hilfe der Entwicklung von Decision Support Systems (DSS), mit denen „Was ist wenn...“ – Fragestellungen auf Basis interner Datenbanken beantwortet werden können, Hilfe bei der Entscheidungsfindung bieten. Typisch für DSS sind der Datenzugriff, statistische Funktionen, starre Modellstruk-turen und komplizierte Kommandosprachen.[9]

Da man mit den sehr teuren und kompliziert errechneten Modellen die komplexe Wirklichkeit nur teilweise abbilden konnte, besann man sich in den 90er Jahren wieder auf die „bloße“ Bereitstellung von Informationen. Allerdings zeichnen sich diese neu entwickelten Führungs- / Entscheidungsträgerinformationssysteme (FIS/EIS) durch das Finden bisher unbekannter Zusammenhänge sowie durch eine benutzerfreund-liche und grafikorientierte Handhabung aus.

Moderne FIS/EIS erfüllen folgende Anforderungen:

- grafische, tabellarische und textliche Darstellung von Daten
- Anwenderfreundlichkeit (geringer Schulungsaufwand)
- Individuell anpassbar an die jeweiligen Bedürfnisse
- direkt bedienbar von den Entscheidungsträgern
- Auswertung von internen und externen Daten
- Filterung, Extrahierung, Verdichtung und Aufspürung kritischer Daten[10]

In der folgenden Grafik sind die historische Entwicklung der unterschied-lichen Informationssysteme und deren Unterstützungspotential für die Unternehmensführung dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Entwicklung Computergestützter Informationssysteme[11]

2.2.2 Das Data Warehouse Konzept

Eine geeignete Grundlage für das Data Mining stellt das Data Warehouse dar. Ein wichtiger Vorteil des Data Mining in einer Data Warehouse Umgebung besteht darin, dass der Schritt der Datenbeschaffung

–Integration und –Bereinigung auf ein Minimum reduziert ist.

Das Data Warehouse wird von W.H. Inmon definiert als eine themenorientierte, integrierte, zeitbezogene und dauerhafte Sammlung von Informationen zur Entscheidungsunterstützung des Managements.

Es handelt sich also um einen Datenpool, der die relevanten Daten umgeformt und aufbereitet zur Verfügung stellt.

Wichtige Voraussetzungen für die Nutzung von Daten sind:[12]

- Vollständigkeit
- Zugriffsmöglichkeit
- Störungsfreier Ablauf der operativen Prozesse
- Datensicherheit.

Um die Erfüllung dieser Voraussetzungen zu gewährleisten, wurde das Data Warehouse Konzept entwickelt. Wie in Abbildung 2 zu sehen, dienen die im Unternehmen vorhandenen operativen Datenbestände dabei als Ausgangspunkt.

Im Gegensatz zu operativen Informationssystemen (z.B. OLTP) ist das Data Warehouse:

subjektorientiert, d.h. die wichtigsten Subjekte (Kunden, Produkte ...) des Unternehmens stehen im Mittelpunkt. Die Sammlung ungenutzter Informationen wird verringert. Die Daten werden bei der Übernahme durch Hilfsprogramme bereinigt und umgeformt, so wird für Kompatibilität und Konsistenz der Datensammlung gesorgt.[13]

vollständig integriert, d.h. die im Unternehmen verteilten Daten werden in einen homogenen Datenbestand integriert. Die logische Integration steht dabei im Vordergrund. Eine bloße Sammlung aller Informationen reicht nicht aus, da teilweise Daten für denselben Sachverhalt in unterschied-lichen Formaten gespeichert werden und so Redundanzen entstehen.

zeitbezogen, d.h. die Daten sind nach Perioden geordnet, Anfragen erfordern damit immer eine zeitliche Fokussierung. Dies ist notwendig, um Entwicklungen, z.B. der Störungshäufigkeit, zu analysieren und Prognosen zu erstellen.

dauerhaft, d.h. Daten im Data Warehouse können nur gelesen und gespeichert, jedoch nur im Ausnahmefall nachträglich geändert werden. Dadurch wird die Konsistenz des Datenbestandes sichergestellt.[14]

Aufgabe des Data Warehouse ist es also Daten aus verschiedensten Quellen, intern und extern, heranzuziehen und für die Bedürfnisse der Auswertung neu zu formalisieren.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Das Data Warehouse Konzept im weiteren Sinn[15]

Um den Überblick in den riesigen Datenmengen nicht zu verlieren, sind in einem Data Warehouse folgende Datenebenen zu unterscheiden,.

Aktuelle operative Daten Diese werden ganz oder teilweise aus dem operativen Datenbestand übernommen und müssen meist modelliert und integriert werden, um sie für informative Anwendungen nutzen zu können.

Zusammengeführte Daten sind Einzelsätze aus zusammengefassten operativen Daten, die bereinigt, angepasst und erweitert wurden.

Abgeleitete Daten sind summierte Daten, um z.B. wöchentliche oder monatliche Werte zu erhalten.

Änderungsdaten durch Aktualisierungen generierte Änderungsdaten, die protokolliert und archiviert werden. Sie reflektieren die gesamte Datenhistorie und sind für die Erstellung von Trends unentbehrlich.

Metadaten sind Informationen über Datenelemente (z.B. Inhalt, Typ, Aktualität), die im Data Warehouse enthalten sind. Als zentraler Punkt sind diese in Datenkatalogen zu finden und sollten dem Endbenutzer jederzeit zur Verfügung stehen.[16]

Zusammenfassend lässt sich also festhalten, dass in einem Data Warehouse von aktuellen Detaildaten bis hin zu komprimierten Daten alle Daten für den Einsatz von Data Mining vorhanden sind.

2.2.3 Definition von Data Mining und KDD

Der Begriff Data Mining kommt von dem englischen Wort mine, das Mine oder Bergwerk bedeutet. Mining steht für den Bergbau. Übertragen bedeutet Data Mining somit die Suche nach versteckten Informationen in einer Datenmasse. Dazu gehören u.a. Muster, Trends und Prognosen.

Der Data Mining Prozess wird in der englischen Literatur auch als KDD Prozess bezeichnet. Data Mining stellt darin nur den eigentlichen Teil der Suche nach Datenmustern dar (siehe Abb. 3).[17]

Da aber heutige Data Mining Tools auch für die anderen Phasen, wie z.B. Datenaufbereitung, konzipiert sind, sollte der Begriff Data Mining nicht nur auf die Suche nach unbekannten Datenzusammenhängen eingeschränkt werden. Data Mining wird deshalb in dieser Arbeit als gesamter Prozess von der Datenaufbereitung über die Datenanalyse bis hin zur Datenpräsentation angesehen. Eine anschließende ausführliche Phase der Informationsinterpretation, um schließlich zum sog. Wissen zu gelangen, kann als zusätzliche Phase im Anschluss an den Data Mining Prozess angesehen werden. In dieser Phase sind letztendlich auch menschliche Fähigkeiten, wie z.B. Intuition oder Kreativität, gefragt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Einordnung des Data Mining im KDD Prozess[18]

Moderne Data Mining Systeme weisen folgende Leistungsmerkmale auf:[19]

- automatisierte Aufdeckung unbekannter Zusammenhänge in ungeordneten Datenbeständen
- automatisierte Vorhersage von Trends, Verhalten und Mustern auf Basis hinterlegter Daten
- Data Mining beinhaltet in Abgrenzung zu SQL – Abfragen, Reportgeneratoren und OLAP – Werkzeugen keine Analysevorgänge, die explizite Informationen erzeugen. Sie haben implizite Informationen als Ergebnis.

Data Mining wurde nicht von heute auf morgen geboren. Die Data Mining Techniken gibt es seit Jahrzehnten, sie waren allerdings nicht weit verbreitet. Gründe dafür waren die hohen Kosten und die Komplexität, die es nur Experten ermöglichte, Data Mining zu beherrschen. Auf dem Weg zur Entstehung des Data Mining wurden zunächst viele verschiedene Techniken und Produkte entwickelt, die der Entfaltung von Data Mining entgegenkamen.[20]

Die folgende Tabelle gibt Auskunft über die Entwicklung von der Data Collection über Data Access und Data Warehousing bis hin zum Data Mining:

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Entwicklung des Data Mining[21]

Viele Gründe sprechen dafür, dass Data Mining sich durchsetzen kann. Mit dem Aufbau eines Data Warehouse ist eine zentrale, allen zugängliche und konsistente Datenbasis gegeben. Diese übernimmt wie bereits erläutert die Grundaufgaben, wie z.B. Datensammlung und –Integration, die für den Einsatz von Data Mining unerlässlich sind. Außerdem hat sich die Hard- und Softwaretechnik enorm verbessert und ist vor allem preisgünstiger geworden. Dadurch können die hohen Anforderungen der komplexen Data Mining Algorithmen an die Rechenleistung erfüllt werden.[22]

Eine Untersuchung der Gardner Group über neue Technologien ergab, dass Data Mining und künstliche Intelligenz als Schlüsseltechnologien ganz vorne liegen. Positiv wirkt sich zudem die Tatsache aus, dass die meisten Unternehmen bei der Planung und Einführung eines Data Warehouse auch gleichzeitig die Implementierung von Data Mining planen.[23]

Diese Diplomarbeit (7 Jahre später) ist der beste Beweis für das andauernde Interesse am Data Mining.

Data Mining Systeme sind eindeutig von Expertensystemen abzugrenzen. Es ist zwischen zwei grundlegenden Zielen zu unterscheiden:

induktives Lernen (Data Mining): Entdecken neuer Zusammenhänge in großen Datenbeständen deduktives Lernen (Expertensysteme): Gewinnung neuer Erkenntnisse aus logischen Schlussfolgerungen, beispielsweise kann aus den Regeln „Wenn Weihnachten ist, ist es Winter“ und „Heute ist Weihnachten“ gefolgert werden, dass es Winter ist.[24]

Herkömmliche Entscheidungsunterstützungssysteme, wie z.B. Abfragen und Reports, gehören zu den Verifikationsmodellen. Dabei formuliert der Benutzer eine Hypothese, erstellt eine Abfrage an das Data Warehouse, die die These dann verifiziert oder widerlegt. Dafür ist natürlich Fachwissen und Erfahrung seitens der Benutzer Voraussetzung, da sie selbst eine Hypothese bilden müssen. Letztlich erhält der Anwender nur Bestätigung bereits erahnter Informationen. Unvermutete Informationen und Beziehungen der Daten untereinander bleiben unerkannt. Die erhaltenen Informationen bleiben somit immer unvollständig und die auf ihnen basierenden Entscheidungen mit einem größeren Risiko behaftet.[25]

Die neuen Entscheidungsunterstützungssysteme, zu denen auch das Data Mining gehört, werden zu den Entdeckungsmodellen gerechnet, d.h. sie sind in der Lage Algorithmen einzusetzen, die große Datenbestände selbständig analysieren können. Sie ergänzen die Verifikationsmodelle, weil sie Zusammenhänge in den Daten erkennen, ohne dass der Benutzer eine Hypothese formulieren muss.[26]

Data Mining bietet dem Benutzer also die Voraussetzung, viele ungeahnte Aussagen, Regeln oder Informationen zu finden. Die menschliche Leistung allerdings besteht anschließend darin, die Ergebnisse zu interpretieren, zu präsentieren und für weitere Analysen zu speichern.

3. Vorgehensweise beim Data Mining

Vor dem Beginn des eigentlichen Data Mining Prozesses muss zunächst das betroffene Einsatzgebiet analysiert werden. Dabei muss zunächst klar definiert werden welches Ziel verfolgt wird. Das anschließende Data Mining lässt sich grob in die drei Phasen Datenaufbereitung, Datenanalyse und Datenpräsentation gliedern.

Datenaufbereitung: Relevante Daten selektieren

Daten aufbereiten und transformieren

Datenanalyse: Daten analysieren

Informationen extrahieren

Datenpräsentation: Informationen visualisieren

3.1 Analyse des Anwendungsgebietes

Bevor Überlegungen bzgl. der Datenbereitstellung oder des geeigneten Lernverfahrens unternommen werden, müssen zunächst genau die Wünsche und Ziele des Anwenders erfasst werden, um das zu entwickelnde System klar festzulegen. Dazu müssen folgende Fragen geklärt werden:

Welches Ziel soll mit der Wissenserhebung verfolgt werden?

Hierbei kommt es darauf an, dass genau abgesteckt wird, was das zu entwickelnde System leisten soll[27]

Soll zur Weiterverarbeitung der gefundenen Zusammenhänge ein bestimmtes Softwaresystem eingesetzt werden?

Gleich zu Beginn es Projektes muss die Frage nach dem Zielsystem geklärt werden, da es ansonsten zu unnötigen Rückschleifen und Mehraufwand durch nicht passende Formalismen kommen kann.[28]

Müssen die gefundenen Zusammenhänge hundertprozentig korrekt sein?

Hier muss der Anwender sich entscheiden, welchen Grad an Unsicherheit er in den gefundenen Wissensstrukturen zulassen kann. Besteht man auf einen hohen Korrektheitsgrad nahe 100%, so muss viel mehr Aufwand in die vorbereitenden Schritte, wie Datenauswahl und Aufbereitung, aber auch in das Lernverfahren selbst, fließen. Über eines muss jedoch völlige Klarheit herrschen: Hundertprozentig korrekte Lösungen wird man nur in den seltensten Fällen erhalten.[29]

Über welche Daten kann der Anwender verfügen?

Schon in dieser frühen Phase ist es wichtig abzuklären, welche Daten maximal für die Wissensgenerierung bereitgestellt werden können. Liegt keine geeignete Datenbasis vor, so kann auch kein noch so durchdachtes Lernverfahren daraus Wissen generieren. Eine Faustregel hierfür lautet: “Nur Daten in denen auch der menschliche Experte einige der erwarteten Zusammenhänge aufdecken kann, sind für den Einsatz von Lernverfahren geeignet!“ Hier muss also geklärt werden, ob die vorgegebenen Daten in ihrer Grundstruktur überhaupt geeignet sind, das vorliegende Problem zu lösen.[30]

Können diese Daten ergänzt werden?

Wenn ja mit welchem Aufwand? Liegen die Daten noch nicht vor, so muss darüber nachgedacht werden, ob diese Daten zukünftig an einer passenden Stelle des betrieblichen Ablaufes erfasst werden können. Ist dies der Fall, so muss noch geprüft werden, ob die durch die Datenanalyse erwartete Effizienzsteigerung den hierbei entstehenden Mehraufwand rechtfertigt.[31]

[...]


[1] Gonzales(2003), Data Mining: A Call To Action

[2] vgl. Hansen (1992): Wirtschaftsinformatik I, S. 110

[3] ebenda, S. 110f

[4] vgl. Bamberg, Baur (1998): Statistik, S. 5f

[5] vgl. Bamberg, Baur (1998): Statistik, S. 6f

[6] vgl. Mertens, Wieczorek (2000): Data X Strategien, Seite 7-9

[7] vgl. Chamoni, Gluchowski (1998): Analytische Informationssysteme…, S. 25

[8] vgl. Boehrer (1997): Data Warehouse und Data Mining…, S.14

[9] vgl. Mertens, Wieczorek (2000): Data X Strategien, S. 16f.

[10] vgl. ebenda, S. 18

[11] vgl. Mertens, Wieczorek (2000): Data X Strategien, S. 17

[12] Hannig (1996): Unterstützung für die Entscheider, S. 22f

[13] vgl. Mertens, Wieczorek (2000): Data X Strategien, S. 111

[14] vgl. Mertens, Wieczorek (2000): Data X Strategien, S. 111

[15] Schinzer, H.D.(1996): Data Warehouse – Informationsbasis ..., S.469

[16] vgl. Mertens, Wieczorek (2000): Data X Strategien, S. 123-130

[17] vgl. Kafka (1999): Konzeption und Umsetzung eines Leitfadens ..., S. 12

[18] ebenda, S. 13

[19] vgl. Mertens, Wieczorek (2000): Data X Strategien, S. 212

[20] vgl. Gilmozzi (1996): Data Mining – Auf der Suche nach dem Verborgenen, S.168f

[21] ebenda

[22] vgl. Gilmozzi (1996): Data Mining – Auf der Suche nach dem Verborgenen, S.168

[23] ebenda

[24] vgl. Mertens, Wieczorek (2000): Data X Strategien, S. 212

[25] vgl. Boehrer (1997): Data Warehouse und Data Mining…, S. 17

[26] vgl. Boehrer (1997): Data Warehouse und Data Mining…, S. 17

[27] vgl. Kafka (1999): Konzeption und Umsetzung eines Leitfadens ..., S. 44f

[28] ebenda

[29] vgl. Kafka (1999): Konzeption und Umsetzung eines Leitfadens ..., S. 45

[30] ebenda

[31] ebenda

Ende der Leseprobe aus 92 Seiten

Details

Titel
Einführung in den Einsatz von Data Mining
Hochschule
Hochschule Anhalt - Standort Bernburg
Note
1,3
Autor
Jahr
2003
Seiten
92
Katalognummer
V75722
ISBN (eBook)
9783638849760
ISBN (Buch)
9783638849159
Dateigröße
1140 KB
Sprache
Deutsch
Schlagworte
Einführung, Einsatz, Data, Mining
Arbeit zitieren
Diplom-Betriebswirt Andre Hiller (Autor:in), 2003, Einführung in den Einsatz von Data Mining, München, GRIN Verlag, https://www.grin.com/document/75722

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Einführung in den Einsatz von Data Mining



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden