Big Data. Praktische Durchführung eines Data-Mining-Prozesses mit dem Ziel der Produktionsqualitätssteigerung


Masterarbeit, 2016

160 Seiten, Note: 1,0


Leseprobe


Inhaltsverzeichnis

1 Einleitung
1.1 Problemstellung
1.2 Motivation
1.3 Lösungsansatz, Ziele, Anspruch und Abgrenzung der Arbeit
1.4 Aufbau der Arbeit

2 Begriffliche Grundlagen: Big Data, Business Intelligence und Data Mining
2.1 Big Data: Beschreibung, Ursprung und Definition
2.2 Business Intelligence: Beschreibung, Ursprung und Definition
2.3 Data Mining: Beschreibung, Ursprung und Definition

3 Das Themengebiet Data Mining
3.1 Inhaltliche Schwerpunkte
3.2 Verwandte Themengebiete
3.3 Verwendete Terminologie
3.4 Data Mining als Modell
3.4.1 Das Prozessmodell nach Chapman
3.4.2 Das Prozessmodell nach Fayyad
3.4.3 Vergleich verschiedener Prozessmodelle
3.4.4 Modellübergreifende Prozessschritte
3.5 Häufig auftretende Probleme beim Data Mining
3.6 Data Mining im betrieblichen Umfeld
3.6.1 Ein Überblick
3.6.2 Data Mining und Qualitätsdaten

4 Data Mining Verfahren und Algorithmen
4.1 Das Analyseziel
4.2 Verfahrensklassen und Verfahren
4.2.1 Überwachte beschreibende Verfahren
4.2.2 Das Subgroup discovery Verfahren
4.3 Qualitätsfunktionen
4.4 Ergebnisraumbeschränkungen
4.5 Algorithmen
4.5.1 Suchansatz
4.5.2 Heuristische Suche
4.5.3 Erschöpfende Suche
4.5.4 Der allgemeine Subgroup discovery Algorithmus
4.5.5 Der Beam Search Algorithmus
4.5.6 Der SD-Map Algorithmus
4.6 Prototypischer Einsatz des Subgroup discovery Verfahrens

5 Vorstellung der verwendeten Werkzeuge
5.1 QlikView
5.2 Vikamine

6 Task Analysis
6.1 Die Jowat SE allgemein und das Qualitätsmanagement im Speziellen
6.2 Definition des Analysezieles
6.3 Analyse des Anwendungsobjektes
6.3.1 Objekte
6.3.2 Objektattribute
6.4 Rohdatenbeschaffung und Exploration
6.5 Anpassung der Objektattribute

7 Preprocessing
7.1 Integration der verschiedenen Datenquellen
7.1.1 Entstehungsprozess
7.1.2 Berechnung und Gruppierung einzelner Attribute
7.2 Datenbereinigung
7.3 Transformation der Daten
7.4 Überprüfung des Modells

8 Data Analysis
8.1 Auswahl des Analyseverfahrens
8.2 Wahl der Verfahrensparameter
8.3 Durchführung der Analyse und Bewertung der Ergebnisse (Suchlauf 1)
8.3.1 Analyse zehn ausgewählter Subgruppen
8.3.2 Ergebnis der Untersuchungen
8.4 Iterative Verbesserung der Analyse

9 Postprocessing
9.1 Analyse und Bearbeitung des Ergebnisses
9.2 Darstellung des Ergebnisses
9.3 Bewertung des Data Mining Prozesses

10 Probleme während der Bearbeitung

11 Fazit

12 Anhang

Kurzfassung

Im Zentrum der vorliegenden Arbeit steht die Anreicherung von Wissen zur Durchführung eines Data Mining Projektes im produktionsnahen Umfeld, die Gliederung verschiedener Data Mining Verfahren und die prototypische Implementierung eines solchen Verfahrens auf eine Praxisanwendung in der Qualitätssicherung.

Angelehnt an den Bergbau stellt Data Mining eine Methodik zum systematischen Gewinnen von Informationen aus großen Datenbeständen dar. Ausgehend vom Durchsuchen einer Datenquelle, über das Identifizieren und Selektieren von relevanten Informationen, hin zur Präsentation und Ableitung von Handlungsempfehlungen vereint die Methodik einen holistischen Ansatz auf sich.

Die Anwendung der Methodik im Produktionsbereich stellt noch eine Ausnahme dar. Wesentliche Gründe hierfür sind der Mangel an praxisorientierten Theoriegrundlagen, die Herausforderung aus einer Vielzahl verschiedener Data Mining Verfahren ein geeignetes für den Anwendungsfall zu finden und das Fehlen von praktischen Ansätzen zur Bearbeitung eines Data Mining Projektes.

Neben einer generellen Vorstellung des Data Mining als mehrphasigen Prozess findet in der Arbeit eine detaillierte Aufbereitung von Data Mining Verfahren und den dahinterliegenden Algorithmen statt. Ein besonderes Augenmerk wird auf das Subgroup discovery Verfahren und die darin enthaltenen Stellschrauben wie Qualitätsfunktionen und Suchansätze als eine neuartige Möglichkeit der Mustererkennung in Qualitätsdaten gelegt. Dieses ermöglicht die zielgerichtete Suche nach Problemkonstellationen und nimmt dabei das Entdecken von qualitativ signifikant abweichenden Subgruppen in den Fokus. Neben theoretischen Grundlagen wird die Funktionsweise und die Sensitivität des Verfahrens auf Qualitäts­funktionen an praktischen Beispielen erläutert.

Den Kern der Arbeit bildet die Durchführung eines Data Mining Projektes zur Produktions­qualitätssicherung in der verfahrenstechnischen Industrie.

Ausgehend von der Analysezieldefinition findet eine Auswahl an relevanten Prozess­informationen für das Data Mining Projekt statt. Im zweiten Schritt werden die Rohdaten so aufbereitet, dass diese analysiert werden können. Dafür werden verschiedene Informationsquellen zu einem Datenmodell zusammengesetzt, Dieses wird im Anschluss evaluiert, um daraus im letzten Schritt die zu analysierenden Daten zu exportieren.

Gegenstand der Datenanalyse ist die Untersuchung der Daten mithilfe des Subgroup discovery Verfahrens. In einem iterativen Prozess werden die Verfahrensparameter Schritt für Schritt angepasst, um die Ergebnisqualität zu optimieren.

Das so gewonnene Ergebnis wird im Anschluss mithilfe der Realdaten überprüft, bewertet und aufbereitet. Problematische Prozessattribute bzw. deren Kombinationen werden herausgearbeitet, um daraus Handlungsempfehlungen abzuleiten. Die Anwendung des Subgroup discovery Verfahrens in diesem Anwendungsfall generierte 24 Verdachtsmomente, die im Nachgang im operativen Betrieb berücksichtigt werden.

Summa summarum zeigt die Arbeit, dass Data Mining und im Besonderen das Subgroup discovery Verfahren die Ableitung präventiver Maßnahmen aus Prozessinformationen, die mittelbar zur Produktionsqualitätssicherung beitragen, ermöglicht.

Abstract

At the center of this thesis is the accumulation of knowledge to execute a data mining project in a manufacturing environment, and to analyze the use and implementation of various data mining methods as tools for quality assurance.

Inspired by the processes in the mining industry, data mining is a methodology for systematically extracting knowledge from large databases. Data mining starts by searching within a data source, followed by identifying and selecting the relevant information, and finally generating and presenting recommended actions. Thus, data mining is a holistic and comprehensive method of analyzing data.

However, the use of the methodology in the manufacturing sector is still an exception. There are three mains reasons why this is the case. First is the lack of theory fundamentals that could be practically applied to manufacturing. Second is the challenge in finding a method that is most suitable for practical application. And third is the lack of practical approaches for processing a data mining project.

In addition to explaining the general idea of data mining as a multi-stage process, this work also provides a detailed analysis of data mining methods and their underlying algorithms. Special attention is given to the subgroup discovery method and the tools contained therein, including quality and search functions as novel ways of pattern recognition in data quality. This allows the targeted search for problem constellations and brings the discovery of highly significant different subgroups in focus. In addition to theoretical foundations, this thesis uses practical examples to explain the functionality and effectiveness of the subgroup discovery method and the sensitivity of quality functions.

The core of this work is the implementation of a data mining project for production quality assurance in the manufacturing industry.

Starting with the task analysis, the thesis identifies the relevant parameters for the data mining project within the production process. Subsequently, the raw data are processed and analyzed. Various sources of information are then assembled into a data model. The model will be evaluated and the data will be analyzed and exported. The data is analyzed and examined using the subgroup discovery method. In an iterative process, the search-process parameters are adjusted step by step in order to optimize the result quality.

The results obtained are re-examined, evaluated and processed using real process data. Problematic process attributes or their combinations are worked out in order to derive recommendations for action. The application of the subgroup discovery method generated 24 suspicions which are used to optimize the quality of operations.

All in all, the work shows that data mining, in particular the subgroup discovery method, enables an organization to take preventive actions based on process data, which indirectly contribute to production quality assurance.

Abbildungsverzeichnis

Abbildung 1: Der Data Mining Prozess

Abbildung 2: Schematische Darstellung eines Produktionsprozesses

Abbildung 3: Herausforderungen bei der Anwendung von Data Mining

Abbildung 4: Gründe gegen die Anwendung von Data Mining

Abbildung 5: Das 3-V-Modell

Abbildung 6: Unterschiedliche Facetten von Business Intelligence

Abbildung 7: Begriffsabgrenzung Data Mining

Abbildung 8: Das Umfeld von Data Mining

Abbildung 9: Das Prozessmodell nach Chapman

Abbildung 10: Das Prozessmodell nach Fayyad

Abbildung 11: Die fünf allgemeinen Prozessschritte

Abbildung 12: Data Mining Anwendungsbereiche

Abbildung 13: Veröffentlichte Industrieanwendungen von Data Mining

Abbildung 14: Bewertung von Aussagen zu Data Mining

Abbildung 15: Potenziale von Data Mining in verschiedenen Anwendungsgebieten

Abbildung 16: Verfahrensklassen und Verfahren

Abbildung 17: Der Unterschied zwischen Verfahren des Struktur- und Vorhersagewissens ..

Abbildung 18: Subgruppen in einer Datenbasis

Abbildung 19: Gliederung von Data Mining Verfahren

Abbildung 20: Verzweigungsbaum Beam Search Algorithmus

Abbildung 21 : Konstruktion eines FP-Trees 1

Abbildung 22: Konstruktion eines FP-Trees 2

Abbildung 23: Datenbasis 1 Demonstration Subgroup discovery

Abbildung 24: Parameterwahl 1 Subgroup discovery Demonstration

Abbildung 25: Ergebnis 1 Subgroup discovery Demonstration

Abbildung 26: Datenbasis 2 Demonstration Subgroup discovery

Abbildung 27: Ergebnis 2 Subgroup discovery Demonstration

Abbildung 28: Ergebnis 3 Subgroup discovery Demonstration

Abbildung 29: Ergebnis 4 Subgroup discovery Demonstration

Abbildung 30: QlikView Dashboard

Abbildung 31 : Vikamine Auswahlbereich

Abbildung 32: Tableau Dashboard

Abbildung 33: Der Produktionsprozess

Abbildung 34: Liste interessanter Attribute entlang des Produktionsprozesses

Abbildung 35: Datenauszug ERP-System

Abbildung 36: Auflistung der berücksichtigten Attribute

Abbildung 37: Das Datenmodell in QlikView

Abbildung 38: Integration der Rohstoff in die Attributtabelle

Abbildung 39: Ergebnis Beam Search 1

Abbildung 40: Überblick über die gefundenen Subgruppen

Abbildung 41 : Verhältnisdarstellung der gefundenen Subgruppen

Tabellenverzeichnis

Tabelle 1: Die historische Entwicklung des Data Mining

Tabelle 2: Vergleich verschiedener Prozessmodelle

Tabelle 3: Ergebnisse verschiedener Qualitätsfunktionen

Tabelle 4: Das Attribut Produktionsdauer

Tabelle 5: Gruppierung des Attributs Produktionsdauer

Tabelle 6: Rohergebnis des Data Mining Prozesses

Tabelle 7: Analyse Produkt 14820

Tabelle 8: Analyse Produkt 82410

Tabelle 9: Analyse Produkt 60377

Tabelle 10: Analyse Produkt 62830

Tabelle 11: Analyse Rohstoff R20311

Tabelle 12: Analyse Rohstoff R41102

Algorithmenverzeichnis

Algorithmus 1: Der allgemeine Subgroup discovery Algorithmus

Algorithmus 2: Der Beam Search Algorithmus

Algorithmus 3: Der SD-Map Algorithmus

1 Einleitung

Aktuell wird in der Industrie und in den Medien das Thema „Industrie 4.0“, mit der die zunehmende informationstechnische Vernetzung innerhalb der Produktion zusammenfassend bezeichnet wird, stark diskutiert. Die verstärkte Einbeziehung von Informationstechnik in die Produktion führt bereits heute zur Erzeugung riesiger Datenmengen.

Moderne Produktionsmaschinen und die durchgehende automatisierte Speicherung von Informationen entlang von Produktionsprozessen tragen in den kommenden Jahren zu einer großen Menge an automatisch erzeugten Informationen mit hoher Datenqualität bei (Fraunhofer IPA, 2014). Diese Datenflut lässt sich unter der Thematik Big Data zusammenfassen, mit der das Vorliegen großer Datenberge in der heutigen Zeit bezeichnet wird.

Neben Produktionsfaktoren sind es die im Rahmen der Informationsverarbeitung anfallenden Daten, die eine der wichtigsten Ressourcen in Unternehmen darstellen. Diese weisen häufig ungehobene Potenziale zur Prozessoptimierung, Produktionssteuerung und Qualitäts­sicherung auf. Der Umgang mit den erfassten Daten aus Produktionsketten und die Reduzierung der Informationsüberflutung werden in Zukunft weiter an Bedeutung gewinnen. Zur Überwindung dieses Problems und zur Hebung von Potenzialen daraus ist es notwendig, innovative Mittel einzusetzen. Eine der wichtigsten Anforderungen an moderne Unternehmen ist es, geeignete Lösungen für diese Aufgabe zu finden. Eine dieser Lösungen stellt das Data Mining dar (ebd.).

Angelehnt an die Namensherkunft des Begriffs Data Mining kann die Thematik mit der Erzförderung im Bergbau verglichen werden. In dieser Abstraktion stellt der aufgeschüttete Datenberg einen Fördergrund nach interessantem Wissen dar. Die Identifizierung eines geeigneten Fördergrundes erfolgt durch die Exploration von Gebieten. Im Sinne des Data Mining ist dies der Einsatz von Business Intelligence Werkzeugen, welche weiterhin auch für die Förderung des Wissens eingesetzt werden. Data Mining stellt hierbei eines dieser Werkzeuge dar, welches besonders für das Abbauen von Wissen mit komplexen Zusammenhängen zum Einsatz kommt.

Der als Big Data bezeichnete Datenberg besteht zum Teil aus Erz, also interessantem Wissen, und zum weitaus größeren Teil aus tauben Gestein, den nicht interessanten Informationen. Innerhalb des Fördergrundes verdeckt das taube Gestein das interessante Wissen. Um dieses beiseite zu schaffen und das Erz zu selektieren, bedarf es dem Einsatz technischer Mittel. Data Mining als Methodik, beinhaltet hierfür eine Vielzahl von ebendiesen. Sie ermöglichen sowohl das Abbauen bzw. Durchsuchen des Datenberges als auch das Bewerten und Selektieren von Informationen sowie das Präsentieren von interessantem Wissen (vgl. Abbildung 1).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Der Data Mining Prozess (healthinformatics, 2012)

Data Mining wird zur Analyse von linearen, nichtlinearen und zeitverzögerten Abhängigkeiten eingesetzt. Mit Data Mining lassen sich gesammelte Informationen der Produktion systematisch analysieren, um daraus Wissen zu generieren, das zusätzliche Wettbewerbsvorteile bringt und Rationalisierungspotenziale freisetzt.

Vor allem in der Prozessindustrie zeigen sich hervorragende Ansatzpunkte für erfolgreiches Data Mining. Bei der verfahrenstechnischen Prozessführung werden typischerweise wesentliche Qualitätsparameter von Grundstoffen, wie bspw. Viskosität und Festigkeit, gemessen. Daneben werden während des gesamten Produktionsprozesses die Einstell­paramater der Produktionsanlagen aufgezeichnet.

Der Zusammenhang zwischen diesen Parametern und der Produktqualität ist leicht verständlich, wie die einzelnen Parameter jedoch zusammenwirken, ist in der Regel nicht vollumfänglich nachvollziehbar (vgl. Abbildung 2). Data Mining stellt hierbei eine Möglichkeit dar, verborgene Muster in diesen Parametern zu entdecken (Oswald, 2001).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Schematische Darstellung eines Produktionsprozesses (Fraunhofer IOSB, 2011)

Die Entwicklungen im Bereich Industrie 4.0 wird die Relevanz von Data Mining in produktionsnahen Bereichen erhöhen. Unternehmen, welche dem Thema aufgeschlossen gegenübertreten, werden gute Möglichkeiten zur datengetriebenen Optimierung von Produkten und Produktionsabläufen besitzen. Nach Meinung verschiedener Analysten gehört Data Mining zu den wichtigsten Innovationstechnologien, mit denen Unternehmen ihren Fortbestand sichern können (Fraunhofer IPA, 2014).

1.1 Problemstellung

Data Mining wird als Sammlung von Analysemethoden für Produktionsabläufe bereits seit über zehn Jahren in der Wissenschaft diskutiert. Auch in der praktischen Anwendung sind Methoden des Data Mining seit vielen Jahren bekannt, jedoch ist ihr Einsatz dort nicht verbreitet. Der Methoden bedienen sich bislang jedoch vorwiegend Unternehmen aus Branchen mit starkem direktem Endkundenbezug wie beispielsweise Banken, Versicherungen und der Handel. Zusätzlich sind Medizin und Forschung Hauptanwender von Data Mining Methoden. In diesen Bereichen ist Data Mining bereits ein etabliertes Werkzeug zur Generierung von Wettbewerbs­vorteilen (Fraunhofer IPA, 2014).

Trotz des großen Potenziales, das Data Mining auch für Produktionsunternehmen bietet, ist die Verwendung von Data Mining Methoden in diesem Bereich wenig verbreitet. Das Fraunhofer IPA Institut erhob 2014 in einer Studie, welche Herausforderungen bei der Einführung von Data

Mining auftreten (vgl. Abbildung 3). Bei der Befragung verschiedener Produktionsunternehmen stellte sich heraus, dass die meisten Unternehmen die Einbindung von Data Mining in Arbeitsabläufe als größte Herausforderung ansehen. Eine ähnliche Bewertung erhalten die Schaffung der notwendigen Datenqualität und die langfristige Sicherstellung dieser. Auch die Erstellung von Data Mining Modellen, die Auswahl einer geeigneten Software und die Aneignung von Fachwissen wurden von den beteiligten Unternehmen bewertet.

Herausforderungen bei der Anwendung von Data Mining

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Herausforderungen bei der Anwendung von Data Mining (Fraunhofer IPA, 2014)

Resultierend aus den Anforderungen leiten sich Gründe ab, warum sich Produktions­unternehmen derzeit gegen die Einführung von Data Mining entscheiden (vgl. Abbildung 4). Gründe gegen die Anwendung von Data Mining

Abbildung in dieser Leseprobe nicht enthalten

Der angeführten Studie zufolge sind die drei wesentlichen Gründe hierfür das Fehlen von Fachkräften bzw. Fachwissen, die mangelnde Kenntnis über Voraussetzungen und die Unwissenheit über Zusatznutzen. Der Mangel an Budget oder das Nichtvorhandensein von Daten in ausreichender Menge und Qualität sowie die Einschätzung des nötigen Aufwandes stellen weniger bedeutende Gründe gegen die Einführung von Data Mining dar.

Das Anstoßen und Bearbeiten eines Data Mining Projektes ohne einen Leitfaden, welcher nicht nur Teilschritte herausgreift, sondern die gesamte Durchführung des Projektes unterstützt, ist ein Aspekt, den es zu überwindender gilt.

Innerhalb des fehlenden Fachwissens ist die Auswahl eines geeigneten Verfahrens eine entscheidende Hürde. Für den in Abbildung 1 dargestellte Abbau von Wissen bietet das Data Mining eine Vielzahl unterschiedlicher Verfahren an. Die Auswahl eines geeigneten Verfahrens ist dabei kein trivialer Prozess, für den innerhalb der Literatur nur unzureichende Ansätze vorliegen. Insbesondere das Fehlen von konkreten Hilfestellungen und Beispielanwendungen im Produktionsbereich macht die Auswahl eines geeigneten Verfahrens schwierig. Dieser Mangel macht weiterhin die Abschätzung des zu investierenden Aufwandes unmöglich. Auch die Darstellung von Vorteilen spezieller Verfahren im Produktionsumfeld und die sich bei der Anwendung ergebenden Möglichkeiten erschweren den Data Mining Einsatz hier.

Die Nichteinführung von Data Mining aus den aufgeführten Gründen stellt einen verbesserungswürdigen Zustand dar. Die Etablierung von Data Mining in anderen Bereichen zeigt, dass sich Data Mining trotz des anfangs zu investierenden Aufwandes zu einem nicht verzichtbaren Werkzeug entwickelt. Daher sollten Möglichkeiten geschaffen werden, mit denen Unternehmen die angeführten Gründe überwinden können.

1.2 Motivation

Um Data Ming in der Produktion zu etablieren, ist es notwendig, Unternehmen die Möglichkeit eines Zugangs zu diesem Themengebiet zu verschaffen. Das Zusammentragen theoretischer Grundlagen, das fundierte Ableiten von Handlungsansätzen und Abschätzen von Aufwänden ist ohne das Vorliegen konkreter Beispiele für viele Unternehmen nur schwer realisierbar. Die Anzahl der Herausforderungen, denen sich Unternehmen bei der Anwendung von Data Mining stellen müssen, ist so vielseitig, dass Unternehmen abgeschreckt werden, Data Mining anzuwenden. Dieser Aspekt muss aufgegriffen und dagegen Abhilfe geschaffen werden.

Mit der Generierung einer Beispielanwendung zur Umsetzung des Prozesses erhielten Produktionsbetriebe eine Chance, Data Mining als eine Möglichkeit zur Begegnung mit aktuellen Herausforderungen kennenzulernen, spezifischer mehr über Data Mining im Produktionsbereich zu erfahren und so die wirtschaftlichen Vorteile von Data Mining zu erkennen. Das dokumentierte Durchführen eines Data Mining Prozesses trüge weiterhin dazu bei, der Technik eine größere Präsenz und Akzeptanz innerhalb von Produktionsunternehmen zu geben.

Hauptprofiteure der vorliegenden Abschlussarbeit sind Unternehmen, die sich für das Thema Data Mining interessieren. Ihnen soll diese Arbeit als Hilfestellung dienen, sich im Vorfeld über Data Mining zu informieren, um so eigene Vorhaben richtig einschätzen und umsetzen zu können. Mittels der vorliegenden Arbeit können sie sich in kurzer Zeit ein Bild davon machen, in wie weit die Einführung von Data Mining sinnvoll, ratsam und durchsetzbar ist. Des Weiteren lässt sich anhand eines realen Data Mining Projektes der Aufwand und der Nutzen hiervon festmachen.

Diese Arbeit ist wichtig, da die Informationsmöglichkeiten für Unternehmen auf die theoretische Auseinandersetzung mit Data Mining begrenzt sind. Zwar sind die einzelnen Phasen eines Data Mining Prozesses und deren Inhalte detailliert beschrieben, eine Übertragung dieser auf eine konkrete Anwendung findet in der Regel jedoch nicht statt. Das Aufzeigen, wie einzelne Phasen im Anwendungsfall umgesetzt wurden und welche Mittel dafür nötig waren, trägt damit zum besseren Verständnis von Data Mining bei.

1.3 Lösungsansatz, Ziele, Anspruch und Abgrenzung der Arbeit

Ein Ansatz dieses zu überwinden, stellt die prototypische Durchführung eines Data Mining Prozesses in einem Produktionsbetrieb dar. Die praktische Übertragung der theoretischen Inhalte auf ein konkretes Beispiel greift dabei insbesondere den Aspekt mangelnde Kenntnis über Voraussetzungen auf. Gleichzeitig hilft ein solches Beispiel, Fachwissen mit einem starken Praxisbezug bereitzustellen und so den Aspekt Fehlen von Fachkräften bzw. Fachwissen abzumindern.

Die Dokumentation des Prozesses ermöglicht es, die Anforderungen an Ressourcen auf andere Anwendungsfälle zu übertragen. Zusätzlich kann der exemplarische Einsatz von Data Mining als Leitfaden und Hilfestellung genutzt werden, um eine eigene Struktur für eine Data Mining Anwendung zu schaffen. Dabei soll diese Arbeit nicht als Blaupause für das Durchführen eines Data Mining Prozesses dienen, sondern viel mehr ein Gefühl dafür vermitteln, welche Anforderungen ein Data Mining Prozess im Produktionsumfeld stellt. Ein prototypischer Einsatz von Data Mining erlaubt es weiterhin, auf besondere Hindernisse bei der Übertragung von theoretischen Aspekten auf eine reale Anwendung hinzuweisen. Das Aufzeigen eines funktionierenden praktischen Einsatzes - inklusive Antworten auf problematische Fragestellungen - schafft eine klare Übersicht über die für ein solches Projekt notwendigen Mittel und Ressourcen. In Kombination mit einer Übersicht über den Nutzen ermöglicht dies zudem einen Aufwand-Nutzen-Vergleich für andere Anwendungsfälle aufzustellen.

Ziel der vorliegenden Arbeit ist es folglich, eine Möglichkeit aufzuzeigen, wie die Umsetzung von Data Mining erfolgen kann. Allgemein soll die Arbeit zudem über die historische Entstehung und Verflechtung der Themengebiete Big Data, Business Intelligence und Data Mining aufklären. Auch soll ein Verständnis für den allgemeinen Data Mining Prozess geschaffen werden. Wesentliche Aspekte hierbei sind die Aufbereitung von Inhalten und Fragestellungen, die sich bei der praktischen Umsetzung ergeben.

Als eine der zentralen Fragen beim Data Mining gilt die Verfahrenswahl, also die Auswahl einer geeigneten Data Mining Methode. Daher soll dieses Thema verstärkt betrachtet werden. Dafür soll zunächst ein vertieftes Bewusstsein über die verschiedenen Methoden und Terminologien geschaffen werden, womit dem Leser die Auswahl eines geeigneten Data Mining Verfahrens ermöglicht wird. Ziel der Arbeit auf diesem Gebiet ist es, eine eigene Struktur von Data Mining Methoden zu schaffen, mit der die Auswahl einer geeigneten Data Mining Methode erfolgen kann.

Weiterhin soll über das Subgroup discovery Verfahren, bei dem es sich um ein neuartiges Data Mining Verfahren handelt, aufgeklärt werden. Hierfür sollen sowohl die theoretischen Vorteile des Verfahrens vermittelt als auch eine praktische Demonstration gezeigt werden.

Neben der Aufarbeitung theoretischer Themen ist die beispielhafte Auswertung von Produktions- und Qualitätsdaten der Jowat SE unter Zuhilfenahme von Software Tools das Ziel der Arbeit. Dafür soll die Arbeit aufzeigen, wie ein mögliches Analyseziel definiert werden und die Herangehensweise an dieses aussehen kann. Anschließend an die Definition des Analyseziels soll eine Möglichkeit der Datenvorbereitung aufgezeigt werden und wie die Auswahl einer geeigneten Methode erfolgt. Im Anschluss daran liegt der wesentliche Fokus auf dem Erkennen versteckter Systematiken bzw. Faktorkombinationen, welche ein vermehrtes Auftreten von Produktionsproblemen begründen. Erkenntnisse, die während der Erarbeitung der prototypischen Anwendung gewonnen werden können, sollen so aufbereitet werden, dass eine fundierte Entscheidung über die Etablierung einer automatisierten Anwendung im Unternehmen erfolgen kann. Als besonders wichtig werden in diesem Zusammenhang die Bewertung des Aufwands zur Erlangung eines Ergebnisses und die Ergebnisqualität der Testläufe erachtet.

Abgeleitet von den Zielen dieser Arbeit lässt sich der Anspruch definieren: Im Vordergrund der Arbeit stehen die anwendungsorientierte Aufbereitung und weniger die informatikspezifischen Details des Themas. Die Arbeit soll dazu dienen, einen Praktiker mit einem grundsätzlichen Informatik- und Statistikverständnis in die Lage zu versetzen, eigene Unternehmensprozesse zielgerichtet nach Fehlermustern analysieren zu können. Gleichzeitig soll eine Lösung generiert werden, welche leicht in die bestehende IT-Struktur des Unternehmens eingebettet werden kann. Der Anspruch ist weiterhin am Ende der Analyse ein Ergebnis zu erhalten, das ohne Vorkenntnisse interpretierbar ist.

Die strategischen Entscheidungen hinsichtlich der eingesetzten Software werden in dieser Arbeit als gegeben angesehen. Weiterhin finden nur Unternehmensdaten aus den Bereichen Produktion und Qualitätsmanagement des Standorts Detmold Beachtung. Die Lösung soll allerdings derart konstruiert sein, dass eine Ausweitung auf andere Unternehmensteile und - Standorte leicht möglich wäre. In der vorliegenden Arbeit wird aufgrund des anderweitig gelegten Fokus und des definierten Zeitrahmens auf die tiefgreifende Betrachtung statistischer Verfahren und der dahinterliegenden Theorien verzichtet. Jedoch ist eine detaillierte Gliederung der Verfahrensklassen des Data Mining enthalten. In dieser Darstellung wird zudem der Pfad bis hin zum Subgroup discovery Verfahrens erläutert.

Die technische Umsetzung einer automatisierten Lösung, welche das Ziel bei einer erfolgreichen Erprobung sein muss, ist aufgrund von Schnittstellenproblematiken unrealistisch und wird daher in dieser Arbeit nicht angestrebt.

1.4 Aufbau der Arbeit

Nach der Hinführung zum Thema, der Aufgabenstellung und der Beschreibung von Motivation, Zielen, Ansprüchen und der Abgrenzung der Arbeit, folgt im zweiten Kapitel die Erläuterung der Fachbegriffe Big Data, Business Intelligence und Data Mining. Ziel in diesem Kapitel ist es, den Leser mit den Begriffen vertraut zu machen, die den Anwendungsfall umranden.

Das dritte Kapitel erläutert das Themengebiet Data Mining genauer. Hierin wird auf funktionale Aspekte und den Data Mining Prozess eingegangen. Dieser ist von besonderer Wichtigkeit, da er dem Vorgehen im praktischen Teil zugrunde liegt. Weiterhin klärt das Kapitel über Problembereiche auf und zeigt, welche Einsatzmöglichkeiten von Data Mining in Unternehmen bestehen.

Das vierte Kapitel setzt sich mit Data Mining Verfahren und Algorithmen auseinander. In diesem wird die dieser Arbeit zugrundeliegende Struktur der Data Mining Verfahren aufgebaut. Ziel dieses Kapitels ist es, dem Leser eine Baumstruktur für die Vielzahl an verschiedenen Verfahren aufzuzeigen. Das Kapitel verfolgt dabei einen Pfad vom Begriff Data Mining hin zum Subgroup discovery Verfahren, welches das zentrale Verfahren der vorliegenden Arbeit ist. Weiterhin wird das Hintergrundwissen zu diesem Verfahren vermittelt, welches insbesondere in Kapitel acht unabdingbar ist. Eine Vorstellung der verwendeten Softwaresysteme folgt in Kapitel fünf.

Die Durchführung des Data Mining Prozesses beginnt mit Kapitel sechs. Hierin wird die praktische Umsetzung der Phase Task Analysis beschrieben. Der Abschnitt klärt über das Projektumfeld auf und definiert die Bausteine des Projektes. Das Preprocessing wird in Kapitel sieben beschrieben. Die wesentlichen Inhalte sind der Aufbau eines Datenmodells zur Integration aller notwendigen Daten sowie die Bereinigung und Transformation dieser. Abschließend findet eine kurze Bewertung des Modells statt. Die eigentliche Datenanalyse erfolgt in Kapitel acht. Darin wird beschrieben, warum das Subgroup discovery Verfahren Anwendung fand und welche Parameter eingestellt wurden. Weiterhin enthält es die Bewertung der Ergebnisse und eine iterative Verbesserung der Analyse. Das Kapitel neun fasst die Ergebnisse des achten Kapitels zusammen und bewertet den Data Mining Prozess.

Abgerundet wird die Arbeit durch die Darstellung der Probleme während der Bearbeitung und das Ziehen eines Fazits über die erzielten Erkenntnisse.

2 Begriffliche Grundlagen: Big Data, Business Intelligence und Data Mining

Im Folgenden wird ein Überblick über die das Thema der Arbeit einrahmenden Themengebiete geben. Entsprechend des in Abbildung 1 dargestellten abstrahierten Inhaltes des Data Mining sollen die dort angeführten Begriffe Big Data, Business Intelligence und Data Mining erläutert und ihr Ursprung dargestellt werden. Dabei wird sich auf die drei wesentlichen Begriffe konzentriert, obgleich noch eine Vielzahl weiterer Inhalte zu diesem Themenkomplex gehört. Aus Ermangelung an feststehenden Definitionen wird nachfolgend die Bedeutung des jeweiligen Begriffes im Sinne dieser Arbeit definiert.

2.1 Big Data: Beschreibung, Ursprung und Definition

Der Begriff Big Data stellt keinen eindeutig festgelegten Begriff dar. Vielmehr handelt es sich hierbei um ein Phänomen, welches als Sammelbecken verschiedener Assoziationen zu den wachsenden Datenbeständen der heutigen Zeit dient. Die wesentlichen Charakteristika des Phänomens lassen sich in der Literatur auf Volume, Velocity und Variety, also der Umfang, die Geschwindigkeit und die Vielfalt von Datenbeständen zusammenfassen. Bei Big Data handelt es sich folglich um das Phänomen, dass Daten in immer größeren Mengen, mit einer steigenden Geschwindigkeit und einer nicht dagewesenen Vielfalt vorliegen und verarbeitet werden (SAS, 2015), (Dumbill, 2012) & (Fraunhofer FOKUS, 2014 S. 5 ff.).

Wie die genaue Definition, sind auch der Ursprung und die erstmalige Verwendung des Begriffs Big Data nicht eindeutig geklärt. Es werden unterschiedliche Quellen genannt, die den Begriff in der aktuellen Verwendung geprägt haben könnten. Als erste dokumentierte Quelle gilt ein Thesenpapier von Francis Diebold von der University of Pennsylvania aus dem Jahr 2000 (McBurney, 2012).

Das Themengebiet selber entwickelte sich jedoch schon mit dem Einzug der elektronischen Datenverarbeitung in den 60er Jahren. Als eigenständiges Forschungsgebiet und unter dem prägnanten Namen Big Data tritt es jedoch erst mit dem zuvor erwähnten Thesenpapier in Erscheinung. Der flächendeckende Einsatz von Computern und Datenbanken führte und führt dazu, dass Daten immer umfassender automatisiert in Datenbanken abgelegt werden und so ein unaufhaltsames Datenwachstum darstellen (Fraunhofer FOKUS, 2014 S. 5 ff.).

Die heute gängigste Definition hat ihre Anfänge in einem von IBM herausgegebenes Strategiepapier von 2011 und definiert den Begriff folgendermaßen:

„In short, the term Big Data applies to information that can’t be processed or analyzed using traditional processes or tools.” (IBM, 2011 S. 3)

Diese noch unzureichende Definition wird im Verlauf des Papieres um die drei, den Begriff definierenden Charakteristika erweitert. Diese sind wie nachfolgend beschriebenen Volume (Volumen), Variety (Vielfalt) und Velocity (Geschwindigkeit).

Volume:

Im Jahr 2000 betrug das weltweite Datenvorkommen 800.000 Petabytes. Es wird erwartet, dass sich diese Zahl bis ins Jahr 2020 auf 35 Zetabytes erhöht haben wird. Nicht nur Facebook (10 Terrabytes) und Twitter (7 Terrabytes) gehören zu den Treibern dieses Trends. Auch Produktionsunternehmen tragen durch die Speicherung von Prozessinformationen zu diesem Trend bei. Weiterhin steigt die Anzahl der im Alltag erfassten Daten ebenfalls stark an (IBM, 2011 S. 33 ff.) & (Shmueli, et al., 2007 S. 3 ff.).

Velocity:

Das Merkmal Geschwindigkeit beinhaltet zwei unterschiedliche Aspekte. Zum einen bezieht er sich auf die ansteigende Rate, mit der Daten derzeit in verschiedensten Anwendungsfeldern erzeugt werden. Zum anderen birgt er die Verarbeitungsgeschwindigkeit. Die wachsende Datenmenge muss zeitnah weiterverarbeitet werden, um möglichst schnell darauf zugreifen zu können. Ein anschauliches Beispiel stellt der Aktienhandel dar, in welcher im Microsekundentakt Informationen verarbeitet und Entscheidungen rechnergestützt getroffen werden (Klein, et al., 2013).

Variety:

Big Data zeichnet sich zudem durch die stark unterschiedlichen und oft nicht strukturierten Daten aus. Bisher gängige Systeme wie relationale Datenbanken stoßen hierbei an ihre Grenzen. Big Data beschreibt unter diesem Gesichtspunkt, dass Daten, ob strukturiert oder nicht, zusammengefasst und gemeinsam analysiert werden. Praktisch gesehen ist hiermit das Vorliegen verschiedener Dateiformate, von Bilddateien über Textdateien hin zu Sensorinformationen, gemeint, welche zusammenauftreten und gemeinsam gespeichert werden. Die Liste derzeit vorliegender unterschiedlicher Dateiformate zeigt sich bspw. in Wikipedia anschaulich (Klein, et al., 2013).

Diese Ergänzung aufgreifend, erstellte das IT-Beratungs- und Marktforschungsunternehmen Gartner im Jahr 2011 die heute etablierteste Definition. In dieser werden die drei Merkmale im so genannten 3-V-Modell zusammengesetzt (Abbildung 5). Das 3-V-Modell wiederum geht auf einen Forschungsbericht das Analysten Doug Laney zurück, der die Herausforderungen des Datenwachstums als dreidimensional bezeichnete (Klein, et al., 2013).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: Das 3-V-Modell (Klein, et al., 2013)

Hasso Plattner definierte Big Data in der Enzyklopädie der Wirtschaftsinformatik folgendermaßen:

„Big Data ist ein Synonym für die Bedeutung großer Datenvolumen in verschiedensten Anwendungsbereichen sowie der damit verbundenen Herausforderung, diese verarbeiten zu können. Big Data beschreibt Datenbestände, die aufgrund ihres Umfangs, Unterschiedlichkeit oder ihrer Schnelllebigkeit nur begrenzt durch aktuelle Datenbanken und Daten-Management- Tools verarbeitet werden können.“ (Plattner, 2013)

Diese Definition findet in der vorliegenden Arbeit Anwendung.

2.2 Business Intelligence: Beschreibung, Ursprung und Definition

Entsprechend des Lexikons der Informatik ist der Begriff Business Intelligence ein Sammelbegriff für alle Systeme und Anwendungen zur Gewinnung von analytischen, führungs­und entscheidungsrelevanten Daten. Darunter fällt bspw. auch das in Abschnitt drei erläuterte Data Mining. Wichtig sei zudem, dass eine klare Abgrenzung des Inhalts des Begriffs nicht vorgenommen werden könne (Fischer, et al., 2008).

Vergleichbar mit der Entwicklung des Phänomens Big Data tritt auch Business Intelligence mit Einzug der elektronischen Datenverarbeitung in Erscheinung und war zunächst kein selbständiges Themengebiet. Die Entwicklung beider Begriffe stand lange Zeit in keinem Zusammenhang und wird erst in neuerer Zeit in einen Kontext gesetzt (Luhn, 1958).

Die ersten praktischen Ansätze, welche unter die heutige Definition fallen würden, stellen Management Support Systeme dar, welche Scott Morton definiert als:

„Use of computers and related information technologies to support managers.“ (Morton, 1983 S. 2)

Ergänzt um sogenannte Decision Support Systeme in den 1970er Jahren, d.h. Systeme, die eine Modellierung und somit eine verbesserte Analyse erlauben, und Executive Information Systeme in den 1980er Jahren, welche nun auch externe Daten mit in zugleich verbesserte Analysemöglichkeiten einbeziehen, entwickelte sich der Begriff Business Intelligence in seiner heutigen Form. Dafür waren weiterhin die Entwicklung des On-Line Analytical Processing (OLAP) nach (Codd, et al., 1993) und die Einführung des Data Warehouse Konzeptes nach (Inmon, 1996) wichtige Voraussetzungen (Chamoni, et al., 1997), (Säuberlich, 2000) & (Paida, 2012)

Die Gartner Group beschrieb den Begriff Business Intelligence im Jahr 1996 als:

„Data analysis, reporting and query tools can help business users wade through a sea of data to synthesize valuable information from it - today these tools collectively fall into a category called [...] Business Intelligence [...]. “ (Gartner Group, 1996)

Aus diesem Definitionsversuch heraus entwickelte sich bis heute eine Vielfalt neuer Ansätze, was sich hinter dem Begriff Business Intelligence verbirgt. Diese lassen sich im Wesentlichen auf drei Kernansätze vereinfachen (vgl. Abbildung 6).

Unter dem engen BI-Verständnis werden lediglich Kernapplikationen verstanden, die unmittel­bar der Entscheidungsfindung dienen. Dieses sind im Wesentlichen Online Analytical Processing und Management/Executive Information Systems (Kemper, et al., 2010 S. 5 ff.).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: Unterschiedliche Facetten von Business Intelligence nach (Gluchowski, et al., 2008)

Das analyseorientierte-BI-Verständnis erweitert dieses Verständnis um konkrete Anwen­dungen. Hierin umfasst Business Intelligence: „Sämtliche Anwendungen, bei denen der Entscheider (oder auch der Entscheidungs- vorbereiter) direkt mit dem System arbeitet, d.h. interaktive Funktionen besitzt. Hierzu gehören weiterhin neben OLAP und Management/Executive Information Systeme auch Systeme des Text Mining und des Data Mining, das Ad-hoc-Reporting sowie Balanced Scorecards, der Bereich des analytischen CRM und Systeme zur Unterstützung der Planung und Konso­lidierung.“ (Kemper, et al., 2010 S. 5)

Das dritte, weite BI-Verständnis umfasst alle direkt und indirekt für die Entscheidungs­unterstützung eingesetzten Anwendungen. Dieses beinhaltet neben der Auswertungs- und Präsentationsfunktionalität auch die Datenaufbereitung und -speicherung.

Abgeleitet aus dem weiten BI-Verständnis soll im Zuge dieser Arbeit folgende Definition für den Begriff Business Intelligence gelten: „Business Intelligence bezeichnet einen integrierten, unternehmensspezifischen, IT-basierten Gesamtansatz zur betrieblichen Entscheidungsunterstützung.“ (Kemper, et al., 2010 S. 6)

2.3 Data Mining: Beschreibung, Ursprung und Definition

Data Mining stellt, wie zuvor beschrieben, eine Unterkategorie innerhalb des Business Intelligence dar. Vereinfacht kann gesagt werden, dass der Begriff für das Durchsuchen von größeren digitalen Datensätzen nach relevantem Wissen steht. Wissen kann hierbei unterschiedliche Formen annehmen, wie beispielsweise Regeln, Assoziationen, Objekt­gruppierungen, Entscheidungsbäume o.ä. (Küppers, 1999 S. 30 ff.) & (Wrobel, 1998).

Historisch entwickelt sich das Themenfeld seit dem Beginn der Datenaufzeichnung. Aufgrund der wachsenden Anzahl an Daten und einem damit einhergehenden Anstieg an Unübersicht­lichkeit war es notwendig geworden, neue Wege zur Informationsgewinnung zu erschließen. Die nachfolgende Tabelle 1 gibt einen Überblick über die Entwicklungsschritte und deren Inhalte von Data Mining (Krahl, et al., 1998 S. 25 f.).

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1 : Die historische Entwicklung des Data Mining (Krahl, et al., 1998 S. 25 f.)

Die zuvor aufgezeigten Entwicklungsschritte werden maßgeblich durch technische Entwick­lungen, aber auch gesellschaftliche Phänomene vorangetrieben. Die nachfolgende Auflistung führt hiervon die Wesentlichen auf:

- Der Einzug von Data Warehouse in die IT-Landschaft
- Die Weiterentwicklung von Rechnersystemen und damit Rechenkapazitäten
- Das Schaffen von nutzerfreundlichen Data Mining Softwarepaketen
- Das Entstehen von Big Data im betrieblichen als auch gesellschaftlichen Umfeld (Krahl, et al., 1998 S. 25 ff.) & (Säuberlich, 2000 S. 10 ff.)

Zusätzlich zu den genannten Entwicklungen wächst der Konkurrenzdruck auf Unternehmen und Wissenschaftler. Verborgene Potenziale aus gesammelten Daten effektiver zu nutzen, stellt eine Möglichkeit der Abgrenzung dar (Krahl, et al., 1998 S. 25 ff).

Der begriffliche Ursprung des Data Mining liegt in der Statistik und bezeichnet dort die selektive Verfahrensanwendung zum Beweis vorformulierter Hypothesen. Noch heute ist dieser Ursprung in den Data-Mining-Verfahren zu erkennen (Grob, et al., 1999 S. 2 f.) & (Fayyad, et al., 1996 S. 3 f.).

1989 findet der Begriff erstmal auf einer Fachkonferenz in seiner heutigen Bedeutung Anwendung. Vor dieser Konferenz wurde Datenanalyse vorwiegend mit dem Entdecken von Mustern, weniger mit der Generierung von Wissen assoziiert. Dieser Wandel sollte durch die Begriffswahl unterstützt werden (Küppers, 1999 S. 19 ff.) & (Chamoni, et al., 2009 S. 282). Wenig später erfolgte mit (Frawley, et al., 1992) der erste Versuch, das Themengebiet zu fassen. Hierin ist jedoch noch das ursprüngliche Verständnis der Datenanalyse vorhanden:

„Knowledge discovery is the nontrivial extraction of implicit, previously unknown, and potentially useful information from data.” (Frawley, et al., 1992)

Knowledgde discovery und Data Mining seien hier als Synonym verstanden. Eine weitere Erläuterung hierzu findet sich im Verlauf des Themenblocks.

Data Mining ist entsprechend dieser Definition darauf ausgerichtet, auf der Grundlage eines nicht trivialen Prozesses Beziehungsmuster, z.B. Regelmäßigkeiten oder Auffälligkeiten, in umfangreichen Datenbeständen zu ermitteln. Diese Beziehungsmuster müssen für einen möglichst großen Anteil der Datenbasis Geltung haben und bislang unbekannte, potenziell nützliche und leicht verständliche Zusammenhänge in den Daten zum Ausdruck bringen.

Im informationstechnischen Kontext existieren noch weitere Definitionsvarianten. So definieren (Berry, et al., 1997) Data-Mining als Erforschung und Analyse großer Datenmengen mit automatischen oder halbautomatischen Werkzeugen, um bedeutungsvolles Wissen aufzufinden. (Decker, et al., 1995) beschreiben Data-Mining als eine Methodik zur Problemlösung, um logische oder mathematische, zum Teil komplexe Beschreibungen von Wissen in Datensätzen zu entdecken.

Heutzutage bestehen im Wesentlichen noch zwei Verständnisse des Begriffes, welche in Abbildung 7 dargestellt sind. Dieses ist zum einen das engere Verständnis, in welchem ein Data Mining System automatisch Hypothesen aufstellt und diese dann durch Analyse der Datenbasis geprüft werden. Das Data Mining System ist hierbei eine Software lösung, die basierend auf Eingabeinformationen eigenständig agiert. Zum anderen das erweiterte Verständnis, auch Data Dredging genannt, bei welchem der Anwender die Datenbasis eigenständig erkundet und daraus resultierend Hypothesen aufstellt. Diese werden dann mithilfe des automatisierten Data Mining Systems geprüft (Säuberlich, 2000 S. 11), (Küppers, 1999 S. 21 ff.) & (Gebhardt, 1994 S. 9 ff.).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Begriffsabgrenzung Data Mining modifiziert nach (Säuberlich, 2000)

Data Mining im Sinne dieser Arbeit soll als Prozess verstanden werden, welcher Datenbeständen autonom mit gegebenen Verfahren nach Wissen durchsucht, welches für den Anwender interessant ist und zuvor verborgen war (Säuberlich, 2000 S. 16 f.).

KDD vs. Data Mining

Innerhalb der Literatur findet man heutzutage vermehrt die zwei Begriffe Knowledge Discovery in Databases (KDD) und Data Mining. Teilweise werden beide Begriffe synonym verwendet, teilweise aber auch klar voneinander abgegrenzt. Im Sinne dieser Arbeit soll ein synonymes Verständnis angewandt werden. Dennoch wird im Folgenden die Abgrenzungsidee vorgestellt.

Insbesondere Fayyad vertritt die These, dass mit dem häufig verwendeten Data Mining eigentlich ein seiner Meinung nach weitreichenderer Themenkomplex, nämlich das KDD gemeint ist. Nach Definitionen von (Fayyad, et al.) ist Data-Mining als Teilschritt des KDD- Prozesses zu sehen, der aus der Anwendung von Datenanalysealgorithmen besteht und zu einer Auflistung von Mustern, die aus den Daten gewonnen wurden, führt (Säuberlich, 2000 S. 16).

KDD ist nach dieser Auffassung folglich der allgemeine Prozess der Wissensgewinnung aus großen Datenbeständen. Dieser besteht aus miteinander verketteten Komponenten. Die Komponenten sind deckungsgleich mit den Komponenten des Data Mining Modells, welches in Kapitel 3.4 vorgestellt wird. Innerhalb des KDD-Prozesses wird Data Mining jedoch nur als die Komponente verstanden, in der die eigentliche Analyse der Daten vorgenommen wird.

Die Kritik an dieser Abgrenzung der beiden Begriffe Data Mining und KDD liegt darin begründet, dass:

- Data Mining zu einem Überbegriff für die Kombination verschiedener Verfahren dienen würde, und damit überflüssig sei
- Der Begriff des Data Mining wesentlich anschaulicher und prägnanter ist
- Der Ursprung des Themengebietes in der Kombination verschiedener Verfahren liegt. Die von Fayyad zum Data Mining hinzugefügten Schritte, also die Vor- und die Nachbereitung sind dem Begriff Data Mining bereits innewohnend (Krahl, et al., 1998 S. 24)

Zu erkennen ist, dass die Unterscheidung der beiden Begrifflichkeiten nicht trennscharf unterschieden werden können. Der Begriff Data Mining birgt im Vergleich zum KDD den Vorteil, dass dieser wesentlich anschaulicher und leichter verständlich ist. Die Vorteile einer Differenzierung der beiden Begriffe wiegen dieses nicht auf, so dass in dieser Arbeit der Begriff Data Mining zur Anwendung kommt.

3 Das Themengebiet Data Mining

Data Mining als Prozess zur Wissensgenerierung besteht aus verschiedenen Phasen. Er beinhaltet dafür vorbereitende, analysierende und nachbereitende Phasen. Innerhalb des Prozesses steht ein Werkzeugkasten aus verschiedenen, konkret anwendbaren Verfahren zur Verfügung. Diese vollziehen die eigentliche Analyse und verfolgen übergreifend das Ziel, erklärende und/oder vorhersagende Sachverhalte zu entdecken. Die unterschiedlichen Ver­fahren besitzen eine einheitliche Struktur und werden deshalb unter der Methodik Data Mining zusammengefasst. Im Nachfolgenden wird hierzu ein Überblick gegeben. Von dem Erläutern der Funktionsweise und der wesentlichen inhaltlichen Schwerpunkte, hin zur Vorstellung verschiedener Data Mining Modelle, schließt das folgende Kapitel mit einer Übersicht zu Problembereichen und betriebliche Einsatzmöglichkeiten.

3.1 Inhaltliche Schwerpunkte

Data Mining hat in den vergangenen Jahren stark an Popularität zugenommen. Dies liegt sowohl an technischen Notwendigkeiten als auch an Möglichkeiten, die erst das Data Mining bietet (Kapitel 2.3). Entsprechend (Fayyad, et al., 1996), (Mainmon, et al., 2005) und (Adriaans, et al., 1996) deckt Data Mining die folgenden Themenschwerpunkte ab:

- Automatisierte Vorhersage von T rends, Verhalten und Mustern auf Basis von bekannten Verhaltensschemata aus der Vergangenheit (überwachtes Lernen)
- Automatisierte Aufdeckung unbekannter Strukturen aus bisher ungeordneten Datenhalden (unüberwachtes Lernen)
- Zusatzkomponenten unterstützen die Datenvorbereitung sowie die Ergebnisaufbereitung

Bedingt durch die eingesetzten technischen Mittel ermöglicht Data Mining das Anwenden von umfassenden statistischen Verfahren auf die im Rahmen von Big Data entstehenden Datenberge. Dieses wird in der heutigen Zeit für Unternehmen, Institutionen und Forschungseinrichtungen immer relevanter. Eine Auswahl an Notwendigkeiten für den Einsatz von Data Mining ist (Picot, et al., 1988) zu entnehmen.

Inhaltlich hebt sich Data Mining von anderen Analyseverfahren durch die Ausrichtung auf das Entdecken verborgenen Wissens und den Einsatz rechnergestützter Analysesysteme ab. Bei traditionellen Analyseverfahren wird zuerst eine Hypothese erstellt, anschließend ein Auswertungsverfahren entwickelt und darauf folgend eine Datenanalyse vorgenommen, um die Ergebnisse im Anschluss zu verdichten und diese abschließend vorzustellen (vgl. Kapitel 2.3).

Im Data Mining Ansatz entfallen die ersten beiden Schritte, da die Methodik automatisiert verschiedenste Hypothesen erstellt, diese prüft und wieder verwirft. Das Ziel von Data Mining ist also weniger die Hypothesenbelegung als vielmehr die Bereitstellung allgemein verwend­barer, effizienter Verfahren, um bedeutsame und aussagekräftige Muster autonom aus großen Datenbeständen zu identifizieren (vgl. ebd.).

3.2 Verwandte Themengebiete

Das von Data Mining behandelte Themengebiet zeichnet sich durch die Verschmelzung verschiedener, ehemals isolierter Themengebiete aus. Dabei fließen hierin die Erfahrungen der Themengebiete zusammen und beeinflussen das Forschungsgebiet (Abbildung 8).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: Das Umfeld von Data Mining nach (Säuberlich, 2000 S. 16)

Nachfolgend werden die aufgeführten Themengebiete kurz umrissen.

Maschinelles Lernen:

Dieses Themengebiet befasst sich mit Verfahren, durch die Systeme künstlicher Intelligenz Wissen aufbauen und dieses weiter verdichten können. Aus den acht Grundkategorien von Lernstrategien finden nur zwei im Rahmen von Data Mining Anwendung. Diese sind Lernen aus Beispielen und Lernen aus Beobachtungen und lassen sich unter der Rubrik induktives Lernen zusammenfassen. Innerhalb des Data Mining sind diese Verfahren notwendig, damit ein Data Mining System anwenderunabhängig Hypothesen aufstellen, Analyseergebnisse interpretieren und so die Suche/Ergebnisqualität immer weiter optimieren kann (Säuberlich, 2000 S. 16 f.).

Statistik:

Wie schon zuvor erwähnt, entstammt das Data Mining der Statistik und wurde lediglich um technische Komponenten erweitert. Data Mining als Ansatz erstellt aus statistischen Anwendungen automatisierte Analysesysteme, welche zwar das selbe Vorgehen und das selbe Konzept wie der Statistikursprung haben, aber dadurch überhaupt erst die Anwendung auf Big Data zulassen. Dieser Unterschied macht eine Unterscheidung von Data Mining zur Statistik überhaupt erst möglich. Entsprechend entstammt ein Großteil der im Data Mining verwendeten Verfahren aus der Statistik, weshalb es nach wie vor sehr große Schnittmengen gibt. Neben ganzen Statistikverfahren werden auch Hilfsmittel, wie Standardmaße u.ä. verwendet (Säuberlich, 2000 S. 18)].

Visualisierung:

Ein Data Mining Prozess lebt von seiner einfachen Interpretierbarkeit der Ergebnisse. Ein Großteil der heute angewandten Data Mining Systeme und Softwarelösungen besitzen eine integrierte visuelle Aufbereitung der Ergebnisse. So erfolgt bspw. bei der Anwendung von Decision-Tree-Verfahren die Ergebnisdarstellung in aller Regel direkt in Form eines Entscheidungsbaumes. Weiterhin gehören Balken und Kreisdiagramme zum Standard. Neben der Ergebnis-visualisierung wird Visualisierung in anderen Phasen des Data Mining Prozesses eingesetzt (vgl. Kapitel 3.4). So kann bspw. mittels Visualisierung eine frühzeitige explorative Daten-analyse des Anwenders stattfinden (Säuberlich, 2000 S. 21).

Computerbasierte Entscheidungsunterstützung:

Innerhalb der in Kapitel zwei beschriebenen IT-basierten Managemententscheidungsunter­stützung findet sich auch Data Mining wieder. Abgeleitet aus diesem Themengebiet lässt sich das Ziel von Data Mining ableiten; die Bereitstellung von relevantem Wissen. Data Mining Systeme werden zum Teil direkt in Managementinformationssysteme integriert und übernehmen hierin speziell die Aufgabe der analytischen Suche nach Informationen (Küppers, 1999 S. 34) & (Säuberlich, 2000 S. 19 f.).

Datenbanksysteme:

Die aus Datenbanksystemen stammenden Funktionen umfassen in erster Linie speichern, ändern, löschen und abfragen. Die Abfragen werden vom Anwender selbst formuliert und eventuell interpretiert. Dieses stellt eine Weiterentwicklung zu bekannten SQL-Abfragen dar, welche in der Regel keine komplexen Abfragen bewältigen können (Säuberlich, 2000 S. 18 f.).

3.3 Verwendete Terminologie

Die Wissensgenerierung beim Data Mining erfolgt über die Auswertung von digitalisierten Informationen über Untersuchungsobjekte. Ein Objekt im Sinne des Data Mining ist eine Einheit, die einen realen Gegenstand/Inhalt darstellt. Die Summe aller Objekte bildet die Datenbasis. Ein Objekt übernimmt Eigenschaften des Gegenstandes/Inhalts und trägt diese als Attribute mit sich. Innerhalb einer Datenbasis sind die Attribute der einzelnen Objekte identisch. Die Objekte einer Datenbasis unterscheiden sich durch die Ausprägung der Attribute. Attribute können dabei eine Vielzahl von Ausprägungen besitzen. Einige Data Mining Verfahren stellen Anforderungen an die Attribute eines Objektes, dass diese bspw. von einem speziellen Wertetyp sind. Je nach Verfahren ist eine weitere Anforderung das Festlegen einer Zielgröße. Die Zielgröße eines Data Mining Prozesses ist ein Attribut, das als besonders interessant anzusehen ist und nach dem die Datenbasis strukturiert werden kann. Anhand der Zielgröße teilt der Data Mining Prozess die Datenbasis entsprechend der Vorgaben des Data Mining Verfahrens ein, um so interessantes Wissen zu generieren.

Zum besseren Verständnis soll die folgende Übertragung der Terminologie auf die sehr stark vereinfachte Produktion von Fensterscheiben dienen.

Fensterscheibe, differenzierbar über Produktions-ID Materialdi>Rezeptur: V1, V2

Dichte Silizium: 2,32 g cm-3, 2,33 g cm-3, 2,34 g cm-3 Lieferant Silizium: L1, L2 Prozesszeiten: 6h, 7h, 8h, 9h Produktionsmaschine: M1, M2, M3, M4 Monatsproduktion an Fensterscheiben

3.4 Data Mining als Modell

Der Data Mining Prozess lässt sich als Prozessmodell darstellen und wird durch eine Mehrphasigkeit, Iterativität und Interaktivität charakterisiert. Das Modell spiegelt die wesentlichen Handlungsschritte und deren Verknüpfungen zur Durchführung eines Data Mining Projektes wieder. Über alle wesentlichen Modelle hinweg lässt sich feststellen, dass Data Mining aus Phasen besteht, die inhaltlich voneinander abgegrenzt werden können. Die einzelnen Phasen werden so häufig durchlaufen, bis an ihrem Ende die nächstfolgende Phase eingeschlagen werden kann. Der Eintritt in die nächste Phase des Data Mining Prozesses wird vom Anwender vorgenommen. Da die einzelnen Phasen aufeinander abgestimmt werden müssen, ist es unablässig, dass der Anwender nach den Phasen eingreift. Es ist nach dem derzeitigen Verständnis nicht möglich den gesamten Data Mining Prozess ohne menschliches Eingreifen durchzuführen (Fockel, et al., 2009 S. 5).

Veröffentlichungen aus dem Bereich Data Mining schlagen verschiedene Modelle vor, welche den Data Mining Prozess darstellen. Die Mehrzahl entstand in den 90er Jahren. Nachfolgend soll auf die zwei bekanntesten Modelle näher eingegangen, ein Vergleich zu anderen Modellen hergestellt und die modellübergreifenden Prozessschritte erläutert werden.

3.4.1 Das Prozessmodell nach Chapman

Das im Jahr 1998 entwickelte Cross-Industry Standard Process for Data Mining Modell, kurz CEISP-DM genannt, geht auf ein von der Europäischen Union gefördertes Projekt zur Standardisierung von Data Mining Prozessen zurück. Data Mining wird hierin als flexibler Kreislauf verstanden, welcher aus sechs Phasen besteht (Abbildung 9). Die Abfolge der Schritte ist entsprechend des Modells nicht vorgegeben. Ein Wechseln zwischen diesen Phasen kann in beide Richtungen erfolgen. In welche Phase eingetreten wird, hängt vom Ergebnis der vorangegangenen Phase ab. Die im Modell enthaltenen Pfeile stellen die wichtigsten und häufigsten Abhängigkeiten unter den Phasen dar. Beiträge zum Modell sind (Chapman, et al., 1999), (Kießwetter, et al., 2007) und (Säuberlich, 2000) zu entnehmen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9: Das Prozessmodell nach Chapman (Chapman, et al., 1999 S. 10)

Im Nachfolgenden werden die einzelnen Phasen entsprechend der zuvor aufgeführten Autoren beschrieben.

Business Understanding:

Business Understanding stellt die erste Phase des Modells dar. In ihr wird das Projektziel aus Anwendersicht formuliert. Aus diesem wird anschließend die Data Mining Aufgabe und ein Plan diese zu erreichen abgeleitet.

Data Understanding:

Die zweite Phase beinhaltet die Auswahl und die qualitative Prüfung der zu untersuchenden Daten. Als Vorbereitung auf nachfolgende Phasen soll in diesem Schritt zudem das Verständnis über die Daten vergrößert werden. Ergebnis dieser Phase kann es sein, dass die ausgewählten Daten nicht zur Analyseaufgabe passen oder dass für die Analyseaufgabe keine geeignete Databasis vorliegt. In diesen Fällen muss entweder die Analyseaufgabe neu definiert (Phase eins) oder die Daten neu ausgewählt werden (Phase zwei). Der Übergang zwischen diesen Phasen ist fließend.

Data Preparation:

Das Bereinigen und Transformieren der Daten für den Data Mining Prozess ist Kern der dritten Phase. Unter Bereinigung ist das Beseitigen und Korrigieren fehlerhafter oder fehlender Einträge zu verstehen. Daneben kann es notwendig sein, die Daten in anderer Dateitypen zu transformieren, um sie für das System interpretierbar zu machen. Zudem kann bspw. das Umwandeln von kontinuierlichen in diskrete Werte notwendig sein. Diese vorbereitenden Maßnahmen laufen in keiner vorgeschriebenen Reihenfolge ab, sondern werden vielmehr so häufig wiederholt, bis die notwendige Datenqualität vorliegt.

Modeling:

Abgeleitet aus der Analysefrage stellt die vierte Phase die Auswahl eines geeigneten Data Mining Verfahrens aus dem Pool verschiedener Verfahren (vgl. Kapitel 4.2) dar. Weiterhin sind in dieser Phase die Kalibrierung der Attribute und die Auswahl eines Suchalgorithmus beinhaltet. Einige Verfahren stellen bestimmte Anforderungen, wie bspw., dass nur kontinuierliche Daten verarbeitet werden können. Der Zurückwechsel zur Preparation Phase ist daher eine nicht unübliche Folge.

Evaluation:

Entsprechend des Modells ist die Datenanalyse selber keine eigene Phase, sondern findet zwischen dem Modeling und der Evaluation statt. Dieses ist die fünfte Phase und umfasst im Wesentlichen die Überprüfung und Einordnung der Ergebnisse der Datenanalyse. Hierfür werden die Ergebnisse allgemein auf Plausibilität geprüft und im Besonderen mit den Zielvorgaben aus der Business Understanding Phase abgeglichen. Mit dem Ergebnis dieser Bewertung fällt die Entscheidung, ob die Analyseergebnisse verwendet oder verworfen werden.

Deployment:

Tritt der Data Mining Prozess in die Phase sechs ein, gilt es lediglich noch, die Analyseergebnisse aufzubereiten. Ziel ist es, das entdeckte Wissen so aufzubereiten, dass der Anwender einen Nutzen daraus ziehen kann.

3.4.2 Das Prozessmodell nach Fayyad

Das etwas früher entstandene Modell nach (Fayyad, et al., 1996) beschreibt den Data Mining Prozess als eine Kette von Prozessen, die in einer starren Reihenfolge durchlaufen werden (Abbildung 10). Innerhalb des Mining Prozesses ist jedoch auf jeder Ebene eine Rückkopplung zu den Ebenen davor vorgesehen. Dennoch steht es im Gegensatz zum Modell von Chapman, welches besonderen Wert auf die flexible Gestaltung des Prozesses legt. Die einzelnen Ebenen selber unterscheiden sich nicht wesentlich von denen des Chapmans Modells.

Wissen

Abbildung in dieser Leseprobe nicht enthalten

-J iterativer Durchlauf- -

Abbildung 10: Das Prozessmodell nach Fayyad (Fayyad, et al., 1996 S. 41)

Der Data Mining Prozess nach (Fayyad, et al.) beginnt mit der Selektion/Auswahl der Rohdaten. Dieses folgt der Zielstellung des Prozesses und ist ggf. von der zur Verfügung stehenden Berechnungskapazität abhängig. Wie in Kapitel 3.5 aufgeführt, muss bei Rechenzeit­problemen eine Auswahl der Rohdaten vollzogen werden. Im zweiten und dritten Schritt findet die Aufbereitung und Transformation der Rohdaten statt. Die Schritte zwei und drei bilden somit das Pendant zur Data Preparation des Chapmans Modells. Die eigentliche Datenanalyse/Data Mining stellt einen eigenen Prozessschritt dar und bildet die vierte Phase. Hierin wird die eigentliche Untersuchung der Daten auf Muster vorgenommen. Anwendung finden die in Kapitel 4.2 vorgestellten Verfahren. Die Interpretation stellt das Gegenstück zur Evaluation des Chapmans Modells dar. Auch hier sind die Inhalte deckungsgleich.

3.4.3 Vergleich verschiedener Prozessmodelle

Obgleich es noch eine Vielzahl weiterer Prozessmodelle zum Data Mining gibt, lässt doch bereits das Vorstellen eines zweiten Modells erkennen, dass es im Wesentlichen nur geringfügige Unterschiede zwischen ihnen gibt. Aus diesem Grund soll im Folgenden eine tabellarische Auflistung dazu dienen, weitere Modelle aufzuführen und voneinander abzugrenzen. Dabei sollen die unter 3.4.4 aufgeführten Hauptprozessschritte als Hilfestellung dienen.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2: Vergleich verschiedener Prozessmodelle nach (Säuberlich, 2000 S. 35)

Die vorangehende Auflistung stellt keinesfalls eine abschließende Sammlung dar, sondern soll vielmehr dazu dienen, ein Gefühl für die Vielfalt an Data Mining Modellen liefern. Nähere Erläuterungen zu den Modellen finden sich in (Säuberlich, 2000) und (Gaul, et al., 1998).

3.4.4 Modellübergreifende Prozessschritte

Als Essenz aus den verschiedenen Data Mining Modellen hat sich das allgemeine Data Mining Modell abgeleitet. Dieses aus fünf Phasen bestehende Modell verdeutlicht das Verständnis, dass ein Data Mining Prozess mehrphasig, iterativ und interaktiv ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 11: Die fünf allgemeinen Prozessschritte nach (Säuberlich, 2000 S. 34)

Die nachfolgenden Erklärungen sind jeweils mit einem praktischen Beispiel versehen. Die Beschreibungen sind angelehnt an (Säuberlich, 2000) und (Bacher, et al., 2005).

Task Analysis:

Der erste Prozessschritt entsprechend des Modells beinhaltet alle Aktivitäten, die zur Spezifizierung der Analysefrage und einer initialen Vorbereitung auf die Analysendurchführung dienen. Dieses umfasst die in Abbildung 11 aufgeführten Aufgaben. Bei der Analyse und Definition der Analysefrage muss beachtet werden, dass die Aufgaben ausreichend konkretisiert und klar spezifiziert werden. Neben einer Auseinandersetzung mit dem Aufgabenumfeld und den darin enthaltenen Objekten sind dies auch das Auswählen der Rohdaten und deren initiale Exploration.

Beispiel: Ein Versicherer möchte Kunden identifizieren, die eine Affinität zu bestimmten Versicherungen, wie Lebensversicherungen oder private Rentenversicherungen, aufweisen. Über Mailings als auch über beratergestützte Kampagnen sollen diese dann gezielt angesprochen werden. Zur Analyse sollen Kundeninformation herangezogen werden, welche das Unternehmen bereits seit Jahren dokumentiert und für Kundenansprachen nutzt.

Preprocessing:

Unter Preprocessing fasst das Modell alles zusammen, was zwischen Aufgabendefinition und der eigentlichen Analyse stattfindet. Dieses umfasst alle Aktivitäten, die dazu dienen, dass die Rohdaten auf die Analyseaufgabe hin analysiert werden können. Vergleichbar mit dem Chapman Modell sind dieses die Bereinigung und Transformation der Rohdaten. Zusätzlich können dieses auch das Auswählen relevanter Merkmale oder das Ziehen von Stichproben sein.

Beispiel: Der Versicherer speichert seit zwei Jahren die Daten seiner 1,5 Mio. Kundenbeziehungen. Es liegen somit aktuelle wie historische Daten vor, auf die jederzeit zugegriffen werden kann. Zudem werden die Daten mit über 300 Attributen im Data Warehouse gespeichert. Es stehen ausreichend Daten zur Verfügung und aufgrund der guten Datenqualität kann auf eine Nachbearbeitung weitgehend verzichtet werden.

Data Analysis:

Die Datenanalyse beinhaltet neben der Analyse als solches auch die endgültige Bestimmung des Analysedatensatzes. Charakteristisch für diese Phase ist, dass Verfahren festgelegt, Parameter eingestellt und Algorithmen ausgewählt werden, um ein optimales Analyseergebnis zu erzielen. Am Ende dieser Phase steht eine Ergebnismenge, die in den beiden nachfolgenden Schritten weiter verdichtet wird.

Beispiel: Mit Hilfe eines geeigneten Algorithmus werden die vorhandenen Daten durchkämmt. Es stellt sich heraus, dass besonders Kunden im mittleren Alter (28-50 Jahren), mit einem Einkommen von mehr als 4.000€, verheiratet, mit Kindern und einem Eigenheim von Interesse sind.

Postprocessing:

Kern der vierten Phase ist der Abgleich der Ergebnismenge mit der Analyseaufgabe. Dies ist Teil einer Evaluation des gesamten Prozesses, die zur Durchführung weiterer Analysen oder zur Wiederholung einzelner Unteraufgaben vorhergehender Prozessschritte führen kann. Weiterhin erfolgt innerhalb dieses Prozessschrittes eine erste visuelle Aufbereitung der Ergebnisse und ggf. die Transformation in andere Datenformate.

Beispiel: Durch den Einsatz eines Entscheidungsbaum-Verfahrens wurde ein Kundenmuster entdeckt, in welchem die Objekte eine Vorliebe für längerfristige, sicherere Anlagen aufweisen. Das neue Produkt, eine neuartige Rentenversicherung, ist genau auf diese Kundengruppe zugeschnitten. Es wird eine Liste mit Namen, Adresse und div. Finanzverhältnissen erstellt, mit der der Kundenberater gezielt die in Frage kommenden Versicherungskunden ansprechen kann.

Deployment:

Die letzte Phase des allgemeinen Data Mining Modells ist das Deployment. Hierin findet die Übertragung der Data Mining Ergebnisse auf das Realproblem statt. Erst in dieser Phase wird ein Nutzen aus dem gesamten Prozess gezogen.

Beispiel: Der Kundenberater bietet jeder auf der Liste vorhandenen Person das neue Produkt an. Durch die hohe Abschlusswahrscheinlichkeit verliert er nicht unnötig Zeit mit Beratungs­gesprächen mit Kunden, die von vornherein nicht in Frage kommen. Der Berater kommt somit effizient zum Einsatz und eine Gewinnsteigerung tritt ein.

3.5 Häufig auftretende Probleme beim Data Mining

Im Folgenden werden die Herausforderungen beschrieben, welche ein Data Mining Prozess birgt. Jeder Problembereich für sich genommen stellt eine Gefahrenquelle für eine erfolgreiche Durchführung von Data Mining dar.

Rechenzeit:

Obgleich in der heutigen Zeit die Rechenkapazitäten immer neue Höchstwerte erreichen[1], stellt die Rechenzeit für den Analyseprozess nach wie vor einen kritischen Faktor dar. Dieses liegt zum einen darin begründet, dass neben der Rechenkapazität auch die zu untersuchenden Daten immer weiter anwachsen. Zum anderen kann die Anzahl von Rechenschritten innerhalb der angewandten Algorithmen erhebliche Rechenleistungen einfordern. Man geht davon aus, dass Algorithmen, deren Rechenzeitverhalten stärker als in quadratischer Abhängigkeit zur Anzahl der Daten verhält, für die Anwendung auf große Datensätze ungeeignet seien. In solchen Fällen muss der Suchraum eingeschränkt oder die ausgewählten Daten beschränkt/verdichtet werden (Küppers, 1999 S. 15).

Verständlichkeit:

Eine der größten Stärken heutiger Data Mining Systeme ist es, Ergebnisse für ein breites Spektrum von Anwendern leicht verständlich aufzuführen. Dennoch ist es wichtig, auch diesem Aspekt weiterhin Bedeutung zukommen zu lassen. Data Mining sollte in der Lage sein, Information sowohl für den menschlichen Nutzer als auch für die Weiterverarbeitung mit Computerprogrammen verständlich bereitzustellen (Küppers, 1999 S. 14).

Vertrauenswürdigkeit der Ergebnisse:

Die anschaubaren und leicht zu interpretierenden Ergebnisse machen die Durchführung eines Data Mining Prozesses für viele Anwendungen interessant. Dennoch ist es unablässig, die Resultate gründlich zu validieren. Ohne Validierung ist es leicht möglich, dass bspw. aufgrund von fehlerhaften Ausgangsdaten oder einer Fehlinterpretation, die Aussage eines Ergebnisses nicht richtig gedeutet wird. Die Anwendung statistischer Mittel hilft dabei, dieses Risiko so gering wie möglich zu halten (Säuberlich, 2000 S. 14).

Bei der Anwendung von Data Mining muss beachtet werden, dass die Ergebnisse eines Data Mining Prozesses grundsätzlich einer Interpretation bedürfen. Zwar steht am Ende einer Analyse ein oftmals leicht zu interpretierendes Ergebnis, welches auf Fakten beruht, doch (Adriaans, et al., 1996) fassen treffend zusammen:

„A general law can never be verified by a finite number of observations. It can however, be falsified by only one observation.“ (Adriaans, et al., 1996)

Konkret muss beachtet werden, dass die mit Algorithmen errechneten Ergebnisse einen größeren Einfluss auf Entscheidungen haben als Aussagen aus dem Projektumfeld. Quantifizierte Verfahren lassen Ergebnisse als äußerst korrekt und präzise aussehen. Jedoch spielt bei jeder Anwendung der Kontext die wichtigste Rolle. Ohne Analogieschlüsse des Anwenders sind die Ergebnisse eines Data Mining Prozesses wertlos. Um Data Ming richtig einzusetzen, ist es wichtig, es als Ideenlieferant und Verdachtsmomentgenerator zu verstehen. Es hilft dabei, Lösungen zu finden, generiert diese jedoch nicht selber (Bissantz, et al., 1996 S. 1 f.).

Datenproblematik:

Rohdaten stellen die Ausgangspunkt jedes Data Mining Prozess dar. Da sich auf diese Daten der gesamte Prozess aufbaut, gilt es diese mit besonderer Aufmerksamkeit zu betrachten. Innerhalb von Fachkreisen wird der Anteil am Gesamtaufwand eines Data Mining Prozesses, der zur Bereitstellung und Aufbereitung der Ausgangsdaten notwendig ist, auf 80% und mehr beziffert (Krahl, et al., 1998 S. 41). Neben der Schwierigkeit an die relevanten Daten zu gelangen, ergibt sich im Anschluss daran die Herausforderung, die Daten so aufzubereiten, dass ein Data Mining Prozess sinnvoll durchgeführt werden kann. Um den im Nachfolgenden näher beschriebenen Phänomen zu begegnen, gilt es, sich im Klaren über diese Fehlerquellen zu sein und diesen ggf. mit Datenbereinigungsverfahren (Preprocessing) zu begegnen (Säuberlich, 2000 S. 12 f.).

- Formatierung und Verknüpfung von Daten

In einigen Fällen liegen die relevanten Daten nicht in einer, sondern in mehreren Datenquellen vor. In diesen Fällen müssen die Daten vor dem eigentlichen Data Mining Prozess verknüpft werden. Dazu ist häufig zudem eine Formatierung der Daten notwendig, damit die Daten zusammengefügt werden können.

[...]


[1] Vgl. Moore"s law doubles computing power every 18 months

Ende der Leseprobe aus 160 Seiten

Details

Titel
Big Data. Praktische Durchführung eines Data-Mining-Prozesses mit dem Ziel der Produktionsqualitätssteigerung
Hochschule
Otto-von-Guericke-Universität Magdeburg
Note
1,0
Autor
Jahr
2016
Seiten
160
Katalognummer
V369829
ISBN (eBook)
9783668481725
ISBN (Buch)
9783668481732
Dateigröße
19040 KB
Sprache
Deutsch
Schlagworte
data, praktische, durchführung, mining, prozesses, ziel, produktionsqualitätssteigerung
Arbeit zitieren
Felix Kuschicke (Autor:in), 2016, Big Data. Praktische Durchführung eines Data-Mining-Prozesses mit dem Ziel der Produktionsqualitätssteigerung, München, GRIN Verlag, https://www.grin.com/document/369829

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Big Data. Praktische Durchführung eines Data-Mining-Prozesses mit dem Ziel der Produktionsqualitätssteigerung



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden