Im Zentrum der vorliegenden Arbeit steht die Anreicherung von Wissen zur Durchführung eines Data Mining Projektes im produktionsnahen Umfeld, die Gliederung verschiedener Data Mining Verfahren und die prototypische Implementierung eines solchen Verfahrens auf eine Praxisanwendung in der Qualitätssicherung.
Angelehnt an den Bergbau stellt Data Mining eine Methodik zum systematischen Gewinnen von Informationen aus großen Datenbeständen dar. Ausgehend vom Durchsuchen einer Datenquelle, über das Identifizieren und Selektieren von relevanten Informationen, hin zur Präsentation und Ableitung von Handlungsempfehlungen vereint die Methodik einen holistischen Ansatz auf sich.
Die Anwendung der Methodik im Produktionsbereich stellt noch eine Ausnahme dar. Wesentliche Gründe hierfür sind der Mangel an praxisorientierten Theoriegrundlagen, die Herausforderung aus einer Vielzahl verschiedener Data Mining Verfahren ein geeignetes für den Anwendungsfall zu finden und das Fehlen von praktischen Ansätzen zur Bearbeitung eines Data Mining Projektes.
Inhaltsverzeichnis
1 Einleitung
1.1 Problemstellung
1.2 Motivation
1.3 Lösungsansatz, Ziele, Anspruch und Abgrenzung der Arbeit
1.4 Aufbau der Arbeit
2 Begriffliche Grundlagen: Big Data, Business Intelligence und Data Mining
2.1 Big Data: Beschreibung, Ursprung und Definition
2.2 Business Intelligence: Beschreibung, Ursprung und Definition
2.3 Data Mining: Beschreibung, Ursprung und Definition
3 Das Themengebiet Data Mining
3.1 Inhaltliche Schwerpunkte
3.2 Verwandte Themengebiete
3.3 Verwendete Terminologie
3.4 Data Mining als Modell
3.4.1 Das Prozessmodell nach Chapman
3.4.2 Das Prozessmodell nach Fayyad
3.4.3 Vergleich verschiedener Prozessmodelle
3.4.4 Modellübergreifende Prozessschritte
3.5 Häufig auftretende Probleme beim Data Mining
3.6 Data Mining im betrieblichen Umfeld
3.6.1 Ein Überblick
3.6.2 Data Mining und Qualitätsdaten
4 Data Mining Verfahren und Algorithmen
4.1 Das Analyseziel
4.2 Verfahrensklassen und Verfahren
4.2.1 Überwachte beschreibende Verfahren
4.2.2 Das Subgroup discovery Verfahren
4.3 Qualitätsfunktionen
4.4 Ergebnisraumbeschränkungen
4.5 Algorithmen
4.5.1 Suchansatz
4.5.2 Heuristische Suche
4.5.3 Erschöpfende Suche
4.5.4 Der allgemeine Subgroup discovery Algorithmus
4.5.5 Der Beam Search Algorithmus
4.5.6 Der SD-Map Algorithmus
4.6 Prototypischer Einsatz des Subgroup discovery Verfahrens
5 Vorstellung der verwendeten Werkzeuge
5.1 QlikView
5.2 Vikamine
6 Task Analysis
6.1 Die Jowat SE allgemein und das Qualitätsmanagement im Speziellen
6.2 Definition des Analysezieles
6.3 Analyse des Anwendungsobjektes
6.3.1 Objekte
6.3.2 Objektattribute
6.4 Rohdatenbeschaffung und Exploration
6.5 Anpassung der Objektattribute
7 Preprocessing
7.1 Integration der verschiedenen Datenquellen
7.1.1 Entstehungsprozess
7.1.2 Berechnung und Gruppierung einzelner Attribute
7.2 Datenbereinigung
7.3 Transformation der Daten
7.4 Überprüfung des Modells
8 Data Analysis
8.1 Auswahl des Analyseverfahrens
8.2 Wahl der Verfahrensparameter
8.3 Durchführung der Analyse und Bewertung der Ergebnisse (Suchlauf 1)
8.3.1 Analyse zehn ausgewählter Subgruppen
8.3.2 Ergebnis der Untersuchungen
8.4 Iterative Verbesserung der Analyse
9 Postprocessing
9.1 Analyse und Bearbeitung des Ergebnisses
9.2 Darstellung des Ergebnisses
9.3 Bewertung des Data Mining Prozesses
10 Probleme während der Bearbeitung
11 Fazit
12 Anhang
Zielsetzung & Themen
Ziel der Arbeit ist es, die praktische Anwendbarkeit von Data Mining Verfahren zur Steigerung der Produktionsqualität in einem produktionsnahen Umfeld aufzuzeigen und dabei insbesondere das Subgroup discovery Verfahren als Werkzeug zur Identifikation von Fehlerursachen zu evaluieren.
- Grundlagen von Big Data, Business Intelligence und Data Mining
- Methodik und Prozessmodelle der Wissensgenerierung
- Analyse der industriellen Anforderungen und Datenstrukturen (Jowat SE)
- Prototypische Implementierung und Validierung von Subgroup discovery
- Vergleich und Optimierung verschiedener Datenanalyse-Parameter
Auszug aus dem Buch
4.2.2 Das Subgroup discovery Verfahren
Das in dieser Arbeit besonders berücksichtigte Subgroup discovery Verfahren stellt wie die gesamte Verfahrensklasse „Überwachte beschreibende Verfahren”, eine Ausnahme entsprechend der zuvor dargestellten Gliederung dar. Subgroup discovery ist ein Verfahren, das Subgruppen aus der Datenbasis generiert, indem es Muster generiert, die die Beziehungen zwischen unabhängigen Attributen und dem festgelegten Wert der Zielgröße beschreiben. Die Muster stellen Regeln dar, die wiederum Subgruppen beschreiben.
Zum besseren Verständnis soll folgendes fiktives Beispiel dienen. Gegeben sei eine Menge von Basisdaten zu den Einkommensverhältnissen in einem Landkreis. In diesem sind das Geschlecht (G: Männlich, weiblich), das Alter (A:18-30, 31-45, 45-60, >60) und die Bildung (B: keine, Ausbildung, Studium) der Objekte enthalten. Das Einkommensverhältnis (E), d.h. die Zielgröße, ist ebenso erfasst und gliedert sich in „weniger wohlhabend“ und „sehr wohlhabend“.
Der Anwender möchte zu Werbezwecken erfahren, welche Objekte er mit welcher Strategie ansprechen soll. Dafür definiert er als Analyseziel, das Auffinden von Beschreibungsmustern für die einzelnen Einkommensverhältnisse. Bei Anwendung des Subgroup discovery Verfahrens auf den Datensatz stellt dieses folgende signifikante Muster fest.
Zusammenfassung der Kapitel
1 Einleitung: Diese Einleitung führt in die Themenfelder Industrie 4.0 und Big Data ein, erläutert die Problemstellung im Produktionskontext und definiert das Ziel sowie den Aufbau der Arbeit.
2 Begriffliche Grundlagen: Big Data, Business Intelligence und Data Mining: Dieses Kapitel liefert eine theoretische Abgrenzung und Definition der zentralen Fachbegriffe und beleuchtet deren historische Entwicklung sowie ihre Verflechtung.
3 Das Themengebiet Data Mining: Es wird auf die Funktionsweise von Data Mining als Prozess eingegangen, verschiedene Modelle dargestellt und Herausforderungen im betrieblichen Umfeld diskutiert.
4 Data Mining Verfahren und Algorithmen: Dieses Kapitel baut eine strukturierte Übersicht über Data Mining Verfahren auf, mit besonderem Fokus auf das Subgroup discovery Verfahren und die zugrunde liegenden Algorithmen.
5 Vorstellung der verwendeten Werkzeuge: Hier werden die in der Arbeit eingesetzten Software-Systeme QlikView für das Preprocessing und Vikamine für die Datenanalyse vorgestellt.
6 Task Analysis: Dieses Kapitel beschreibt das praktische Projektumfeld bei der Jowat SE, definiert die Analyseziele und bereitet die relevanten Daten für den Mining-Prozess auf.
7 Preprocessing: Hier wird der Prozess der Datenintegration, -bereinigung und -transformation erläutert, der den Großteil des Arbeitsaufwands in Data Mining Projekten ausmacht.
8 Data Analysis: Dieser Hauptteil beschreibt die iterative Anwendung des Subgroup discovery Verfahrens, die Wahl der Parameter und die Durchführung verschiedener Suchläufe zur Identifikation von Fehlerursachen.
9 Postprocessing: Zusammenfassung und Bewertung der finalen Ergebnisse sowie eine kritische Reflexion über den Erfolg des durchgeführten Data Mining Prozesses.
10 Probleme während der Bearbeitung: Aufzählung und Diskussion der Herausforderungen, wie Datenzugriff und begrenzte Rechenkapazitäten, die den Projektablauf beeinflusst haben.
11 Fazit: Eine abschließende Bewertung der Arbeit, die sowohl die Stärken und Schwächen beleuchtet als auch das Potenzial von Data Mining für das untersuchte Unternehmen zusammenfasst.
Schlüsselwörter
Data Mining, Big Data, Business Intelligence, Subgroup discovery, Produktionsqualität, Prozessoptimierung, Qualitätssicherung, Jowat SE, Algorithmen, Datenanalyse, Qualitätsfunktionen, Wissensgenerierung, industrielle Praxis, Prozessmodell, Beam Search
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit untersucht die praktische Umsetzung von Data Mining Prozessen in einem Produktionsunternehmen (Jowat SE) mit dem Ziel, Prozessdaten systematisch nach Mustern zu durchsuchen, die auf Qualitätsprobleme hindeuten.
Was sind die zentralen Themenfelder?
Die Arbeit verbindet theoretische Grundlagen des Data Mining und der Business Intelligence mit einer konkreten, anwendungsorientierten Fallstudie aus der Qualitätssicherung in der chemischen bzw. klebstoffverarbeitenden Industrie.
Was ist das primäre Ziel oder die Forschungsfrage?
Das primäre Ziel ist es, aufzuzeigen, wie Data Mining genutzt werden kann, um aus bestehenden Produktionsdaten Wissen über versteckte Problemkonstellationen zu generieren, die zu Produktionsfehlern führen.
Welche wissenschaftliche Methode wird verwendet?
Es wird das "Subgroup discovery"-Verfahren angewandt, das als überwachter, beschreibender Ansatz dazu dient, signifikante Abweichungen in Datenuntergruppen bezüglich einer Zielgröße (hier: Fehlerstatus) zu identifizieren.
Was wird im Hauptteil behandelt?
Der Hauptteil umfasst die detaillierte Analyse der Unternehmensdaten, die datentechnische Aufbereitung (Preprocessing), die Durchführung verschiedener Suchläufe (Analyseschritte) unter variierenden Parametern sowie die Auswertung der resultierenden 24 Subgruppen.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit zeichnet sich durch Begriffe wie Data Mining, Subgroup discovery, Qualitätssicherung, Prozessdatenanalyse und industrielle Praxis aus.
Welche Rolle spielt die Software Vikamine in diesem Projekt?
Vikamine dient als zentrales Werkzeug für die eigentliche Datenanalyse; sie ermöglichte die Anwendung des Subgroup discovery Verfahrens und die Berechnung der verschiedenen Qualitätsmodelle auf den bereinigten Datensätzen.
Was ist die wichtigste Schlussfolgerung des Autors?
Der Autor schließt, dass Data Mining zwar keine unmittelbare Sofortlösung für die Produktionsoptimierung bietet, aber als mächtiger "Verdachtsmomentgenerator" fungieren kann, der die Fehlerursachenanalyse auf Basis von Daten rationalisiert und so mittelbar zur Qualitätssteigerung beiträgt.
- Quote paper
- Felix Kuschicke (Author), 2016, Big Data. Praktische Durchführung eines Data-Mining-Prozesses mit dem Ziel der Produktionsqualitätssteigerung, Munich, GRIN Verlag, https://www.grin.com/document/369829