Im Jahr 2012 setzte die Bundesregierung Arbeitskreise ein, um die Wettbewerbsrolle Deutschlands im Welthandel zu festigen. Als Ergebnis entstand das Zukunftsprojekt „Industrie 4.0“, welche die Stärken der deutschen Industrie im Maschinen- und Anlagenbau mit den Möglichkeiten der aktuellen Informations- und Kommunikationstechnologien verbinden soll. Ziel dieser Digitalisierung ist die vernetzte und schlaue Produktion, also Systeme die durch Sensoren und Aktuatoren selbständig kommunizieren, entscheiden und agieren.
Zusammen mit Industrie 4.0 und der Digitalisierung fallen oft auch weitere Begriffe wie „Big Data“ oder „Smart Data“ und den dazugehörigen Problemstellungen:
Wie kann der Datenfluss gesteuert werden? Welche Infrastruktur wird benötigt? Wie kann Nutzen aus den Daten erwirtschaftet werden?
Diese interdisziplinären Probleme stellen nicht nur für Großkonzerne eine große Herausforderung dar, sondern vor allem auch für Kleinst-, kleine und mittlere Unternehmen (KMU).
Industrie 4.0 endet nicht mit der Implementierung von modernen Produktionssystemen. Da ein komplett autonomes Produktionssystem, welches kein menschliches Entscheiden und Eingreifen benötigt, weder realistisch noch anzustreben ist (vgl. [1]), sind auch Mensch-Technik Schnittstellen ein wichtiger Baustein der Digitalisierung. Somit sind für Projekte der Digitalisierung immer Teams aus Fachbereichen der Produktion, Prozessanalyse, IT und der Datenanalyse zusammenzustellen.
Für KMU kann dieses bereits aufgrund der limitierten Personalressourcen zu Schwierigkeiten führen. Zusätzlich kann es durch fehlendes Verständnis in der Thematik der Digitalisierung dazu führen, diese komplett zu verpassen und somit im Wettbewerb abgehängt zu werden.
Durch die Digitalisierung entstehen in den Unternehmen eine hohe Anzahl von Daten, die bisher nur in großen Speichersystemen gesammelt werden konnten.
Aufgabe des Data Mining ist es, neuartige und potentiell nützliche Muster in den Daten zu erkennen. Mit den gewonnenen Erkenntnissen ist es dann möglich die Prozesse und Produkteigenschaften zu verbessern. Hierzu sind Expertenwissen und spezielle Software notwendig.
Aufgrund der meist fehlenden Expertise und Kapazitäten, ist es für KMU besonders schwierig geeignete Data Mining Prozesse in Geschäftsprozesse zu integrieren und mit geeigneter Software durchzuführen.
Es soll daher ein Überblick von Data Mining Prozessmodellen, Verfahren und geeigneter Softwarelösungen erstellt werden.
Inhaltsverzeichnis
A Einführung
A 1 Industrie 4.0 & die großen Daten
A 2 Problemstellung
A 3 Herangehensweise
A 4 Business-Intelligence-Infrastruktur: Data Warehouse und Data Marts
A 5 Definition Data Mining
B Data Mining Prozessmodelle
B 1 Daten-Wertschöpfungskette (Data Value Chain)
B 2 Knowledge Discovery in Databases (KDD)
B 3 Cross-Industry Standard Process for Data Mining - CRISP-DM
C Data Mining Verfahren und Methoden
C 1 Auffinden von Zusammenhängen
C 1.1 Klassifikationsverfahren
C 1.2 Prognosemodell
C 2 Auffinden von Regeln: Assoziationsverfahren
C 3 Auffinden von Strukturen: Clusterverfahren
C 3.1 Partitionierende Clusterbildung
C 3.2 Hierarchische Clusterbildung
C 3.3 Dichtebasierte Clusterbildung
C 4 Visualisierung von Datenräumen
D Vorstellung ausgewählter Data Mining Tools
D 1 Allgemeine Marktsituation
D 2 Auswahl von Data Mining Tools
D 2.1 KNIME Analytics Platform
D 2.2 IBM SPSS Modeler
D 2.3 Vergleich im Fallbeispiel
D 3 Bewertungsschema & Auswertung
E Zusammenfassung
Zielsetzung & Themen
Diese Studienarbeit zielt darauf ab, kleinen und mittleren Unternehmen (KMU) bei der Einführung und Integration von Data-Mining-Prozessen unterstützend zur Seite zu stehen, indem ein Überblick über theoretische Prozessmodelle, gängige Methoden sowie ein praxisorientierter Vergleich aktueller Softwarelösungen geboten wird.
- Grundlagen von Data-Mining-Prozessmodellen wie CRISP-DM.
- Erläuterung analytischer Verfahren für Klassifikation, Assoziation und Clusterbildung.
- Marktanalyse und technischer Vergleich der Software KNIME Analytics Platform und IBM SPSS Modeler.
- Bewertung der Anwendbarkeit dieser Tools in KMU hinsichtlich Funktionalität und Wirtschaftlichkeit.
- Praxisbeispiel zur Datenvorbereitung und Auswertung mittels eines industriellen Datensatzes.
Auszug aus dem Buch
C 3.1 Partitionierende Clusterbildung
Die partitionierende Clusterbildung hat das einfache Ziel eine Datenmenge in k Cluster zu zerlegen. Dabei handelt es sich im ein iteratives Verfahren, welches dann endet, wenn kein Objekt mehr einem anderen Cluster zugeordnet werden kann. Bei den entstehenden Clustern wird auch von disjunkten Clustern gesprochen, da jedes Cluster mindestens aus einem Objekt besteht und jedes Objekt maximal in einem Cluster enthalten ist.
Ein bekannter Algorithmus hierfür ist der k-Means-Algorithmus. Die Anzahl der Cluster ist bei diesem Algorithmus vorgegeben und nur die Zentren der jeweiligen Cluster werden zunächst zufällig festgelegt und dann iterativ verändert. Hierzu werden die Zentren der Cluster durch deren Schwerpunkte (Centroiden) beschrieben.
Im nächsten Schritt werden die Daten(-punkte) den jeweiligen Clustern mit den Abständen (z.B. durch die euklidische Distanz) zu den Centroiden zugeordnet. Dieser Ablauf setzt sich wie in Abbildung 11 fort, sodass in jedem Durchlauf eine neue Zuordnung und eine erneute Berechnung der Centroiden erfolgt. Das Verfahren endet, wenn kein Punkt mehr sein Cluster wechselt.
Zusammenfassung der Kapitel
A Einführung: Das Kapitel erläutert die Bedeutung von Data Mining im Kontext von Industrie 4.0 und skizziert die spezifischen Herausforderungen, vor denen KMU bei der Digitalisierung stehen.
B Data Mining Prozessmodelle: Hier werden theoretische Frameworks wie die Data Value Chain, KDD und insbesondere der CRISP-DM-Standard als Leitfaden für Data-Mining-Projekte vorgestellt.
C Data Mining Verfahren und Methoden: Dieses Kapitel beschreibt technische Algorithmen zur Klassifikation, für Assoziationsregeln sowie verschiedene Ansätze der Clusterbildung und Visualisierung.
D Vorstellung ausgewählter Data Mining Tools: Der Hauptteil bietet eine Marktanalyse und einen detaillierten Vergleich von KNIME und IBM SPSS Modeler anhand eines praktischen Fallbeispiels sowie eines Bewertungsschemas.
E Zusammenfassung: Die Arbeit schließt mit einer Bilanz der Ergebnisse und spricht eine Empfehlung für den Einsatz der KNIME Analytics Platform in KMU aus.
Schlüsselwörter
Data Mining, KMU, Industrie 4.0, Business Intelligence, CRISP-DM, KNIME Analytics Platform, IBM SPSS Modeler, Klassifikation, Clusterbildung, Datenvorbereitung, Big Data, Prozessmodell, Predictive Analytics, Marktanalyse, Wirtschaftlichkeit.
Häufig gestellte Fragen
Worum geht es in dieser Studienarbeit grundlegend?
Die Arbeit untersucht, wie KMU moderne Data-Mining-Methoden und Softwarelösungen nutzen können, um im Rahmen der Digitalisierung und Industrie 4.0 wettbewerbsfähig zu bleiben.
Was sind die zentralen Themenfelder der Analyse?
Zentrale Themen sind die theoretischen Grundlagen des Data Mining, verschiedene Prozessmodelle zur Datenanalyse sowie ein konkreter Vergleich zwischen zwei führenden Softwarelösungen.
Welches primäre Ziel verfolgt der Autor?
Das Ziel ist es, KMU eine fundierte Entscheidungshilfe bei der Auswahl und Integration von Data-Mining-Tools zu bieten, da diese oft über limitierte Personalressourcen und Expertise verfügen.
Welche wissenschaftliche Methode kommt zum Einsatz?
Neben einer Literaturanalyse zur Theorie nutzt der Autor ein praktisches Fallbeispiel eines FCT-Datensatzes, um die Softwareanwendungen unter realistischen Bedingungen zu testen und ein Bewertungsschema zu entwickeln.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die Vorstellung von Data-Mining-Algorithmen und eine detaillierte Softwareuntersuchung, bei der KNIME und IBM SPSS Modeler anhand von Funktionalität, Dokumentation und Kosten verglichen werden.
Welche Schlagworte charakterisieren die Arbeit am besten?
Die Arbeit ist geprägt durch Begriffe wie Wirtschaftlichkeit, KMU-spezifische IT-Herausforderungen, CRISP-DM und Software-Benchmarking.
Warum ist die KNIME Analytics Platform für KMU besonders interessant?
Laut der Studie ist KNIME aufgrund der hohen Kosteneffektivität bei nahezu gleichwertiger technischer Leistungsfähigkeit im Vergleich zu IBM SPSS Modeler besonders für KMU empfehlenswert.
Welche Rolle spielt der CRISP-DM-Standard in der Untersuchung?
CRISP-DM dient als industrieller Standard für den gesamten Data-Mining-Prozess und wird sowohl theoretisch erläutert als auch in der praktischen Implementierung innerhalb der untersuchten Softwarelösungen analysiert.
- Quote paper
- Tobias Hänsel (Author), 2017, Data Mining für KMU. Wie kann Nutzen aus den Daten erwirtschaftet werden?, Munich, GRIN Verlag, https://www.grin.com/document/369375