Name: Predictive Analytics mit Azure Machine Learning
Price: 47.95 EUR
Availability: InStock
Author: Nikolaus Jäger-Grassl
ISBN: 978-3-668-99790-5

In dieser Arbeit werden das Potenzial, das Machine Learning für die produzierende Industrie bietet, betrachtet und die zur Erstellung von praktischen Anwendungen geeigneten Algorithmen und Methoden untersucht. Die beleuchteten Methoden und Konzepte finden in einem Prototyp Umsetzung. In der abschließenden Reflexion werden die theoretischen Konzepte den praktischen Erkenntnissen gegenübergestellt und kritisch betrachtet.

Die Ergebnisse zeigen, dass die Erstellung neuer ML-Anwendungen für die produzierende Industrie ein wichtiger Schritt zur Erhaltung der Wettbewerbsfähigkeit ist. Gleichzeitig wurde erkannt, dass die Erstellung von ML-Anwendungen durch neue Technologien mit vergleichsweise geringem Aufwand umgesetzt werden kann. Der praktische Teil dieser Arbeit erbringt den Beweis, dass die Brücke zwischen theoretischer Modellierung und der praktischen Umsetzung von Anwendungen auch für Fachkräfte aus dem Produktionsbereich möglich ist.

Industrie 4.0 oder Smart Manufacturing bezeichnen Entwicklungen, die tiefgreifende Veränderungen des gesamten Product Lifecycle ermöglichen und auch notwendig machen, um global konkurrieren zu können. Alle großen Volkswirtschaften haben
diese Entwicklungen erkannt und Programme zur Integration und Nutzung dieser neuen Chancen gestartet. Ein nie dagewesener Anstieg in der Verfügbarkeit an bereits aufgezeichneten sowie an live übertragenen Daten erschließt neues Potenzial zur Prozessoptimierung durch Machine Learning (ML).

Es gibt bereits eine Vielzahl an Anwendungen in allen Bereichen der produzierenden Industrie, die bereits von ML profitiert haben, dennoch wird heute noch hauptsächlich nach etablierten Methoden vorgegangen. Es wird als unumgänglich angesehen, dass Unternehmen Investitionen tätigen, um aus dieser Menge an verfügbaren Daten neues Wissen zu erwerben, um so im globalen Wettbewerb bestehen zu können.

Excerpt

INHALT

Inhalt

Vorwort

Abstract

Abkürzungsverzeichnis

Abbildungs- und Tabellenverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1. Einleitung
1.1. Zielsetzung
1.2. Umsetzung

2. Begriffsabgrenzungen und -definitionen
2.1. Informationstheorie
2.2. Knowledge Discovery from Data
2.3. Big Data
2.4. Smart Manufacturing
2.5. CRISP-DM
2.6. SEMMA

3. Theoretische Grundlagen
3.1. Welches Potenzial bieten ML-Anwendungen für Produktionsmaschinen?
3.2. Welche Modelle sind für die Erstellung des Vorhersagemodells geeignet?
3.3. Beantwortung der theoretischen Subforschungsfragen

4. Modellierung und praktische Umsetzung
4.1. Ziele und Rahmenbedingungen
4.2. Ausschlüsse und Abgrenzungen
4.3. Technologien
4.4. Modell
4.5. Qualitätssicherung
4.6. Schnittstellen
4.7. Datenschutz
4.8. Ergebnisse des Werks

5. Conclusio und Ausblick
5.1. Relevanz der Arbeit
5.2. Einschränkungen und Probleme
5.3. Antworten zu Theorie und praktischer Umsetzung
5.4. Ausblick und Nutzen
6. Literaturverzeichnis
6.1. Wissenschaftliche Literatur
6.2. Sonstige Quellen

7. Anhang
7.1. Versuchsprotokoll Data Mining

VORWORT

Der Hintergrund dieser Arbeit ist mein persönliches Interesse an Machine Learning und den damit verwandten Themen. Durch meine Leidenschaft für dieses Thema fiel es mir nicht schwer, mich zum Schreiben zu motivieren.

Die Themenwahl erfolgte relativ kurz entschlossen aufgrund eines Vortrags auf der Microsoft Tech Conference (MCT) 2017 zum Thema Azure Machine Learning. In meinem beruflichen Umfeld erfolgte anschließend die Auswahl der Anwendung und der hierfür verwendeten Daten.

Als Zielgruppe kommen für diese Arbeit Personen aus dem Umfeld der produzierenden Industrie infrage, deren bisheriger Schwerpunkt mehr im Prozessverständnis als in der tiefgehenden Datenanalyse liegt. Aber auch Interessierte, EinsteigerInnen und ExpertIn- nen, denen die Brücke zur Praxis fehlt, können von dieser Arbeit profitieren.

Mein Dank gilt vielen, von denen hier aber nur einige genannt werden können. Allen voran danke ich meiner Frau Sonja, die durch ihre bedingungslose Unterstützung und den gro- ßen Rückhalt, den sie mir in den letzten beiden Jahren gegeben hat, diese Arbeit ermög- lichte. Danke an meinen Betreuer Wolfgang Köck und an meinen Kollegen Herbert An- dert, die mit guter Betreuung und fachlicher Expertise zu Rate standen. Dank auch an Susanne Korbel für die gute Betreuung des wissenschaftlichen Schreibprozesses.

Ich wünsche mir, dass das Lesen dieser Arbeit bei manchem eine Leidenschaft für Ma- chine Learning wecken kann.

Nikolaus Jäger-Grassl

Eichkögl, 02.05.2019

ABSTRACT

Industrie 4.0 oder Smart Manufacturing bezeichnen Entwicklungen, die tiefgreifende Ver- änderungen des gesamten Product Lifecycle ermöglichen und auch notwendig machen, um global konkurrieren zu können. Alle großen Volkswirtschaften haben diese Entwick- lungen erkannt und Programme zur Integration und Nutzung dieser neuen Chancen ge- startet. Ein nie dagewesener Anstieg in der Verfügbarkeit an bereits aufgezeichneten so- wie an live übertragenen Daten erschließt neues Potenzial zur Prozessoptimierung durch Machine Learning (ML). Es gibt bereits eine Vielzahl an Anwendungen in allen Bereichen der produzierenden Industrie, die bereits von ML profitiert haben, dennoch wird heute noch hauptsächlich nach etablierten Methoden vorgegangen. Es wird als unumgänglich angesehen, das Unternehmen Investitionen tätigen, um aus dieser Menge an verfügba- ren Daten neues Wissen zu erwerben, um so im globalen Wettbewerb bestehen zu kön- nen. In dieser Arbeit werden das Potenzial, das ML für die produzierende Industrie bietet, betrachtet und die zur Erstellung von praktischen Anwendungen geeigneten Algorithmen und Methoden untersucht. Die beleuchteten Methoden und Konzepte finden in einem Prototyp Umsetzung. In der abschließenden Reflexion werden die theoretischen Kon- zepte den praktischen Erkenntnissen gegenübergestellt und kritisch betrachtet. Die Er- gebnisse zeigen, dass die Erstellung neuer ML-Anwendungen für die produzierende In- dustrie ein wichtiger Schritt zur Erhaltung der Wettbewerbsfähigkeit ist. Gleichzeitig wurde erkannt, dass die Erstellung von ML-Anwendungen durch neue Technologien mit vergleichsweise geringem Aufwand umgesetzt werden kann. Der praktische Teil dieser Arbeit erbringt den Beweis, dass die Brücke zwischen theoretischer Modellierung und der praktischen Umsetzung von Anwendungen auch für Fachkräfte aus dem Produktionsbe- reich möglich ist.

ABKÜRZUNGSVERZEICHNIS

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1 CRISP-DM, der Cross Industry Standard Process for Data Mining. Quelle: In Anlehnung an Nagorny et al. 2017, S. 41 .

Abbildung 2 Kritische Machine Learning Anwendungen Quelle: In Anlehnung an Qiu et al. 2016, S. 6

Abbildung 3 Informationspyramide Quelle: In Anlehnung an Wuest 2015, S. 33 .

Abbildung 4 KDD Prozessdiagramm. Quelle: In Anlehnung an Cleve/Lämmel 2016, S. 361

Abbildung 5 Lifecycle der Big Data Analyse. Quelle: Nagorny et al. 2017, S. 25.

Abbildung 6 Übersicht über den Prozess des überwachten Lernens. Quelle: In Anlehnung an Awad/Khanna 2015, S. 4 .

Abbildung 7 Übersicht über den Prozess des verstärkten Lernens. Quelle: In Anlehnung an Awad/Khanna 2015, S. 8 .

Abbildung 8 Vergleich zwischen Machine Learning und Deep Learning. Quelle: Wang et al. 2015, S. 147

Abbildung 9 Ablauf des Data-Mining-Prozesses. Quelle: In Anlehnung an Cleve/Lämmel 2016, S. 3

Abbildung 10 Parametrierung Edit Metadata. Quelle: Eigene Darstellung

Abbildung 11 Schnittstellenübersicht in Azure ML. Quelle: Eigene Darstellung

Abbildung 12 Schnittstellenbeschreibung Rest Interface in Azure ML. Quelle: Eigene Darstellung.

Abbildung 13 Beispielaufruf der Res-Schnittstelle in C#. Quelle: Eigene Darstellung.

Abbildung 14 Beispielaufruf der Rest-Schnittstelle in R. Quelle: Eigene Darstellung.

Abbildung 15 Excel Add-in Konfiguration. Quelle: Eigene Darstellung

Abbildung 16 Modell Bereitstellungsarchitektur. Quelle: https://docs.microsoft.co m/de-de/azure/security/blueprints/ffiec-analytics-overview 2019

Abbildung 17 Auswertung der Features mit der größten Abhängigkeit zu Zielwert1. Quelle: Eigene Darstellung .

Abbildung 18 Vergleich der Abhängigkeit Zielwert1 (Col19) zu Col35 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung .

Abbildung 19 Vergleich der Abhängigkeit Zielwert1 (Col19) zu Col106 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung .

Abbildung 20 Auswertung der Features mit der größten Abhängigkeit zu Zielwert2 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung .

Abbildung 21 Vergleich der Abhängigkeit Zielwert2 (Col23) zu Col106 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung .

Abbildung 22 Gegenüberstellung Genauigkeit der verwendeten Algorithmen, bewertet nach COD. Quelle: Eigene Darstellung

Abbildung 23 Gegenüberstellung der Performance der verwendeten Algorithmen, bewertet in Sekunden. Quelle: Eigene Darstellung.

Abbildung 24 Dataset nach Spaltenauswahl. Quelle: Eigene Darstellung

Abbildung 25 Um fehlende Daten bereinigtes Dataset. Quelle: Eigene Darstellung .

Abbildung 26 Ergebnis des Datenfilters. Quelle: Eigene Darstellung

Abbildung 27 Abhängigkeiten der Attribute zu Zielwert 1, sortiert nach Gewichtung. Quelle: Eigene Darstellung

Abbildung 28 Parametrierung Split Data in Azure ML. Quelle: Eigene Darstellung

Abbildung 29 Ergebnis Chart Two-Class Decision Forest. Quelle: Eigene Darstellung .

Abbildung 30 Ergebnis Chart Two-Class Support Vector Machine. Quelle: Eigene Darstellung .

Abbildung 31 Ergebnis Chart Boosted Decision Tree Regression. Quelle: Eigene Darstellung .

Abbildung 32 Ergebnis Chart Neural Network Regression. Quelle: Eigene Darstellung .

Abbildung 33 Ergebnis Chart Two-Class Boosted Decision Tree. Quelle: Eigene Darstellung .

Abbildung 34 Ergebnis Chart Linear Regression. Quelle: Eigene Darstellung

Tabellenverzeichnis

Tabelle 1 Übersicht über die Möglichkeiten zur Bereitstellung von Modellen in Azure ML. Quelle: https://docs.microsoft.com/en-us/azure/machine- learning/service/how-to-deploy-and-where

Tabelle 2 Übersicht über die durchgeführten Versuche, bewertet nach COD. Quelle: Eigene Darstellung

Tabelle 3 Parametrierung Algorithmus Two-Class Decision Forest. Quelle: Eigene Darstellung

Tabelle 4 Spezifikation Two Class Support Vector Machine. Quelle: Eigene Darstellung

Tabelle 5 Parametrierung Algorithmus Two Class Support Vector Machine. Quelle: Eigene Darstellung

Tabelle 6 Spezifikation Boosted Decision Tree Regression. Quelle: Eigene Darstellung

Tabelle 7 Parametrierung Algorithmus Boosted Decision Tree Regression. Quelle: Eigene Darstellung

Tabelle 8 Spezifikation Experiment Neural Network Regression. Quelle: Eigene Darstellung

Tabelle 9 Parametrierung Algorithmus Neural Network Regression. Quelle: Eigene Darstellung

Tabelle 10 Spezifikation Two-Class Boosted Decision Tree. Quelle: Eigene Darstellung

Tabelle 11 Parametrierung Algorithmus Two-Class Boosted Decision Tree. Quelle: Eigene Darstellung

Tabelle 12 Spezifikation Linear Regression. Quelle: Eigene Darstellung

Tabelle 13 Parametrierung Algorithmus Linear Regression. Quelle: Eigene Darstellung

1. EINLEITUNG

Die produzierende Industrie erlebt eine nie dagewesene Steigerung an verfügbaren Da- ten. Die Quellen, aus denen diese Daten kommen können, sind ebenso vielfältig wie de- ren Formate. Das Vorhandensein von Streaming Daten und aufgezeichneten Datenmen- gen wird oft als Big Data bezeichnet und hat die Notwendigkeit nach automatisierten Me- thoden zur Datenanalyse entstehen lassen. Das komplexe Zusammenspiel von vielen Eigenschaften des Produktionsprozesses in kurzen Prozessabschnitten hat maßgebli- chen Einfluss auf die Qualität des Produkts. Um diese zu verbessern, ohne teure Inves- titionen in die Infrastruktur zu tätigen, ist es wichtig, die komplexen Zusammenhänge zwi- schen den technischen Eigenschaften der Materialien und den Herstellungsbedingungen zu verstehen. (vgl. Wuest et al. 2016, S. 23; Kandelbauer/Teischinger 2009 S. 1 f.; Cleve/Lämmel 2016, S. 3)

Smart-Manufacturing-Systeme haben das Potenzial den gesamten Product Lifecycle vom Entwurf über Herstellung, Lieferung, Verwendung bis hin zur Wiederaufbereitung grundlegend zu verändern, indem sie eine dynamische Reaktion auf sich schnell verän- dernde Anforderungen bieten. Diese Entwicklungen werden unter Begriffen wie Big Data oder Smart Manufacturing zusammengefasst, deren Definitionen aber stetig diskutiert werden. Der essenziellste Bestandteil von Systemen, die unter diese Definition fallen, ist der große Strom an Daten und dessen Aufzeichnung in unterschiedlichsten Semantiken. Ein Smart-Manufacturing-System sollte Zugriff auf alle Daten in seinem Umfeld gewäh- ren. Eine Herausforderung in diesem Zusammenhang ist, dass ein Zuviel an Daten sich auch negativ auswirken kann, zum Beispiel wenn diese von den wichtigsten Fragen ab- lenken, Entscheidungen verzögern oder zu falschen Schlüssen und Maßnahmen führen. Die zur Verfügung stehenden Daten kommen aus verschiedensten Quellen mit unter- schiedlicher Semantik. Hierbei ist für die Analyse vielfältiges Wissen nötig, da es erfor- derlich ist, auf die speziellen Strukturen und die unterschiedliche Semantik einzugehen. Es ist wichtig zu verstehen, dass in vielen Anwendungen unterschiedliche Arten von Da- ten vorhanden sein können, und dass durch Data Mining Wissen verschiedenster Art aus diesen Anwendungen gewonnen werden kann. (vgl. Kandelbauer/Teischinger 2009 S. 1 f.; Rachuri 2014, S. 2; Provost/Fawcett 2017, S. 72; Runkler 2010, S. 77; S. 3; Ast- hana/Khorana 2013, S. 267; Han et al. 2012, S. 14, S. 15; Awad/Khanna 2015, S. 3; Nagorny et al. 2017, S. 39)

Data Mining beschreibt den Vorgang, der interessante Muster und neues Wissen in gro- ßen Mengen an Daten finden kann, was mit ‚Mining‘ (‚Abbau‘) bezeichnet wird. So kann basierend auf diesen großen Datenmengen, mit Machine Learning (ML) die Prozess- und Produktqualität nachhaltig verbessert und zur Erhaltung, bzw. Steigerung, der Wettbe- werbsfähigkeit beigetragen werden. Die Analyse von Daten im Big-Data-Umfeld ist ein interdisziplinäres Thema, das eine große Bandbreite an verwandten Themen beinhaltet. Der hierfür etablierte Standardprozess ist der Cross Industry Standard Process for Data Mining (CRISP-DM), der nachfolgend in Abbildung 1 dargestellt ist:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1 CRISP-DM, der Cross Industry Standard Process for Data Mining. Quelle: In Anlehnung an Nagorny et al. 2017, S. 41

Für Data Mining ist die Erfüllung der Annahmen obligatorisch, dass genügend Daten vor- handen und diese repräsentativ für den zu untersuchenden Wertausschnitt sind. Außer- dem muss auch die Bedingung erfüllt sein, dass die erfassten Daten nicht nur für die Vergangenheit, sondern auch für die Zukunft gültig sind. Um von der Verfügbarkeit dieser Daten zu profitieren und international konkurrenzfähig zu bleiben, müssen Unternehmen Investitionen zur Wissensgewinnung aus diesen Daten tätigen. Viele intelligente Ferti- gungssysteme mit unterschiedlichen Anwendungen, die aus oder durch Data Mining ent- standen sind, sind bereits im Einsatz. Diese reichen von Systemen, die auf einfachen Datenanalysen basieren, bis hin zu cyberphysischen Systemen, durch die eine schnelle Realisierung von Produkten möglich wird. Diese Entwicklung ist unter unterschiedlichen Namen bekannt, z. B. Industrie 4.0 (Deutschland), Smart Manufacturing (USA) oder Smart Factory (Südkorea). (vgl. Wuest et al. 2016, S. 23; Kandelbauer/Teischinger 2009 S. 1 f.; Rachuri 2014, S. 2; Provost/Fawcett 2017, S. 72; Runkler 2010, S. 77; Cleve/Läm- mel 2016, S. 3; Asthana/Khorana 2013, S. 267; Han et al. 2012, S. 14, S. 15; A- wad/Khanna 2015, S. 3; Kusiak 2006, S. 4180; Nagorny et al. 2017, S. 39)

1.1. Zielsetzung

Ziel dieser Masterarbeit ist das Auffinden von qualitätsbeeinflussenden unbekannten Ei- genschaften und Abhängigkeiten in Produktionsdaten durch Data Mining. Das gefundene Wissen soll für die Erstellung eines Machine-Learning-Modells genutzt werden, mit des- sen Hilfe es möglich werden soll, die Qualität eines Produkts bei bestimmten Parametern vorherzusagen. Damit könnte in den Prozess eingegriffen werden, um die Produktqualität von Produktionsmaschinen in der produzierenden Industrie zu verbessern.

„Das Ziel des maschinellen Lernens besteht darin, Methoden zu entwickeln, mit denen Muster in Daten automatisch erkannt werden können, und dann die aufgedeckten Muster zu verwenden, um zukünftige Daten oder andere interessante Ergebnisse vorherzusa- gen.“ (M urphy 2012, S. 1; Übers. d. Verf.)

1.1.1. Hauptforschungsfrage

Mittels welcher Prozessparameter kann über Predictive Analytics eine Vorhersage der Produktqualität erstellt werden?

1.1.2. Theoretische Subforschungsfragen

1. Welches Potenzial bieten ML-Anwendungen für Produktionsmaschinen?
2. Welche Modelle sind für die Erstellung des Vorhersagemodells geeignet?

1.2. Umsetzung

In dieser Arbeit werden zuerst die theoretischen Möglichkeiten von Machine Learning und Predictive Analytics im Allgemeinen behandelt. Die in der theoretischen Analyse gewon- nen Erkenntnisse werden im zweiten Teil der Arbeit umgesetzt. In diesem praktischen Teil werden durch die Auseinandersetzung mit den empfohlenen Methoden von Azure Machine Learning mehrere Modelle erarbeitet.

Der Ablauf der Modellerstellung folgt hierbei den Vorgaben aus dem theoretischen Teil. Durch Versuche mit mehreren unterschiedlichen Algorithmen soll ein möglichst breiter Ansatz geschaffen werden. Mittels Data Mining sollen zunächst unbekannte Eigenschaf- ten und Abhängigkeiten aufgefunden und anschließend das Analysemodell basierend auf diesen aufgebaut werden. Im nächsten Schritt wird das Modell anhand von historischen Produktionsdaten trainiert und mit weiteren ebenfalls historischen Daten validiert.

Der Nutzen dieser Arbeit ist kausal in der produzierenden Industrie zu finden, er befasst sich hauptsächlich mit der Qualität der erzeugten Produkte und den Möglichkeiten, die Machine Learning bietet, auf diese Einfluss zu nehmen. Durch die Verbesserung der Pro- zesse entstehen aber auch umwelt- und energiespezifische Nutzen, die in nachhaltigeren Produkten zum Ausdruck kommen. Außerdem können die gewonnenen Erkenntnisse, entsprechend adaptiert, auch in ähnlichen Prozessabläufen Anwendung finden.

2. BEGRIFFSABGRENZUNGEN UND -DEFINITIONEN

2.1. Informationstheorie

Die Informationstheorie mit ihrem Bestreben, der komprimierten Darstellung von Daten und deren gegen Fehler robuste Übertragung und Speicherung hat eine enge Verbindung zum maschinellen Lernen. Die ultimativen Ziele der Informationstheorie sind die Suche nach der maximalen Kompression und der höchstmöglichen Speicherrate. Als solche wird sie als Teil der Informationstheorie angesehen. (vgl. Murphy 2012, S. 56; Cover/Joy 2006, S. 7)

2.2. Knowledge Discovery from Data

Knowledge Discovery from Data (KDD) bezeichnet die automatische oder einfache Ex- traktion von Wissen repräsentierenden Mustern aus Daten. Diese Daten können sowohl strukturiert als auch unstrukturiert und in verschiedensten Datenquellen wie z. B. in gro- ßen Datenbanken, Data Warehouses oder Datenströmen vorliegen. Das gewonnene Wissen wird allgemein als Schema dargestellt und kann in weiterer Folge in Form eines Modells verdichtet werden. Mithilfe dieses Modells können Abfragen zu Vorhersagen und Auswertungen sowie zur weiteren Wissensfindung ausgeführt werden. (vgl. A- wad/Khanna 2015, S. 3; Han et al. 2012, S. 3)

2.3. Big Data

Mit Big Data werden Datenmengen bezeichnet, für die fünf „V“ erfüllt sind:

- Volumen (Volume),
- Vielfalt (Variety),
- Geschwindigkeit (Velocity),
- Glaubwürdigkeit (Veracity),
- Wert (Value).

(vgl. Nagorny et al. 2017, S. 2; Han et al. 2012, S. 8)

2.4. Smart Manufacturing

Mit intelligenter Fertigung wird der intensive, durchgängige Einsatz von fortschrittlichen Datenanalysen bezeichnet, die zum Ziel die Verbesserung der Systemleistung oder der Entscheidungsfindung haben. (vgl. Wang et al. 2018, S. 1)

2.5. CRISP-DM

CRISP-DM stellt einen umfassend dokumentierten, unabhängigen Standardprozess für Data Mining dar. Durch seine strukturierten und organisierten Phasen, können mit ihm umgesetzte Projekte einfach verstanden und überarbeitet werden. (vgl. Azevedo/Santos 2008, S. 4)

2.6. SEMMA

Mit dem leicht verständlichen SEMMA Prozess für Data Mining, können Entwicklung und Pflege von Projekten schnell, aber ausreichend organisiert umgesetzt werden. Die vom Prozess vorgegebene Struktur trägt dazu bei, Data Mining Lösungen effizient umzuset- zen. (vgl. Azevedo/Santos 2008, S. 3)

3. THEORETISCHE GRUNDLAGEN

„Wir ertrinken in Information und hungern nach Erkenntnis.“ (Murphy 2012, S. 32; Übers. d. Verf.)

Wissen bietet Unternehmen die Chance, sich durch verbesserte oder neue Produkte oder Prozesse von MitbewerberInnen abzuheben, und stellt das wertvollste Asset in Produkti- onsbetrieben dar. Die Aufzeichnung von Daten ist in der Industrie schon lange etabliert und umfasst nicht nur Produktionsdaten, sondern auch Daten aus allen anderen Berei- chen wie zum Beispiel aus Verkauf, Marketing, Design und Wartung. Das aktuell aus diesen zur Verfügung stehenden Daten gewonnene Wissen ist aber dadurch beschränkt, dass Wissen und dessen Generierung in der Regel an Personen gebunden ist. Machine Learning kann hierbei als Methode bezeichnet werden, die Erfahrung als Basis nutzt, um Vorhersagen zu treffen oder die Performance eines Prozesses zu verbessern. Ohne diese Erfahrung aber ist die Beurteilung, ob ein Ergebnis besser oder schlechter ist, nur schwer möglich. Deep Learning ist in der Lage, diese Lücke zu schließen, da es unab- hängig aus Daten Wissen generieren kann. Verteilte Speicherung von Daten, deren hohe Dimensionalität und die Fülle an Informationen aus einer Vielzahl von Geräten, Sensoren und Datenströmen hat zu Big Data geführt. Um die Verarbeitung dieser Fülle an Daten zu bewerkstelligen, ist der Einsatz von Computern für die Analyse unumgänglich. Hier können Techniken und Prozesse aus den Bereichen Machine Learning, Deep Learning und Predictive Analytics zur Verarbeitung großer Datenmengen, wie sie in der Produktion zum Beispiel durch Sensordatenerfassung auftreten, bessere Ergebnisse liefern. Das vor allem hinsichtlich der möglichen, großen Anzahl an Parametern und deren Abhängigkei- ten, die ohne maschinelle Unterstützung nicht mehr möglich ist. (vgl. Provost/Fawcett 2015, S. 392; Provost/Fawcet 2017, S. 362; Wuest et al. 2016, S. 23; Harding et al. 2006, S. 969-971; Wuest et al 2017, S. 7; Hong et al. 2013, S. 1; Awad/Khanna 2015, S. 17; Pham/Afify 2004, S. 27; Nagorny et al. 2017, S. 44)

Der Bereich der Fertigung ist ein fruchtbares Gebiet für Anwendungen im Bereich des Machine Learning, denn obwohl es eine steigende Zahl an Anwendungen im Fertigungs- bereich gibt, in denen ML-Algorithmen bereits Verwendung finden, besteht beim Großteil der Prozesse noch Optimierungspotenzial. Machine Learning mit seinen Teilgebieten bie- tet hier schnelle Antworten in Form von neuem Wissen für bestehende und auch für zu- künftige Prozesse, sowohl in Hinsicht auf Fertigungsabläufe als auch Geschäftsprozesse. Durch die Entwicklung spezieller für die Datenanalyse optimierter Hardware haben sich die praktischen Möglichkeiten, Algorithmen auf große Datenmengen anzuwenden, in den letzten Jahren vergrößert. Doch trotz reger Diskussion über Machine Learning für die produzierende Industrie gibt es nur eine geringe Anzahl an Veröffentlichungen, die prak- tische Anwendungen für diesen Bereich betreffen. (vgl. Provost/Fawcett 2015, S. 392; Provost/Fawcet 2017, S. 362; Wue st et al. 2016, S. 23; Harding et al. 2006, S. 969-971; Wuest et al 2017, S. 7; Hong et al. 2013, S. 1; Awad/Khanna 2015, S. 17; Pham/Afify 2004, S. 27; Nagorny et al. 2017, S. 44)

3.1. Welches Potenzial bieten ML-Anwendungen für Produktionsmaschinen?

„Maschinelles Lernen ist das Lernfeld, in dem Computer lernen können, ohne explizit programmiert zu werden“. (Samuel 1959; Übers. d. Verf.)

Viele Anwendungen haben bereits die BenutzerInnen erreicht und große Auswirkungen auf die jeweiligen Prozesse ausgeübt. So gibt es kaum noch einen Bereich, der nicht von Machine Learning profitiert hat. Die finanziellen Beträge, die diese neuen Anwendungen für diese Bereiche generiert haben, gehen in die Milliarden und sind kaum mehr abschätz- bar. Durch die Möglichkeit, ML-Techniken auf einen Großteil der Probleme, die auf dem Verständnis von Daten beruhen, anzuwenden, wird maschinelles Lernen auch als Grund- lage für eine bessere, intelligentere Zukunft angesehen. Allgemein hat sich in den letzten Jahren eine steigende Begeisterung für ML entwickelt. (vgl. Asthana/Khorana 2013, S. 266-267; Asthana/Khorana 2013, S. 267)

Machine-Learning-Algorithmen haben zum Ziel, Muster und Regeln zu erkennen und de- ren Abhängigkeiten zu synthetisieren, um aus diesen Vorhersagen für die Zukunft treffen zu können oder unbekannte Zusammenhänge zu erkennen. Kurz gefasst bieten ML- Techniken die Möglichkeit, aus Daten zu lernen, ohne hierfür explizit Programme zu er- stellen. Deshalb können Techniken des Machine Learning auf die meisten Geschäfts- probleme angewandt werden, deren Grundlage in der Interpretation von Daten und der Reaktion auf die daraus gewonnenen Ergebnisse liegt. Die stetig steigende Anzahl an Herausforderungen, die durch klassische Programmierung nicht oder nicht rentabel be- wältigt werden können, erfordern neue Lösungsansätze. ML und seine Teilbereiche bie- ten vielversprechende Ansätze und Methoden, die in der Lage sind, diese Lücke zu schließen. Durch Überschneidungen der einzelnen Disziplinen, wie zum Beispiel zwi- schen Machine Learning und Data Mining, ist eine Unterscheidung der Disziplinen schwierig. Liegt der Schwerpunkt bei ML mehr auf der Vorhersage zukünftiger Ergeb- nisse basierend auf Erfahrung (aufgezeichnete Daten) und Wissen (bekannte Eigen- schaften und Abhängigkeiten), ist Data Mining auf die Entdeckung neuer bisher unbe- kannter Eigenschaften und Abhängigkeiten spezialisiert. ML setzt aber auch Techniken aus den Bereichen Unüberwachtes Lernen und Verstärktes Lernen ein, die auch im Data Mining Anwendung finden. Der Unterschied zwischen ML und Data Mining liegt mehr im Resultat als in der Anwendung selbst. Dies zeigt sich auch in der Bewertung der Qualität von den Modellen der beiden Disziplinen. Steht bei ML die reproduzierbare Anwendung von Wissen im Vordergrund, ist das Bewertungsmaß im Data Mining das Auffinden neuen Wissens. Aufgrund der stetigen Annäherung der beiden Teilbereiche ist eine holistische Betrachtung der Thematik wichtig. (vgl. Goodfellow et al. 2016, S. 99; Asthana/Khorana 2013, S. 267; Wuest et al. 2016, S. 26; Awad/Khanna 2015, S. 1)

Informationen können heute vergleichsweise einfach gespeichert werden, während das immer mit Personen verbundene Wissen nur schwer allgemein zugänglich gemacht wer- den kann. Data Mining bietet eine Lösung für dieses Problem, indem es für die Suche nach Mustern und Korrelationen in den Daten (Informationen) eingesetzt werden kann, ohne das Wissen benötigt würde. Hierfür müssen einige Grundbedingungen erfüllt sein:

- Es stehen Daten in ausreichender Menge zur Verfügung.
- Die Daten sind nicht nur für die Vergangenheit, sondern auch für die Zukunft gültig.
- Die relevanten Informationen sind in den Daten enthalten.
- Es liegen keine datenschutzrechtlichen Ausschlussgründe vor.

(vgl. Wuest 2014, S. 31; Cleve/Lämmel 2016, S. 272, S. 289-294)

3.1.1. Smart Manufacturing

Durch den weltweit ähnlichen Preis für Rohstoffe konkurrieren Unternehmen in einer glo- balen Wirtschaft hauptsächlich durch Kosteneffizienz in der Produktion. Das stellt Unter- nehmen vor die Herausforderung, durch die vorhandenen historischen Aufzeichnungen Verbesserungen an Produkten zu erzielen. Dies im Besonderen, da es in den meisten Fällen nicht rentabel ist, die notwendigen Optimierungen durch Investitionen in neue Ma- schinen oder Infrastruktur zu erzielen.

Machine Learning bietet Möglichkeiten, diese Daten effizient zu analysieren und Verbes- serungen ohne große Investitionen vorzunehmen. Die richtige Wahl der Lerntechniken und die Symbiose von Theorie (Data Science) und produktionsnaher Praxis (Erfahrung) stellen dabei allerdings eine enorme Herausforderung dar. Die Wichtigkeit, das industri- elle Umfeld auf diese Veränderungen vorzubereiten, wurde von allen großen Volkswirt- schaften bereits erkannt. Tatsächlich befinden sich diese Strategien, wie zum Beispiel ‚White House – USA‘ oder ‚Factories of the Future – EU‘ aber noch am Anfang. Die ge- genwärtigen Herausforderungen, die es zu bewältigen gilt, unterscheiden sich von denen der Vergangenheit. Es gibt zahlreiche Studien, die auf diese Problematik eingehen. Die wichtigsten sind folgende:

- Integration von fortschrittlichen Fertigungstechnologien
- Fokus auf die Wertschöpfung des Produkts
- Anwendung von fortschrittlichen Technologien und Wissen
- Nachhaltige Produktion
- Agilität des Unternehmens inklusive seiner Lieferketten
- Innovation im gesamten Product Lifecycle

(vgl. Hansson et al. 2016, S. 1; Wuest et al. 2016, S. 24-25, S. 29)

Die nachfolgende Darstellung zeigt einige kritische Anwendungen von Machine Learning für die Produktion.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2 Kritische Machine Learning Anwendungen Quelle: In Anlehnung an Qiu et al. 2016, S. 6

Wir fassen diese kritischen Anwendungen wie folgt zusammen:

- Lernen für große Datenmengen
- Lernen für verschiedene Datentypen
- Lernen für eine schnelle Datenübertragung
- Lernen für unsichere und unvollständige Daten
- Lernen für Daten mit geringer Wertedichte und Bedeutungsvielfalt

Aus diesen Anwendungsfällen können aus Daten durch ML neue Erkenntnisse gewon- nen werden. Die erkannten Muster können wiederum zur Erstellung von Vorhersagemo- dellen verwendet werden. Mit dem erkannten Wissen können die Prozesse betreffend bessere Entscheidungen getroffen werden. (vgl. Wuest et al. 2016, S. 29; Qiu et al. 2016, S. 6-8)

Die Umsetzung dieser Schritte wird unter dem Begriff Smart Manufacturing zusammen- gefasst, beschreibt also die hochintensive und durchgängige Verwendung von vernetzten Technologien. Mit intelligenten Fabriken und den zugehörigen Versorgungsnetzen kön- nen Unternehmen schneller und genauer auf nationale, internationale und marktspezifi- sche Anforderungen reagieren. Flexible Entscheidungsmechanismen und Funktionen zur Selbstanpassung und Selbstoptimierung unterstützen diesen Prozess, während die als digitaler Zwilling bekannte virtuelle Abbildung der realen Betriebs-, Zuliefer-, Verwal- tungs- und Produktionsprozesse mit simulierten Daten in der Lage ist, reale Unterschei- dungen zu unterstützen. Dies führt zu einem grundlegenden Wandel des geschäftlichen Umfelds, einer radikalen Steigerung der Leistung und zur Schaffung von nachhaltigen Arbeitsplätzen. Letzteres auch durch die breite Beteiligung der Arbeitskräfte. (vgl. Davis et al. 2011, S. 1; Damjanovic-Behrendt et al. 2018 S. 30)

3.1.2. Data Mining

Die Menge an Daten, die weltweit täglich gespeichert wird, hat lange schon jenes Maß überschritten, das noch ohne maschinelle Hilfe analysiert werden kann. Werden Algorith- men und Methoden des maschinellen Lernens zur Wissensfindung oder Mustererken- nung aus diesen Daten verwendet, spricht man von Data Mining. Die verwendeten Funk- tionen können Daten ‚abbauen‘, die in eine bekannte Struktur umgewandelt und weiter- verarbeitet werden können. Die Art und Anzahl der verwendeten Datenquellen spielt für Data Mining keine Rolle, da diese in den Schritten zur Datenvorbereitung bereits in ein einheitliches Dataset zusammengeführt werden. Es gibt verschiedene Muster, auf die unterschiedliche Data-Mining-Funktionen angewandt werden können. Dazu gehören zum Beispiel:

- Charakterisierung und Diskriminierung
- Erkennen von Zusammenhängen
- Klassifizierung
- Regression
- Cluster-Analyse
- Ausreißer-Analyse

Diese Funktionen werden angewendet, um die Art der Muster zu bestimmen, die in den Data-Mining-Tasks vorhanden sind. Die gefundenen Aufgaben können in zwei Katego- rien eingeteilt werden:

- Beschreibung
- Vorhersage

Beschreibende Aufgaben aus dem Data Mining erklären die Dateneigenschaften im Ziel- datensatz, während vorhersagende Aufgaben zur Schlussfolgerung zukünftiger Ereig- nisse aus den aktuellen Daten verwendet werden. Um Data Mining erfolgreich anwenden zu können, ist es wichtig zu wissen, welche Muster mit welchen Funktionen gefunden werden können. Weiterhin stellt sich die Frage, was ein Muster interessant macht, denn interessante Muster repräsentieren Wissen. Allgemein gesehen kann Data Mining als evolutionärer Schritt in der Informationstechnologie gesehen werden. (vgl. Han et al. 2012, S. 14 f.; Awad/Khanna 2015, S. 3; Kusiak 2006, S.4180; Han et al. 2012, S. 1; Wue s t 2015, S. 33)

Han et al. (vgl. 2012, S. 1, S. 3-4) bringt diese Entwicklung auf den Punkt: „Die erweiterte Datenanalyse durch Data Mining zur Wissensgewinnung ist zum logischen nächsten Schritt geworden.“

Die Notwendigkeit, kritische Funktionalitäten zu gewährleisten, führte in der Datenbank und Datenmanagementindustrie zur Entwicklung von Data Mining. Die grundlegenden kritischen Funktionen, die zu dieser Entwicklung führten, lauten:

- Datenerhebung und Erstellung von Datenbanken,
- Datenmanagement,
- fortschrittliche Datenanalysen und Forschung.

Sie sind in der folgenden Grafik in ihrem Zusammenhang dargestellt:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3 Informationspyramide Quelle: In Anlehnung an Wuest 2015, S. 33

Voraussetzung für diese Entwicklung waren die Erfassung von Daten, deren Abspeiche- rung in Datenbanken, die sowohl Abfragen als auch Transaktionen unterstützen, und Me- chanismen zum effektiven Management dieser Daten. Es gibt mittlerweile eine Vielzahl an Datenbanksystemen, die diese Voraussetzungen erfüllen. (vgl. Han et al. 2012, S. 14 f.; Awad/Khanna 2015, S. 3; Kusiak 2006, S.4180; Han et al. 2012, S. 1; Wuest 20 1 5, S. 33)

Data Mining kann als interdisziplinäres Thema vielfältig definiert werden. Die Bedeutung dieses Begriffs ist mit ‚Wissensgewinnung aus Daten‘ treffend erfasst. Zudem gibt es ei- nige Begriffe mit verwandter Bedeutung zu Data Mining, zum Beispiel Wissensgewinnung aus Daten, Wissensextraktion und Daten-Muster-Analyse. (Han et al. 2012, S. 6)

3.1.2.1. Knowledge Discovery from Data

KDD ist ein populärer Begriff, der oftmals mit Data Mining verwechselt wird, obwohl die- ses nur einen bedeutenden Schritt im iterativen Prozess des KDD darstellt. Er stellt ein nicht triviales Verfahren dar mit dessen Hilfe neue, nützliche, gültige und verständliche Muster identifiziert werden können. KDD enthüllt also Erkenntnisse und Wissen aus gro- ßen Datenmengen mit Data Mining als seinem Kern und zugleich wichtigstem Schritt, ohne jedoch auf andere Schritte des Prozesses verzichten zu können. Die von Data Mi- ning entdeckten Muster und Zusammenhänge sind typischerweise in Rohdaten enthal- ten, deren Ausmaße Analysen durch Menschen unmöglich oder unrentabel machen. Durch die gewonnenen Ergebnisse können Vorhersagen getätigt und Beobachtungen in der realen Welt gemacht werden. Diese Vorteile werden aktuell bereits in einer Vielzahl von Dienstleistungen und Anwendungen aus vielen Bereichen in Wirtschaft und Wissen- schaft genutzt und können zu Wettbewerbsvorteilen für Unternehmen führen.

Die Schritte des KDD sind

- Datenreinigung,
- Datenintegration,
- Datenselektion,
- Datentransformation,
- Data Mining,
- Musterüberprüfung (um die wirklich interessanten Muster zu identifizieren, die Wissen repräsentieren),
- Darstellung (gefundenes Wissen wird dem Benutzer dargestellt).

Sie werden nachfolgend in Abbildung 4 in ihrem linearen Ablauf dargestellt:

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4 KDD Prozessdiagramm. Quelle: In Anlehnung an Cleve/Lämmel 2016, S. 361

Die ersten vier Schritte stellen Teile der Datenaufbereitung dar, bei denen die Daten in für das Data Mining relevante Formate gebracht werden. Beim Data Mining wird nach neuem Wissen gesucht und überprüft, ob es sich um interessante Muster handelt. An- schließend kann dieses neue Wissen dem Benutzer präsentiert und in der Wissensbasis gespeichert werden. Es ist ersichtlich, dass Data Mining ein wesentlicher Schritt zur Ent- deckung von neuem Wissen ist, weil er in der Lage ist, verborgene Abhängigkeiten und interessante Muster in Daten zu finden. Jedoch wird in Industrie und Forschung anstelle von KDD häufig der Begriff Data Mining in Bezug auf den ganzen Wissensauffindungs- prozess verwendet. (vgl. Han et al. 2012, S. 8; Hong et al. 2013, S. 3; Fayyad et al. 1996, S. 41)

3.1.2.2. Big Data

Big-Data-Analysen wurden vielfach als einer der wichtigsten Schritte im Zuge der Digita- lisierung von komplexen Fertigungsprozessen in Produktionsanlagen und Lieferketten erkannt. In den USA wurde die Wiederbelebung des Produktionsbereichs mit Projekten wie zum Beispiel dem Advanced-Manufacturing-Partnership (AMP) zu einer der höchsten Prioritäten erklärt mit dem Ziel, den Nährboden für Smart-Manufacturing-Plattformen be- reitzustellen. In der nachfolgenden Abbildung 5 sind die Anwendungsbereiche von Big Data im Umfeld der fertigenden Industrie ersichtlich.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5 Lifecycle der Big Data Analyse. Quelle: Nagorny et al. 2017, S. 25

Die Definition von Big Data selbst ist noch im Gange, die Definition nach den drei V (Vo- lume, Variety, Velocity) von Gartner wird allgemein akzeptiert. In neueren Definitionen wurden zwei weitere Vs hinzugefügt, Veracity und Value. Diese zusätzlichen Werte ste- hen für die Glaubwürdigkeit der Daten, bzw. Value für den unternehmerischen Wert, den die Daten beinhalten. Die Erweiterung der Definition ist relevant, weil sie Daten be- schreibt, die variieren und so die Analyse beeinflussen können. In industriellen Ferti- gungssystemen wird Big Data beschrieben als große kontinuierliche Datenströme, die aus unterschiedlichsten Quellen kommen können. Hierzu gehören beispielsweise Ma- schinen und Umgebungssensoren sowie OEE-Daten und manuell eingegebene Daten. Neu aufkommende Datentypen werden dabei in kurzer Zeit in Big Data und Data Mining integriert. Um Big Data in der industriellen Fertigung zu Analysezwecken verwenden zu können, müssen nachfolgende Voraussetzungen erfüllt sein:

- Ausreichende Datenmengen, um sinnvolle Analysen betreiben zu können.
- Vollständigkeit der Daten, um Fehlinterpretationen zu vermeiden.
- Die Daten müssen für die zu analysierenden Prozesse von Relevanz sein.
- Metadaten und Beschreibungen der vorliegenden Daten sind vorhanden.

(vgl. Nagorny et al. 2017, S. 39, S. 40; Rachuri 2014, S. 2; Han et al. 2012, S. 8)

3.1.2.3. Deep Learning

Deep Learning ist eine spezifische Art des maschinellen Lernens und stellt einen Durch- bruch im Bereich der künstlichen Intelligenz dar. Die Leistungen, die diese Technik in vielen Bereichen erbringen kann, eröffnet ganz neue Möglichkeiten vor allem in der Bild- und Spracherkennung sowie bei komplexen multimodalen Inputs. Abstrakte nicht lineare Features können mit Deep Learning in mehreren Schichten verarbeitet werden. Anstelle aufwändiger, manueller Featureauswahl, für die tiefes Prozesswissen erforderlich ist, kann dieser Vorgang mit Deep Learning automatisiert werden. Durch einen Backpropa- gation-Algorithmus wird angegeben, wie das Modell interne Parameter ändern soll, die als Eingabe für die nächste Schicht verwendet werden. DL stellt ein fortschrittliches Werk- zeug zur Analyse von Smart-Manufacturing-Systemen dar. Durch die Möglichkeit effizi- ente Analysen aus Big Data zu tätigen, bietet Deep Learning großes Potenzial zu Ver- besserungen in der fertigenden Industrie. Das Verständnis der grundlegenden Prinzipien von Machine Learning ist notwendig, um die Konzepte von Deep Learning zu verstehen.

(vgl. Goodfellow et al. 2016, S. 98; Han et al. 2012, S. 6; LeCun et al. 2015, S. 1, Wang et al. 2018, S. 3)

3.1.3. Anwendungen für Data Mining in der Produktion

Durch das rasante Wachstum von Big Data ist zu erwarten, dass das Wissen, das Lern- prozesse aus diesen Datenmengen zu fördern imstande ist, große Chancen, aber auch Potenzial zur Transformation ganzer Bereiche bietet. Die Verwendung von traditionellen Lerntechniken aus dem ML-Bereich ist aktuell jedoch nicht annähernd effizient oder ska- lierbar genug, um den Anforderungen von Big Data zu genügen. Das starke Interesse an Data Mining in den letzten Jahren hat bereits viele Algorithmen hervorgebracht, die so- wohl neues Wissen als auch Eigenschaften in Daten finden können. Die Ergebnisse sich mehr auf den Prozess der Wissensfindung als auf die Entscheidungsfindung konzentrie- ren. Data Mining stellt aber eine junge Disziplin dar, deren vielfältige Anwendung die Lü- cke zwischen den Prinzipien des Data Mining und der effektiven Anwendung in Mining Tools noch nicht schließen konnte. Deswegen ist es notwendig, maschinelles Lernen für die Verarbeitung dieser immensen Datenmengen neu zu erfinden. (vgl. Kusiak 2006, S. 4179; Qiu et al. 2016, S. 14; Han et al. 2012, S. 607)

Das gängigste Modell für den Prozess des Data Mining ist der CRISP-DM Prozess und die SEMMA-Methodiken. Beide finden in der Data-Mining-Community breite Anwendung und bieten schrittweise Anleitungen für die Umsetzung von Data Mining. Für Einsteiger ist CRISP-DM meist einfacher zu verwenden, da es detaillierte und neutrale Richtlinien für den Mining-Prozess bietet, wohingegen SEMMA schnellere Ergebnisse ermöglicht. (vgl. Harding et al. 2006, S. 970)

3.1.3.1. Predictive Maintanance

„Bei der vorausschauenden Wartung wird angestrebt, Ausrüstungsfehler vorherzusehen, um eine frühzeitige Planung der korrekten Wartung zu ermöglichen, wodurch unerwartete Ausfallzeiten der Ausrüstung vermieden und die Servicequalität für die Kunden verbes- sert werden.“ (Sipos et al. 2014 S. 1; Übers. d. Verf.)

Die gängigsten Ansätze bestehen darin, anhand der historisch aufgezeichneten Daten und Ereignisprotokolle, Ausfälle vorherzusehen, um rechtzeitig einschreiten zu können. Ein Vorteil dieser Anwendungen ist, dass diese Werkzeuge oder Maschinenteile nicht notwendigerweise für die Vorhersage von Ausfällen konzipiert worden sind. (vgl. Sipos et al. 2014 S. 1 f.)

3.1.3.2. Pattern Mining

Pattern Mining extrahiert interessante Muster aus Rohdaten, ohne dass der Benutzer über Informationen zu den Daten verfügen muss. Das erkannte Wissen kann Tausende oder sogar Millionen von Mustern und Regeln umfassen. Jedes dieser Muster kann als völlig neu angesehen werden, wobei die meisten erkannten Muster typischerweise nicht von Interesse sind. Nur ein Bruchteil dieses neuen Wissens ist also tatsächlich interes- sant. Weiß der Benutzer, welche Art von Wissen nützlich ist, kann quantifiziert werden, welche erkannten Muster von Interesse sind. Allgemein stellt jedes Muster ein Haupt- merkmal der Daten dar, weswegen angegeben werden sollte, wie repräsentativ ein Mus- ter für den Datensatz ist. Hierfür geeignete Metriken sollten Muster anhand des potenzi- ellen Interesses für den Benutzer selektieren und kategorisieren. Erfordert der Anwen- dungsbereich die Entdeckung von spezifischem Wissen, muss von Fachkräften entschie- den werden, wie vielversprechend das Muster ist. Die wichtigen Fragen für den Data- Mining-Prozess lauten deswegen:

- Was macht ein Muster interessant?
- Können über Data Mining alle interessanten Muster gefunden werden?
- Kann ein Modell nur die interessanten Muster erzeugen?

Dies führt zur Unterteilung in zwei Gruppen:

- Objektive Metriken
- Subjektive Metriken

(vgl. Ventura/Luna 2016 S. 27; Han et al. 2012, S. 21)

Intelligente Rückkopplungssysteme bieten die Möglichkeit, neues Wissen zu synthetisie- ren und dieses durch bestehende Strukturen dahingehend zu überprüfen, ob sie von In- teresse sind. Neu hinzugefügtes Wissen erweitert die bestehende Struktur und führt so zu einer Rückkopplungskontrollschleife, durch die ein stabiles und praktikables Modell ermöglicht wird. (vgl. Awad/Khanna 2015, S. 210)

„Die unterstützenden Funktionen, die ein intelligentes Rückkopplungskontrollsystem ermöglichen, lauten wie folgt:

- Eine Sensorfunktion, um etwaige Veränderungen in der inneren oder äußeren Umgebung zu erkennen (wie Komponententemperatur, Leistung, Auslastung und aberwitziges Verhalten).
- Eine motorische Funktion, die die Auswirkungen von Umweltstörungen durch die Änderung der Systemelemente ausgleicht und so das Gleichgewicht auf- rechterhält.
- Eine analytische Funktion, um die Sensorkanaldaten zu analysieren, um fest- zustellen, ob eine der wesentlichen Variablen innerhalb definierter Grenzen o- der Grenzen arbeitet.
- Eine Planungsfunktion, um die Änderungen zu ermitteln, die am aktuellen Sys- temverhalten vorgenommen werden müssen, um das System in der neuen Umgebung wieder in den Gleichgewichtszustand zu bringen.
- Eine Wissensfunktion, die die Menge möglicher Verhaltensweisen enthält, die auf die neue Umgebung angewendet werden können. Das Planungsinstrument nutzt dieses Wissen, um die geeignete Aktion auszuwählen, um die Störung zu beheben. Der Motorkanal wendet das gewählte Verhalten an. Die Wissens- funktion wird mit Hilfe des Verallgemeinerungsprozesses synthetisiert, was eine fortlaufende Aufgabe sein kann, die effektiv einen reicheren Hypothesen- raum entwickelt, basierend auf neuen Daten, die auf das bestehende Modell angewendet werden.“ (Awad/Khanna 2015, S. 210; Übers. d. Verf.)

3.1.3.3. Production Scheduling

Um sicherzustellen, dass alle Ressourcen des Fertigungssystems so genutzt werden, dass diese in bestmöglichem Einklang mit den Kundenaufträgen stehen, ist es notwen- dig, dies in der Produktionsplanung zu berücksichtigen. Zahlreiche Untersuchungen ha- ben gezeigt, dass unterschiedliche Produktionssysteme individuelle Planungsmethoden benötigen. Durch die Verbreitung von Smart Manufacturing erhält diese Thematik zusätz- liche Bedeutung. Die Koordination von Materialflüssen, Kundenaufträgen, sich dyna- misch ändernden Produktionsparametern und vielen anderen für die Produktion relevan- ten Parametern und Einflüssen stellt hohe Anforderungen an die Modellierung von An- wendungen zur automatischen Produktionsplanung. Durch die hohe Komplexität haben Anwendungen zur Produktionsplanung aber auch großes Potenzial. Um dieses zu nut- zen, ist es nötig, verschiedene Modellierungsansätze zu vereinen. (vgl. Hmida et al. 2014, S. 2; Bierwirth 1999, S. 1)

3.2. Welche Modelle sind für die Erstellung des Vorhersagemodells geeignet?

Ein Modell dient der vereinfachten Darstellung der Wirklichkeit und beruht auf Annahmen, was für den gewählten Zweck von Bedeutung ist. Es kann als Struktur angesehen wer- den, die zur Beschreibung oder Vorhersage einen Datensatz als Basis verwendet. Mo- delle stellen essenzielle Informationen zur Verfügung, um bessere Entscheidungen zu treffen, zum Beispiel um das Ergebnis einer Aktion zu simulieren. Um gute Ergebnisse erzielen zu können, muss das Modell an die spezifischen Anforderungen der Anwendung angepasst werden. Es wird zwischen parametrischen und nicht parametrischen Modellen unterschieden. Parametrische Modelle finden zum Beispiel für Big-Data-Anwendungen mit ihren großen Datenmengen und vielen komplexen Vorhersagen Anwendung. Diese sind zu komplex, um aus parametrisierbaren Modellen abgeleitet zu werden. Über einen oder mehrere Datensätze synthetisiert der Lernprozess Parameter und Struktur des Mo- dells als endliche Reihe von Parametern. Dadurch sind zukünftige Vorhersagen unab- hängig vom verwendeten Datensatz möglich. Nicht parametrische Modelle sind einfach, flexibler und machen weniger Annahmen. Um genaue Schlussfolgerungen zu treffen, er- fordern sie aber größere Datensätze. (vgl. Provost/Fawcett 2017, S. 72; Hester/Stone 2012, S. 113; Awad/Khanna 2015, S. 4)

3.2.1. Arten von Machine Learning

Machine-Learning-Algorithmen bieten große Vorteile bei der Entdeckung von unbekann- tem Wissen oder impliziten Zusammenhängen. Die Eignung, in Produktionsumgebungen mittels Machine Learning Ergebnisse zu erzielen, wurde in der Vergangenheit erfolgreich bewiesen. Je nach Art des gewählten Algorithmus unterscheiden sich jedoch die Anfor- derungen an die Daten. Üblicherweise wird Machine Learning in drei Hauptkategorien unterteilt: überwachtes, nicht überwachtes und verstärktes Lernen, abhängig von der Kenntnis-Art, die während des Lernprozesses gewonnen wurde. Diese Kategorien wer- den allgemein akzeptiert, wenngleich es unterschiedliche Ansichten über die Zuordnung der Techniken gibt. So werden zum Beispiel alle drei Arten als Teil von neuralen Netzen angesehen. (vgl. Goodfellow et al. 2016, S. 104; Murphy 2012, S. 2; Wuest et al. 2016 S. 28, S. 31)

3.2.1.1. Überwachtes Lernen (Supervised Learning)

„Die häufigste Form des maschinellen Lernens, ob tief oder nicht, ist überwachtes Ler- nen.“ (L eCun et al. 2015, S. 436; Übers. d. Verf.)

Unter überwachtem Lernen versteht man Lerntechniken, die Abhängigkeiten zwischen einem bestimmten Attribut, dem Label, und mehreren unabhängigen Attributen extrahie- ren. Da bei industriellen Klassifizierungsaufgaben die verwendeten Daten meistens ge- kennzeichnet sind, ist überwachtes Lernen in der Praxis die am häufigsten verwendete Form von Machine Learning. Diese Lernalgorithmen verfügen über ein Dataset mit Fea- tures, die mit einem Label verknüpft sind. Dadurch ist für jeden Datensatz eine bekannte Klassenvariable vorhanden. Der Algorithmus kann das Dataset untersuchen und lernen, die enthaltenen Datensätze zu klassifizieren. Hierfür ist im Dataset ein Feature-Vektor enthalten, der die verfügbaren Features quantifiziert. Der Feature-Vektor kann sowohl kategorische als auch numerische Daten enthalten. Die Aufgabe besteht darin, eine ge- neralisierte Beschreibung für das Label, einen sogenannten Klassifizierer, zu finden. Die- ser optimiert die Performance des Modells basierend auf den Trainingsdaten. Das dahin- gehend trainierte Modell ist in der Lage, Vorhersagen für die Ausgabewerte zu erstellen. Die Leistung dieser Modelle hängt sowohl von der Streuung als auch der Größe des Trai- ningsdatensatzes ab. Der grundsätzliche Ablauf eines überwachten Lernprozesses ist in Abbildung 6 ersichtlich.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6 Übersicht über den Prozess des überwachten Lernens. Quelle: In Anlehnung an Awad/Khanna 2015, S. 4

(vgl. Awad/Khanna 2015, S. 4; M urphy 2012, S. 3; Goodfellow et al. 2016, S. 105; Hans- son et al. 2016, S. 2; LeCun et al. 2015, S. 436)

3.2.1.2. Unüberwachtes Lernen (Unsupervised Learning)

Beim unüberwachten Lernen kennen wir im Gegensatz zum überwachten Lernen die ge- wünschte Ausgabe nicht. Es gibt keine Klassenabzeichen. Wir erhalten also Ausgabeda- ten ohne Eingaben (vorgegebene abhängige Attribute) zu tätigen. Das Ziel ist es, inte- ressante Strukturen in Daten zu entdecken. Algorithmen versuchen ähnliche Daten zu bündeln, indem rein unstrukturierte Geräusche abgelehnt werden, und aus einem Daten- satz mit vielen Features selbstständig hilfreiche Eigenschaften in dessen Struktur zu fin- den. Algorithmen zur Cluster- und Dimensionsreduktion sind in der Regel unbeaufsichtigt. Vielfach wird dieser Vorgang auch ‚Wissensfindung‘ genannt. Im industriellen Umfeld gibt es zwangsläufig unsinnige Datenpunkte, sogenannte Ausreißer. Zu viele Ausreißer zwin- gen den Algorithmus, ein komplexes nicht lineares System zu modellieren, weswegen die Bereinigung des Datasets von großer Bedeutung ist. (vgl. Goodfellow et al. 2016, S. 105; Murphy 2012, S. 9; Hansson et al. 2016, S. 2; Awad/Khanna 2015, S. 4)

Unterschiedliche Produkte und Prozesse erfordern verschiedene Modelle. So ist es nicht sinnvoll, alle Legierungen, die in einem Stahlwalzwerk produziert werden, in einem Mo- dell zusammenzufassen. Durch Clustering von Daten kann das Verständnis der Prozesse positiv beeinflusst werden. Für die so erkannten Cluster (Zusammenhänge) können ver- schiedene Modelle auf Basis von unüberwachtem Lernen angewendet werden. (vgl. Hansson et al. 2016, S. 2)

3.2.1.3. Verstärktes Lernen (Reinforcement Learning)

Verstärktes Lernen liegt zwischen überwachtem und unüberwachtem Lernen und um- fasst die Analyse einer adaptiven Abfolge von Verhaltensweisen oder Aktionen. Der Pro- zess des verstärkten Lernens ist nachfolgend in Abbildung 7 dargestellt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7 Übersicht über den Prozess des verstärkten Lernens. Quelle: In Anlehnung an Awad/Khanna 2015, S. 8

Hierfür kommt ein intelligenter Agent zum Einsatz, mit dem Ziel, die kumulative Beloh- nung zu maximieren. Der Agent löst durch seine Aktionen eine beobachtbare Änderung des Umgebungszustands aus. Das durch den Lernvorgang synthetisierte Anpassungs- modell entsteht durch experimentelle Aktionen und die Beobachtung der Reaktion auf den Umgebungszustand. Das Lernen erfolgt also in sequenziellen Entscheidungsproble- men mit begrenztem Feedback. Hinter den Markov-Entscheidungsprozessen stehen für die optimale Berechnung zwei Algorithmus-Klassen, verstärktes Lernen und dynamische Programmierung. Allgemein kann diese Methode als kontroll-theoretisches Trial-Error- Lernen betrachtet werden, in der Belohnung und Strafe eine Abfolge von Aktionen nach sich ziehen. Aufgrund der gesammelten Erfahrungen und der damit verknüpften Beloh- nungen ändert der Agent seine Strategie. Um ein Modell aller möglicher Aktionen und deren Auswirkungen zu erstellen ist es mitunter nötig, eine Vielzahl an unbewiesenen Aktionen mitunter mehrfach auszuführen, um ihre Stärke zu ermitteln. Das Gleichgewicht zwischen neuen möglichen Aktionen und der Wahrscheinlichkeit eines Fehlschlags ist eines der Kernziele des verstärkten Lernens. Das Finden eines Gleichgewichts zwischen dem Erkunden neuer möglicher Handlungen und der Wahrscheinlichkeit des Fehlschlags ist von essenzieller Bedeutung. Die kritischen Elemente von verstärktem Lernen lauten:

- Die Lernrichtlinie des RL-Agenten ordnet die Steueraktion dem Umgebungszu- stand zu.
- Der Kritiker bewertet die Leistung der durchgeführten Aktion aufgrund des aktuel- len Status und ist so für die kontinuierlichen und fortlaufenden Korrekturen verant- wortlich.
- Die Belohnungsfunktion ermittelt ob der neue Zustand für die Umgebung er- wünscht ist.
- Modelle dienen als Planungshilfsmittel und helfen die zukünftige Vorgehensweise vorherzusagen.

(vgl. Wiering/Otterlo 2012, S. 1; Awad/Khanna 2015, S. 8)

3.2.2. Algorithmen

„Algorithmen für maschinelles Lernen extrahieren Wissen aus verschiedenen Datenban- ken, die zum Erstellen von Entscheidungssystemen verwendet werden können.“ (Ku- siak 2 006, S. 4175; Übers. d. Verf.)

Die Entwicklungen, die in den letzten Jahren im Data Mining stattgefunden haben, haben zur Entwicklung vieler neuer Algorithmen geführt. Das gemeinsame Ziel dieser neuen Algorithmen ist Wissensextraktion aus großen Datenmengen. Zwischen dem Data Mining mit diesen Algorithmen und der Anwendung der Ergebnisse zur Entscheidungsfindung besteht jedoch eine Lücke. Dies kann dadurch erklärt werden, dass die meisten Ergeb- nisse im Data Mining nicht durch Techniker zustande gekommen sind und der Fokus deswegen mehr auf der Extraktion von Wissen als in der praktischen Anwendung lag. (vgl. Kusiak A. 2006, S. 4179)

3.2.2.1. Support-Vector-Machine

Support-Vector-Machines gehören den überwachten Lernmethoden an. Sie finden haupt- sächlich in den Bereichen Klassifizierung, Regression und Erkennung neuer Features Anwendung. Als Klassifikationstechnik analysieren sie Daten und Muster und erkennen Klassen in diesen Daten. Ihr Ursprung liegt im statistischen Lernen und hat in der jünge- ren Vergangenheit große Aufmerksamkeit erfahren. In einer Vielzahl von praktischen An- wendungen wurden vielversprechende empirische Ergebnisse bewiesen, darüber hinaus funktioniert der Algorithmus gut mit hochdimensionalen Daten. Der Gedanke hinter SVM ist die Erstellung einer möglichst flachen Hyperebene, die den Merkmalsraum in zwei unabhängige Teile trennt. Der geteilte Vektorraum soll den maximalen Abstand zwischen den beiden Klassen aufweisen. Die so definierte Grenze zwischen den Klassen ermög- licht die Klassifizierung neuer Merkmale zur Auswertung. Ein sich unterhalb dieser Ebene befindlicher Datensatz soll einer Klasse zugeordnet werden und umgekehrt. Diese Idee wurde später dahingehend erweitert, dass eine implizite Anwendung auf einen unendlich großen Vektorraum möglich ist. Dies ermöglicht die Klassifizierung von nicht linearen Problemstellungen. Die Verwendung von Cluster-Analysen in Verbindung mit SVM stei- gert die Wahrscheinlichkeit, relevante Prozessparameter für Prozesse zu finden. Hier- durch können die relevanten Parameter für die Änderung des Fertigungsprozesses des jeweiligen Produkts ermittelt werden. (vgl. Hansson et al. 2016, S. 3; Wuest et al. 2017, S. 7; Awad/Khanna 2015, S. 11)

Ein unabhängiger und gleichmäßig verteilter Trainingsdatensatz wird verwendet, um in der Klassifizierungsaufgabe eine diskriminierende Funktion zu finden, mit deren Hilfe die Klassifizierung von neuen Instanzen korrekt vorhergesagt werden kann. Werden in den Daten Ausreißer erkannt, kommen anstelle von SVM oft generische Algorithmen zum Einsatz, da diese leistungsfähiger im Umgang mit Ausreißern sind. SVM erfordert weni- ger Ressourcen und ein kleineres Trainingsdatenset. SVM ist im Gegensatz zu geneti- schen Algorithmen eine Diskriminanzmethode. (vgl. Awad/Khanna 2015, S. 39)

In einer Zwei-Klassen-Lernaufgabe wird durch einen Satz von Trainingsdaten ein Modell bzw. eine Klassifizierungsfunktion konstruiert. Jede neue Beobachtung wird einer der Klassen zugeordnet. Im Modell wird jede dieser Zuordnungen als Punkt im Raum darge- stellt, das heißt, jede Beobachtung wird separat klassifiziert. Neue Beobachtungen wer- den anhand ihrer Zuordnung zu einer Seite klassifiziert. Die für das Training des Modells notwendige Zeit kann sehr lange sein, dafür sind SVMs aufgrund ihrer Fähigkeit, kom- plexe, nicht lineare Entscheidungsgrenzen zu setzen, sehr genau. Ein weiterer Vorteil ist ihre Robustheit gegenüber der als Overfitting bekannten Überanpassung. Durch die Un- terstützungsvektoren liefern SVMs auch eine kompakte Beschreibung des gelernten Mo- dells. Sie finden sowohl in der numerischen Vorhersage als auch in der Klassifizierung Anwendung. (vgl. Awad/Khanna 2015, S. 11; Han et al. 2012, S. 408)

3.2.2.2. Decision Tree

Einer der Hauptvorteile des Entscheidungsbaums ist die Möglichkeit der menschlichen Interpretation der Ergebnisse. Anwendungsexperten können die Ergebnisse und deren Zustandekommen ohne Wissen aus dem Bereich des maschinellen Lernens verstehen und analysieren. Der Aufbau eines Modells mit einem Entscheidungsbaum ist einfach und nachvollziehbar. (vgl. Hansson et al. 2016, S. 3)

3.2.2.3. Random Forests

Random Forests ist ein baumbasierter Algorithmus, der unter Verwendung einer Abstim- mungsregel die Vorhersage von Beobachtungen von Klassen ermöglicht. Hierbei kann die Vorhersage mehrerer Dimensionen des Klassifizierers zufällig passieren. Typische Dimensionen für die Randomisierung in Bäumen sind die Auswahl der Eingaben je Kno- ten, als auch die Beobachtungen, die für die Konstruktion des Baums enthalten sind. Das heißt, dass Entscheidungsbäume mithilfe der zufälligen Auswahl von Attributen an jedem Knoten erstellt werden, der von einem Zufallsvektor abhängt und unabhängig von der Verteilung für alle Bäume im Wald abgetastet wird. (vgl. Basuchoudhary et al. 2017, S. 25; Han et al. 2012, S. 383)

3.2.2.4. Linear Regression

„Die lineare Regression ist das ‚Arbeitspferd‘ von Statistik und (überwachtem) maschinel- lem Lernen.“ (M urphy 2012, S. 217; Übers. d. Verf.)

Die lineare Regression sucht nach der ‚besten‘ Linie, um zwei Attribute so anzupassen, dass ein einzelnes Attribut verwendet werden kann, um das andere vorherzusagen. Sie stellt das ‚Arbeitspferd‘ von Statistik und überwachtem maschinellen Lernen dar. Prak- tisch wird also die Anwendung aufgefordert, einen numerischen Wert basierend auf ei- nem anderen vorherzusagen. Eine Ausdehnung auf mehrere Attribute ist möglich, indem die Daten an eine mehrdimensionale Oberfläche angepasst werden. Wird lineare Re- gression mit anderen Formen des maschinellen Lernens erweitert, kann es auch für die Erstellung von nicht linearen Modellen oder zur Klassifizierung verwendet werden. Die Evaluierung des Algorithmus zur Erstellung eines Modells ist lohnend. (vgl. Han et al. 2012, S. 90; Murphy 2012, S. 217; Goodfellow et al. 2016, S. 101)

3.2.2.5. Clustering

„Clustering ist ein Prozess der Wissensermittlung, der Elemente aus einer bestimmten Sammlung basierend auf ähnlichen Attributen (oder Merkmalen) gruppiert.“ (A- wad/Khanna 2015, S. 22; Übers. d. Verf.)

Im Clustering werden also ähnliche Objekte in Gruppen zusammengefasst, indem zu- sammengehörende Elemente einer Menge als Objekte betrachtet werden. Die jeweiligen Gruppen enthalten Objekte, die sich ‚ähneln‘ und gleichzeitig Objekten in anderen Clus- tern ‚unähnlich‘ sind. Ähnlichkeit bedeutet in diesem Zusammenhang, dass sich die Ob- jekte im Raum in einer Abstandsfunktion ‚nah‘ sind, während die Qualität eines Clusters sich über seinen maximalen Abstand zu einem anderen Cluster definiert. Das bedeutet, dass Mitglieder desselben Clusters ähnliche Merkmale aufweisen. Der Vorgang des Clusterns wird iterativ auf Basis von Trial-Error durchgeführt. Die Herausforderung ist das Finden einer Funktion, die den Ähnlichkeitsgrad zwischen zwei Elementen als numeri- schen Wert ausgibt. Die Parametrierung des Algorithmus hängt von der Anwendung und den vorliegenden Daten ab. Für das Clustering kommen zwei Arten von Eingaben infrage, dem auf Ähnlichkeit basierenden Clustering und dem featurebasierten Clustering. Das ähnlichkeitsbasierte Clustering bietet den Vorteil, dass auf domänenspezifische Ähnlich- keiten eingegangen werden kann. Beim featurebasierten Clustering liegt der Vorteil darin, dass die Verwendung von rohen, potenziell verrauschten Daten möglich ist. Beide Ein- gabetypen bieten zwei mögliche Ausgaben, flaches und hierarchisches Clustering. (vgl. Murphy 2012, S. 875; Han et al. 2012, S. 108; Awad/Khanna 2015, S. 22)

3.2.2.6. Neural Network

Die meisten behandelten Algorithmen basieren auf einer einfachen zweischichtigen Ar- chitektur. Betrachten wir das menschliche Gehirn, wird klar, dass wir viele Verarbeitungs- schichten vorfinden. Hierbei wird davon ausgegangen, dass jede dieser Ebenen aus ei- nem zunehmenden Grad an Fehlern lernt. Diese Beobachtungen haben in den letzten Jahren zu einem neuen Trend im maschinellen Lernen geführt, dem Deep Learning. Hier- bei wird versucht die Fähigkeiten des menschlichen Gehirns zu synthetisieren. Die opti- male Anzahl der Ebenen und Neuronen ist von der Anwendung abhängig und kann des- wegen nicht allgemeingültig beantwortet werden. Nichtsdestotrotz sind diese Parameter maßgeblich für die Performance und Qualität des Algorithmus verantwortlich. Jede Schicht mit ihren verborgenen Neuronen zerteilt die Eingabe in getrennte Bereiche. Diese sind mit Neuronen verbunden, wobei die Trennung durch eine Hyperebene erfolgt. Wer- den zu wenige Neuronen in den versteckten Ebenen verwendet, neigt das Netzwerk dazu, verschiedene Punkte gleichen Ausgaben zuzuordnen. Werden jedoch zu viele Neuronen verwendet, steigt das Risiko der Überanpassung und die allgemeine Leis- tungsfähigkeit des Modells nimmt ab. Es ist eine ausreichende Anzahl von Datenpunkten zum Trainieren erforderlich, um sicherzustellen, dass die Daten in den verborgenen Schichten korrekt getrennt werden. (vgl. Murphy 2012, S. 995; Awad/Khanna 2015, S. 133)

3.2.3. Auswahl der geeigneten Modelle

In Machine Learning dreht sich alles um die Entwicklung von Modellen und den passen- den Algorithmen. Bei der Verwendung unterschiedlicher Modelle mit abweichender Kom- plexität stellt sich die Frage, wie das richtige Modell gewählt werden kann. Das als un- veränderbare Gegebenheit anzusehendes Paradigma lautet ‚Es gibt kein universell gül- tiges Modell‘. Die Ursache hierfür liegt in den unterschiedlichen Anforderungen an die Modelle, sodass ein Modell in einem Bereich gut und in einem anderen schlecht funktio- nieren kann. Ein erfolgversprechender Ansatz ist die Berechnung der Fehlklassifizie- rungsrate für alle verwendeten Modelle. Dabei gibt es einige Methoden, die diesen Pro- zess unterstützen können, wie z. B. die Kreuzvalidierung, bei der mehrere Modelle mitei- nander verglichen werden können. (vgl. Murphy 2012, S. 22, S. 24)

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8 Vergleich zwischen Machine Learning und Deep Learning. Quelle: Wang et al. 2015, S. 147

In Abbildung 8 werden überwachtes und unüberwachtes Lernen gegenübergestellt. Al- gorithmen, die Entscheidungen auf Basis von Daten treffen, hängen stark von der Quali- tät der verwendeten Datensätze ab. Dabei ist es nicht relevant, ob diese in ihrer Rohform oder transformiert verwendet werden. Hierbei kann der beschreibende Prozess der kon- struktiven Induktion für die bessere Klassifizierung von Objekten angewandt werden. Die Komplexität der Entscheidungsfindung durch die von Machine-Learning-Algorithmen ver- wendeten Regeln nimmt mit der Breite der Datensätze zu. (vgl. Kusiak 2006, S. 4181, S. 4187)

3.2.4. Validierung

Für die Anwendung von Machine Learning ist von Interesse, wie gut ein Algorithmus mit neuen Daten funktioniert. Dies definiert seine Qualität und stellt einen messbaren Wert da. Die Bewertung erfolgt aufgrund eines Testdatensatzes, der von den für das Training verwendeten Datensätzen getrennt ist. Für die Bewertung von Machine-Learning-Algo- rithmen wird ein quantitatives Maß benötigt, das dessen Leistung messbar macht. Im Falle von Klassifizierungsaufgaben geschieht dies aufgrund fehlender Eingaben meist mit der Genauigkeit des Modells. Diese wird durch den Anteil der korrekten Ausgaben des Modells definiert. Es gibt aber auch andere gleichwertige Parameter, wie zum Bei- spiel die Fehlerrate (die Anzahl der falschen Ausgaben des Modells), die zur Bewertung des Modells verwendet werden können. Mit diesen Werten kann die Gültigkeit des Mo- dells gemessen werden. Die Validierung erfolgt, indem der vollständige Datensatz in zwei Teile getrennt wird, die Lernprobe und die Testprobe. Mit der Lernprobe wird das Modell trainiert, während die Testprobe die Genauigkeit des Modells außerhalb der Lernprobe testet. Fehlerschätzungen können zwischen Lernprobe und Stichprobe kreuzvalidiert werden. Außerhalb der Stichproben zeigt die Fehlerquote an, welches Modell die beste Leistung erbringt bzw. ob das Modell überangepasst ist. (vgl. Goodfellow et al. 2016, S. 103-104; Basuchoudhary et al. 2017, S. 26)

3.2.5. Herausforderungen

Die wachsenden Datenmengen in der Fertigungsbranche sind eine Herausforderung an die zur Analyse verwendeten Werkzeuge. Data Mining und Knowledge Discovery sind zu interdisziplinären Forschungsfeldern geworden, die in vielen Bereichen zu finden sind. Machine Learning, Datenbanken, Expertensysteme und Steuerungstheorie sind nur ei- nige von vielen Gebieten. Hierbei stellt Data Mining ein wichtiges Forschungsgebiet mit theoretischen und praktischen Anforderungen an die Arbeit mit großen Datenmengen und Datenbanken dar, deren Schwerpunkt in der Erkennung von neuem Wissen liegt. (vgl. Awad/Khanna 2015, S. 15; Kusiak 2006, S 4189-4190)

3.2.5.1. Normalisierung

“Beim Normalisieren der Daten wird versucht, allen Attributen das gleiche Gewicht zuzu- weisen.” (Han et al. S. 113; Übers. d. Verf.)

Die Maßeinheit, in der die Daten vorliegen, kann die Analyse beeinflussen. Zum Beispiel führt das Ändern von Zoll zu Meter oder Pfund zu Kilogramm zu teilweise stark abwei- chenden Ergebnissen. Allgemein führt die Darstellung eines Attributs in einer kleinen Ein- heit zu einem größeren Bereich für dasselbe. Das bedeutet, dass diesem Attribut eine größere Gewichtung beigemessen wird und das Ergebnis so verzerrt werden kann. Zur Vermeidung dieses Effekts sollten die vorliegenden Daten auf eine gemeinsame Maßein- heit normalisiert bzw. standardisiert werden. Vor allem bei Algorithmen zur Klassifizierung oder neuralen Netzwerken ist diese Normalisierung hilfreich. Abgesehen von der größe- ren Genauigkeit ist auch die Performance der Lernphase bei neuralen Netzen höher, wenn normalisierte Daten verwendet werden. Für die Normalisierung wird meist ein Be- reich zwischen -1 und 1 oder 0.0 und 1.0 gewählt. (vgl. Han et al. S. 113)

3.2.5.2. Merkmalsauswahl (Feature Selection)

Die Auswahl von relevanten Merkmalen stellt insofern eine Herausforderung dar, als die Anzahl an verfügbaren Merkmalen sehr groß ist. Big Data, Datenströme und allgemein große Datenmengen, deren Analyse innerhalb einer bestimmten Zeitspanne abgeschlos- sen sein muss, stellen weitere Anforderungen an die Featureauswahl, die zusätzlich dadurch erschwert wird, dass es keine eindeutig gültigen Kennzahlen für die Auswahl gibt. Deren Selektion ist aber relevant, um neues Wissen für die Prozesse finden zu kön- nen. (vgl. Hansson et al. 2016, S. 8; Hong et al. 2013, S. 9; Ventura/Luna 2016 S. 29)

3.2.5.3. Sequenzdaten und Zeitdatenreihen

Reihen von numerischen Werten, die durch wiederholte Zeitmessungen entstanden sind, werden als Zeitdatenreihen bezeichnet. Typisch ist die Erfassung in gleichbleibenden In- tervallen (z. B. Sekunden, Minuten, Stunden usw.). Sie eignen sich hervorragend zur Er- fassung von Produktions-, Prozess- oder Temperaturdaten und finden in fast allen Sys- temen zur Erfassung von Produktionsdaten Verwendung. Im Vergleich zu normalen Da- tenbankabfragen werden bei Abfragen von Zeitdatenreihen in der Regel mehr als ein Datensatz zurückgegeben. Da in Zeitdatenreihen häufig auch viel Rauschen enthalten ist, ist es erforderlich für diese Daten, zuerst eine Reduktion der Dimension bzw. eine Transformation durchzuführen. Dies ist notwendig, da das Rauschen, das Datensätze ohne relevante Informationen beschreibt, die Genauigkeit von Vorhersagen negativ be- einflussen kann. Die hierfür am besten geeignete Methode zur Klassifizierung von Se- quenzdaten ist das Clustering. Allgemein gesehen ist dieser Vorgang nach wie vor eine offene Herausforderung. Es gibt gute Möglichkeiten zur ‚Glättung‘ der Datenreihen. Durch diese können sich jedoch Verzögerungen in der Verarbeitung ergeben. Eine effiziente Möglichkeit, das Rauschen schon bei der Erfassung zu verringern, ist, in der Nähe des E/A-Blocks Filter zu integrieren. (vgl. Han et al. 2012 S. 587; Awad/Khanna 2015, S. 16)

3.2.5.4. Genauigkeit, Vertrauen und Herkunft

Data-Mining-Systeme wurden in der Vergangenheit in der Regel mit genauen Daten aus begrenzten und bekannten Quellen gespeist, weswegen die Ergebnisse des Mining-Pro- zesses dementsprechend genau waren. Dadurch waren sowohl Genauigkeit als auch das Vertrauen in die Daten meist gegeben. Mit dem Aufkommen von Big Data fließen Daten aus verschiedensten Quellen ein, die sowohl unbekannter Herkunft als auch nicht überprüfbar sein können. Deswegen werden Genauigkeit und Vertrauen zunehmend zu einem Problem mit deutlichen Auswirkungen auf die Ergebnisse des Data-Mining-Pro- zesses. (vgl. Hong et al. 2013, S. 7-9)

3.2.5.5. Überanpassung

„Wenn wir hochflexible Modelle anpassen, müssen wir aufpassen, dass wir die Daten nicht übertreffen, das heißt, wir sollten vermeiden, jede kleine Variation in der Eingabe zu modellieren, da dies eher Rauschen als echtes Signal ist.“ (M urphy 2012, S. 22; Übers. d. Verf.)

Beim Data Mining auftretende perfekte Ergebnisse sollten mit Misstrauen betrachtet wer- den. Diese gehen oft mit einer hohen Komplexität der aus den zugrundeliegenden Daten erstellten Modelle einher. Hierdurch kann das Modell unbeabsichtigt auf die Trainingsda- ten maßgeschneidert werden und seine Verallgemeinerungsfähigkeit verlieren. Das wird bezeichnet als Überanpassung: In einem Modell werden Merkmale beschrieben, die aus Rauschen oder Varianz in den Daten entstehen, statt generalisierte Muster im Datensatz zu finden. Machine-Learning-Modelle haben die Tendenz, sich überanzupassen. Darun- ter leidet die Vorhersage mit unbekannten Datensätzen und das Modell funktioniert nicht wie erwartet. Das Ergebnis ist in der Regel ein Verlust an Genauigkeit. Es gibt viele An- sätze zur Vermeidung von Überanpassung, wie zum Beispiel:

- Verwendung von Untergruppen im Trainingsdatensatz,
- Einschränkung der Ausdrucksstärke des Modells,
- Verwendung von Belohnung und Strafe für den Lernagenten,
- Entfernen von Daten mit geringem Vertrauen aus dem Dataset,
- Definition von Stopp-Kriterien für den Lernprozess.

(vgl. Sammut 2010, S. 744; Hansson et al. 2016, S. 2; Provost/Fawcett 2017, S. 145, S. 167, S. 276)

3.2.5.6. Dimensionsreduktion

Die vorliegenden Daten können Techniken zur Reduktion der Dimensionalität erforderlich machen. Hierbei ist Dimensionsreduktion ein Prozess, in dem Zufallsvariablen mithilfe von Merkmalauswahl und Merkmalextraktion reduziert werden. Dadurch kann sich die Laufzeit für das Training der Modelle deutlich verringern und gleichzeitig wird das Modell durch stärkere Generalisierung unempfindlicher gegen Überanpassung. Die Merkmal- auswahl wird als Prozess definiert, der für die Erstellung des Modells eine Teilmenge der Ausgangsvariablen synthetisiert. Irrelevante oder redundante Merkmale werden in die- sem Prozess entfernt. Während die Merkmalextraktion durch das Kombinieren von Attri- buten den Prozess der Transformation des hoch- in einen niedriger dimensionalen Raum darstellt. Die meisten Ansätze zur Verringerung der Dimensionalität versuchen einen ge- ringer dimensionierten Raum zu konstruieren und die ursprünglichen Daten Cluster für Cluster in diesem abzubilden. Dabei ist es auch möglich, dass die verwendete Methode neue Dimensionen konstruiert. Allgemein stellen hochdimensionale Daten das Clustering vor mehr Herausforderungen als Datasets mit weniger Dimensionen. (vgl. Awad/Khanna 2015, S. 16, S. 22; Han et al. 2012, S. 510)

3.2.5.7. Skalierbarkeit

Big Data mit seinen großen Datenmengen birgt mehr Potenzial, neue Erkenntnisse zu finden, als herkömmliche Anwendungen. Dieses Mehr an Daten stellt aber hohe Anfor- derungen an die Skalierbarkeit der verwendeten Data-Mining-Tools. Die hohe Dimensio- nalität und die Geschwindigkeit, mit der neue Daten extrahiert werden, macht die Ent- wicklung von neuen Klassifizierern notwendig. Zur Gewährleistung eines entscheidenden Vorteils empfiehlt es sich in solchen Fällen Data Mining als kontinuierlichen Prozess zu betreiben. Hierbei gibt es aber einige technische Herausforderungen. So ist die Erstellung von Gesamtmodellen, die große Datenmengen zur Vorhersage von zukünftigen Ereig- nissen verwenden, oft nicht möglich. Um diese Probleme zu meistern, wird beispiels- weise versucht, mit inkrementellem Data Mining oder der Erstellung und Aktualisierung von Offline-Modellen das Datenstrom-Modell aufrechtzuerhalten. Diesen Herausforde- rungen wird mit der Entwicklung von schnellen Datenbanken, Speichern mit höherer Da- tendichte, mehr Speicherkapazität und der Unterstützung durch Hochleistungscomputer begegnet. (vgl. Hong et al. 2013, S. 8; Awad/Khanna 2015, S. 16)

3.2.5.8. Privatsphäre

Der Datenschutz war bereits in der Vergangenheit beim Data Mining nicht immer sicher- gestellt. Die neuen Herausforderungen, die durch Big Data entstehen, sind zu einem gra- vierendem Problem geworden. Dazu gehören vor allem die häufige Verwendung von per- sönlichen Daten, die für viele Modelle unerlässlich ist, und die unüberschaubaren Men- gen an Daten aus sozialen Medien, sowie von vernetzten Diensten. Dabei besteht das Risiko, dass persönliche Daten von Benutzern offengelegt werden. Umso wichtiger ist der Schutz der Privatsphäre geworden. Die Gewährleistung der Wissensintegrität der er- fassten Eingangsdaten und der synthetisierten Einzelmuster ist nicht weniger wichtig. Ak- tuell werden einige Studien zum Schutz der Privatsphäre im Data Mining und Big-Data- Umfeld durchgeführt. Ziel ist es, Methodiken zu finden, die erfolgreiches Data Mining er- möglichen und gleichzeitig den Schutz der persönlichen Daten garantieren. (vgl. Hong et al. 2013, S. 9; Awad/Khanna 2015, S. 16; Han et al. 2012, S. 69)

3.3. Beantwortung der theoretischen Subforschungsfragen

Es gibt kaum noch von Machine Learning unberührte Bereiche und die Vorteile, die sich aus der Anwendung ergeben haben, sind groß. ML-Anwendungen können auf einen Großteil der Probleme, die auf dem Verständnis von Daten beruhen, angewendet wer- den, weswegen ML vielfach auch als Grundlage für eine bessere Zukunft gesehen wird. In den letzten Jahren ist das Thema in den Fokus wissenschaftlicher Untersuchungen gerückt. Das Ziel von Machine Learning ist es, Muster und Regeln in Prozessen zu er- kennen, wo menschliche Analysen nicht mehr möglich oder rentabel sind. Das trifft auf viele Geschäftsprobleme zu. Hier bieten Techniken aus ML und seinen Teilgebieten die Möglichkeit, aus den Daten dieser Prozesse zu lernen, ohne explizit dafür programmiert worden zu sein. So können Herausforderungen rentabel gelöst werden. (vgl. Wuest 2014, S. 31; Cleve/Lämmel 2016, S. 272, S. 289-294)

Es gibt verschiedene Teilbereiche innerhalb von ML, jeder mit mehr oder weniger unter- schiedlichen Schwerpunkten. Um effiziente Anwendungen zu erstellen, ist es nötig diese Bereiche ganzheitlich zu betrachten. Einer der für die produzierende Industrie interes- santesten Teilbereiche ist Data Mining. Data Mining sucht nach Mustern und Informatio- nen, die in unüberschaubar großen Datenmengen versteckt sind. Die Grundbedingungen für Data Mining sind in der fertigenden Industrie großflächig erfüllt. Vor allem das Vorhan- densein von ausreichend vielen Daten für die Analyse ist durch die ständig steigenden Datenmengen aus den vielen Prozessen und Quellen erfüllt. Durch die Prozessnähe und den Umfang, aus denen diese Daten bestehen, sind in der Regel auch die für die Analy- sen relevanten Daten enthalten. Rechtliche Ausschlussgründe, wie der Datenschutz, stellen keine Probleme dar, wenn sie von Beginn an in Betracht gezogen wurden. So gibt es für sensible Daten beispielsweise DSGVO-konforme Möglichkeiten der Anonymisie- rung oder Teilanonymisierung. (vgl. Wuest 2014, S. 31; Cleve/Lämmel 2016, S. 272, S. 289-294)

Maschinelle Analysen sind auch jetzt schon unumgänglich. Durch den zunehmenden Wettbewerb in der globalen Wirtschaft gewinnen diese jedoch mehr und mehr an Bedeu- tung. Die Entwicklung führt hin zu Smart Manufacturing, die neue Möglichkeiten bietet, in diesem Wettkampf bestehen zu können. Verbesserungen der Prozesse und Produkte sind durch ML-Anwendungen rein auf Prozessdaten basierend möglich, während diese Verbesserungen in der Vergangenheit nur durch hohe Investitionen erzielt werden konn- ten. Dieser Trend wurde weltweit bereits erkannt und hat zur Erstellung von Kampagnen, zur Integration dieser neuen Technologien, geführt. Neben Wettbewerbsvorteilen durch bessere und günstiger produzierte Produkte entstehen durch Smart Manufacturing auch andere Vorteile. Nachhaltigkeit im gesamten Wertschöpfungszyklus und bessere Arbeits- bedingungen sind nur zwei markante positive Nebeneffekte, die durch Smart Manufac- turing am Entstehen sind. (vgl. Hansson et al. 2016, S. 1; Wuest et al. 2016, S. 24-25, S. 29; Qiu et al. 2016, S. 6-8; Davis et al. 2011, S. 1; Damjanovic-Behrendt et al. 2018, S. 30)

Es gibt viele Anwendungsmöglichkeiten, in denen durch ML neues Wissen gefunden wer- den kann, durch das bessere Entscheidungen schneller getroffen werden können. Die Möglichkeit, Vorhersagen für Geschäftsszenarien oder Produktionsprozesse zu tätigen, wird unter anderem durch den digitalen Zwilling möglich. Diese durch die intensive Nut- zung vernetzter Technologien möglich gewordene digitale Abbildung einer realen Fabrik bietet für Unternehmen neue Möglichkeiten. Um von den beschriebenen Vorteilen profi- tieren zu können, sind Investitionen in Projekte zur Digitalisierung nötig. (vgl. Hansson et al. 2016, S. 1; Wuest et al. 2016, S. 24-25, S. 29; Qiu et al. 2016, S. 6-8; Davis et al. 2011, S. 1; Damjanovic-Behrendt et al. 2018, S. 30)

Es wird zwischen zwei Kategorien von Machine-Learning-Anwendungen unterschieden:

- Anwendungen zur Beschreibung von Daten,
- Anwendungen zur Vorhersage von Ereignissen.

Mit beschreibenden Anwendungen wird versucht, verborgenes Wissen in den Daten zu finden, während darauf aufbauende Anwendungen zukünftige Entwicklungen abzubilden versuchen. Entscheidend für den Erfolg ist neben dem Verständnis der Geschäftsabläufe und Produktionsprozesse vor allem das Wissen, welche Funktion für welche Aufgaben- stellung verwendet werden kann. Für den Prozess der Wissensextraktion selbst gibt es erprobte und etablierte Modelle, die von den Rohdaten über definierte Prozessschritte bis zur Visualisierung des neu erkannten Wissens führen. (vgl. Han et al. 2012, S. 14 f.; Awad/Khanna 2015, S. 3; Kusiak 2006, S. 4180; Han et al. 2012, S. 1, S. 8; Wuest 2015, S. 33; Hong et al. 2013, S. 3)

Die Aussage: „Big Data würde zu einem nutzlosen Monster, wenn wir nicht die richtigen Werkzeuge haben, um seine ‚Wildheit‘ zu nutzen“ (B. Hong et al. 2013, S. 3) zeigt die Wichtigkeit der Analyse und Wissensgewinnung aus den immensen Datenmengen.

Es wurde erkannt, dass es kein richtiges oder generell gültiges Modell gibt. Vielmehr gibt es Modelle, die besser für eine Anwendung geeignet sind als andere. Es kommt also darauf an zu wissen, welche Anwendung mit welchen Methoden gut funktioniert, auf Er- fahrung, vernetztes Denken und letztendlich auch auf das Verständnis der Prozesse. In den meisten Fällen kommen mehrere Modelle und Algorithmen für die Aufgabenstellung infrage. Die Wahl innerhalb dieser Parameter kann auch die persönlichen Vorlieben des Data Scientist wiederspiegeln. Das Experimentieren mit verschiedenen Modellen ist wichtig und die Validierung der Ergebnisse, die miteinander verglichen werden, können den Ausschlag für Entscheidungen geben. Perfekte Ergebnisse sollten mit Misstrauen betrachtet werden, da diese oft ein Zeichen für eine Überanpassung des Modells an seine Trainingsdaten darstellt. Ein überangepasstes Modell ist nicht mehr in der Lage, Vorher- sagen mit unbekannten Datensätzen zu treffen. Für die meisten Herausforderungen gibt es unterstützende Prozesse, die Anwendung finden sollten. (vgl. Hong et al. 2013, S. 8; Awad/Khanna 2015, S. 16; Hong et al. 2013, S. 9; Awad/Khanna 2015, S. 16; Han et al. 2012, S. 69; Sammut 2010, S. 744; Hansson et al. 2016, S. 2; Provost/Fawcett 2017, S. 145, S. 167, S. 276)

Bei ML besteht aber auch die Gefahr, dass dieses von den wesentlichen Fragen ablenkt, zu falschen Entscheidungen führt, oder diese verzögert. Die enormen Datenmengen stel- len eine große Herausforderung an die Werkzeuge der Datenanalyse dar und ebenso die sich schnell verändernde Umgebung, die immer neue Datentypen und Techniken auf- nimmt. Die Anforderungen an die Skalierbarkeit als kontinuierlichem Prozess in diesem Zusammenhang sind hoch. Techniken des Deep Learning und des Verstärkten Lernens, die in der Lage sind, selbstständig Muster in diesen Daten zu erkennen, können ange- wendet werden. Es gibt viele Herausforderungen, wie zum Beispiel Echtzeitdaten, hohe Komplexität, das Zusammenführen von Daten aus unterschiedlichen Quellen und Sem- antiken, das Erkennen von Relevanz und nicht zuletzt datenschutzrechtliche Themen, die durch die DSGVO an Dringlichkeit gewonnen haben. Ziel ist es, Methodiken zu finden, die erfolgreiches Data Mining ermöglichen und gleichzeitig den Schutz der persönlichen Daten garantieren. (vgl. Hong et al. 2013, S. 8; Awad/Khanna 2015, S. 16; Hong et al. 2013, S. 9; Awad/Khanna 2015, S. 16; Han et al. 2012, S. 69; Sammut 2010, S. 744; Hansson et al. 2016, S. 2; Provost/Fawcett 2017, S. 145, S. 167, S. 276)

4. MODELLIERUNG UND PRAKTISCHE UMSETZUNG

Dieser praktische Teil der Arbeit, befasst sich mit der Anwendung der im theoretischen Teil erarbeiteten Grundlagen. Die ausschlaggebenden Prozessparameter für diese Streuung sollen gefunden werden, um die Produktion von Waren innerhalb der definier- ten Qualität zu erhöhen.

4.1. Ziele und Rahmenbedingungen

Für die praktische Umsetzung der Arbeit wurden folgende Rahmenbedingungen definiert:

- Das Ziel des praktischen Teils ist die Erstellung eines prototypischen Modells zur Vorhersage zweier für den Produktionsprozess wichtigen Prozesswerte. Die Ge- nauigkeit des Modells soll mindestens 75 % betragen.
- Die Arbeit wurde auf Basis echter Produktionsdaten erstellt.
- Die Produktionsqualtität liegt im Mittel fast genau auf den Vorgabewerten, jedoch weisen die Daten eine relativ hohe Streuung auf, das heißt, es gibt Produkte, de- ren Qualität stark abweicht, während im Mittel die Ansprüche erfüllt sind.
- Aus datenschutzrechtlichen Gründen wurden die Daten anonymisiert. Diese Ano- nymisierung hat keine Relevanz in Bezug auf Qualität und Leistung des Modells.
- Grundsätzlich werden Begriffe in der deutschen Übersetzung verwendet. In man- chen Fällen ist eine treffende Übersetzung aber nicht möglich oder zielführend. In diesen Fällen wird die originale Bezeichnung verwendet.

4.2. Ausschlüsse und Abgrenzungen

Folgende Nicht-Ziele wurden für den praktischen Teil der Arbeit festgelegt.

- Die Bereitstellung des benötigten Datasets mit den produktionsrelevanten Para- metern ist nicht Teil dieser Arbeit.
- Auf Funktion und Bedienung der Azure-ML-Plattform wird nicht eingegangen.

4.3. Technologien

Gegenstand dieser Arbeit ist die Entwicklung eines in Azure ML erstellten Machine-Lear- ning-Modell und Schnittstellen für die Daten-Ein-/Ausgabe. Es kommen zahlreiche Tech- nologien aus dem Bereich Web und Data Science zum Einsatz, von denen nachfolgend die wichtigsten aufgezählt werden.

Entwicklungsumgebung
- Azure-Machine-Learning-Studio

Web
- Rest (Restful-State-Interface)
- HTTPS (Hypertext-Transport-Protokoll-Secure) ML-Algorithmen
- Two-Class-Decision-Forest
- Decision-Forest-Regression
- Neural-Network-Regression
- Boosted-Decision-Tree-Regression
- Two-Class-Support-Vector-Machine

Sprachen
- SQL
- R Open

Schnittstellen
- Rest-Api
- Excel Addin

4.4. Modell

Die Erstellung des praktischen Teils folgt dem von Cleve und Lämmel beschriebenen Prozessablauf CRISP-DM, wie in Abbildung 9 ersichtlich. Die einzelnen Schritte werden nach Vorgabe durchgeführt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9 Ablauf des Data-Mining-Prozesses. Quelle: In Anlehnung an Cleve/Lämmel 2016, S. 3

Um einen ersten Überblick zu bekommen, werden vor Beginn des Data-Mining-Prozes- ses einige schnelle Experimente mit den unbearbeiteten Daten durchgeführt. Ziel dieser Experimente ist es, Verständnis über die Datenmengen zu erlangen bzw. zu verbessern und ein Gefühl für das den Daten innewohnende Potenzial und somit für die möglichen Ergebnisse zu bekommen. Darüber hinaus führen diese schnellen Experimente oft zu neuen Ansätzen und Inspirationen betreffend des Data-Mining-Prozesses. Wichtig ist, systematisch alle durchgeführten Experimente genau zu protokollieren, um gewonnene Erkenntnisse nachvollziehen zu können. Das Protokoll sollte hierzu mindestens folgende Daten enthalten:

- Verfahren/Algorithmus und deren Parameter,
- Daten,
- Codierungen,
- Resultate.

(vgl. Cleve/Lämmel 2016, S. 262)

Die Protokolle der durchgeführten Versuche sind im Anhang ‚Versuchsprotokoll Data Mining‘ einzusehen.

4.4.1. Daten

Das vorliegende Excel File mit realen Produktionsdaten wurde vom Kunden bereitge- stellt. Zur Analyse und Eingrenzung der Parameter werden verschiedene Algorithmen und visuelle Auswertungen verwendet. Auf deren Basis wird im eigentlichen Modell die Selektion der Features manuell durchgeführt. Aus datenschutzrechtlichen Gründen wird das Dataset vor dem Import anonymisiert. In einem produktiven Modell wird dieser Schritt automatisiert durchgeführt. Für die Umsetzung dieser Arbeit ist diese Automatisierung nicht notwendig.

Im ersten Schritt wird das Dataset manuell in Excel als CSV-Datei mit amerikanischer Encodierung gespeichert und anschließend in Azure ML importiert. Das importierte Da- taset ist anschließend für alle Experimente verfügbar. Beim erneuten Upload erkennt Azure ML automatisch, ob es sich um dieselbe Datei handelt, und bietet in diesem Fall als Option das Überschreiben des existierenden Datasets an.

4.4.2. Datenselektion

Die Zielparameter und zugehörigen Variablen wurden vom Kunden bekanntgegeben, im Zuge der Umsetzung des praktischen Teils wurden diese Daten jedoch anonymisiert. Die nachfolgenden Parameterbenennungen stellen deswegen nur Pseudonyme dar.

- Col19 entspricht Zielparameter 1
- Col23 entspricht Zielparameter 2

Die optimalen Werte der Zielparameter können je nach Rezept variieren. Darüber hinaus ist die Selektion der Parameter, die in die Berechnung einfließen, relevant. Sowohl Qua- lität als auch die Performance des Modells hängen unter anderem von der Anzahl der für die Vorhersage verwendeten Parameter und deren Eigenschaften ab. Da ein Modell mit hohen Laufzeiten für Echtzeit-Anwendungsfälle in der Prozessindustrie ausscheidet, ist diese ein maßgebendes Kriterium für den Erfolg der Arbeit.

4.4.3. Datenvorverarbeitung

Die Qualität der Resultate wird in kritischem Ausmaß von der Vorbereitung der Daten beeinflusst. Diese benötigt in der Regel mehrere Schritte und hängt von der Anwendung und von der Wahl des Algorithmus ab. Nach dem GIGO (garbage in – garbage out) - Prinzip, können aus schlechten Daten keine guten Resultate erzielt werden. Die Daten- vorbereitung zielt auf die Erhöhung der Qualität ab und verbessert so die Chancen auf eine erfolgreiche Analyse. (vgl. W uest et al. 2016, S. 76)

Somit zeigt sich, wie wichtig die Aufbereitung der Datenquelle für den Erfolg des Modells und der Arbeit ist. Da die Daten in der vorliegenden Rohform nicht direkt verwendet wer- den können, sind mehrere Preprocessing-Schritte notwendig, um diese in ein für die Wei- terverarbeitung valides Format zu bringen. Für die Aufbereitung der Daten kann auf stan- dardisierte, in Azure ML verfügbare Funktionen zurückgegriffen werden. Im konkreten Fall kommen folgende Schritte zur Anwendung:

- Spaltenauswahl,
- Wertebereich einschränken,
- Bereinigung fehlender Daten.

4.4.3.1. Spaltenauswahl (Select Columns in Dataset)

Bei diesem Mining-Schritt wird das importierte Dataset auf ausgewählte Spalten redu- ziert. Dadurch kann die Anzahl der Merkmale für die Weiterverarbeitung deutlich reduziert werden. Die Konfiguration erfolgt über das Modul ‚Select Columns in Dataset‘ und dem ‚Colum Select‘-Dialog. Es gibt verschiedene Möglichkeiten für Inklusion oder Exklusion von Merkmalen, zum Beispiel nach Spaltenname, Spalten NR oder Datentyp der jeweili- gen Spalte.

4.4.3.2. Wertebereich einschränken (Clip Values)

Mit diesem Modul können Ausreißer behandelt werden. Wie in der Theorie festgestellt wurde, können diese stark abweichenden Ausreißer die Ergebnisse verzerren. Dabei spielt es keine Rolle, ob diese echte Werte oder fehlerhafte Datensätze darstellen. Für die Behandlung gibt es mehrere Möglichkeiten der Anwendung. So können sowohl Spit- zen als auch Tiefen entweder absolut oder prozentual gefiltert werden.

4.4.3.3. Bereinigung fehlender Daten (Clean Missing Data)

Die Bereinigung von fehlenden oder fehlerhaften Daten ist für die weitere Verarbeitung von großer Bedeutung. Wie in der Auseinandersetzung mit der Theorie festgestellt wurde, stellt jede Bearbeitung eine Veränderung der Ursprungsdaten und damit eine Ver- fälschung des Resultats dar. In vielen Fällen gibt es zu diesem Vorgehen aber keine Alternative, da die meisten Algorithmen mit diesen Fehlern nicht umgehen können. Je nach Algorithmus, Datenmenge und Datentyp muss deswegen die am besten passende Methode zur Bereinigung angewendet werden. Es stehen mehrere Varianten zur Aus- wahl, von denen die für das Modell relevanten nachfolgend beschrieben werden.

4.4.3.3.1. Replace with Mean

Bei dieser Option wird der fehlende Wert durch den arithmetischen Durchschnitt aller Werte in der Spalte ersetzt. Sie stellt die am häufigsten verwendeten Variante dar. Im Gegensatz zum Median ist der Mean nicht robust. Er hat den Nachteil, stark von Ausrei- ßern beeinflusst zu werden.

4.4.3.3.2. Replace with Median

Der Median stellt eine robuste Möglichkeit der Bereinigung dar. Er wird berechnet, indem alle numerischen Werte der Spalte aufsteigend sortiert werden. Der Median entspricht der Zahl in der exakten Mitte der Reihe.

4.4.3.3.3. Gesamte Zeile löschen

Bei großen Datasets mit breiter Streuung ist das Löschen der gesamten Zeile meist die beste Option, da dadurch möglichst unverfälschte Ergebnisse möglich sind.

4.4.3.3.4. Remove using Probabilistic PCA

Probabilistic PCA ist eine Methode zur Verringerung der Dimensionalität von Datasets. Die Funktion ist nicht auf das Ersetzen von Werten beschränkt, findet aber oft Verwen- dung beim Auffinden und Ersetzen von Werten in Datasets. Die Methode basiert nicht auf einem Wahrscheinlichkeitsmodell und benötigt bei hoher Genauigkeit weniger Res- sourcen als viele andere Varianten.

4.4.4. Datentransformation

Die Transformation des Datasets stellt den größten Arbeitsschritt in der Erstellung des Modells dar. Gleichzeitig ist dieser essenziell für die Weiterverarbeitung der Daten und das Ergebnis selbst. Die einzelnen Schritte werden nachfolgend in der Anwendung ent- sprechender chronologischer Reihenfolge beschrieben. Diese sind:

- Bearbeiten der Metadaten,
- Normalisierung der Daten.

4.4.4.1. Bearbeiten der Metadaten (Edit Metadata)

Beim Import des Datasets wurden viele Features nicht automatisch mit korrekten Meta- daten versehen. Da diese Metadaten wichtige Informationen für die Parametrierung des Algorithmus bzw. der Algorithmen darstellen, müssen diese Informationen manuell bear- beitet werden.

Für die im nächsten Schritt erfolgende Normalisierung müssen Features mit numerischen Werten als ‚nicht kategorisch‘ markiert werden. Dies kann wie in Abbildung 10 dargestellt, mit dem Modul ‚Edit Metadata‘ erledigt werden. Hierzu werden die umzuwandelnden Fea- tures im ‚Colum Selector‘ ausgewählt, als Datentyp ‚Floating Point‘ und beim Typ ‚Make non-categorical‘.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 10 Parametrierung Edit Metadata. Quelle: Eigene Darstellung

4.4.4.2. Normalisierung der Daten

Die Normalisierung von Daten spielt für viele Algorithmen eine große Rolle. Dieser Mi- ning-Schritt ist nötig, um ein unverzerrtes Ergebnis erzielen zu können und die Wahr- scheinlichkeit von Überanpassung zu minimieren. Hierfür wird in Azure ML das Modul ‚Normalize Data‘ verwendet und mit dem vorhergehenden Schritt verbunden. Es wurden alle Spalten vom Typ ‚Numerisch‘ gewählt und von nachfolgend aufgelisteten verfügba- ren Transformationsmethoden ‚MinMax‘, die nach der vorliegenden Literatur eine der zwei gängigsten Methoden zur Normalisierung ist.

4.4.4.2.1. Z-Score

Z-Scores sind eine Möglichkeit, die Ergebnisse eines Tests mit einer ‚normalen‘ Popula- tion zu vergleichen.

4.4.4.2.2. MinMax

MinMax unterteilt alle Werte in eine numerische Skala von 0.0 bis 1.0.

4.4.5. Datenanalyse

Folgende Module zur Analyse des Datasets wurden angewendet:
- Filter basierte Feature Auswahl

4.4.5.1. Filter basierte Feature Auswahl (Filter Based Feature Selection)

Mit Hilfe des filterbasierten Feature Auswahl Moduls können irrelevante oder redundante Attribute identifiziert und aus der Weiterverarbeitung ausgeschlossen werden. Die Funk- tion hat zwei Ausgabemöglichkeiten, es können sowohl das gefilterte Dataset, sowie nur die relevanten Spalten (Attribute) als Output weitergegeben werden. Diese werden Fea- ture Score sortiert zurückgegeben.

Als Filter Methoden stehen mehrere statistische Funktionen zur Auswahl, von denen die für das jeweilige Modell am besten passende gewählt werden kann. Die Auswahl der richtigen Funktion, kann die Genauigkeit des Modells verbessert werden, Spalten mit un- zureichender Abhängigkeit werden im Dataset belassen und im weiteren Modell ignoriert.

4.4.5.1.1. Pearson Correlation

Die Pearson Correlation definiert den linearen Zusammenhang zweier Variablen in einer metrischen Skala von -1 bis 1. Die Anwendung der PC ist auf metrische Merkmale be- schränkt.

4.4.5.1.2. Fisher Score

Der Fisher Score ist eine Variante zur Merkmalsauswahl in Datasets. Die Klassifizierung erfolgt in einer Skala von 0 bis 10.

4.4.6. Data Mining

Mit den aufbereiteten Daten und den selektierten Zielparametern werden die eigentlichen Machine-Learning-Schritte durchgeführt. Hierzu kommen unterschiedliche Ansätze aus dem theoretischen Teil dieser Arbeit zum Einsatz. Folgende Schritte sind Teil dieses Pro- zesses:

- Split Data,
- Modellinitialisierung,
- Modell trainieren,
- Modellbewertung,
- Modellauswertung.

4.4.6.1. Split Data

Mit Split Data werden die Daten in zwei Datasets in einem frei wählbaren Verhältnis auf- geteilt. Eine Verteilung im Verhältnis 75 zu 25 % wird von der vorliegenden Literatur als gängig angenommen. Mit dem größeren Teil der Daten wird das Modell trainiert, während die Verifizierung des Modells (Score Model) mit dem kleineren Teil der Datenmenge er- folgt. Neben der prozentualen Verteilung zwischen Trainingsmenge und Verifizierungs- menge kann über den Parameter ‚Splitting Mode‘ die Art der Aufteilung festgelegt wer- den. Mit diesem Parameter wird entschieden, wie die Datensätze zwischen den zwei Da- tasets verteilt werden. Es wird zwischen vier Modi unterschieden.

4.4.6.1.1. Split Rows

Split Rows bezeichnet die Aufteilung des Datensets zwischen den Datensätzen zu je 50 Prozent. Als Zusatzoption können die Datensätze nach dem Zufallsprinzip verteilt wer- den. Dies ist vor allem dann sinnvoll, wenn die Daten starke Varianzen aufweisen.

4.4.6.1.2. Recommender Split

Diese Variante findet in Recommender-Modellen, beispielsweise in der Warenkorbana- lyse oder anderen Empfehlungssystemen, Anwendung.

4.4.6.1.3. Regular-Expression-Split

Regular-Expression-Split teilt die Daten aufgrund von manuell eingegebenen Regular Ex- pressions. Praktische Anwendungen sind zum Beispiel die gezielte Selektion von Da- tensätzen mit Eigenschaft x in Spalte y.

4.4.6.1.4. Relative-Expression-Split

Mittels Relative-Expression-Split kann die Aufteilung anhand einer oder mehrerer grup- pierter Spalten vorgenommen werden. Dies ist zum Beispiel erforderlich, wenn die Daten nach Kosten, Artikeln, Altersgruppen oder anderen Parametern gruppiert werden müs- sen.

4.4.6.2. Modellinitialisierung

Bei der Initialisierung des Modells wird dieses an einen Algorithmus gebunden und dieser parametriert. In den Versuchen zum Modell wurden folgende Algorithmen evaluiert:

- Decision-Tree-Regression,
- Decision-Forest-Regression,
- Two-Class-Decision-Forest,
- Linear Regression,
- Neural-Network-Regression.

4.4.6.3. Modell trainieren

In diesem Schritt wird das Modell mit dem Trainingsteil des Datasets trainiert. Das Modul benötigt exakt ein Feature als Parameter. Für Klassifizierungsaufgaben muss die Label- Spalte vom Typ kategorisch oder diskret sein, während diese für Regressionsaufgaben numerische Werte enthalten muss. Im letzteren Fall sollten sich die enthaltenen Werte idealerweise innerhalb einer kontinuierlichen Skala befinden.

4.4.7. Evaluation und Interpretation

In diesem abschließenden Prozessschritt wird das Modell bewertet und ausgewertet.

4.4.7.1. Modellbewertung

Beim Score wird die Treffergenauigkeit des trainierten Modells bei den verwendeten Trai- ningsdaten festgestellt. Hierzu wird der Validierungsteil des Datasets mit dem trainierten Modell überprüft. Dieser Schritt erfordert keine Eingabeparameter und läuft automatisch ab.

Das Scoring wird auch als Vorhersage bezeichnet und ist der Vorgang des Erzeugens von Werten basierend auf einem trainierten maschinellen Lernmodell, wenn einige neue Eingabedaten vorliegen. Die Werte oder Bewertungen, die erstellt werden, können Vor- hersagen zukünftiger Werte darstellen, sie können jedoch auch eine wahrscheinliche Ka- tegorie oder ein voraussichtliches Ergebnis darstellen. Die Bedeutung der Bewertung hängt von der Art der von Ihnen bereitgestellten Daten und der Art des von Ihnen erstell- ten Modells ab.

4.4.7.2. Modellauswertung

Dieser letzte Schritt wird nach Abschluss des Trainings ausgeführt. Mit diesem Modul können die Genauigkeit der Vorhersagen gemessen werden. Bei der Evaluierung wird das trainierte Modell mit dem Validierungsteil der Daten geprüft. Dieser ist der kleinere Teil der in Split Data geteilten Daten. Die Teilmenge der Daten muss in der Theorie die- selben Ergebnisse liefern wie die Trainingsdatenmenge. Der Unterschied zwischen Soll und Ist gibt die Qualität des Modells an.

4.4.7.2.1. Vergleich der Ergebnisse mehrerer Modelle

Es kann zielführend sein, die Ergebnisse mehrerer Modelle direkt miteinander zu verglei- chen. Durch dieses Zusammenfassen können Unterschiede in den Ergebnissen schnel- ler erfasst werden. Zudem ist das Ergebnis dieser Zusammenfassung bereits ein Bericht, der für Laien ein verständliches Format aufweist.

4.4.7.2.2. Analyse der Ergebnisse

Die Analyse der Daten erfolgt unter Zuhilfenahme verschiedener Diagramme. Hier zeigen sich deutlich Abhängigkeiten einzelner Parameter.

4.4.8. Bereitstellung des Modells

Nach erfolgtem Training kann das Modell als ‚Predictive Experiment‘ bereitgestellt wer- den. Mit diesem Schritt wird das trainierte Modell gespeichert und als Basis für zukünftige Vorhersagen verwendet.

Für die Bereitstellung stehen die in Tabelle 1 aufgelisteten Möglichkeiten zu Verfügung.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1 Übersicht über die Möglichkeiten zur Bereitstellung von Modellen in Azure ML. Quelle: https://docs.micro- soft.com/en-us/azure/machine-learning/service/how-to-deploy-and-where

4.5. Qualitätssicherung

Der Qualitätssicherung wurde im praktischen Teil ein hohes Maß an Aufmerksamkeit ge- widmet. Nachfolgend werden die Schritte zur Sicherung der Qualität detailliert beschrie- ben.

4.5.1. Protokollierung der Experimente

Alle Experimente wurden detailliert nach den vorhergehend definierten Kriterien protokol- liert und sind im Anhang einsehbar.

4.5.2. Kriterien für die Modellbewertung

Azure ML liefert einige Parameter für die Modellbewertung, die sich weitestgehend mit den allgemein akzeptierten Parametern aus der Literatur zum Data Mining decken. Die Bewertung erfolgt nach den folgenden Parametern:

- Mean-Absolute-Error,
- Root-Mean-Squared-Error,
- Relative-Absolute-Error,
- Coefficient of Determination.

4.5.2.1. Mean-Absolute-Error

Eine hohe Anzahl an Mean-Absolute-Errors ist schlecht und dementsprechend ist eine niedrige Anzahl gut. Gemessen wird die vertikale Differenz (Residuen) im Verhältnis zur am besten passenden linearen Regressionsgeraden.

4.5.2.2. Root-Mean-Squared-Error

Der RMSE sagt aus, wie gut eine Funktionskurve an die Daten angepasst ist. Das heißt, er gibt Aufschluss darüber, um wie viel im Durchschnitt die Schätzung von der Messung abweicht. Er stellt eine gängige Methode zur Bewertung dar und bietet Einblicke sowohl in Bezug auf die Verzerrung eines Klassifikators als auch auf die Genauigkeit eines Klas- sifizierers.

4.5.2.3. Relative-Absolute-Error

Der absolute Fehler ist der Unterschied zwischen gemessenem Istwert und dem wahren Wert der Messgröße. Der absolute Fehler hat die Dimension der Messgröße.

4.5.2.4. Coefficient of Determination

Der Coefficient of Determination (deutsch: ‚Bestimmtheitsmaß‘) ist der relevanteste Qua- litätsindikator für die Bewertung des vorliegenden Modells. Es handelt sich um einen De- zimalwert im Bereich 0 bis 1. Je höher der Wert, desto näher liegen die berechneten Ergebnisse an den tatsächlichen Werten, wobei 0 bedeutet, dass keine Beispiele korrekt klassifiziert wurden, und 1 bedeutet, dass alle Beispiele korrekt klassifiziert wurden.

4.5.3. Überprüfung und Retraining

Um das Modell akkurat zu halten, muss dieses regelmäßig mit neuen Produktionsdaten validiert werden. Fällt die Genauigkeit unter einen definierten Wert, muss das Modell neu trainiert werden, um weiterhin Vorhersagen tätigen zu können. Diese sich langsam auf- bauende Ungenauigkeit kommt aus der Varianz der Produktionsdaten, teils durch die aufgrund des Modells vorgenommenen Korrekturen. Für die laufende Überprüfung kom- men mehrere Ansätze in Frage:

- manueller Vergleich,
- automatischer Vergleich.

4.5.3.1. Manueller Vergleich

Beim manuellen Vergleich müssen AnwenderInnen die vorhergesagten Zielwerte mit den tatsächlich erreichten Werten vergleichen. Um Tendenzen erkennen und rechtzeitig rea- gieren zu können, ist es wichtig, die Ergebnisse zu protokollieren. Wird der definierte Schwellwert für die Abweichung zwischen Vorhersage und tatsächlichen Werten über- schritten, muss manuell ein Retraining des Modells ausgeführt werden.

4.5.3.2. Automatischer Vergleich

Der Konfigurationsaufwand ist beim automatischen Vergleich deutlich höher. Die Auto- matisierung hat aber mehrere Vorteile, die in Betracht gezogen werden sollten:

- Zeitersparnis durch automatische Prüfung,
- Fehlerunanfälligkeit,
- Auslösen von Events (Benachrichtigungen, Retraining, Reports usw.).

4.5.3.2.1. Automatisches Retraining

Wird im Vergleich festgestellt, dass das Modell neu trainiert werden muss, kann dies über die von Azure zur Verfügung gestellte Schnittstelle automatisch durchgeführt werden.

4.6. Schnittstellen

Azure bietet einige Standardschnittstellen für das Training und die Anwendung von Modellen. Über die Web-Services-Einstellungen können diese Schnittstellen konfiguriert werden. Nachfolgend wird in Abbildung 11 die Übersicht der Schnittstellen des bereitgestellten Modells gezeigt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 11 Schnittstellenübersicht in Azure ML. Quelle: Eigene Darstellung

4.6.1. REST-API

Im Zuge des Projekts wird eine REST-API bereitgestellt. Nachfolgende Funktionalität wird gewährleistet:

- Vorhersage,
- erneutes Trainieren.

Für den Datenaustausch wird JSON vorgegeben. In der nachfolgenden Abbildung 12 werden die Konfigurationsparameter der Schnittstelle dargestellt, die für die Verwendung in externen Anwendungen notwendig sind.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 12 Schnittstellenbeschreibung Rest Interface in Azure ML. Quelle: Eigene Darstellung

4.6.1.1. Implementierung

Die Implementierung der Schnittstelle ist, durch den offenen REST-Standard in Verbin- dung mit dem JSON-Dateiformat, an kein proprioritäres System gebunden. Beispiel-Im- plementierungen für C# und R-Open sind an den nachfolgenden Screenshots Abbil- dung 13 und Abbildung 14 ersichtlich.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 13 Beispielaufruf der Res-Schnittstelle in C#. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 14 Beispielaufruf der Rest-Schnittstelle in R. Quelle: Eigene Darstellung

4.6.2. Excel Add-in

Das Excel Add-in wird von Azure ML beim Bereitstellen des Web-Services erstellt, wel- ches in der nachfolgenden Abbildung 15 zu sehen ist. Aus der Service-Konfiguration her- aus kann ein Excel Workbook geladen werden, dass bereits das vorkonfigurierte Add-in zum Projekt enthält. Durch die Funktion ‚Use Sample Data‘ wird ein zum Modell passen- des Worksheet generiert. Dies erleichtert die Eingabe von manuellen Werten, da Spalten- anzahl und Position bereits vorgegeben werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 15 Excel Add-in Konfiguration. Quelle: Eigene Darstellung

4.7. Datenschutz

Der Datenschutz ist wie bei allen Webanwendungen ein wichtiges Thema, welches aber in der Projektumsetzung oft vernachlässigt wird. Microsoft hat Azure basierend auf bran- chenweit führenden Sicherheitsmaßnahmen und Datenschutzrichtlinien zum Schutz von Daten in der Cloud entwickelt, zu denen auch personenbezogene Daten gehören, die der DSGVO unterliegen. Gemäß den eigenen Vertragsbedingungen muss Microsoft die An- forderungen von datenverarbeitenden Organisationen einhalten. Die nachfolgend in Ab- bildung 16 dargestellte Architektur dient als Basis, um Kunden bei der Bereitstellung von Workloads in Azure in DSGVO-konformer Weise zu unterstützen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 16 Modell Bereitstellungsarchitektur. Quelle: https://docs.microsoft.com/de-de/azure/security/blue- prints/ffiec-analytics-overview 2019

4.7.1. Daten während der Übertragung

Azure verschlüsselt standardmäßig die gesamte Kommunikation zu und von Azure-Re- chenzentren. Alle Transaktionen für Azure-Storage über das Azure-Portal werden per HTTPS durchgeführt.

4.7.2. Ruhende Daten

Durch die Anforderungen der DSGVO ist auch der Speicherort der zu analysierenden Daten von Relevanz. Diese Auswahl kann bei der Erstellung des Accounts getroffen wer- den. Der gewählte Serverstandort kann nachträglich nicht mehr geändert werden.

Die Architektur selbst schützt ruhende Daten durch die Verwendung von Verschlüsse- lung, Datenbanküberwachung und anderen Maßnahmen. Um die Anforderungen für ver- schlüsselte ruhende Daten zu erfüllen, wird für den gesamten Azure-Storage die Spei- cherdienstverschlüsselung verwendet. Dadurch werden personenbezogene Daten ge- schützt, um die Zusagen und Anforderungen der Organisation im Hinblick auf Sicherheit und Konformität gemäß der DSGVO einzuhalten.

4.7.3. Datenverarbeitung

Azure ML bietet Möglichkeiten zur Einhaltung der DSGVO im verarbeitenden Prozess wie zum Beispiel:

- Anonymisieren von Daten,
- Pseudoanonymisieren von Daten.

Für die Kommunikation mit den Schnittstellen wird ein Api-Key benötigt. Beispiel-Api-Key: “rE3BGqjFB0bAAhgtwvupkeyU3LHj1oPIv- lbhu5ONA/QhQRR36I+FLSJQmT+EYAxt13ktjjFHyW16xchSN3feZw==”

4.8. Ergebnisse des Werks

Den Möglichkeiten, die ML bietet, sind allein durch eingeschränkte Kreativität der damit arbeitenden Menschen Grenzen gesetzt. Es gibt kaum einen Prozess, durch den nicht durch ML neue Wertschöpfungen oder Kenntnisse generiert werden können. Azure Ma- chine Learning bietet Möglichkeiten für EinsteigerInnen als auch ExpertInnen. Menschen ohne Programmiererfahrung und ohne statistische oder mathematische Kenntnisse kön- nen einfache Modelle erstellen und Ergebnisse erzielen, für die vor ein paar Jahren noch teure SpezialistInnen benötigt wurden. Nach meiner Meinung ist das ein großer Schritt in Richtung Massenanwendung von ML.

Die Vorbereitung und Transformation der Datenquelle, war essenziell. Der anteilig ver- wendete Zeitaufwand entsprach mit 70 % in etwa dem in der Fachliteratur angegebenen Schlüssel. Einige Funktionen, die in der Literatur Erwähnung finden, sind in Azure ML nicht als Module verfügbar. Die Plattform wird jedoch ständig erweitert. Bei den Möglich- keiten zur Visualisierung gibt es ebenfalls Einschränkungen. Werden für umfangreiche oder komplexe Visualisierungen R oder Python Scripts benötigt, können die wichtigsten Analysen dennoch ohne Programmierkenntnisse erstellt werden.

4.8.1. Qualität des Modells

Es stellte sich im Zuge der Umsetzung heraus, dass nur wenige Parameter bestimmen- den Einfluss auf den Zielwert haben. Für die Zielparameter spielen vor allem folgende Parameter eine Rolle:

- Col27
- Col31
- Col35
- Col106

4.8.1.1. Relevanteste Parameter für Zielwert 1

Die Analyse der Parameter für Zielwert 1 im Dataset, hat zu folgenden Ergebnissen geführt. Parameter Col35 weist eine direkte Correlation mit dem Zielwert1 auf. Die Parameter Col31 und Col106 weisen ebenfalls noch eine ausreichend starke Verbindung auf, um zur Verwendung im Vorhersagemodell relevant zu sein.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 17 Auswertung der Features mit der größten Abhängigkeit zu Zielwert1. Quelle: Eigene Darstellung

In den nachfolgenden Diagrammen Abbildung 18 und Abbildung 19 werden die starken Überlappungen der Parameter Col35 und Col106 mit dem Zielwert1, dargestellt. Bei Pa- rameter Col35 zeigt sich eine fast vollständige Deckung, aber auch Col106 weist eine signifikante Abhängigkeit zum Zielwert1 auf.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 18 Vergleich der Abhängigkeit Zielwert1 (Col19) zu Col35 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 19 Vergleich der Abhängigkeit Zielwert1 (Col19) zu Col106 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung

Die in Abbildung 19 ersichtlichen Ausreißer können, wenngleich die Auswirkungen auf das Modell durch die geringe Gewichtung minimal sind, in weiteren Versuchen gefiltert und das Ergebnis mit den Vorliegenden validiert werden.

4.8.1.2. Relevanteste Parameter für Zielwert 2

Die Analyse der Parameter für Zielwert 2 im Dataset, hat zu folgenden Ergebnissen geführt. Parameter Col27 und Col106 weisen nachvollziehbare Abhängigkeiten mit Zielwert1 auf. Weitere relevane Parameter sind in Abbildung 20 ersichtlich.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 20 Auswertung der Features mit der größten Abhängigkeit zu Zielwert2 in einer metrischen Skala von 0 bis

1. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 21 Vergleich der Abhängigkeit Zielwert2 (Col23) zu Col27 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 21 Vergleich der Abhängigkeit Zielwert2 (Col23) zu Col106 in einer metrischen Skala von 0 bis 1. Quelle: Eigene Darstellung

Zielwert 2 weist keine so starken und eindeutigen Abhängigkeiten auf, wie es bei Zielwert 1 aufgezeigt werden konnte. Dennoch ist die Verbindung der Parameter ausreichend, um realistische Modelle aufbauen zu können.

4.8.2. Genauigkeit der Vorhersage

Die Genauigkeit der Modelle ist sehr hoch, wodurch die Annahme besteht, dass die Mo- delle überangepasst sind. Ob tatsächlich eine Überanpassung vorliegt, muss in eigenen Versuchsreihen überprüft werden. Die Umsetzung dieser Versuche erfordert die Validie- rung im laufenden Produktionsbetrieb.

Die detaillierten Ergebnisse können im Anhang Versuchsprotokoll Data Mining eingese- hen werden. Die Implementierung der einzelnen Module nahm viel Zeit in Anspruch und es musste mehrfach im theoretischen Teil nachgeschlagen werden.

Für alle im Anhang dokumentierten Versuche werden nachfolgend die Ergebnisse in Ta- belle 2 tabellarisch und in Abbildung 22, nach Genauigkeit der Vorhersagen sortiert, dar- gestellt.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2 Übersicht über die durchgeführten Versuche, bewertet nach COD. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 22 Gegenüberstellung Genauigkeit der verwendeten Algorithmen, bewertet nach COD. Quelle: Eigene Darstellung

4.8.3. Performance

Die Performance der einzelnen Modelle stellte in keinem Fall einen Ausschlussgrund für die Umsetzung dar. In der nachfolgenden Abbildung 23 sind die einzelnen Versuche mit ihren jeweiligen Laufzeiten abgebildet.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 23 Gegenüberstellung der Performance der verwendeten Algorithmen, bewertet in Sekunden. Quelle: Ei- gene Darstellung

4.8.4. Validierung

Die Validierung erfolgte nach den im theoretischen Teil erarbeiteten Kriterien. Die in Azure verfügbaren Parameter zur Validierung entsprechen den von der Literatur empfoh- lenen. Es hat sich in der praktischen Anwendung gezeigt, dass diese effiziente Schlüssel zur Validierung darstellen.

4.8.5. Überwachung

Die laufende Überwachung der Qualität der Modellausgabe ist in Produktivsystemen un- erlässlich. Durch die dynamische Änderung von Prozessparametern wird das trainierte Modell zunehmend ungenauer. Die Geschwindigkeit, mit der dieser Genauigkeitsverlust eintritt, hängt von verschiedenen Parametern ab. Die frühzeitige Konzeption dieses Schrittes stellt kein Erfordernis des Data-Mining-Prozesses dar. Die Überwachung sollte immer den Vergleich der vorhergesagten mit den tatsächlichen Produktionswerten um- fassen. Da es sich im vorliegenden praktischen Teil um einen Prototyp handelt, ist die Überwachung der bereitgestellten Schnittstelle nicht Teil dieser Arbeit.

5. CONCLUSIO UND AUSBLICK

Ziel der Arbeit war, Parameter in einem Dataset zu finden, die einen bestimmenden Ein- fluss auf den Produktionsprozess nehmen und so die Qualität des Produkts beeinflussen können. Das zu erstellende Modell soll eine Vorhersage, der vom Kunden bekannt gege- benen Qualitätsmerkmale aufgrund von übergebenen Parametern ermöglichen. Um die- ses Ziel zu erreichen, wurden im theoretischen Teil relevante Literatur und Publikationen zum Thema Machine Learning aufgearbeitet.

5.1. Relevanz der Arbeit

Die Ergebnisse dieser Arbeit sind für Unternehmen relevant, die praktische Machine- Learning-Anwendungen für die Prozessindustrie erstellen oder erstellen wollen. Wie in der Theorie ersichtlich ist, bietet gerade die praktische Umsetzung das größte Potenzial. Vielfach sind die theoretischen Grundlagen und Konzepte bereits erarbeitet. Es fehlt je- doch an Fachkräften, die diese mit ihrem Fach- und Prozess-Wissen in die Produktion integrieren können. Diese Arbeit zeigt, dass die Umsetzung von Projekten mit prakti- schem Bezug ohne großen Aufwand möglich ist.

5.2. Einschränkungen und Probleme

Es gibt einige Einschränkungen, die es zu Beginn der Konzeption von neuen Anwendun- gen zu berücksichtigen gilt. Die Arbeit im Team ist für Machine-Learning-Anwendungen am effizientesten. Gerade hier liegt aber auch ein grundlegendes Problem, die schlechte Verbindung von theoretischer Arbeit und praktischen Ansätzen.

Auch muss in Betracht gezogen werden, das aktuell nicht jedes Problem für das Machine Learning als Lösungsansatz infrage kommt, auch tatsächlich gelöst werden kann. Diese Problematik hat mehrere Ursachen, die zum Beispiel in mangelndem Knowhow, Perso- nalmangel, Rekrutierungsproblemen oder aber auch in der mangelhaften Leistung von Computersystemen und noch unzureichenden Modellen liegen.

5.3. Antworten zu Theorie und praktischer Umsetzung

Die Erkenntnisse aus der Auseinandersetzung mit den Subforschungsfragen hat zu kla- ren Antworten geführt. So hat sich gezeigt, dass Machine Learning für den Bereich der produzierenden Industrie, vor allem durch das Vorhandensein von großen Datenmengen, ein großes Potenzial aufweist. Auch wenn bereits viele Anwendungen umgesetzt wurden und die Vorteile, die diese generiert haben, vielfältig sind, ist das erst der Anfang einer grundlegenden Veränderung des industriellen Sektors. Während bereits existierende An- wendungen hauptsächlich auf die Verbesserung bestehender Prozesse setzen, führt die Weiterentwicklung von Smart Manufacturing zu teilweise völlig neuen Produktionspro- zessen. Smart Manufacturing beschreibt hierbei die hochintensive und durchgängige Verwendung von vernetzten Technologien und ist dadurch die ideale Voraussetzung für die Anwendung von Machine Learning.

Es gibt einige Anwendungsfälle, deren Umsetzung ohne Machine Learning kaum oder nicht möglich ist. Dazu gehört vor allem das Lernen für große Datenmengen mit unter- schiedlichen Datentypen und Quellen, das auch unter dem Begriff Big Data zusammen- gefasst werden kann. Die Notwendigkeit, kritische Funktionen zur Verfügung zu stellen, hat zur Entwicklung von Data Mining geführt. Die wichtigsten dieser Funktionen sind:

- Datenerhebung,
- Datenmanagement,
- Datenanalysen.

Während KDD oft mit Data Mining gleichgesetzt wird, stellt Data Mining jedoch tatsächlich nur den wichtigsten Teilschritt aus KDD dar. Es gibt unterschiedliche Arten von Machine Learning. Die für uns relevantesten sind:

- überwachtes Lernen,
- unüberwachtes Lernen.

Am häufigsten wird das überwachte Lernen verwendet, bei dem der Anwender die mög- lichen Ergebnisse durch Eingabe der Zielparameter vorgibt. Diese Form des Lernens be- nötigt tiefes Prozessverständnis und laufende Überwachung, hat aber den Vorteil, dass schnell gute Ergebnisse erzielt werden können. Beim unüberwachten Lernen liegt der Unterschied darin, dass wir außer der Eingabe der Daten selbst keine Eingaben tätigen. Der Algorithmus erkennt selbstständig Eigenschaften in den Daten. Im Gegensatz zu den Techniken des überwachten oder teilüberwachten Lernens müssen Modelle, die Ver- stärktes Lernen (Deep Learning) nutzen, nicht explizit programmiert werden. Vielmehr sind solche Modelle in der Lage, selbstständig Regeln zu finden und so Wissen zu extra- hieren. Der Lernvorgang wird dabei in kleinere sequenzielle Lernprozesse mit begrenz- tem Feedback aufgeteilt. Dieser Trial-and-Error-Lernansatz findet häufig in der Dimensi- onsreduktion und dem Clustering Anwendung. Voraussetzung für auf Deep Learning ba- sierenden Anwendungen ist das Vorhandensein von sehr großen Datenmengen über den gesamten Prozessablauf und deren unterstützende Prozesse.

Die produzierende Industrie kann aufgrund der Tatsache, dass hier bereits seit geraumer Zeit Daten in höherer Dichte als in anderen Bereichen aufgezeichnet werden, als beson- ders geeignet für ML-Anwendungen angesehen werden. Es gibt verschiedene Gründe, die eine großflächigere Anwendung von ML-Anwendungen bisher erschwert haben. Einer der Hauptgründe ist die Schwierigkeit, eine Brücke zwischen dem Wissen der Anwender und dem Knowhow von Data Scientists zu bilden. Datenanalysen haben in den letzten Jahren viel Aufmerksamkeit erfahren, jedoch bleibt diese meist nur auf den theoretischen Teil beschränkt. Eine Erklärung hierfür ist, dass der Großteil der Ergebnisse nicht von Technikern erzielt wurde. Doch gerade die Auseinandersetzung mit den Problemen und Herausforderungen der vielfältigen und komplexen Vorgänge in der produzierenden In- dustrie bieten das größte Potenzial zu Verbesserungen. Bei Machine Learning, das auch als Basis für eine bessere Zukunft angesehen wird, besteht neben allen Vorteilen auch die Möglichkeit zu negativen Effekten. Die immense Datenmenge, die es zu bewältigen gilt, stellt eine große Herausforderungen dar. Die Entwicklung hält aber kaum mit der Zunahme der Datenflut mit. Ein Effekt, der sich in diesem Zusammenhang zeigt, ist, dass diese großen Datenmengen von den wesentlichen Fragen ablenken können. Es gibt ver- schiedene Teilbereich von Machine Learning, die keine klar definierten Grenzen auswei- sen und deren Definition abweicht. Diese schwammigen Aufgabenbereiche stellen eine Herausforderung an die Data Scientists dar. So müssen diese in verschiedenen Themen gutes Wissen aufweisen, vernetzt denken und arbeiten. Trotz dieser Problematik gibt es Kernbereiche, die klar definiert sind. So gibt es zumindest in Bezug auf die Zusammen- hänge der Teildisziplinen zu einem großen Teil Übereinstimmung.

Im praktischen Teil wurde ein prototypisches Modell nach dem CRISP-DM-Prozess für Data Mining erstellt. Die Beantwortung der Frage nach Anwendungen für Produktions- maschinen führt über die Prozessschritte aus dem KDD zum Data Mining. Data Mining kann Muster erkennen, wo scheinbar keine sind, und aus diesen Regeln extrahieren. Dieses neu erkannte Wissen kann in der Wissensdatenbank des Unternehmens gespei- chert werden und dann in verschiedene Anwendungen einfließen. Zusätzlich zum Wert, den das neue Wissen darstellt, weist es einen großen Vorteil im Gegensatz zum bisher immer mit einem Menschen verbundenen Wissen auf, das nur schwer gespeichert oder weitergegeben werden kann. Die Beantwortung der Frage nach dem für die angestrebte Vorhersage besten Modell kann nicht einfach beantwortet werden. Machine Learning ist ein komplexer Prozess. Die eingangs bereits erwähnte enge Verschränkung der einzel- nen Disziplinen und die Tatsache, dass es kein allgemeingültiges Modell gibt, machen eine ganzheitliche Herangehensweise an die Thematik erforderlich. Auf die Wichtigkeit der Aufbereitung des Datasets wurde in der Literatur hinlänglich hingewiesen, weswegen die Schritte der Datenvorverarbeitung, abhängig von den verwendeten Daten, in den meisten Versuchen identisch sind. Die für das Modell richtigen Schritte zur Datenvorbe- reitung müssen in einer Kombination aus Erfahrung und Versuch gewählt und parame- triert werden. Zusätzlich hängen diese jedoch auch von einem weiteren wichtigen Faktor ab, dem Prozessverständnis.

Je nach Art der Anwendung kommen verschiedene Algorithmen infrage. Auch hier gelten dieselben Schritte wie bei Datenvorbereitung, Erfahrung, Versuch und Wissen. Viele Al- gorithmen sind einem bestimmten Bereich des maschinellen Lernens zugeordnet. Einige sind aber zum Beispiel sowohl im überwachten als auch im unüberwachten Lernen zu finden. In einer Vielzahl an Experimenten wurden die in der theoretischen Aufarbeitung der Themen empfohlenen Algorithmen getestet. Die im praktischen Teil und im Anhang präsentierten Ergebnisse sind deutlich. Für die Bewertung der Ergebnisse wurden die etablierten Parameter verwendet, wobei der relevanteste hiervon der ‚Coefficient of De- termination‘ ist. Dieser gibt in einer Skala von 0 bis 1 an, in wie vielen Fällen die Vorher- sage zugetroffen hat. Von allen Versuchen weisen die Modelle mit neuralen Netzwerken aus dem Bereich des Deep Learning hierbei die besten Ergebnisse auf. In verschiedenen Konfigurationen weichen hier die Ergebnisse nur geringfügig ab, wobei auffällt, dass bei zu hoher Anzahl von versteckten Ebenen sich die Genauigkeit verschlechtert und die Performance stark abnimmt. Ebenfalls gute Ergebnisse konnten mit Decision Trees er- zielt werden. Dennoch liegt die Genauigkeit deutlich unter denen der mit neuronalen Net- zen durchgeführten Versuche. Positiv hat sich hier hingegen die Performance gezeigt.

Die Bereitstellung des Modells über Azure ML gestaltete sich unkompliziert. Die im Be- reitstellungsprozess erstellten Schnittstellen umfassen je eine Schnittstelle für das Ret- raining des Modells und die Vorhersage der Zielwerte. Die Möglichkeiten der Einbindung sind ausreichend.

5.4. Ausblick und Nutzen

Machine Learning und seine verwandten Bereiche bieten aus heutiger Sicht ein beinahe unbegrenztes Potenzial. Die theoretischen Grenzen, die dabei den Anwendungen ge- setzt sind, werden nur von Computerleistung und der Kreativität der ForscherInnen, In- genieurInnen, Data Scientists und AnwenderInnen gesetzt. Der Bereich des maschinel- len Lernens hat in den letzten Jahren stark steigende Aufmerksamkeit bekommen, so- wohl in menschlicher als auch finanzieller Sicht. Fast alle großen Volkswirtschaften ha- ben diesen Trend erkannt und Schritte getan, die dazu führen sollen, im globalen Wett- streit den Anschluss nicht zu verlieren. Die Ansätze sind unterschiedlich ambitioniert und reichen von der Partizipation bis hin zur aktiven Führung in diesen Bereichen. Die größte Herausforderung ist, dass die Umsetzung von Projekten in produzierenden Industriebe- trieben kompliziert und langwierig ist. Und das obwohl die Voraussetzungen die Data Mining stellt, in vielen Fällen erfüllt sind.

Es gibt zahlreiche Probleme, die auf diesem Weg bewältigt werden müssen. Anforderun- gen wie Tag und Nacht durchgehend laufende Produktion, validierte Umgebungen, wie sie zum Beispiel in der Lebensmittel- und Pharmaindustrie Standard sind, fehlendes Ver- trauen, mangelnde Bereitschaft zur Mitarbeit von Angestellten auf Kundenseite und nicht zuletzt auch datenschutzrechtliche Gründe können Projekte stark verzögern oder verhin- dern. Datenschutzrechtliche Anforderungen der DSGVO müssen von Anfang an in alle Projekte miteinbezogen werden. Diese Anforderungen erschweren Projekte scheinbar, vor allem im Vergleich zu Volkswirtschaften, deren datenschutzrechtliche Beschränkun- gen geringer sind. Sie bieten jedoch auch das Potenzial, in diesem Bereich in der Zukunft eine führende Rolle einzunehmen. Aber auch in anderen Bereichen gibt es Potenzial. So kommen als konkrete Anwendungsfälle zum Beispiel Anwendungen im Office-Bereich vor. Oftmals haben die hier arbeitenden Mitarbeiter ein gutes Verständnis der Prozesse und gute Anwenderkenntnisse von Office-Programmen. Durch den intuitiven Aufbau von Azure ML und die gute Integration in MS Office könnte hier mit geringem Aufwand großer Nutzen erzielt werden. Die so gesparten Ressourcen an Zeit und Geld können in weiterer Folge in aufwendigere Projekte investiert werden, die vielleicht tatsächlich Spezialisten erfordern. Einige Beispiele hierfür sind:

- Ausfallvorhersage
- Produktionsplanung,
- Verbesserung der Qualität,
- Verringerung der Ausschussware,
- Energiemonitoring,
- nachhaltige Produktion.

So stellt sich nicht die Frage ob, sondern vielmehr wann Machine-Learning-Anwendun- gen alle Bereiche der Industrie durchdringen werden.

6. LITERATURVERZEICHNIS

6.1. Wissenschaftliche Literatur

Goodfellow, Ian/ Bengio, Yoshua/Courville, Aaron (2016): Deep Learning. Cambridge: MIT Press.

Awad, Mariette/Khanna, Rahul (2015): Efficient Learning Machines: Theories, Concepts, and Applications for Engineers and System Designers. New York: Apress Media.

Basuchoudhary, Atin/Bang, James T./Sen, Tinni (2017): Machine-learning Techniques in Economics: New Tools for Predicting Economic Growth. Cham: Springer International Publishing.

Runkler, Thomas A. (2010): Data Mining. Methoden und Algorithmen intelligenter Daten- analyse. Wiesbaden: GWV Fachverlage GmbH.

M u rphy, Kevin P. (2012): Machine Learning. A Probabilistic Perspective. Cambridge, Massachusetts: MIT Press.

Russell, Stuart/Norvig, Peter (2012): Künstliche Intelligenz. Ein moderner Ansatz. 3. Auf- lage. München: Pearson Deutschland GmbH.

Han, Jiawei/Kamber, Micheline/Pei, Jian (2012): Data Mining. Concepts and Techniques 3. Auflage. Waltham: Elsevier Inc.

W i e ring, Marco/van Otterlo, Martijn (2012): Reinforcement Learning. State-of-the-Art. Berlin Heidelberg: Springer-Verlag

Sammut, Claude/Webb Geoffrey (2010): Encyclopedia of Machine Learning and Data Mining. New York: Springer US.

Hong, B./Che, Dunren/Safran, Mejdl/Peng, Zhiyong (2013): From Big Data to Big Data Mining: Challenges, Issues, and Opportunities. DASFAA Workshops, Arbeitspapier Nr. LNCS 7827, Berlin Heidelberg. S. 1-15.

Han, Jiawei/Kamber, Micheline/Pei, Jian (2012): Data mining: concepts and techniques. 3.Auflage. Waltham: Morgan Kaufmann Publishers.

Wue s t, Thorsten/Irgens, Christopher/Thoben, Klaus-Dieter (2017): Analysis of Manufac- turing Process Sequences, Using Machine Learning on Intermediate Product States (as Process Proxy Data). Berlin Heidelberg: Springer-Verlag.

Rachuri, Sudarsan/Morris, K. C. (2014): Smart Manufacturing Systems Design and Anal- ysis. Asdsadasdsa, 04.02.2014, Washington D.C.

Ventura, Sebastian/Luna, Jose Maria (2016): Pattern Mining with Evolutionary Algo- rithms. Cham: Springer International Publishing.

Damjanovic-Behrendt, Violeta/Mühlberger, Michaela/De Luca, Christina/ Christos Tho- mos (2018): Data Models for the IoT and Industry 4.0 and in the Automotive Sector.

Davis, Jim/Edgar, Thomas/Porter, Jim/Bernaden, John/Sarli, Michael S. (2011): Smart Manufacturing, Manufacturing Intelligence and Demand-Dynamic Performance.

Wh ite, C.C. (2001): Encyclopedia of Operations Research and Management Science. 3. Auflage. Boston: Springer.

Cover, Thomas M./Joy, Thomas A. (2006): Elements of Information Theory. 2. Auflage. New Jersey: John Wiley & Sons.

Hmida, Jalel Ben/Lee, Jim/Wang, Xinchun/Boukadi Fathi (2014): Production scheduling for continuous manufacturing systems with quality constraints. In: Production and Manu- facturing Research. Ausgabe 2, S. 2. doi: 10.1080/21693277.2014.892846.

Asthana, Anand N./Khorana, Sangeeta (2013): Unlearning Machine Learning. The Chal- lenge of Integrating Research in Business Applications. In: Middle-East Journal of Scien- tific Research. 15, S. 266-271.

Qiu, Junfei/Wu, Qihui/Ding, Guoru/Xu, Yuhua/Feng, Shuo (2016): A survey of machine learning for big data processing. In: EURASIP Journal on Advances in Signal Processing. 2016, S. 1-16. doi: 10.1186/s13634-016-0355-x.

Hansson, Karl/Yella, Siril/Dougherty, Mark/Fleyeh, Hasan (2016): Machine Learning Al- gorithms in Heavy Process Manufacturing. In: American Journal of Intelligent Systems. S. 1-13. doi: 10.5923/j.ajis.20160601.01.

LeCun, Yann/Bengio, Yoshua/Hinton, Geoffrey (2015): Deep learning. In: Nature. Aus- gabe 521, S. 436-444. doi:10.1038/nature14539.

Bierwirth, Christian/Mattfled, Dirk C. (1999): Production Scheduling and Rescheduling with Genetic Algorithms. In: Evolutionary Computation. 7, S. 1-17.

Nagorny, K./Lima-Monteiro, P./Barata, J./Colombo, A.W. (2017): Big Data Analysis in

Smart Manufacturing: A Review. In: Int. J. Communications. 10, S. 31-58. doi: 10.4236/ijcns.2017.103003.

Kusiak, A. (2006): Data mining: manufacturing and service applications. In: International

Journal of Production Research. 44, S. 4175-4191. doi: 10.1080/00207540600632216.

Pham, D.T./Aﬁfy, A.A. (2004): Machine-learning techniques and their applications in man- ufacturing. In: IMechE. Ausgabe 219, S. 395-412. doi: 10.1243/095440505X32274.

Sipos, Ruben/Moerchen, Fabian/Fradkin, Dmitriy/Wang, Zhuang (2014): Log-based Pre- dictive Maintenance. In KDD. 14, S. 1867-1876. doi: 10.1145/2623330.2623340.

Waylon, J. Howard (2012): Using principal Component Analysis (PCA) to obtain auxiliary variables for missing data in large Data Sets. Dissertation an der Kansas Universität zu Lawrence.

Wue s t, Thorsten/Weimer, Daniel/Irgens, Christopher/Thoben, Klaus-Dieter (2016): Ma- chine learning in manufacturing: advantages challenges and applications. In: Production and Manufacturing Research. Ausgabe 4, S. 23-45. doi: 10.1080/21693277.2016.1192517.

Susto, Gian Antonio/Schirru, Andrea/Pampuri, Simone/McLoone, Se´an/Beghi, Ales- sandro (2016): Machine Learning for Predictive Maintenance: A Multiple Classifier Ap- proach. In Queen's University Belfast Research Portal. doi: 10.1109/TII.2014.2349359.

Hester, Todd/Stone, Peter (2012): Real-Time Sample-Efficient Reinforcement Learning for Robots. In: Machine Learning Journal. S. 1-50. doi: 10.1007/s10994-012-5322-7.

Wang , Jinjiang/Ma, Yulin/Zhang, Laibin/Gao, Robert X./Wu, Dazhong (2017): Deep learn- ing for smart manufacturing: Methods and applications. In: Journal of Manufacturing Sys- tems. 48, S. 144-156.doi: doi.org/10.1016/j.jmsy.2018.01.003.

Harding, J. A./Shahbaz, M./Srinivas, S./Kusiak, A. (2006): Data Mining in Manufacturing: A Review. In: Journal of Manufacturing Science and Engineering. 128, S. 969-976. doi: 10.1115/1.2194554.

6.2. Sonstige Quellen

h ttps://docs.microsoft.com (2019): Azure Security and Compliance Blueprint: Analytics for FFIEC Financial Services. https://docs.microsoft.com/en-us/azure/security/blue- prints/ffiec-analytics-overview (abgerufen am 05.05.2019).

A z e vedo, Ana/Santos, Manuel. (2008). KDD, SEMMA and CRISP-DM: A parallel over- view. IADIS European Conference on Data Mining 2008, 24-26.07.2008. Amsterdam

7. ANHANG

7.1. Versuchsprotokoll Data Mining

7.1.1. Datenanalyse - Datenvorbereitung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 24 Dataset nach Spaltenauswahl. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 25 Um fehlende Daten bereinigtes Dataset. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 26 Ergebnis des Datenfilters. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 27 Dataset nach der Normalisierung. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 27 Abhängigkeiten der Attribute zu Zielwert 1, sortiert nach Gewichtung. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 28 Abhängigkeiten der Attribute zu Zielwert 2, sortiert nach Gewichtung. Quelle: Eigene Darstellung

7.1.1.1. Split Data

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 28 Parametrierung Split Data in Azure ML. Quelle: Eigene Darstellung

7.1.2. Experiment_001 Two-Class Decision Forest

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2 Spezifikation Two-Class Decision Forest. Quelle: Eigene Darstellung

7.1.2.1. Algorithmus

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 3 Parametrierung Algorithmus Two-Class Decision Forest. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 29 Ergebnis Chart Two-Class Decision Forest. Quelle: Eigene Darstellung

7.1.3. Experiment_002Two Class Support Vector Machine

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 4 Spezifikation Two Class Support Vector Machine. Quelle: Eigene Darstellung

7.1.3.1. Algorithmus

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 5 Parametrierung Algorithmus Two Class Support Vector Machine. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 30 Ergebnis Chart Two-Class Support Vector Machine. Quelle: Eigene Darstellung

7.1.4. Experiment_003Boosted Decision Tree Regression

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 6 Spezifikation Boosted Decision Tree Regression. Quelle: Eigene Darstellung

7.1.4.1. Algorithmus

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 7 Parametrierung Algorithmus Boosted Decision Tree Regression. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 31 Ergebnis Chart Boosted Decision Tree Regression. Quelle: Eigene Darstellung

7.1.5. Experiment_004Neural Network Regression

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 8 Spezifikation Experiment Neural Network Regression. Quelle: Eigene Darstellung

7.1.5.1. Algorithmus

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 9 Parametrierung Algorithmus Neural Network Regression. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 32 Ergebnis Chart Neural Network Regression. Quelle: Eigene Darstellung

7.1.6. Experiment_005Two-Class Boosted Decision Tree

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 10 Spezifikation Two-Class Boosted Decision Tree. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 11 Parametrierung Algorithmus Two-Class Boosted Decision Tree. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 33 Ergebnis Chart Two-Class Boosted Decision Tree. Quelle: Eigene Darstellung

7.1.7. Experiment_006Linear Regression

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 12 Spezifikation Linear Regression. Quelle: Eigene Darstellung

7.1.7.1. Algorithmus

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 13 Parametrierung Algorithmus Linear Regression. Quelle: Eigene Darstellung

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 34 Ergebnis Chart Linear Regression. Quelle: Eigene Darstellung

Häufig gestellte Fragen

Was ist der Hintergrund dieser Arbeit?

Der Hintergrund dieser Arbeit ist das persönliche Interesse an Machine Learning und den damit verwandten Themen.

An wen richtet sich diese Arbeit?

Die Zielgruppe für diese Arbeit sind Personen aus der produzierenden Industrie, deren Schwerpunkt bisher mehr im Prozessverständnis als in der tiefgehenden Datenanalyse liegt. Aber auch Interessierte, EinsteigerInnen und ExpertInnen, denen die Brücke zur Praxis fehlt, können von dieser Arbeit profitieren.

Was ist das Ziel dieser Masterarbeit?

Ziel dieser Masterarbeit ist das Auffinden von qualitätsbeeinflussenden unbekannten Eigenschaften und Abhängigkeiten in Produktionsdaten durch Data Mining. Das gefundene Wissen soll für die Erstellung eines Machine-Learning-Modells genutzt werden, mit dessen Hilfe es möglich werden soll, die Qualität eines Produkts bei bestimmten Parametern vorherzusagen.

Was ist die Hauptforschungsfrage?

Mittels welcher Prozessparameter kann über Predictive Analytics eine Vorhersage der Produktqualität erstellt werden?

Welche theoretischen Subforschungsfragen werden behandelt?

1. Welches Potenzial bieten ML-Anwendungen für Produktionsmaschinen?
2. Welche Modelle sind für die Erstellung des Vorhersagemodells geeignet?

Was wird unter Big Data verstanden?

Mit Big Data werden Datenmengen bezeichnet, für die fünf „V“ erfüllt sind: Volumen (Volume), Vielfalt (Variety), Geschwindigkeit (Velocity), Glaubwürdigkeit (Veracity), Wert (Value).

Was bedeutet Smart Manufacturing?

Was ist CRISP-DM?

CRISP-DM stellt einen umfassend dokumentierten, unabhängigen Standardprozess für Data Mining dar.

Was ist SEMMA?

Mit dem leicht verständlichen SEMMA Prozess für Data Mining, können Entwicklung und Pflege von Projekten schnell, aber ausreichend organisiert umgesetzt werden.

Was sind die kritischen Anwendungen von Machine Learning für die Produktion?

Die kritischen Anwendungen sind: Lernen für große Datenmengen, Lernen für verschiedene Datentypen, Lernen für eine schnelle Datenübertragung, Lernen für unsichere und unvollständige Daten, Lernen für Daten mit geringer Wertedichte und Bedeutungsvielfalt.

Was sind die Schritte des KDD Prozesses?

Die Schritte des KDD sind Datenreinigung, Datenintegration, Datenselektion, Datentransformation, Data Mining, Musterüberprüfung (um die wirklich interessanten Muster zu identifizieren, die Wissen repräsentieren), Darstellung (gefundenes Wissen wird dem Benutzer dargestellt).

Welche Algorithmen werden für das Vorhersagemodell als geeignet betrachtet?

Support-Vector-Machine, Decision Tree, Random Forests, Linear Regression, Clustering, Neural Network.

Welche Herausforderungen gibt es bei der Anwendung von Machine Learning?

Die Herausforderungen sind: Normalisierung, Merkmalsauswahl (Feature Selection), Sequenzdaten und Zeitdatenreihen, Genauigkeit, Vertrauen und Herkunft, Überanpassung, Dimensionsreduktion, Skalierbarkeit, Privatsphäre.

Was sind die Ziele und Rahmenbedingungen des praktischen Teils?

Das Ziel des praktischen Teils ist die Erstellung eines prototypischen Modells zur Vorhersage zweier für den Produktionsprozess wichtigen Prozesswerte. Die Genauigkeit des Modells soll mindestens 75 % betragen. Die Arbeit wurde auf Basis echter Produktionsdaten erstellt. Die Produktionsqualtität liegt im Mittel fast genau auf den Vorgabewerten, jedoch weisen die Daten eine relativ hohe Streuung auf, das heißt, es gibt Produkte, deren Qualität stark abweicht, während im Mittel die Ansprüche erfüllt sind. Aus datenschutzrechtlichen Gründen wurden die Daten anonymisiert.

Welche Technologien wurden für die Umsetzung verwendet?

Azure-Machine-Learning-Studio, Rest (Restful-State-Interface), HTTPS (Hypertext-Transport-Protokoll-Secure), ML-Algorithmen (Two-Class-Decision-Forest, Decision-Forest-Regression, Neural-Network-Regression, Boosted-Decision-Tree-Regression, Two-Class-Support-Vector-Machine), SQL, R Open, Rest-Api, Excel Addin.

Welche Schnittstellen wurden implementiert?

REST-API und Excel Add-in.

Welche Algorithmen wurden im praktischen Teil evaluiert?

Decision-Tree-Regression, Decision-Forest-Regression, Two-Class-Decision-Forest, Linear Regression, Neural-Network-Regression.

Was wurde beim Datenschutz beachtet?

Azure verschlüsselt standardmäßig die gesamte Kommunikation zu und von Azure-Rechenzentren. Die Auswahl des Serverstandorts kann bei der Erstellung des Accounts getroffen werden. Die Architektur schützt ruhende Daten durch die Verwendung von Verschlüsselung, Datenbanküberwachung und anderen Maßnahmen. Azure ML bietet Möglichkeiten zur Einhaltung der DSGVO im verarbeitenden Prozess wie zum Beispiel: Anonymisieren von Daten, Pseudoanonymisieren von Daten.

Excerpt out of 98 pages - scroll top

Buy now

Title: Predictive Analytics mit Azure Machine Learning

Master's Thesis , 2019 , 98 Pages , Grade: 2

Autor:in: Nikolaus Jäger-Grassl (Author)

Economics - Industrial Economics

Look inside the ebook

Details

Title: Predictive Analytics mit Azure Machine Learning
Subtitle: Welches Potenzial hat Machine Learning für die produzierende Industrie?
College: FH Vienna
Grade: 2
Author: Nikolaus Jäger-Grassl (Author)
Publication Year: 2019
Pages: 98
Catalog Number: V495342
ISBN (eBook): 9783668997899
ISBN (Book): 9783668997905
Language: German
Tags: Machine Learning production pattern mining deep learning
Product Safety: GRIN Publishing GmbH

Quote paper: Nikolaus Jäger-Grassl (Author), 2019, Predictive Analytics mit Azure Machine Learning, Munich, GRIN Verlag, https://www.grin.com/document/495342

Predictive Analytics mit Azure Machine Learning

Welches Potenzial hat Machine Learning für die produzierende Industrie?

Excerpt

INHALT

VORWORT

ABSTRACT

ABKÜRZUNGSVERZEICHNIS

Abbildungsverzeichnis

Tabellenverzeichnis

1. EINLEITUNG

1.1. Zielsetzung

1.1.1. Hauptforschungsfrage

1.1.2. Theoretische Subforschungsfragen

1.2. Umsetzung

2. BEGRIFFSABGRENZUNGEN UND -DEFINITIONEN

2.1. Informationstheorie

2.2. Knowledge Discovery from Data

2.3. Big Data

2.4. Smart Manufacturing

2.5. CRISP-DM

2.6. SEMMA

3. THEORETISCHE GRUNDLAGEN

3.1. Welches Potenzial bieten ML-Anwendungen für Produktionsmaschinen?

3.1.1. Smart Manufacturing

3.1.2. Data Mining

3.1.2.1. Knowledge Discovery from Data

3.1.2.2. Big Data

3.1.2.3. Deep Learning

3.1.3. Anwendungen für Data Mining in der Produktion

3.1.3.1. Predictive Maintanance

3.1.3.2. Pattern Mining

3.1.3.3. Production Scheduling

3.2. Welche Modelle sind für die Erstellung des Vorhersagemodells geeignet?

3.2.1. Arten von Machine Learning

3.2.1.1. Überwachtes Lernen (Supervised Learning)

3.2.1.2. Unüberwachtes Lernen (Unsupervised Learning)

3.2.1.3. Verstärktes Lernen (Reinforcement Learning)

3.2.2. Algorithmen

3.2.2.1. Support-Vector-Machine

3.2.2.2. Decision Tree

3.2.2.3. Random Forests

3.2.2.4. Linear Regression

3.2.2.5. Clustering

3.2.2.6. Neural Network

3.2.3. Auswahl der geeigneten Modelle

3.2.4. Validierung

3.2.5. Herausforderungen

3.2.5.1. Normalisierung

3.2.5.2. Merkmalsauswahl (Feature Selection)

3.2.5.3. Sequenzdaten und Zeitdatenreihen

3.2.5.4. Genauigkeit, Vertrauen und Herkunft

3.2.5.5. Überanpassung

3.2.5.6. Dimensionsreduktion

3.2.5.7. Skalierbarkeit

3.2.5.8. Privatsphäre

3.3. Beantwortung der theoretischen Subforschungsfragen

4. MODELLIERUNG UND PRAKTISCHE UMSETZUNG

4.1. Ziele und Rahmenbedingungen

4.2. Ausschlüsse und Abgrenzungen

4.3. Technologien

4.4. Modell

4.4.1. Daten

4.4.2. Datenselektion

4.4.3. Datenvorverarbeitung

4.4.3.1. Spaltenauswahl (Select Columns in Dataset)

4.4.3.2. Wertebereich einschränken (Clip Values)

4.4.3.3. Bereinigung fehlender Daten (Clean Missing Data)

4.4.4. Datentransformation

4.4.4.1. Bearbeiten der Metadaten (Edit Metadata)

4.4.4.2. Normalisierung der Daten

4.4.5. Datenanalyse

4.4.5.1. Filter basierte Feature Auswahl (Filter Based Feature Selection)

4.4.6. Data Mining

4.4.6.1. Split Data

4.4.6.2. Modellinitialisierung

4.4.6.3. Modell trainieren

4.4.7. Evaluation und Interpretation

4.4.7.1. Modellbewertung

4.4.7.2. Modellauswertung

4.4.8. Bereitstellung des Modells