Leseprobe
Anomalieerkennung durch Clustering: Predictive
Maintenance in einem Blockheizkraftwerk
Kathrina Traub
Abstract— Durch den großen Druck, die Wettbewerbsfähigkeit im produzierenden Gewerbe aufrecht zu erhalten, werden vermehrt Industrie 4.0 Strätegien vorängetrieben. Mit dem Beginn neuer Dätenverärbeitungstechnologien wird ein Mehrwert durch Dätenänälyse in der Produktion mit Cyber Physicäl Systems generiert. Die Wärtung von Mäschinen und Prozessen verbessert sich durch diese Entwicklungen signifikänt. Eine genäue Vorhersage unnormaler Zustände spielt eine Schlüsselrolle, wenn die Produktivität erhöht und die Maschinenausfalle reduziert werden sollen.
Trotzdem bleibt die Maschinendatenanalyse mit Verfahren des maschinellen Lernens, um kritische Charakteristiken für die Wartung zu erkennen, schwierig. Maschinen werden oft rekonfiguriert, einzelne Sensoren fallen aus oder verfälschen die Messwerte, sodass die Komplexität zusätzlich erhöht wird.
In dieser Arbeit wird beispielhaft eine multivariate Zeitreihe von knapp neun Monaten einer Blockheizkraftwerk-Anlage analysiert. Durch das Toeplitz Inverse Covariance-Based Clustering können sich wiederholende Muster in der Zeitreihe identifiziert und ebenfalls interpretiert werden. Ein Vergleich der Clusterergebnisse zu einer vorangehenden Komprimierung der Zeitreihen durch ein Autoencoder Netzwerk wird ebenfalls gezeigt.
Keywords — Predictive Maintenance, Clustering, Time Series, Dimensionality Reduction, Deep Auto-Encoder
I. INTRODUCTION
A. Motivation
Predictive Maintenance (PdM) bezieht sich auf das intelligente Echtzeit Monitoring von Systemkomponenten, Prozessen und Produktionsketten 1. Über die letzten Jahre wurde PdM ein fester Bestandteil in Cyber Physical Systems (CPS) und im Industrie 4.0 Kontext. Durch CPS sind multiple Sensoren in industriellen Systemen integriert, welche eine komplexe Auswertung direkt an der Systemkomponente ermöglichen. Gleichzeitig findet ein Austausch in einem übergreifenden Netzwerk durch Maschine zu Maschine Kommunikation statt 2. Die genaue Vorhersage bevorstehender Fehler in modernen Industriemaschinen wird hierdurch erst ermöglicht und spielt eine Schlüsselrolle bei der Reduzierung des Produktionsstillstands, der Erhöhung der Betriebssicherheit und der Optimierung der Herstellungskosten. Die Hauptziele sind dabei eine höhere Verfügbarkeit und Produktivitat, sowie geringere Wartungskosten und damit eine effizientere Wartung.
In den meisten Fallen, liegen Daten als multivariate Zeitreihen vor, wobei zu jedem Zeitpunkt eine Beobachtung aus mehreren Sensoraufnahmen von unterschiedlichen Komponenten besteht. Diese Art von Daten können in mehrere sich wiederholende Muster heruntergebrochen werden. Für Services wie PdM ist es essentiell diese Muster zu erfassen, um ein hochdimensionales Datenset besser zu verstehen und vor allem latente Muster als Anomalie zu erkennen.
In dieser Arbeit werden die Möglichkeiten der Datenanalyse anhand der Beispieldaten des Blockheizkraftwerks (BHKW) am FZI (Forschungszentrum Informatik) aufgezeigt. Der Fokus liegt darauf, anormale Systemzustande durch ein Clustering der Zeitreihen sichtbar zu machen. Aufgrund der hohen Dimensionalitat in den Zeitreihendaten wird außerdem weiteres Optimierungspotential durch eine Dimensionsreduzierung bewertet.
Der Rest der Arbeit ist wie folgt strukturiert: Abschnitt 2 fasst ahnliche Arbeiten zusammen. Abschnitt 3 geht auf die verwendete Methodik ein und Abschnitt 4 auf den verwendeten Datensatz für das Experiment. Abschnitt 5 beschreibt die Implementierung und 6 die Evaluierung der Ergebnisse. Abschließend wird in Abschnitt 7 die Arbeit rückblickend bewertet.
B. Business Understanding
Bisherige Wartungsstrategien können nach 3 in drei Kategorien eingeteilt werden: Run-to-Failure bzw. korrektive Wartung geschieht nur dann, wenn ein Gerat oder eine Komponente gar nicht mehr funktioniert. Preventive Maintenance ist eine zeitbasierte Wartung, die periodische Wartungsintervalle festlegt und deshalb auch oft unnötige Wartungstatigkeiten einschließt. PdM als dritte Gruppe addressiert den Trade-Off zwischen der Verfügbarkeit einer Maschine und den Kosten, die eine Wartung erfordert. Durch die Optimierung des TradeOff mit PdM bei Maschinen wie einem BHKW können mehrere Services generiert werden. Durch einen Value-Added Service beispielsweise kann der Maschinenbetreiber Informationen mit Business Partnern teilen, um die Verfügbarkeit von Ersatzteilen sicher zu stellen oder Supply Chain Prozesse besser zu planen. Ebenso wird das Konzept Uptime as a Service optimiert, da bei einer nutzungsbasierten pay-per-use Zahlungsrate eine Anlage nur genutzt werden kann, wenn sie verfügbar ist. Mithilfe von Webtools lassen sich alle relevanten Daten einer Anlage, wie z.B. Laufzeiten, Betriebstemperaturen oder Ümdrehungszahlen, kontinuierlich als Zeitreihen erfassen und speichern. Wenn es um das parallele Betriebsmanagement von zahlreichen gleichartigen Anlagen geht, bietet PdM einen entscheidenden Vorteil.
II. RELATED WORK
Predictive Maintenance. Nach 3 ist der meistgenutzte Algorithmus des maschinellen Lernens für PdM mit 33% Random Forests. Weiterhin oft genutzt sind Algorithmen, die Varianten von Neuronalen Netzen, Support Vector Maschinen oder des k-means Algorithmus, einem Clustering Verfahren, nutzen.
In 4 wird Kernel Spectral Clustering genutzt, um die Sensordaten einer Verpackungsmaschine in normale und abnormale Betriebsbedingungen einzuteilen. Ebenso 5 nutzen Daten von drei Sensoren einer Maschine zum Laserschmelzschneiden als Input für das Clustering, um Condition Monitoring zu realisieren. 6 schlagen Fuzzy Clustering der Maschinenzustande vor und zeigen dies an einer Bohr- und Fräsmaschine.
Potential in BHKW. Das Potential der Optimierung hin zu einer effizienten Wartungsstrategie speziell in BHKW, wie durch PdM, wird durch folgende Beispiele deutlich: In 7 wird die Instandhaltung im großten BHKW von Kasachstan durch mathematische Programmierung umgesetzt und so im Vergleich zu den zuvor definierten Wartungsintervallen eine Reduzierung der jahrlichen Kosten um 21% erreicht. Cavalcante and Lopes schlagen in 8 ein multikriterielles mathematisches Modell für die Wartung von BHKW vor, das die Gewichtung der Zielkriterien Kosten und Verfügbarkeit erlaubt. Durch Predictive Emissions Monitoring Systeme (PEMS) wird außerdem das Potential der Datenanalyse in BHKW durch Verfahren des maschinellen Lernen deutlich 9. So werden in 10 Neuronale Netze genutzt, um Warnungen und Alarme für Abweichungen vom Normalzustand eines BHKW zu generieren.
III. METHOD
Anomalie Erkennung in Zeitreihen bezieht sich im Allgemeinen darauf überraschende und interessante Muster zu erkennen. Der übliche Ansatz bei Zeitreihen ist es, zunachst ein Modell des Normalverhaltens der Zeitreihe zu erstellen, um anschließend Subsequenzen die weit um das Modell streuen als Anomalien zu deuten. Dieser Ansatz zahlt jedoch zum überwachten maschinellen Lernen und eignet sich nicht, wenn nur wenig Vorwissen über die Zeitreihe vorhanden ist 11. Clustering Algorithmen konnen dagegen die unbekannten Strukturen einer Zeitreihe herausfinden, abgrenzen und gruppieren.
A. Clustering
Das Clustering hat allgemein zum Ziel die intracluster Varianz zu minimieren und umgekehrt die intercluster Varianz maximal zu halten. So entstehen weit voneinander entfernte, sowie homogene Cluster. Als ein Verfahren des unüberwachten maschinellen Lernens stellt es einen wesentlichen Bereich in der Zeitreihenanalyse dar 11.
Nach 12 und 11 kann das Vorgehen bei Zeitreihenclustering grob in zwei Kategorien gefasst werden: Whole Clustering und Subsequence Clustering . Whole Clustering ist ahnlich zu dem Clustering von diskreten Objekten ohne zeitliche Komponente. Mehrere individuelle ganze Zeitreihen werden in Cluster eingeordnet, sodass gesamte Zeitreihen am Ende in Gruppen eingeteilt sind. Beim Subsequence Clustering werden von einer Zeitreihe individuelle Subsequenzen zum Beispiel durch die Sliding Window Technik generiert. Das heißt die Zeitreihe wird in kleine Abschnitte aufgeteilt, welche anschließend geclustert werden. Dazu muss die Zeitreihe gleichzeitig in Abschnitte einer bestimmten Lange geteilt und diese auf Basis eines Ahnlichkeitsmaß einem Cluster zugewiesen werden. Anomalien sind erkennbar als Subsequenzen, die maximal verschieden zu den verbleibenden Subsequenzen sind 13. Subsequence Clustering ist ein weit erforschter Bereich. Die Methoden umfassen Variationen des Dynamic Time Warping Ansatz, welcher den Vergleich von Zeitreihen mit gleichem Muster aber unterschiedlicher Lange und Größenordnung einzelner Phasen ermoglicht 14 15. Weiterhin gibt es Clusteringansatze durch Motiv Erkennung 16 und symbolische Repräsentation 17. Jedoch zeigen Keogh and Lin 12, dass Subsequence Clustering mit Methoden die auf distanzbasierten Metriken aufbauen, so z.B. die haufig genutzte Euklidische Distanz des k-means Algorithmus 18 oder das Distanz-Ahnlichkeitsmaß Dynamic Time Warping (DTW), haufig zu bedeutungslosen Ergebnissen führen. Sie sind nicht robust und eignen sich nicht für lange Zeitreihen, da sie in der Regel nur lokale ^Ähnlichkeiten der Muster finden.
Um globale Strukturen in Zeitreihen zu identifizieren eignen sich dagegen strukturbasierte Verfahren. Dazu zahlen modellgestützte Clustering Ansatze, welche die Ahnlichkeit durch die Wahrscheinlichkeit, dass eine Zeitreihe auf Basis des Modells einer anderen Zeitreihe generiert wurde, bestimmt. Jedes Modell eines Clusters ist dabei temporar und parametrisch 11. Hidden Markov Modelle 19, Clustering mit Autoregressivem Moving Average (ARMA) 20, Gaussian Mixture 21 oder self-organizing Maps 18 sind oft dafür genutzte Methoden. Hallac et al. schlagen in 22 ein diese Methoden aufgreifendes Verfahren vor, das Toeplitz inverse covariance-based clustering. Jedes Cluster ist dabei ein Markov random field (MRF), welches die Abhangigkeiten zwischen den Sensoren in einer Subsequenz darstellt.
In einem MRF repräsentiert eine Kante eine partielle Korrelation der beiden Feature 23. Damit kann eine direkte Abhangigkeit der beiden Sensoren bzw. Knoten im Netzwerk, die durch eine Kante verbunden sind, dargestellt werden. Im Gegensatz zu herkömmlichen Methoden wie DTW bieten die Cluster so eine graphische Interpretationsbasis, die ein Verstandnis über die Schlüsselfaktoren und charakteristischen Beziehungen eines Clusters geben.
Toeplitz inverse covariance-based clustering (TICC). Das MRF jedes Clusters wird durch eine dünnbesetzte inverse Gaußsche Kovarianzmatrix geschatzt. Per Definition gilt, dass bei einer inversen Kovarianzmatrix 0, wenn 0i,j = 0 gilt, die beiden Elemente i und j bedingt unabhangig sind. Folglich definiert 0 die Adjazenzmatrix des MRF Netzwerks. Ein solches Netzwerk hat mehrere Schichten, wobei Kanten innerhalb der Schichten und zwischen ihnen liegen. Die Anzahl der Schichten stimmt mit der Fenstergröße einer Subsequenz, für die das MRF definiert wird, überein. Das MRF Netzwerk repräsentiert dann die zeitinvariante Struktur von jedem Fenster, das zu diesem Cluster gehort.
Das beschrankte Problem um die inverse Kovarianzmatrix zu schatzen ist eine Variation des gut bekannten graphical lasso Problems 24. Dass die Cluster nicht von der exakten Startposition der Subsequenz abhangen, also zeitinvariant sind, stellt dabei die zusatzliche Toeplitz Restriktion sicher. Statt die zeitliche Startposition miteinzubeziehen, wird jede Subsequenz unter Berücksichtigung des aktuellen strukturellen Zustands der Zeitreihe einem Cluster zugeordnet. Das bedeutet, dass es das zusatzliche Ziel der temporaren Konsistenz gibt, namlich dass benachbarte Daten in einer Zeitreihe tendenziell zum selben Cluster gehoren sollten. Dies wird umgesetzt indem nicht nur ein einzelner Zeitpunkt t beim Clustering betrachtet wird, sondern die Subsequenz der Große w, die am Zeitpunkt t endet. Das Zeitfenster erlaubt ein komplexeres Verständnis Uber die zu clusternde Sequenz. So wird die multivariate Beobachtung xt e R n zum Zeitpunkt t auf Basis der Clusterzuordnung ihrer Subsequenz w, die die Beobäch- tungen xt-w+1,...,xt umfasst, zugewiesen. Damit ist jede Subsequenz ein nw-dimensionaler Vektor.
Da durch die zusatzliche Restriktion der temporaren Konsistenz bereits bekannte Lösungsmethoden für das graphical lasso Problem ungeeignet sind, schlagen Hallac et al. einen Algorithmus auf Grundlage des Alternating Direction Method of Multipliers (ADMM) vor. Dieser hat die drei wichtigen Hyperparameter Glattungsparameter ß, Fenstergröße w und Clusteranzahl C. ß bestarkt die Zuordnung benachbarter Sequenzen in dasselbe Cluster und wird im Vorhinein festgelegt. Wenn ß = 0, dann entspricht es dem TICC ohne die zusatzliche Beschränkung der temporaren Konsistenz, sodass jede Subsequenz unabhangig von ihrer Lage in der Zeitreihe geclustert wird. Die Fenstergröße w ermöglicht es zeitübergreifende Korrelationen miteinzubeziehen, also dass ein Sensorwert zur Zeit t den Wert zur Zeit t +1 beeinflusst. w sollte nicht zu groß gewahlt werden, da es sonst schwierig wird Zeitpunkte an den Sequenzgrenzen einzuordnen. Jedoch zeigen Hallac et al., dass das TICC robust gegenuber der Wahl der Fenstergröße ist. Der Parameter C ist wie bei vielen anderen Algorithmen eine wichtige Große beim TICC. Er wird anhand Kriterien wie dem Shilouette Score 25, dem Bayesian Information Score oder der Elbow Method 26, sowie der Interpretierbarkeit der Cluster festgelegt.
B. Dimensionsreduzierung
Die Datenanalyse von hochdimensionalen Daten ist oft schwierig, da bei vielen Dimensionen die Datenpunkte weiter auseinander gezogen werden und der Datensatz so extrem dunnbesetzt ist 27. Dann entsteht eine Schwierigkeit, die auch unter Fluch der Dimensionalitat oder curse of dimesion- ality bekannt ist: Es kann gezeigt werden, dass die meisten Datenpunkte in hochdimensionalen Raumen in den Ecken verteilt sind und Verfahren, die mit Distanzmaßen arbeiten, deshalb scheitern können 28.
Um weiteres Potential durch eine Dimensionsreduktion vor dem Clustering zu bewerten wird die nichtlineare Methode Deep Auto-Encoder (DAE) genutzt. DAE Netzwerke werden darauf trainiert die Eingangsvektoren an der Outputschicht möglichst genau zu reproduzieren. Werden in den Hidden Layer weniger Neuronen eingesetzt als im Input und Output Layer, liegen dort die Eingangsdaten in einer komprimierten Form vor, welche die Korrelationen zwischen den Inputdaten erfasst 29. Durch unuberwachtes Training des Netzwerks werden auf Basis des Rekonstruktionsfehlers die Netzgewichte ruckwarts vom Decoder bis zum Encoder angepasst. Um dann den reduzierten Datensatz mit möglichst geringem Informationsverlust zu erhalten wird nur der erste Teil des Netzwerks, der Encoder, genutzt. Nachdem das Netzwerk auf einem Trainingsdatensatz trainiert wurde, kann der Datensatz für das Clustering mit dem Encoder vorverarbeitet werden.
IV. DATA ANALYSIS AND PROCESSING
A. Daten des BHKW Beispiels
Es wird ein Mikro-Blockheizkraftwerk von Senertec uber einen Zeitraum von knapp neun Monaten, vom 7. Februar bis zum 24. Oktober, betrachtet. Die elektrische Leistung von Mikro-BHKW liegt je nach Typ bei bis zu 15 kW, sodass sie geeignet fiir Wohngebaude, Krankenhauser, Versorgungseinrichtungen und Gewerbebetriebe sind 30.
Mehrere Sensoren haben minütlich Werte aufgezeichnet, sodass insgesamt 357.389 Beobachtungen aufgenommen wurden. Die Sensoren konnen zur Übersicht in mehrere Gruppen geteilt werden, siehe Tabelle I. Durch die verschiedenen Sensoren ergeben sich so insgesamt 67 Features.
Abbildung in dieser Leseprobe nicht enthalten
Bekannt ist außerdem, dass am 26.08 eine Wartung mit Schmierölwechsel durchgeführt und die Störung 189 kontrolliert wurde. Die Storung 189 bedeutet, dass es 4 erfolglose Startversuche gab, da die Drehzahl unter 400 Umdrehungen pro Minute lag. Diese Storung trat vereinzelt am 17. und 25. Juni und kontinuierlich vom 30. Juli bis zum Zeitpunkt der Wartung auf. Bevor die Anlage nach der Wartung wieder in Betrieb genommen wurde, wurde das Ventilspiel am Auslass nachgestellt, da es 0,25 mm statt 0,6 +/- 0,05 mm groß war. Bei der vorhergehenden Wartung am 7. Januar wurde dieses Spiel ebenfalls nachgestellt, da es zu klein war.
Außerdem fehlen die Aufzeichnungen aller Sensoren vom 7. September ab 11:45 Uhrbis zum16. September um 1 1:50 Uhr aus unbekanntem Grund. Es gibt einige weitere, wesentlich kleinere Zeitraume, die ebenfalls keine Datenaufzeichnungen vorweisen und deshalb bei der Analyse nicht berücksichtigt werden konnten.
B. Preprocessing und Deskriptive Analyse
Data Cleaning Die 16 Sensoren der Sensorgruppe Aktoren sind kategorial (true, false) erfasst und die restlichen kontinuierlich. Um mit einheitlich numerischen Spalten zu arbeiten wurden kategoriale Features in numerische transformiert. Außerdem zeigen 44 Features Uber den Messzeitraum keine Veränderung des Messwertes und wurden deshalb für die weitere Analyse entfernt.
Bei einigen Features, wie die Anzahl Starts des BHKW, die Betriebssekunden, die thermische und elektrische Arbeit, muss beachtet werden, dass sie kumuliert seit der Inbetriebnahme des BHKW aufgenommen sind. Deshalb werden sie fUr die weitere Analyse auf ihre ursprünglichen Werte pro Minute heruntergerechnet, indem die Differenz zum vorangehenden Wert genommen wird. Aufgrund der fehlenden Aufzeichnungen im September, kommt es zu einem hohen Differenzwert bei diesen Features bei der Wiederaufnahme der Aufzeichnungen am 16. September. Dieses Problem tritt noch an einigen weiteren Stellen auf, bei denen die Aufnahme der Daten für einige Minuten bis zu einigen Stunden nicht gegeben ist. Der Zeitpunkt einer solchen Wiederaufnahme wurde aus dem Datensatz entfernt, um das Clustering und die Dimensionsreduktion nicht zu verfalschen. Insgesamt wurden deshalb 1248 Aufnahmezeitpunkte gelöscht.
Weiterhin wurden 480 weitere Beobachtungen mit teilweise fehlenden Werten entfernt, da es sich nur um 0,14% des Datensatzes handelt und diese sporadisch in der gesamten Zeitreihe verteilt sind, das heißt keine auffällige Verteilung zeigen. Die verbleibenden 23 Features sind im Anhang aufgelistet und als Streudiagramme in Abbildung 9 visualisiert.
Data Normalization Nun werden die Daten in einen festen Bereich skaliert, da stark unterschiedliche Skalen es dem Clustering erschweren ein globales Optimum zu finden und zu verfälschenden Ergebnisse fuhren können. Dieser Bereich liegt in der Regel zwischen 0 und 1. Im Gegensatz zur Standardisierung muss hier nicht die Annahme getröffen werden, dass der Datensatz durch eine Nörmalverteilung beschrieben wird. Deshalb werden alle Features mit dem Min-Max Skalierer in einen Bereich zwischen 0 und 1 gebracht. Nun können in der weiteren Analyse alle Features gleichwertig berücksichtigt werden.
Data Understanding Eine kurze statistische Analyse söll ein besseres Verstandnis der Zeitreihen geben. Wie in Fig. 1 ersichtlich, ist die Körrelatiön zwischen den Betriebssekunden des BHKW, der thermischen und elektrisch erzeugten Arbeit mit 0.9999 sehr hoch. Dies ist darauf zurUckzufUhren, dass die erzeugte Arbeit dann steigt, wenn das BHKW lauft, also die Betriebssekunden nicht Null sind.
Stoerung BHKW - Anforderung BHKW - Freigabe BHKW Elektrische Arbeit Thermische Arbeit Betriebssekunden BHKW Anzahl Starts BHKW Brenner Anforderung Abgastemp. BHKW Abgastemp. Motor Schallkapsettemp. Aussentemperatur - Freigabe Modul Eintrittstemp. Generator Kühlwassertemp. Motor Reglertemperatur Ruecklauftemperatur
Relais Stoerung - Umwaelzpumpe Kuehlwasser - Umwaelzpumpe Vordruck - Wirkleistung Motorlaufzeit in s - Motordrehzahl
Fig. 1. Verbliebene Features in einer Körrelatiönsmatrix Aktigraphie Datensatz angewandt, um Verhaltensmuster wie Schlafen öder Sporttatigkeiten zu clustern. Anschließend wird mit diesem Ergebnis durch ein Cönvölutiönal Neural Netwörk das Alzheimerrisikö vörhergesagt. Weiterhin testen Petry et al. den TICC Ansatz für Streaming-Daten und verbessern ihn in dieser Hinsicht weiter.
Da bereits gute Ergebnisse mit dem TICC erzielt wurden, wird es auch fur diesen Anwendungsfall genutzt. Für die Hyperpa- rameteröptimierung wird eine Grid Search bzw. Rastersuche eingesetzt. Die genutzte Untermenge der Hyperparameter ist die Fenstergröße w und die Clusteranzahl C.
Um die Güte der Clusterergebnisse fur jede Parameterkom- binatiön zu bewerten wird jeweils das Bayessche Införma- tiönskriterium (BIC) 34 berechnet. Dieses bildet den TradeOff zwischen der Komplexitat des Modells und der Güte des Mödells, das heißt wie gut das Mödell den Datensatz beschreibt, ab. Demnach werden Modelle mit geringerem BIC bevorzugt, um die Generalisierungsfahigkeit zu erhalten.
Bei der Grid Search wurde der Glattungsparameter ß auf 400 festgelegt und die Fenstergroße zwischen 5 und 10 Minuten variiert, da fur größere Fenstergrößen die Rechenzeit aufgrund der stark zunehmenden Komplexitat verhaltnismaßig sehr groß wird. Für die Clusteranzahl wurde jede Möglichkeit zwischen C=3und 13 getestet.
Der Verlauf der BIC Werte uber die verschiedenen Clusteranzahlen für w = 5 und w =10 ist in Abbildung 2 dargestellt.
Abbildung in dieser Leseprobe nicht enthalten
Fig. 2. Ergebnisse der Grid Search des TICC
Um ein gutes Verhaltnis des Trade Offs zu erreichen, kann nach dem Elbow Kriterium w = 10 und C = 3 gewahlt werden. Um eine größere Differenzierung der Anlagenzustande und so ein größeres Verstandnis zu erreichen, werden außerdem die Cluster fUr C = 7 und w = 10 genauer betrachtet.
Weiterhin sind Kennwerte des Motors wie die Motordrehzahl, die Wirkleistung, die Abgastemperatur des Motors sehr stark korreliert. Bei einer zusatzlichen Analyse der sieben Wochentage konnten keine Muster erkannt werden, sodass ein zyklisches Muster, das zu den sieben Wochentagen gehört, ausgeschlossen werden kann.
V. IMPLEMENTATION
A. Clustering
Das TICC Verfahren wurde bereits in 31 erfolgreich fUr das Clustering in der Verkehrsnetzplanung zur Erkennung von homogenen Zeitperioden angepasst und konnte beispielsweise zwei verschiedene Cluster in den Hauptverkehrszeiten am Morgen entdecken. In 32 wird das TICC auf einen
B. Dimensionsreduzierung
Wie bereits erlautert eignen sich Deep Auto-Encoder um nichtlineare Zusammenhange in Daten zu erfassen und diese mit geringem Informationsverlust auf weniger Features zu komprimieren 29.
Die loss function ist ein Hyperparameter der DAE und ist definiert als der Fehler zwischen der Input- und der Outputschicht. Diese Funktion wird als der mittlere quadratische Fehler (MSE) realisiert. Das erstellte Netzwerk wird dann fUr jeden Inputvektor so optimiert, dass das Ziel den MSE zu minimieren, erreicht wird. Dadurch wird der Fehler zwischen den ursprUnglichen Daten und dem rekonstruierten Vektor am Output minimiert.
Um die Anzahl der resultierenden Features festzulegen wurde ebenfalls eine Grid Search durchgefUhrt. Da die Anzahl der Features gleich der Anzahl der Neuronen im mittleren Hidden Layer entspricht, wurde dieses Layer mit einer Neuronenan- zahl von 3 bis 11 erstellt. Die Aktivierungsfunktion in den Schichten abgesehen von der Input- und Outputschicht ist die Rectified Linear Unit (ReLU). ReLU als Aktivierungsfunktion hat den Vorteil, dass Nichtlinearität vorliegt und das Netzwerk trotzdem robust gegen Rauschen in den Inputdaten ist 35. Eine Zusammenfassung des Netzes ist in Tabelle II ersichtlich.
TABLE II. KONFIGURATION DES AUTO-ENCODERS
Abbildung in dieser Leseprobe nicht enthalten
Ein DAE besteht aus drei Hauptteilen: Dem Encoding Teil, der komprimierten Repräsentation der Daten und dem Decoding Part. Die Große der Input- und Outputschicht betragt gleich der Anzahl an Features des Datensatzes, 23. Der Encoding Teil besteht aus zwei Schichten, welche eine Große von 14 Neuronen und eine weitere zwischen 3 und 11 haben. Der verkleinerte Datensatz liegt nach der dritten, der kleinsten Schicht, vor. Der Decoding Part umfasst Schichten derselben Größe nochmal. Die Aktivierungsfunktion an der Outputschicht ist Sigmoid, um die Differenzierbarkeit sicherzustellen.
Das beschriebene Modell wurde mit der Tensorflow Bibliothek und Keras implementiert. Der Adam Optimizer wird genutzt, da er rechnerisch effizient und für Daten mit Rauschen geeignet ist. Jeder Trainingsstapel enthalt 500 zufallig gewählte Zeitpunkte aus der Zeitreihe, welche in 50 Epochen zum Training des Netzwerks genutzt werden.
Die Entscheidung für eine Anzahl der Dimensionen in der dritten Schicht wurde durch die Genauigkeit der jeweiligen Modelle den gesamten Datensatz zu rekonstruieren getroffen. In der Abbildung 3 ist der Verlauf der Genauigkeit des Netzes fur jede Anzahl an Neuronen in der mittleren Schicht zu sehen. Es wird deutlich, dass fur eine Zieldimension von 7 Features eine sehr hohe Rekonstruktionsgenauigkeit erreicht werden kann. Deshalb wird der DAE schließlich mit dieser Neuronenzahl trainiert, um dann mit dem Encoder Teil den kompletten Datensatz fur das TICC Clustering vorzubereiten. Die sich ergebenden neuen Features sind in Abbildung 10 im Anhang als Streudiagramme zu sehen.
Der Nachteil der Dimensionsreduktion vor der Anwendung des TICC ist, dass so die Interpretierbarkeit der Cluster verloren geht. Die resultierenden Features des DAE sind namlich nur schwer den ursprünglichen Features zuzuordnen, sodass deren Interpretierbarkeit bereits sehr ungenau ist.
VI. EVALUATION
Die Struktur der resultierenden Cluster ist jeweils durch ein mehrschichtiges MRF gekennzeichnet. Um die Cluster zu interpretieren, wird dieses Netzwerk analysiert und die relative ”Wichtigkeit” jedes Knotens bestimmt. Der Betweenness Centrality Score (BCS) ist in der Graphentheorie ein Maß fur die Zentralitat basierend auf kurzesten Wegen. Zwischen jedem Knotenpaar existiert ein kurzester Weg, sodass die Summe der Kantengewichte minimiert wird. Der BCS gibt für jeden Knoten im Netzwerk an, wie viele solcher kürzester Wege diesen Knoten durchlaufen. Dieser Wert repräsentiert deshalb zu welchem Grad ein Knoten zwischen anderen liegt und damit auch wie wichtig er ist. Die BCS Werte für w = 10, C = 3 und C = 7 sind als Tabellen im Anhang für jeden Knoten in jedem Cluster abgebildet. Es ist zu erkennen, dass jedes Cluster eine spezifische ”Signatur” hat und jeder Sensor unterschiedliche BCS Werte je Cluster hat. Zum Beispiel haben die Features 18, 19 und 20, also die Betriebssekunden, die thermisch und elektrisch erzeugte Arbeit fast keine Bedeutung in allen Clustern.
Wenn man die zeitliche Verteilung der Clusterzuweisung fUr C =3in Abbildung 4 betrachtet, kann man erkennen, dass das Cluster 2 in dem Zeitraum des Fehlers im August keinem Zeitpunkt zugeordnet wurde.
Abbildung in dieser Leseprobe nicht enthalten
Fig. 4. Zeitliche Verteilung der Clusterzuweisung bei C =3
Abbildung in dieser Leseprobe nicht enthalten
Fig. 5. Boxplots zweier Features je Cluster
In diesem Zusammenhang lassen sich auch die BCS Werte interpretieren. Beispielsweise anhand der Werte für die Abgastemperatur am Motor- und BHKW-Austritt, welche in allen Clustern hohe BCS Werte haben, d.h. eine hohe Relevanz haben. Diese sind als Boxplots je Cluster in Abbildung 5 zu sehen.
Abbildung in dieser Leseprobe nicht enthalten
Fig. 3. Ergebnisse der Grid Search des Auto-Encoders
Die Verteilung der Werte je Cluster ist klar unterscheidbar: Das Cluster 3 ist annahernd und das Cluster 1 deutlich den Zeitpunkten zuzuordnen, in denen das BHKW still steht. Dagegen umfasst das Cluster 2 all jene Zeitpunkte, in denen das BHKW lauft.