Data Mining für KMU. Wie kann Nutzen aus den Daten erwirtschaftet werden?


Studienarbeit, 2017

63 Seiten, Note: 1,2


Leseprobe

Inhaltsverzeichnis

A Einführung
A 1 Industrie 4.0 & die großen Daten
A 2 Problemstellung
A 3 Herangehensweise
A 4 Business-Intelligence-Infrastruktur: Data Warehouse und Data Marts
A 5 Definition Data Mining

B Data Mining Prozessmodelle
B 1 Daten-Wertschöpfungskette (Data Value Chain)
B 2 Knowledge Discovery in Databases (KDD)
B 3 Cross-Industry Standard Process for Data Mining ‑ CRISP‑DM

C Data Mining Verfahren und Methoden
C 1 Auffinden von Zusammenhängen
C 1.1 Klassifikationsverfahren
C 1.2 Prognosemodell
C 2 Auffinden von Regeln: Assoziationsverfahren
C 3 Auffinden von Strukturen: Clusterverfahren
C 3.1 Partitionierende Clusterbildung
C 3.2 Hierarchische Clusterbildung
C 3.3 Dichtebasierte Clusterbildung
C 4 Visualisierung von Datenräumen

D Vorstellung ausgewählter Data Mining Tools
D 1 Allgemeine Marktsituation
D 2 Auswahl von Data Mining Tools
D 2.1 KNIME Analytics Platform
D 2.2 IBM SPSS Modeler
D 2.3 Vergleich im Fallbeispiel
D 3 Bewertungsschema & Auswertung

E Zusammenfassung

F Literaturverzeichnis

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1 Komponenten eines Data Warehouse aus [2]

Abbildung 2 Data Value Chain aus [2] (übersetzt nach [5])

Abbildung 3 CRISP-DM Referenzmodell aus [21]

Abbildung 4 Beispiel zum Klassifikationsverfahren (Kreditwürdigkeit) [9]

Abbildung 5 k-Nearest-Neighbor [9]

Abbildung 6 k-Nearest Neighbor (unterschiedliche k-Werte) [9]

Abbildung 7 Entscheidungsbaum (spielen / nicht spielen), erstellt mit KNIME

Abbildung 8 Aus Entscheidungsbaum abgeleitete Regeln

Abbildung 9 Regressionsverfahren nach [26]

Abbildung 10 Beispiel der linearen Regression aus [27]

Abbildung 11 Mögliche Iterationsschritte vom Clustering nach k-Means-Algorithmus, Verschiebung der Centroiden und Neuberechnung der Abstände und Zuordnung der Daten(-punkte)

Abbildung 12 Beispiel eines Dendrogrammes aus [26]

Abbildung 13 DBScan-Algorithmus: Schritte zur Clustererstellung aus [9]

Abbildung 14 Einteilung visueller Data Mining Methoden nach KEIM in [23]

Abbildung 15 Parallel Koordinaten Diagramm in Halbleiterherstellung aus [15]

Abbildung 16 Marktwachstum für BI-Software 2006 – 2014 (Umsatz in Mio. Euro) aus [16]

Abbildung 17 Business Intelligence Trends 2016 aus [24]

Abbildung 18 „Welche softwareseitige Unterstützung für fortgeschrittene Analysen haben Sie in Ihrem Unternehmen im Einsatz bzw. planen zukünftig den Einsatz?“ aus [17]

Abbildung 19 Gartner: Magisches Quadrant für fortgeschrittene Analyse Plattformen aus [19]

Abbildung 20 KNIME Lizenzmodelle [25]

Abbildung 21 KNIME Analytics Platform Version 3.3.1 Benutzeroberfläche

Abbildung 22 Mining und Statistik Bausteine KNIME Analytics Platform 3.3.1

Abbildung 23 Visualisierungsbausteine KNIME Analytics Platform 3.3.1

Abbildung 24 IBM SPSS Modeler Lizenzmodelle [20]

Abbildung 25 IBM SPSS Modeler Version 18.0 Benutzeroberfläche

Abbildung 26 Mining und Statistik Bausteine IBM SPSS Modeler 18.0

Abbildung 27 Visualisierungsbausteine IBM SPSS Modeler 18.0

Abbildung 28 Bausteine für die Reportausgabe IBM SPSS Modeler 18.0

Abbildung 29 Automatisch erstellter Projektbericht nach CRISP-DM im IBM SPSS Modeler 18.0

Abbildung 30 Workflow für Umstrukturierung des Grunddatensatzes in KNIME Analytics Platform

Abbildung 31 Ausschnitt der neu strukturierten Tabelle in KNIME Analytics Platform

Abbildung 32 Parallel Koordinaten vom FCT Datenausschnitt mit KNIME Analytics Platform

Abbildung 33 Parallel Koordinaten vom FCT Datenausschnitt mit KNIME Analytics Platform (ausgeblendete Messschritte)

Abbildung 34 Einfacher Workflow im IBM SPSS Modeler für automatische Clustererkennung und Parallel Koordinaten

Abbildung 35 Parallel Koordinaten vom FCT Datenausschnitt mit IBM SPSS Modeler (ausgeblendete Messschritte)

Abbildung 36 Automatische Clusterbildung mit dem IBM SPSS Modeler

Abbildung 37 Vorschlag der automatisch ermittelten Cluster im IBM SPSS Modeler (k-Means)

Abbildung 38 Bewertung Data Mining Softwarelösungen

Tabellenverzeichnis

Tabelle 1 Lerndatensatz Entscheidungsbaum (spielen / nicht spielen)

Tabelle 2 Beispieldatensatz Entscheidungsbaum (spielen / nicht spielen)

Tabelle 3 Schematische Struktur des FCT Grunddatensatzes mit verringerten Dimensionen

Tabelle 4 Umgeformte Tabelle in Objekt-Attribut-Zuordnung

Tabelle 5 Bewertung Data Mining Softwarelösungen

Abstract

Essential parts of the digitalization and the “Industry 4.0” movement in Germany are not only limited to invests in new manufacturing lines and the corresponding infrastructure, but also advanced and predictive data analysis in form of data mining included in a Business-Intelligence (BI) environment.

Small and medium sized businesses (KMU) are challenged with the implementation of these new software tools and, therefore, new business procedures.

The objective of this paper is to assist these KMU by developing an overview of the different process models for data analytics, standard data mining algorithms and methods as well as the current market situation of data mining tools.

Additionally, a comparison between chosen advanced data mining software solutions with an evaluation of deploying these into KMU as a decision guidance should be made.

First of all, three different process models for data mining, including the six-step Cross-Industry Standard Process for Data Mining (CISP-DM) as the current state of the art, are introduced.

Furthermore, the standard algorithms for data mining tasks like finding coherences, rules, structures as well as creating visualizations of the data are described.

An analysis of the current market situation showed, that the advanced and predictive analysis is on a high trend within the BI environment.

The selection of data mining software solutions was based on the yearly analysis of advanced analytic software made by the IT consulting company GARTNER.

The two chosen programs KNIME Analytics Platform and IBM SPSS Modeler are showing almost the same technical value with little differences.

According to a developed evaluation sheet, the KNIME Analytics Platform has a technical value of 58% and the IBM SPSS Modeler of 65% compared to the ideal software solution.

However, the license costs of the IBM SPSS Modeler are 15times higher that the cost for the KNIME Analytics Platform. Therefore, the recommendation for implementing a data mining software tool in KMU is in favor of the KNIME Analytics Platform because of the cost effectiveness.

A Einführung

A 1 Industrie 4.0 & die großen Daten

Im Jahr 2012 setzte die Bundesregierung Arbeitskreise ein, um die Wettbewerbsrolle Deutschlands im Welthandel zu festigen. Als Ergebnis entstand das Zukunftsprojekt „Industrie 4.0“, welche die Stärken der deutschen Industrie im Maschinen- und Anlagenbau mit den Möglichkeiten der aktuellen Informations- und Kommunikationstechnologien verbinden soll. Ziel dieser Digitalisierung ist die vernetzte und schlaue Produktion, also Systeme die durch Sensoren und Aktuatoren selbständig kommunizieren, entscheiden und agieren.

Zusammen mit Industrie 4.0 und der Digitalisierung fallen oft auch weitere Begriffe wie „Big Data“ oder „Smart Data“ und den dazugehörigen Problemstellungen: Wie kann der Datenfluss gesteuert werden? Welche Infrastruktur wird benötigt? Wie kann Nutzen aus den Daten erwirtschaftet werden?

Diese interdisziplinären Probleme stellen nicht nur für Großkonzerne eine große Herausforderung dar, sondern vor allem auch für Kleinst-, kleine und mittlere Unternehmen (KMU)[1].

Industrie 4.0 endet nicht mit der Implementierung von modernen Produktionssystemen. Da ein komplett autonomes Produktionssystem, welches kein menschliches Entscheiden und Eingreifen benötigt, weder realistisch noch anzustreben ist (vgl. [1]), sind auch Mensch-Technik Schnittstellen ein wichtiger Baustein der Digitalisierung. Somit sind für Projekte der Digitalisierung immer Teams aus Fachbereichen der Produktion, Prozessanalyse, IT und der Datenanalyse zusammenzustellen.

Für KMU kann dieses bereits aufgrund der limitierten Personalressourcen zu Schwierigkeiten führen. Zusätzlich kann es durch fehlendes Verständnis in der Thematik der Digitalisierung dazu führen, diese komplett zu verpassen und somit im Wettbewerb abgehängt zu werden.

A 2 Problemstellung

Durch die Digitalisierung entstehen in den Unternehmen eine hohe Anzahl von Daten, die bisher nur in großen Speichersystemen gesammelt werden konnten.

Aufgabe des Data Mining ist es, neuartige und potentiell nützliche Muster in den Daten zu erkennen. Mit den gewonnenen Erkenntnissen ist es dann möglich die Prozesse und Produkteigenschaften zu verbessern. Hierzu sind Expertenwissen und spezielle Software notwendig.

Aufgrund der meist fehlenden Expertise und Kapazitäten, ist es für KMU besonders schwierig geeignete Data Mining Prozesse in Geschäftsprozesse zu integrieren und mit geeigneter Software durchzuführen.

Es soll daher ein Überblick von Data Mining Prozessmodellen, Verfahren und geeigneter Softwarelösungen erstellt werden.

A 3 Herangehensweise

Um KMU bei der Integration von Data Mining Prozessen im Unternehmen eine Hilfestellung bieten zu können, soll zunächst der Bedarf und die Anforderungen an typische Data Mining Prozesse aufgezeigt werden.

Im weiteren Verlauf der Arbeit bildet die Vorstellung verschiedener Standard Data Mining Verfahren für das Auffinden von Zusammenhängen, Regeln und Strukturen sowie für Visualisierungen von Datenräumen einen ersten Hauptschwerpunkt.

Die Marksituation von momentan gängiger Data Mining Software sowie die Vorstellung von zwei Kandidaten mit einer Bewertung für den Einsatz in KMU, soll den zweiten Hauptteil der Arbeit hervorbringen und eine Entscheidungshilfe bieten.

A 4 Business-Intelligence-Infrastruktur: Data Warehouse und Data Marts

Innerhalb von alltäglichen Betriebsabläufen entstehen in vielen Bereichen wie z.B. im Verkauf, der Fertigung und der Buchhaltung viele Daten, die meistens in unterschiedlichen Systemen gespeichert werden. Oftmals handelt es sich hierbei um Big Data.

Entscheidungsträger benötigen jedoch zeitnahe, umfassende, zuverlässige Informationen über Unternehmensentwicklungen sowie mögliche Trends und Veränderungen, um wirtschaftlich handeln zu können.

Somit entsteht das Problem, dass Manager u.a. Entscheidungen treffen, die nur auf unzureichenden Informationen beruhen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1 Komponenten eines Data Warehouse aus [2]

Das Konzept des Data Warehouse kann hierbei Abhilfe schaffen, indem es alle Firmendaten innerhalb des Geschäftsbetriebes so bündelt, dass die Daten konsistent, zuverlässig und für die Berichterstellung leicht zugänglich sind (vgl. [2]).

Das Data Warehouse ist also eine zentrale Datenbank, welche aus kopierten Datensätzen von verschiedenen Firmenbereichen besteht und unter einem standardisierten Datenmodell zusammengeführt wird. Das Data Warehouse steht dabei unternehmensweit für Analysen und Entscheidungsfindungen zur Verfügung und bietet hierfür systembasierte Werkzeuge, wie u.a. Data Mining Tools.

Neben den zentralen Data Warehouse ist es auch möglich ein dezentrales Netz bestehend aus s.g. Data Marts aufzubauen. Diese stehen für bestimmte Firmenbereiche wie z.B. der Produktion zur Verfügung. Data Marts können hierbei höhere Performance bei Analysen liefern und sind generell eher flexibler als ein zentrales Data Warehouse Konzept. Dennoch können zu viele Data Marts zu erhöhter Komplexität bei der Entscheidungsfindung und den damit verursachten Kosten führen.

Bei produzierenden Unternehmen können Data Marts auch als Manufacturing Execution System (MES) ausgeführt werden.

A 5 Definition Data Mining

Durch internationale Forschung und Entwicklung zum Bereich der Datenanalyse in den letzten 30 Jahren entstanden unzählige Definitionen zu Data Mining. Nach [3] wird beispielsweise „unter Data Mining das systematische Entdecken und Extrahieren unbekannter, verborgener und wichtiger Informationen aus großen Mengen von Daten verstanden“.

OTTE, OTTE und KAISER beschreiben in [4] dieses systematische Entdecken des Data Mining weiter als einen Prozess, in dem „es nicht um Algorithmen und mathematische Verfahren geht, sondern um eine komplexe Betrachtungsweise, die Datenerhebung, Datenselektion, Datenvorverarbeitung, Datenanalyse, Interpretation und Anwendung einschließen“.

Es ist also zu erkennen, dass der Begriff Data Mining in der Literatur zum einen als alleinstehende Methode und zum anderen auch als komplettes Prozessmodell definiert wird.

Im folgenden Kapitel B werden verschiedene Data Mining Prozessmodelle dargestellt und im Kapitel C die Kernmethoden und -algorithmen beschrieben.

B Data Mining Prozessmodelle

B 1 Daten-Wertschöpfungskette (Data Value Chain)

Abbildung 2 Data Value Chain aus [2] (übersetzt nach [5])

MILLER und MORK nahmen in [5] das von PORTER entwickelte Konzept zur Wertschöpfungskette von 1987 auf und wendeten es auf die Thematik von Big Data an. Hieraus entstand eine Definition zur Daten-Wertschöpfungskette (Data Value Chain, DVC), welche ein Gerüst zum ganzheitlichen Prozess der Datenerfassung bis hin zur Entscheidungsfindung liefert.

Wie in Abbildung 2 zu sehen, teilt sich der DVC in drei Abschnitte: Die Datenentdeckung (Discovery), die Datenintegration sowie die Datenerschließung (Exploitation).

Weiterhin schreiben MILLER und MORK in [5], dass es nicht einfach ausreicht Daten mit geringer Qualität geschickt zu verknüpfen, um daraus Nutzen zu generieren. Daher ist es unerlässlich, dass ein Unternehmen eine vollständige Prozesskette der Datengewinnung bis zur Entscheidung basierend auf diesen Daten entwickelt und etabliert.

Sobald diese Basis geschaffen ist, kann die DVC Unternehmensbereiche weitreichend unterstützen. Mit wachsendem Prozessverständnis sollten schlussfolgernd auch die erhöhte Betriebsqualität und Kostensenkungen erkannt werden (vgl. [5]).

B 2 Knowledge Discovery in Databases (KDD)

FYYAD, PIETETSKY-SHAPIRO und SMYTH begannen in [6] schon im Jahre 1989 mit der Entwicklung des Prozessmodelles der Knowledge Discovery in Databases (KDD). Das wesentliche Problem sahen sie in der ungelenkten Anwendung von Data Mining Algorithmen und den daraus resultierenden nichts aussagenden Mustern (vgl. [2]).

KDD wird in [2] bzw. [6] als „nichttrivialer Prozess der Identifizierung von validen, neuartigen, potenziell nützlichen und letztendlich verständlichen Patterns in Daten“ definiert.

Bei den angesprochenen Datenbanken handelt es sich v.a. um eine Ansammlung von s.g. „ low-level data“: Primitive Datensätze, die zu umfangreich sind um Zusammenhänge zu erkennen bzw. Wissen daraus zu generieren.

Jedoch sind hierbei meistens auch viele Attribute für die gezielte Data Mining Aufgabe völlig irrelevant oder redundant (vgl. [7]).

Hier setzt der KDD Prozess mit vielen vorbereitenden Phasen ein, um die Daten in eine geeignete Form zu bringen, die richtige Data Mining Methode auszuwählen und als Kern der KDD anzuwenden.

Die jeweiligen Phasen des KDD werden als iterativ angesehen, d.h. dass es innerhalb des Prozessmodelles auch gewollt ist, verschiedene Phasen nochmals durchzuführen, um die Qualität der Analyse weiter zu erhöhen.

Ziel der KDD ist es wie auch bei der DVC, die entdeckten Muster in einer einfachen, kompakten Form darzustellen, wie z.B. als Visualisierungen in Form von Diagrammen oder auch als Entscheidungsbäume in denen Kausalitäten einfach erkennbar werden.

B 3 Cross-Industry Standard Process for Data Mining ‑ CRISP‑DM

Aus der ursprünglichen KDD Prozessdarstellung nach [6] haben sich weitere Darstellungen entwickelt, welche sich oftmals nur in der Anzahl der Zwischenschritte unterscheiden.

Als eine Abwandlung dieses KDD hat sich der s.g. Cross Industry Standard Process for Data Mining (CRISP-DM) als industrieller Standard für Data Mining Verfahren durchgesetzt. Dieser wurde im Jahre 2000 durch ein Firmenkonsortium bestehend aus NCR Systems Engineering (USA, Dänemark), DaimlerChrysler AG (Deutschland), SPSS Inc. (USA) und der OHRA Verzekeringen Bank Groep B.V. (Niederlande) veröffentlicht. (vgl. [4]).

Anhand dieses Konsortiums kann nochmals die Priorität dieser Art der Datenanalyse innerhalb verschiedenster Technologieunternehmen wie auch bei Banken belegt werden.

Abbildung 3 CRISP-DM Referenzmodell aus [21]

Bei dem CRISP-DM handelt es sich um eine hierarchische Prozessabfolge, welche die jeweiligen komplexen Arbeitsschritte des gesamten KDD Prozesses vereinfacht darstellt.

Abbildung 3 zeigt hierzu eine zeitliche Abfolge der sechs Schritte dieses Prozesses als Kreisprozess. Dies verdeutlicht, dass die einzelnen Phasen nicht losgelöst voneinander durchführbar sind und, dass sie jeweils aufeinander aufbauen.

Der erste Schritt eines Data Mining Projektes wird durch das Business Understanding beschrieben. In diesem Schritt sollten die Projektziele und Anforderungen an die Datenanalyse auf Anwenderebene festgelegt werden.

Daran schließt sich die zweite Phase, das Data Understanding, an. Hierbei werden die betreffenden Datensätze vorselektiert und einheitlich zusammengeführt. Zusammen mit Datenanalysten sollten hierbei auch erste Hypothesen über mögliche Zusammenhänge aus Expertensicht aufgestellt werden.

Im nächsten Schritt, die Data Preparation, werden alle Daten gesäubert sowie transformiert, um in der folgenden Phase, das Modeling, unterschiedliche Data Mining Algorithmen bzw. Methoden anzuwenden. Die gewählten Methoden erschließen sich aus den Projektzielen und den überlegten Hypothesen.

Die Ergebnisse der Datenanalyse werden dann in der Phase der Evaluation wieder mit Prozessexperten besprochen, um mögliche Entschlüsse und Entscheidungen aus der Analyse ziehen zu können. Dies kann auch dazu führen, dass der Prozess mit noch mehr Daten und vielleicht einer anderen Methode wiederholt werden muss, um Zusammenhänge genauer zu erkennen und eine bessere Entscheidungsgrundlage zu erreichen.

Die abschließende Phase des Deployment beschreibt die Umsetzung des gewonnenen Wissens auf Anwenderebene. Hierzu werden abschließende Reports erstellt, welche die Methodik der Vorverarbeitung der Daten, die erstellten Modelle, die daraus gewonnen Ergebnisse sowie die getroffenen Entscheidungen beinhalten (vgl. [4]).

Diese standardisierte Prozessdarstellung verdeutlicht gegenüber den anderen gezeigten Prozessmodellen, dass ein Data Mining Projekt nur in Zusammenarbeit mit Experten aus den gewählten Fachbereichen erfolgreich sein kann.

Im Folgenden werden nun verschiedene Data Mining Analysealgorithmen und -methoden vorgestellt.

C Data Mining Verfahren und Methoden

Gemäß der eingeführten Definition im Kapitel A 5 liegt das Bestreben von Data Mining Verfahren u.a. in der Erkennung von Mustern (vgl. [3]).

Muster werden nach [8] als „eine zusammenfassende, nicht triviale, explizite Aussage über eine Untermenge der untersuchten Datenbasis, die der Generierung oder Prüfung von Hypothesen dient“, definiert.

Ergebnisse aus Data Mining Verfahren stellen solche Muster dar. Für die folgenden Verfahren der Mustererkennung ist zu unterscheiden, ob eine Zielvariable vorgeben ist und abhängige Variablen gesucht werden (überwachtes Lernen) oder Zusammenhänge ohne Zielvariable herzuleiten sind (unüberwachtes Lernen) (vgl. [3]).

C 1 Auffinden von Zusammenhängen

Das Auffinden von Zusammenhängen zwischen Merkmalen (Spalten) kann ein Ziel eines Data Mining Projektes sein.

Es wird je nach vorliegenden Datentyp zwischen der für nominale[2] Daten geeignete Klassifizierung und dem für numerische Daten verwendeten Prognostizieren unterschieden.

C 1.1 Klassifikationsverfahren

Beim Klassifizieren sollen Eingangsmerkmale in verschiedene Klassen der Zielgröße (z.B. gut / schlecht) eingeordnet werden.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4 Beispiel zum Klassifikationsverfahren (Kreditwürdigkeit) [9]

In Abbildung 4 ist hierzu ein Beispiel zur Ermittlung der Kreditwürdigkeit (Zielgröße) aufgezeigt. Hierbei handelt es sich um die s.g. Lernphase, also dem Füllen der Tabelle mit Testdaten mit der schon bekannten Zielgröße.

Die jeweilige Klassenzugehörigkeit der Merkmale (hier: Name, Alter und Einkommen) sind demnach schon bekannt. Dieses entspricht somit dem überwachten Lernen.

Sobald das Klassifikationsmodell gut genug ist, können Datensätze ohne bekannte Zielgröße innerhalb der Anwendungsphase hinzugefügt werden, um anschließend die Klassen der Zielgröße zu ermitteln.

Hierbei muss es sich jedoch nicht immer um eine eindeutige Zuordnung handeln –mitunter reicht auch schon eine Angabe über die Wahrscheinlichkeit der Klassenzuordnung aus.

Unter den Klassifizierungsalgorithmen gibt es z.B. das k-Nearest-Neighbor-Verfahre n und die Generierung von Entscheidungsbäumen, welche im Folgenden kurz beschrieben werden.

C 1.1.1 k-Nearest-Neighbor-Verfahren

Bei dem k-Nearest-Neighbor-Verfahren handelt es sich um ein Instanz-basiertes Verfahren, also werden immer Beispieldaten zur Klassifikation verwendet.

Bei der Klassifizierung werden für neue Objekte die Ähnlichkeit ihrer beschreibenden Attributwerte zu den schon bestehenden Objekten berechnet. Zur Vorhersage der Klasse wird die Anzahl von den k Objekten, die dem neuen Objekt am ähnlichsten sind, herangezogen: Es wird gezählt, welche Klasse bei den k nächsten Nachbarn am häufigsten vorkommt (vgl. [9]).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5 k-Nearest-Neighbor [9]

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6 k-Nearest Neighbor (unterschiedliche k-Werte) [9]

Die Abbildung 5 zeigt schematisch das k-Nearest-Neighbor-Verfahren. Hierbei seien zwei unterschiedliche zweidimensionale Datensätze gegeben, welche unterschiedlichen Klassen (ausgefüllter Kreis / Kreuzkreis) zugeordnet sind. Der unausgefüllte Kreis in der Mitte soll nun klassifiziert werden. Als Abstandsmaß wird die euklidische Distanz[3] und k = 5 gesetzt, so dass der unausgefüllte Kreis der Klasse des Kreuzkreises zugeordnet wird.

In Abbildung 6 ist nun die Anordnung der Punkte geändert und zwei Klassifizierungen mit k = 1 (durchgezogene Linie) und k = 5 (gepunktete Linie) wurden durchgeführt. Hierbei zeigt sich die Schwierigkeit in der Auswahl von k, da bei beiden Berechnungen zwei unterschiedliche Klassen ermittelt werden.

In der Praxis werden daher Klassifizierungen mit verschiedenen k -Werten durchgeführt und anschließend verglichen (vgl. [9]).

C 1.1.2 Entscheidungsbäume

Entscheidungsbäume zeigen eine verzweigte Wissensdarstellung auf. Ergebnisse einer Bedingung bilden Äste, die wiederum durch andere Bedingungen und folgenden Ergebnissen weiter verzweigt werden können.

Entscheidungsbäume haben den großen Vorteil, dass sie übersichtlich Kausalitäten zwischen den Daten aufzeigen und somit für den Entscheidungsprozess sehr gut geeignet sind (vgl. [9]).

Darüber hinaus können aus Entscheidungsbäumen sehr schnell Regeln über Merkmalsausprägungen aufgestellt werden.

Hierzu gibt es ein oft verwendetes Beispiel über die Entscheidung, ob ein Fußballspiel stattfinden soll oder nicht (Klasse: ja / nein) in Abhängigkeit vom Wetter (Attribute: Bewölkung / Temperatur / Luftfeuchtigkeit / Wind).

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1 Lerndatensatz Entscheidungsbaum (spielen / nicht spielen)

Gegeben sei der Lerndatensatz in Tabelle 1. Mit diesem kann sehr einfach ein Entscheidungsbaum mithilfe eines Data Mining Tools (hier: KNIME, siehe Kapitel D 2.1) ein Entscheidungsbaum (siehe Abbildung 7) generiert werden, um dann neue Datensätze zu klassifizieren.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7 Entscheidungsbaum (spielen / nicht spielen), erstellt mit KNIME

Abbildung 8 Aus Entscheidungsbaum abgeleitete Regeln

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2 Beispieldatensatz Entscheidungsbaum (spielen / nicht spielen)

Entscheidungsbäume haben einen vielseitigen Anwendungsbereich. Bei der Generierung muss zwar eine Zielgröße festgelegt werden, dennoch ist der Einsatz auch ohne Absicht einer Klassifizierung möglich.

Vorstellbar wären hier z.B. die Anwendung bei komplexen Produktionsprozessen, welche über Entscheidungsbäume abgebildet werden können. Abhängige Variablen können so einfach gefunden werden. Diese bieten dann Ansätze für weitere Analysen, um z.B. Gründe für Abweichungen zu erkennen und Optimierungsansätze zu finden.

C 1.2 Prognosemodell

Prognosemodelle zielen im Gegensatz zu Klassifikationen darauf ab, einen bestimmten Wert numerisch vorherzusagen. Für die Vorhersage können hierfür unendliche numerische Werte in Frage kommen, hingegen sind bei Klassifizierungen nur diskrete Werte für das Zielattribut (z.B. gut oder schlecht) möglich.

Für Prognosemodelle werden Funktionen approximiert bzw. wird Lerndaten zurückgegriffen.

Da bereits erste Verfahren innerhalb der Klassifizierung aufgezeigt wurden, welche auch für Prognosemodelle geeignet sind (Entscheidungsbäume bzw. Regressionsbäume und k-Nearest-Neighbor-Verfahren), soll im Weiteren nur noch auf Regressionsverfahren eingegangen werden.

Abbildung 9 Regressionsverfahren nach [26]


Das einfachste Regressionsverfahren ist die lineare Regression. Hierbei wird angenommen, dass zwischen den numerischen Werten (x, y) ein linearer Zusammenhang besteht. Somit kann eine Funktion gesucht werden, die den Trend dieser Werte beschreibt. Dabei gilt der Zusatz, dass (für gewöhnlich) der quadratische Fehler zwischen dem tatsächlichen Zielwert und dem berechneten Wert zu minimieren ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 10 Beispiel der linearen Regression aus [27]

Abbildung 10 zeigt beispielsweise die Anwendung der linearen Regression, um den Zusammenhang zwischen den Merkmalen Bildung und Einkommen zu beschreiben.

Falls es bekannt ist, dass die Attribute keinen linearen Zusammenhang aufweisen, kann trotzdem das Modell der linearen Regression mithilfe nichtlinearer Substitution angewandt werden. Ein Beispiel hierfür ist die polynominelle Regression durch die eine Polynomfunktion entsteht, die dem Wertebereich so gut wie möglich angenähert wird. Die einzelnen Koeffizienten der Polynome werden dabei durch lineare Regression bestimmt.

C 2 Auffinden von Regeln: Assoziationsverfahren

Das Auffinden von Regeln mit der expliziten Wissensdarstellung als Wenn-Dann Regeln (Beispiel siehe Abbildung 8), welche durch den Menschen leicht verständlich und somit auch überprüfbar sind, gehört zu den wichtigsten Data Mining Methoden.

Bei dem Auffinden von Regeln kann zwischen dem oben aufgezeigten Klassifikationsverfahren und dem Assoziationsverfahren unterschieden werden.

Klassifikationsregeln beziehen sich immer in der Schlussfolgerung auf das festgelegte Zielattribut. Assoziationsregeln hingegen beschreiben Zusammenhänge zwischen beliebigen Attributen.

Da das Klassifikationsverfahren sowie die daraus resultierende Regelerstellung in Abschnitt C 1.1.2 beschrieben wurden, wird im Folgenden nur auf das Assoziationsverfahren für das Auffinden von Regeln eingegangen.

Das Assoziationsverfahren wurden 1993 von AGRAWAL (IBM), SWAMI (IBM) sowie IMIELINSKI (Rutgers University USA) in [10] in Zusammenhang mit der Analyse von Warenkörben vorgestellt. Die Grunddarstellung ist hierbei, dass Items I (Artikel, Messwerte) aus verschiedenen Transaktionen T (Einkäufe, Messungen) verglichen und daraus Regeln generiert werden.

Nach [9] besteht somit die Regel immer aus einer Prämisse A und einer Konsequenz B. Die Regel hat dann die Form:

A à B, mit beispielsweise A ={bier, chips} und B ={tvzeitung}.

Da Assoziationsregeln nicht immer hundertprozentig korrekt sind, bedarf es einer Möglichkeit zur Bewertung der Regeln durch Maßzahlen. Hierfür sollen nun der Support S und die Konfidenz K eingeführt werden.

Der Support S eines Items oder auch Itemset ist die Anzahl der Transaktionen, die das Item bzw. Itemset als Teilmenge enthalten, im Verhältnis zur Gesamtzahl der Transaktionen. Es werden also alle Datensätze gezählt, in denen alle Attribute aus der Vereinigung von A und B enthalten sind und teilt dies durch die Gesamtzahl aller Datensätze.

Je höher der Supportwert S einer Regel ist, umso höher ist somit auch die Relevanz dieser Regel.

Die Konfidenz K hingegen beschreibt das Verhältnis zwischen den Transaktionen, die sowohl Prämisse A und Konsequenz B enthalten, und den Transaktionen, die nur die Prämisse A enthalten. Sie beschreibt somit wie oft die Regel wirklich zutrifft im Vergleich zur Anzahl, wie oft sie hätte zutreffen müssen (vgl. [9]).

Einer der meist verwendeten Algorithmen für das Assoziationsverfahren ist der A‑Priori‑Algorithmus, welcher eine Weiterentwicklung des AIS-Algorithmus nach [10] ist.

Der A-Priori-Algorithmus hat das Ziel, Frequent Itemsets in der Menge aller Items zu finden. Frequent Itemsets sind Item-Mengen, deren Support S den Mindestwert überschreitet.

Somit ist der erste Schritt des A-Priori-Algorithmus das Finden von Frequent Itemsets mit genügenden Support S, um aus diesen im zweiten Schritt Frequent Itemsets Regeln zu generieren.

Durch diese Einschränkung des Suchraumes für Regeln, wird die Komplexität des Verfahrens verringert und Rechenleistung wird eingespart.

C 3 Auffinden von Strukturen: Clusterverfahren

Das Clustering wurde von JAIN und DUBES 1988 in [11] als das Klassifizieren von Daten durch eine endliche Anzahl von Kategorien oder Gruppen (Cluster), um die Daten zu beschreiben, definiert. Hierbei sollen Elemente einer Klasse größtmögliche Ähnlichkeit besitzen, wobei Objekte unterschiedlicher Klassen einen größtmöglichen Abstand haben sollen.

Dabei werden keine Beziehungen zwischen den Daten wie in den vorherigen Verfahren erklärt. Dennoch kann durch Clustering z.B. das Finden von Zielattributen vereinfacht werden (vgl. [3]).

Im Weiteren werden drei Clusterverfahren kurz betrachtet.

C 3.1 Partitionierende Clusterbildung

Die partitionierende Clusterbildung hat das einfache Ziel eine Datenmenge in k Cluster zu zerlegen. Dabei handelt es sich im ein iteratives Verfahren, welches dann endet, wenn kein Objekt mehr einem anderen Cluster zugeordnet werden kann. Bei den entstehenden Clustern wird auch von disjunkten Clustern gesprochen, da jedes Cluster mindestens aus einem Objekt besteht und jedes Objekt maximal in einem Cluster enthalten ist.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 11 Mögliche Iterationsschritte vom Clustering nach k-Means-Algorithmus, Verschiebung der Centroiden und Neuberechnung der Abstände und Zuordnung der Daten(-punkte)

Ein bekannter Algorithmus hierfür ist der k-Means-Algorithmus. Die Anzahl der Cluster ist bei diesem Algorithmus vorgegeben und nur die Zentren der jeweiligen Cluster werden zunächst zufällig festgelegt und dann iterativ verändert. Hierzu werden die Zentren der Cluster durch deren Schwerpunkte (Centroiden) beschrieben.

Im nächsten Schritt werden die Daten(-punkte) den jeweiligen Clustern mit den Abständen (z.B. durch die euklidische Distanz) zu den Centroiden zugeordnet. Dieser Ablauf setzt sich wie in Abbildung 11 fort, sodass in jedem Durchlauf eine neue Zuordnung und eine erneute Berechnung der Centroiden erfolgt. Das Verfahren endet, wenn kein Punkt mehr sein Cluster wechselt.

Die Vorteile des k-Means-Algorithmus spiegeln sich in der sehr einfachen Darstellung und Verständlichkeit wieder sowie auch in den Erfahrungswerten, dass vergleichbar wenige Iterationen für stabile Cluster benötigt werden (vgl. [9]).

Kritisch muss jedoch das Initialcluster betrachtet werden, da dieses von Anfang an Auswirkungen auf das Resultat sowie die Iterationen hat. Darüber hinaus besteht die Gefahr bei Ausreißern, dass Cluster durch das Verschieben der Centroiden zu sehr verzerrt werden. Der k-Means-Algorithmus benötigt außerdem auch numerische Werte, sodass nominale und ordinale Attribute erst umgewandelt werden müssen (vgl. [9]).

Dennoch eignet sich der k-Means-Algorithmus vor allem für Erstdarstellungen der Daten, um somit Anhaltspunkte für weitere Untersuchungen zu finden.

C 3.2 Hierarchische Clusterbildung

Bei der hierarchischen Clusterbildung werden Cluster nach einander so zusammengefasst, dass eine Hierarchie in Form eines Dendrogrammes (siehe Abbildung 12) entsteht. Hierbei stellen die Knoten die Cluster des Datenraumes dar und die Blätter die einzelnen Objekte.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 12 Beispiel eines Dendrogrammes aus [26]

Bei der hierarchischen Clusterbildung wird zwischen der agglomerativen und der divisen Clusterbildung unterschieden.

Die agglomerative Clusterbildung beginnt mit der geringsten Auflösung, also enthält jedes Cluster genau ein Objekt. Die zwei Cluster, die sich am ähnlichsten sind, werden dann im darüber liegenden Knoten verschmolzen. Dieses geschieht solange, bis nur noch ein Cluster als Wurzel vorhanden ist. Die Wurzel ist somit der gesamten Datenmenge gleichgesetzt.

Die divise Clusterbildung beginnt mit dem Aufbau der Hierarchie umgekehrt. Es beginnt mit der gesamten Datenmenge, welche dann über Cluster (Zweige) geteilt werden. Dieses endet dann, sobald nur noch ein Objekt in einem Cluster vorhanden ist.

[...]


[1] Nach EU-Empfehlung 2003/361: weniger als 249 Beschäftigte und einen Jahresumsatz von höchstens 50 Millionen €

[2] Zielgröße ist nicht metrisch (z.B. Berufsstatus, Geschlecht)

[3] direkter Abstand, berechnet nach der euklidischen Norm (Betrag des Vektors)

Ende der Leseprobe aus 63 Seiten

Details

Titel
Data Mining für KMU. Wie kann Nutzen aus den Daten erwirtschaftet werden?
Hochschule
Duale Hochschule Baden-Württemberg, Ravensburg, früher: Berufsakademie Ravensburg
Note
1,2
Autor
Jahr
2017
Seiten
63
Katalognummer
V369375
ISBN (eBook)
9783668475137
ISBN (Buch)
9783668475144
Dateigröße
2870 KB
Sprache
Deutsch
Schlagworte
Data Mining, KMU, Mustererkennung, CRISP-DM, Business Intelligence, Data Warehouse, Data Mart, KNIME, IBM SPSS Modeler, Industrie 4.0
Arbeit zitieren
Tobias Hänsel (Autor), 2017, Data Mining für KMU. Wie kann Nutzen aus den Daten erwirtschaftet werden?, München, GRIN Verlag, https://www.grin.com/document/369375

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Data Mining für KMU. Wie kann Nutzen aus den Daten erwirtschaftet werden?



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden