Anwendungsfelder für Data Mining in Produktion und Logistik


Diplomarbeit, 2013
118 Seiten, Note: 2,3

Leseprobe

Inhaltsverzeichnis

Begleitbogen

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Einführung
1.1 Aufgabenstellung
1.2 Vorgehensweise und Aufbau der Arbeit

2 Datenanalyse für die Wissensgenerierung
2.1 Business Intelligence als Ordnungsrahmen
2.2 Datenbereitstellung im Data Warehouse
2.3 Datenqualität
2.4 Wissensgenerierung in der Datenanalyseebene
2.4.1 Data Mining im Rahmen des Knowledge Discovery in Databases
2.4.2 Umsetzung in der Praxis anhand von CRISP-DM und SEMMA
2.5 Ausgewählte Werkzeuge für das Data Mining
2.5.1 Clusterverfahren im Rahmen der Segmentierung
2.5.2 Entscheidungsbaumverfahren im Rahmen der Klassifikation
2.5.3 Künstlich neuronale Netze im Rahmen der Zukunftsprognose
2.5.4 Assoziationsanalysen im Rahmen der Beziehungsaufdeckung
2.6 Darstellung und Datenzugriff von Ergebnissen in der Visualisierungsebene

3 Produktion und Logistik
3.1 Stellenwert der Produktion und Logistik im Unternehmensumfeld
3.2 Logistische Zielgrößen
3.3 Anwendungsbereiche von Data Mining in der Produktion und Logistik

4 Anwendung von Data Mining in einem verketteten Produktionsprozess
4.1 Business-Understanding-Phase
4.2 Data-Understanding-Phase
4.3 Data-Preparation-Phase
4.4 Data-Modelling-Phase
4.4.1 Auftragsdurchlaufanalyse an der CNC-Drehmaschine
4.4.2 Bivariate Datenanalyse zur Bestimmung der wichtigsten Faktoren
4.4.3 Konstruktion eines Entscheidungsbaumes
4.5 Evaluationsphase
4.6 Deployment-Phase

5 Schlussbetrachtung

Literaturverzeichnis

Erklärung

Begleitbogen

Abbildung in dieser Leseprobe nicht enthalten

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1: Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte)

Abbildung 2: Vereinfachte Darstellung des dreistufigen BI-Ordnungsrahmens

Abbildung 3: Vorgehensmodell des Knowledge Discovery in Databases

Abbildung 4: Umfrage aus dem Jahr 2007 über die eingesetzten Data Mining Vorgehensmodelle

Abbildung 5: CRISP-DM Prozessmodell

Abbildung 6: SEMMA-Prozess

Abbildung 7: Agglomeratives und divisives hierarchisches Clustering

Abbildung 8: Ergebnis einer Clusteranalyse zu den Daten aus Tabelle 2

Abbildung 9: Allgemeines Beispiel für einen Entscheidungsbaum

Abbildung 10: Mögliche Ergebnisse für die Güte einer Klassifizierung

Abbildung 11: Darstellung der Trainingsdaten anhand eines Entscheidungsbaumes

Abbildung 12: Allgemeines Modell eines einfachen künstlich neuronalen Netzes

Abbildung 13: Einstufiges künstlich neuronales Netz

Abbildung 14: Mehrstufiges künstlich neuronales Netz

Abbildung 15: Lernschema von künstlich neuronalen Netzen

Abbildung 16: Beispielhaft aufgestelltes künstlich neuronales Netz

Abbildung 17: Support und Confidence einer Assoziationsregel

Abbildung 18: Einfaches beispielhaftes Streudiagramm

Abbildung 19: Zielgrößen der Logistikleistung und Logistikkosten

Abbildung 20: Definition der Terminabweichungsgrößen nach Dombrowski

Abbildung 21: Kriterien für den Kauf von Produkten (Siemens AG)

Abbildung 22: Wichtigste Anforderungen im Bereich Produktionsoptimierung

Abbildung 23: Aufgabenfelder im Unternehmen in denen Data Mining eingesetzt werden sollte

Abbildung 24: Gründe, warum Data Mining nicht eingesetzt wird

Abbildung 25: Auftragsmengen und die zugehörigen Auftrittshäufigkeiten

Abbildung 26: Angenommener Ausschuss in Stk. und die zugehörigen Auftrittshäufigkeiten

Abbildung 27: Schlechte Erzeugnisse in Stk. und die zugehörigen Auftrittshäufigkeiten

Abbildung 28: Vergleich Planmaschinenzeit und Istmaschinenzeit in Min

Abbildung 29: Planrüstzeit und die zugehörigen Auftrittshäufigkeiten

Abbildung 30: Zugangsabweichung in BKT

Abbildung 31: Relative Terminabweichung in BKT

Abbildung 32: Abgangsabweichung in BKT

Abbildung 33: Scatterplot Zugangs- zur Abgangsabweichung, gruppiert nach der relativen Terminabweichung

Abbildung 34: Terminabweichungen nach Monaten

Abbildung 35: Terminabweichungen nach Kalenderwochen

Abbildung 36: Terminabweichungen nach Ist-Start-Zeiten

Abbildung 37: Terminabweichungen nach Maschinenzeitendifferenz

Abbildung 38: Terminabweichungen nach Planrüstzeiten

Abbildung 39: Erstellung eines Entscheidungsbaums in Rapidminer

Abbildung 40: Erstellung eines Entscheidungsbaums mit dem Operator „Optimize Selection“

Abbildung 41: „Split Validation“ in Rapidminer

Abbildung 42: Entscheidungsbaum zur Klassifizierung der Aufträge nach relativer Terminabweichung

Tabellenverzeichnis

Tabelle 1: Anwendungsbereiche und Methoden des Data Mining

Tabelle 2: Beispielhafte Kundendaten für eine Marktsegmentierung

Tabelle 3: Trainingsdaten für die Konstruktion eines Entscheidungsbaums

Tabelle 4: Beispielhafte Werte für ein KNN

Tabelle 5: Beispielhaft zu analysierende Bestellungen

Tabelle 6: Support der einzelnen Artikel aus den beispielhaften Bestellungen

Tabelle 7: Support der berücksichtigten 2er-Kombinationen aus den beispielhaften Bestellungen

Tabelle 8: Support der berücksichtigten 3er-Kombinationen aus den beispielhaften Bestellungen

Tabelle 9: Ermittelte häufig vorkommende Artikelkombinationen aus den beispielhaften Bestellungen

Tabelle 10: Abgeleitete Regeln mit den zugehörigen Confidencen aus den beispielhaften Bestellungen

Tabelle 11: Die beschreibenden Faktoren und die zugehörigen Merkmalsausprägungen

Tabelle 12: Produktgruppen und die zugehörigen Auftrittshäufigkeiten

Tabelle 13: Fertigungsart und die zugehörigen Auftrittshäufigkeiten

Tabelle 14: Arbeitsvorgangsnummern und die zugehörigen Auftrittshäufigkeiten

Tabelle 15: Vorgelagerte Arbeitsplätze und die zugehörigen Auftrittshäufigkeiten

Tabelle 16: Faktoren die in der Data-Modelling-Phase betrachtet werden

Tabelle 17: Terminabweichungen nach Produktgruppenzugehörigkeit

Tabelle 18: Terminabweichungen nach Produktgruppenzugehörigkeit 6xx

Tabelle 19: Terminabweichungen nach Produktgruppenzugehörigkeit 7xx

Tabelle 20: Terminabweichungen nach Auftragsartenzuordnung

Tabelle 21: Terminabweichungen nach Arbeitsvorgang

Tabelle 22: Terminabweichungen nach vorgelagertem Arbeitsplatz

Tabelle 23: Terminabweichungen nach Auftragsmenge

Tabelle 24: Terminabweichungen nach Ist-Planausschussdifferenz

Tabelle 25: Terminabweichungen nach Jahren

Tabelle 26: Terminabweichungen nach Quartalen

Tabelle 27: Faktoren mit denen ein Entscheidungsbaum generiert wird

Tabelle 28: Güte des Entscheidungsbaumes mit allen Faktoren

Tabelle 29: Güte des Entscheidungsbaumes mit den ausgewählten Faktoren

1 Einführung

In einem immer turbulenter werdenden Markt mit mehreren unübersichtlichen Einflussfaktoren, die Risiken sowie Chancen bergen, ist der Mensch bei der Entscheidungsfindung eindeutig überfordert. Er ist auf Unterstützung angewiesen, die ihn durch schwere Entscheidungssituationen leitet, um einerseits Fehlentscheidungen, die zum Ruin führen können, zu vermeiden und andererseits richtige Entscheidungen zur richtigen Zeit zu treffen, die Wettbewerbsvorteile schaffen. Mit der Verbreitung digitaler Technologien ist hierzu in den 70er Jahren der Begriff Entscheidungsunterstützungssystem, auf Englisch Decision Support System, aufgekommen. In der betrieblichen Praxis hat sich jedoch seit den 90er Jahren der Begriff Business Intelligence etabliert, der ganzheitliche Lösungsansätze für die Entscheidungsunterstützung bietet. Die Tätigkeiten reichen von der Datenbereitstellung über die Datenauswertung bis hin zur Präsentation der Ergebnisse.1
Die rasante Entwicklung der Technik macht das Generieren und Speichern riesiger Datenbestände überhaupt erst möglich. Überall im alltäglichen Leben fallen automatisiert Informationen an: am Telefon, im Internet, beim Einkaufen, beim Arztbesuch usw.2 Preisstürze bei den Speichermedien leistungsfähiger Datenbanksysteme ermöglichen zudem die langfristige Aufbewahrung der anfallenden Daten.3 Das Ergebnis der Digital Universe Studie von der IDC, die in Abbildung 1 dargestellt wird zeigt, dass das weltweit generierte Datenvolumen kontinuierlich ansteigt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Prognose zum Volumen der jährlich generierten digitalen Datenmenge weltweit in den Jahren 2005 bis 2020 (in Exabyte) 4

Somit herrscht kein Mangel an potenziell nützlichem Datenbestand für die Datenbereitstellung, doch der Zugriff auf gewünschte Informationen und das Generieren von Wissen werden fortlaufend schwieriger, denn Daten alleine führen zu keinem Nutzen. Adriaans und Zantinge liefern die passende Erklärung, indem sie die Sachlage mit der Suche nach der Nadel im Heuhaufen vergleichen, wobei dieser ständig wächst.5 Herkömmliche Datenanalysemethoden gelangen hierbei schnell an ihre Grenzen. Neuere Methoden müssen her, die selbständig Datenberge analysieren und auswerten. Der ursprünglich aus dem Bergbau bekannte Begriff Data Mining, welcher mit Fayyad u. a. Mitte der 90er eine neue Bedeutung gewonnen hat, bietet hierbei eine Möglichkeit. Sein Potenzial ist mit der aktuellen Debatte um das Überwachungsprogramm PRISM, ein Projekt des US-Geheimdienstes NSA zur Auswertung von Daten aus weltweiten Internetaktivitäten, nochmals zu Kenntnis gekommen. Mit der automatischen Extraktion und Filterung interessanter Informationen aus Datenbeständen, die durch selbständige Suche nach Auffälligkeiten und Mustern aufgedeckt werden, werden dem Entscheidungsträger bisher verborgene Informationen vorgelegt, aus denen durch Interpretation wertvolles Wissen entsteht.6

1.1 Aufgabenstellung

Das Ziel der vorliegenden Arbeit besteht darin, in Zusammenarbeit mit dem Fraunhofer Institut für Produktionstechnik und Automatisierung, den Anforderungen an die Produktionsunternehmen und insbesondere deren Herzstück, der Produktion mit intelligenten Data-Mining-Anwendungen, gerecht zu werden. Sich ständig verändernde Umweltbedingungen und der mit der Globalisierung immer härter werdende Wettbewerb hinsichtlich Kosten, Qualität und Zeit fordern von Unternehmen kontinuierlich steigende Anstrengungen, bestehende Verschwendungen von Zeit, Ressourcen und Personal in den Geschäftsprozessen systematisch zu identifizieren, zu eliminieren bzw. zu reduzieren. In Unternehmensbereichen wie Marketing, Finanzen oder Vertrieb hat sich das Data Mining mittlerweile als Hilfsmittel bei Entscheidungsfindungen gut bewährt. In dem Bereich Produktion und dem bereichsübergreifend begleitenden Prozess der Logistik ist aber Potenzial für Data Mining vorhanden, das noch nicht voll ausgeschöpft wurde, obwohl hier mit zunehmender Automatisierung und fortstreitendem technischem Wandel Prozessdaten anfallen, die eine Grundlage für Analysen bilden können. Die Erfüllung der Anforderungen produzierender Unternehmen, in einem stetig komplexer werdenden Produktionsumfeld verborgene Wirkungszusammenhänge und Mechanismen durch vorhandene Datenbestände aufzudecken und dabei die eigenen Prozesse besser zu verstehen, ergibt dabei die Zielsetzung. Die umgesetzten gewonnenen Erkenntnisse können anschließend Optimierungen in den Prozessen anregen.
Eine Aufgabe der vorliegenden Arbeit besteht darin, anhand von Data-Mining-Anwendungen in der Produktion und Logistik deren Nutzen für produzierende Unternehmen aufzuzeigen. Weiterhin soll an einem Praxisbeispiel ein Prozessdatensatz aus dem Produktionsumfeld anhand einer einheitlichen Vorgehensweise nach Erkenntnissen untersucht werden, die die Anwendbarkeit von Data Mining im Produktionsumfeld bestätigt. Verbunden mit den Aufgabenstellungen kristallisiert sich die Forschungsfrage heraus, auf die eine Antwort während der Arbeit gefunden werden soll:

Wo wird im Produktions- und Logistikumfeld Data Mining eingesetzt und welchen Nutzen bietet es für Unternehmen?

1.2 Vorgehensweise und Aufbau der Arbeit

Um dem Leser ein klares Verständnis dahingehend zu vermitteln, worüber diese Arbeit handelt, werden zunächst im zweiten Kapitel die relevanten Begrifflichkeiten aufgegriffen. Data Mining wird in den Business-Intelligence-Rahmen eingeordnet und die praxisbezogenen Vorgehensweisen werden aufgezeigt. Auf die Datenbereitstellung und Präsentation wird ebenfalls eingegangen, um den Kreis der Datenanalyse zu schließen. Innerhalb der Datenbereitstellung wird die Datenqualität kurz erläutert, da für ein erfolgreiches Data Mining die Qualität der einbezogenen Daten essentiell ist. Nachfolgend werden vier Data-Mining-Methoden vorgestellt, die in der Praxis häufig zum Einsatz kommen. Im dritten Kapitel werden dem Leser die Produktion und Logistik im Unternehmensumfeld nähergebracht, wobei hier die produktions- und logistischen Anwendungsbeispiele vorgezeigt werden, in denen Data Mining erfolgreich seinen Einsatz findet. Das vierte Kapitel beinhaltet ein Anwendungsbeispiel, in dem Prozessdaten einer CNC-Drehmaschine analysiert und anschließend ein Modell daraus konstruiert wird. Mit der Zusammenfassung und Bewertung der Erkenntnisse erfolgt im fünften Kapitel abschließend die Schlussbetrachtung.

2 Datenanalyse für die Wissensgenerierung

Schon zu seiner Zeit stellte Bacon fest, dass Wissen Macht bewirkt.7 Diese Aussage bewahrheitet sich vor allem im Informationszeitalter. Aufgrund der technologischen Entwicklung entstehen Unmengen an Daten, die zu Wissen führen können. In diesem Kapitel wird der Prozess der Wissensgenerierung aus Daten betrachtet. Zu Beginn wird das Business Intelligence als Ordnungsrahmen für Managementunterstützungssysteme dargestellt, unter die die Schritte der Datenbereitstellung, Datenanalyse und Datenvisualisierung fallen. „Als Management Support Systeme (MSS) bzw. Managementunterstützungsysteme (MUS) werden alle DV-Anwendungssysteme bezeichnet, die das Management, d. h. die Fach- und Führungskräfte einer Unternehmung, bei ihren vielfältigen Aufgaben unterstützen.“8 Die Ebenen werden einzeln durchgegangen, wobei die Fokussierung auf die Datenanalyse und explizit auf Data Mining gerichtet ist.

2.1 Business Intelligence als Ordnungsrahmen

Die englische Sprache dominiert von jeher Begriffswahl in der Informationstechnik. Hierbei fehlt es allerdings bei der Übersetzung in die deutsche Sprache und in der Interpretation nicht selten an Übereinstimmung. Die wörtliche Übersetzung von Business Intelligence (BI) ins Deutsche lautet „Geschäftsintelligenz“, wobei dies die Bedeutung hier nur unzureichend widerspiegelt. Das Ziel von Business-Intelligence- Systemen führt zu einem deutlicheren Ausdruck, wenn „Intelligence“ im Sinne von Einsicht oder Verständnis interpretiert wird.9 Dazu ist die Erklärung von Krahl u. a. angemessen und dient auch als Gegenstand des dieser Arbeit zu Grunde liegenden weiten Business-Intelligence-Begriffsverständnisses. Sie verstehen BI als Überbegriff für entscheidungsunterstützende Technologien, die Daten über das Unternehmen und dessen Umwelt für die Sammlung und Aufbereitung sowie deren Darstellung in Form von geschäftsrelevanten Informationen für Analyse-, Planungs- und Steuerungszwecke zum Gegenstand haben.10 „Durch 'Intelligence' im Sinne von Einsicht, Verständnis oder Aufklärung soll Transparenz über betriebswirtschaftliche Zusammenhänge auf Basis verfügbarer Daten erzeugt werden.“11 Ziel ist das Nutzen der gewonnenen Erkenntnisse, die zur besseren Einsicht in das eigene Geschäft und damit zum besseren Verständnis in die Mechanismen relevanter Wirkungsketten führen.12 Der BI-Ordnungsrahmen kann hierbei in Ebenen dargestellt werden, wobei zwischen Bereitstellung, Analyse und Visualisierung unterschieden wird (Abbildung 2).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Vereinfachte Darstellung des dreistufigen BI-Ordnungsrahmens 13

Zusammenfassend lässt sich also Business Intelligence als begriffliche Klammer kennzeichnen, die verschiedene Konzepte und Techniken im Gebiet der entscheidungsunterstützenden Systeme beinhaltet.14

2.2 Datenbereitstellung im Data Warehouse

Die Erkenntnis, dass ein Informationsvorsprung zu Wettbewerbsvorteilen führen kann, etabliert die Information immer häufiger als vierte Säule zu den drei herkömmlichen Produktionsfaktoren Arbeit, Boden, Kapital.15 Informationen basieren hierbei auf Daten, die entweder intern aus dem Unternehmen stammen oder externen Charakter aufweisen. Die Erfassung und Verwaltung von Daten fallen in den Aufgabenbereich der Datenbereitstellung, jedoch stellt dies mittlerweile keine Herausforderung mehr dar. In fast jedem Unternehmen werden Personaldaten eingegeben oder Verkäufe durch Scanner-Kassen erfasst. Komplex wird es erst, Daten in verschiedenen Datenformaten mit unterschiedlicher Qualität aus heterogenen Datenmodellen und Datenbanksystemen zu vereinen, um sie für Analysen aufzubereiten.16 Data-Warehouse-Systeme sind dafür ausgelegt, Aufgaben solcher Art zu bewältigen. Sie bilden eine Infrastruktur zur analytisch orientierten Bereitstellung von Datenbeständen, wobei die Qualität, Integrität und Konsistenz des Datenmaterials erst in einem vorausgehenden Prozess hergestellt werden müssen.17 Inmon, einer der Pioniere in diesem Bereich, lieferte hierzu im Jahr 1996 eine erste Definition, die bis heute prägend ist: „A data warehouse is a subject-oriented, integrated, non-volatile, and time-variant collection of data in support of management’s decisions.“18 Daraus ergeben sich folgende Merkmale eines Data Warehouses:

- Themenorientierung (subject-oriented): Die interne Klassifizierung erfolgt anhand entscheidungsrelevanter Geschäftsthemen bzw. Geschäftsobjekten wie
z. B. Kunde, Artikel oder Niederlassung.
- Vereinheitlichung (integrated): Ein zentrales Merkmal des Data Warehouse Konzepts ist der formal- und strukturell vereinheitlichte Datenbestand, der im Rahmen der Datenübernahme durch Extraktion, Transformation und Laden (ETL)19 der heterogenen Quelldaten erfolgt.20
- Beständigkeit (non-volatile): Benutzer eines Data-Warehouse-Systems kön­nen nur lesend auf den Datenbestand zugreifen, wodurch eine Beständigkeit sichergestellt ist. Darüber hinaus werden ältere Daten nicht gelöscht oder durch neue ersetzt, sondern lediglich ergänzt.21
- Zeitorientierung (time-variant): Für zeitraumbezogene Analysen bedarf es neben aktueller auch historischer Daten. Deshalb sind Daten im Data Warehouse anhand ihres Zeitbezugs zu identifizieren. Somit werden Vergleiche über längere Zeit möglich.22

Die Definition von Immon ist mit der Erkenntnis, dass eine anforderungsgerechte Bereitstellung entscheidungsrelevanter Informationen nur durch eine gesonderte Aufbewahrung der benötigten Daten erfolgen kann, erweitert worden. Diesbezüglich ist die Definition von Gabriel u. a. aktuell und allgemein akzeptiert: „Data Warehouses sind von den operativen Datenbeständen getrennte, logisch zentralisierte dispositive Datenhaltungssysteme. Ideal typischerweise dienen sie unternehmensweit als einheitliche und konsistente Datenbasis für alle Arten von Managementunterstützungssystemen.“23
Dabei bilden Datenquellen, wie der Begriff verrät, den Ursprung eines Data Warehouses. Die Beschaffenheit der Informationen aus dem Data Warehouse ist somit unmittelbar von der Beschaffenheit der Datenquellen abhängig. Daher erweist sich die Auswahl geeigneter Datenquellen als besonders wichtig.24 Eine besondere Rolle spielen dabei die Qualitätsanforderungen, die ausschlaggebend für ein erfolgreiches Data-Warehouse-Vorhaben sind. Im Folgenden wird deshalb darauf näher eingegangen.

2.3 Datenqualität

Wie bereits im vorigen Kapitel erwähnt, herrscht eine Korrelation zwischen der Qualität betrachteter Daten und der Qualität der daraus generierten Informationen. Dabei ist zu berücksichtigen, dass die Beurteilung der Qualität sehr subjektiv geprägt und jeweils vom Anwender bestimmt wird.25 Würthele definiert Datenqualität daher wie folgt: „mehrdimensionales Maß für die Eignung von Daten, den an ihre Erfassung/ Generierung gebundenen Zweck zu erfüllen. Diese Eignung kann sich über die Zeit ändern, wenn sich die Bedürfnisse ändern.“26 Diese Definition macht deutlich, dass das Qualitätsverständnis für die Daten nicht starr ausfällt, sondern vom Zeitpunkt der Betrachtung abhängt. Um die Datenqualität für die Bewertung des Erfüllungsgrades durch den Datennutzer messbar zu machen, sind Qualitätskriterien notwendig, die den Daten zugeordnet werden. In der Praxis besteht das Ziel dabei nicht darin, einen hundertprozentigen Erfüllungsgrad der Kriterien zu erreichen. Vielmehr geht es darum, anwendungs- oder kundenbezogene Richtwerte festzulegen.27 Im Folgenden wird auf die wichtigsten Qualitätskriterien näher eingegangen:28

- Korrektheit: Die erfassten Daten müssen inhaltlich und formal mit der Realität übereinstimmen. Ein Beispiel aus dem Produktionsbereich sind Rüstkosten pro Auftrag, die einerseits wahrheitsgemäß und anderseits in einem vordefinierten Format ermittelt werden müssen (€/Auftrag, $/Auftrag).
- Konsistenz: Ein Datensatz darf in sich und zu anderen Datensätzen keine Widersprüche aufweisen. Zum Beispiel kann die Durchlaufzeit eines Produktes nicht null sein und auch nicht kleiner als die Bearbeitungszeit in einem Prozessschritt.
- Zuverlässigkeit/Nachvollziehbarkeit : Hinsichtlich der Datenwerte muss ein Vertrauen herrschen, sodass die Entstehung der Daten nachvollziehbar organisiert werden sollte. In der Logistik sind z. B. Angaben über durchschnittliche Lagerbestände anhand diverser Formeln zuverlässig und transparent festzuhalten.
- Vollständigkeit: Ein Datensatz muss alle notwendigen Attribute enthalten. Es ist z. B. nicht möglich, Angaben über Nacharbeitskosten in der Produktion zu treffen, wenn nachbearbeitete Produkte im System nicht erfasst werden oder bei der Übermittlung verloren gegangen sind. Ebenfalls ist die Nutzung nicht regelmäßig gepflegter Daten problematisch. Für den Umgang mit solchen Attributen können analog die Methoden verwendet werden, die Runkler bei der Behandlung von Ausreißern einsetzt:29
- Ersetzung der fehlenden Werte durch Maximal- oder Minimalwerte
- Ersetzen durch den Mittelwert der umgebenden Daten
- Ergänzung durch verschiedene Algorithmen
- Entfernen des betroffenen Attributes oder der gesamten Daten
- Ersetzung durch den Wert Null
- Genauigkeit: Die Daten müssen in dem jeweils geforderten Detaillierungsgrad vorliegen. Bearbeitungszeiten eines Bauteils müssen diesbezüglich auf die Sekunde genau bestimmt werden, um eine präzise Aussage über die Durchlaufzeiten treffen zu können.
- Aktualität/Zeitnähe : Alle Datensätze müssen je nach Anwendung den Aktualitätskriterien entsprechen und zu dem vom Anwender benötigten Zeitpunkt zur Verfügung stehen. Demnach benötigt das Management z. B. vor Abgabe eines Angebotes aktuelle Angaben über die freien Kapazitäten in der Produktion.

Qualitativ mangelhafte Daten können im Data Warehousing einen erheblichen Extraaufwand verursachen. Auswirkungen können wie folgt sein:30

- Zusätzlicher Zeit- und Kostenaufwand zur nachträglichen Beseitigung von Qualitätsmangeln.
- Taktische und strategische Fehlentscheidungen aufgrund fehlerhafter Datenanalysen.
- Unzufriedenheit und daraus folgend Demotivation von Anwendern, die sich wiederum negativ auf die Leistung auswirken.

Um dem Leitsatz „Garbage in garbage out“31 in einem Data Warehouse vorzubeugen, gibt es in der Literatur verschiedene Publikationen, mit denen die Datenqualität sichergestellt werden kann.32

2.4 Wissensgenerierung in der Datenanalyseebene

Nachdem die Datenbereitstellung erläutert ist, erfolgt der Übergang zu der Analyseebene, die darauf aufsetzt und die eigentliche Wissensgenerierung zum Gegenstand hat. Die im Data Warehouse vorhandenen bereinigten und konsolidierten Datenmaterialien bieten hierbei optimale Voraussetzungen für zuverlässige Untersuchungsresultate. Im Rahmen der Analysephase werden aus dem vorhandenen Datenbestand durch diverse Analyseverfahren und Interpretationen zweckorientierte Informationen gewonnen. Diese sind wiederum zur Beschreibung von Systemen und Wirkungszusammenhängen oder zu Entscheidungsunterstützungen heranzuziehen. Data Mining stellt in dem Zusammenhang ein bedeutendes Verfahren dar, das im Rahmen des Knowledge Discovery in Databases seinen Einsatz findet.

2.4.1 Data Mining im Rahmen des Knowledge Discovery in Databases

Der Begriff Data Mining beschreibt das Fördern wertvoller verschütteter Informationen aus großen Datenbeständen und geht auf Fayyad u. a. zurück. Sie sehen Data Mining als einen Prozessschritt des Knowledge Discovery in Databases (KDD) und definieren es wie folgt: „Data Mining is a step in the KDD process that consists of applying data analysis and discovery algorithms that produce a particular enumeration of patterns or models over the data.”33 Aus dieser Definition geht hervor, dass das Data Mining nicht vom KDD isoliert betrachtet werden kann, sondern einen Teilprozess davon ausmacht. Diesbezüglich ist eine Klärung des KDD-Begriffs ebenfalls notwendig. Fayyad u. a. liefern hierzu die folgende Definition: „KDD is the non-trivial process of identifying valid, novel, potentially useful, and ultimately understandable pattern in data.“34 Knowledge Discovery in Databases ist demnach darauf ausgerichtet, Beziehungsmuster, wie z. B. Regelmäßigkeiten oder Auffälligkeiten, in umfangreichen Datenbeständen aufzudecken. Diese Beziehungsmuster müssen für einen möglichst großen Anteil der Datenbasis gültig sein und bislang unbekannte, potenziell nützliche und verständliche Zusammenhänge in dem Datensatz zum Ausdruck bringen. In der Abbildung 3 ist der Prozess des Knowledge Discovery in Databases dargestellt. Er beinhaltet die:

1. Auswahlphase
2. Aufbereitungsphase
3. Festlegungsphase
4. Analysephase
5. Interpretationsphase

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Vorgehensmodell des Knowledge Discovery in Databases 35

Im Rahmen der Auswahlphase wird eine für die ausgewählte Aufgabenstellung relevante Datenbasis bestimmt. Außerdem ist bei der Datenauswahl zu überprüfen, ob eine Analyse der relevanten Datenbasis im Rahmen des Knowledge Discovery in Databases möglich und zulässig ist. Die Verfügbarkeit eines Datenbestands für eine Analyse kann aufgrund technischer, organisatorischer oder rechtlicher Gründe eingeschränkt sein.36

Die Tätigkeiten in der Aufbereitungsphase sind auf eine Verbesserung der Qualität der ausgewählten Datenbasis, insbesondere im Hinblick auf die Vollständigkeit und Konsistenz der Daten, ausgerichtet. Sie umfassen eine Integration, Bereinigung, Anreicherung und Reduktion des Datenbestands.37 Der vorgelagerte Einsatz von Data-Warehouse-Systemen weist bei den Datenaufbereitungsschritten einen unterstützenden Charakter auf. Die Aufbereitung erfolgt einfacher sowie schneller, da mit diesen Systemen regelmäßig und systematisch Daten zusammengeführt werden.38 Falls jedoch dagegen operative Datenbestände als Quellen dienen, werden eine teure und aufwendige Bereinigung und Transformation der meist heterogenen Daten notwendig. Im gesamten KDD-Prozess kann dieser Schritt bis zu 80 % der zeitlichen, technischen und personellen Ressourcen in Anspruch nehmen.39

Die Festlegung der Zielsetzung und die damit verbundene Auswahl der geeigneten Analyseverfahren sowie Umfang und Darstellung der zu analysierenden Daten sind Gegenstand der Festlegungsphase.
Als zentrale Prozessphase bei diesem idealtypischen KDD-Durchlauf ist die Analyse zu verstehen. In der Analysephase werden anhand eines oder mehrerer Analysemethoden Beziehungsmuster aus Datenbeständen ermittelt und abgebildet. Die mit der Analyse im Rahmen des KDD-Prozess verbundenen Tätigkeiten werden auch unter der Bezeichnung Data Mining zusammengefasst. Abhängig vom jeweiligen Anwendungsbereich und der Zielsetzung des Data Mining kann eine Vielzahl verschiedener Methoden zum Einsatz kommen.40

Im letzten Schritt des KDD-Prozesses erfolgt im Rahmen der Interpretationsphase die Ableitung expliziten Wissens aus den ermittelten Beziehungsmustern. Die Analyseergebnisse werden dafür überprüft und ausgewertet. Im Rahmen der Überprüfung wird die Güte nach der Genauigkeit, Signifikanz und Generalisierungsfähigkeit ermittelt. Die Auswertung der Analyseergebnisse umfasst einerseits die Darstellung der in den ermittelten Beziehungsmustern ausgedrückten Zusammenhänge in einer für den Anwender verständlichen Form. Im Rahmen der Auswertung der Analyseergebnisse werden andererseits die dargestellten Zusammenhänge in Beziehung zu der Aufgabenstellung des Knowledge Discovery in Databases gesetzt, um aus dem Kontextbezug die Neuigkeit und Nützlichkeit der Hypothesen zu bestimmen.41

2.4.2 Umsetzung in der Praxis anhand von CRISP-DM und SEMMA

Anknüpfend zum vorigen Kapitel, wird im nächsten Schritt die Umsetzung in der Praxis betrachtet. Hierbei dienen die in Abbildung 4 dargestellten Umfrageergebnisse aus dem Jahr 2007 als Grundlage. Augenscheinlich ist, dass neben selbstentwickelten Methoden die standardisierten Verfahren CRISP-DM und SEMMA am häufigsten von Unternehmen eingesetzt werden, auf die daher im weiteren Verlauf eingegangen wird.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4: Umfrage aus dem Jahr 2007 über die eingesetzten Data Mining Vorgehensmodelle 42

CRISP-DM

Ein sehr verbreitetes Prozessmodell stellt das CRISP-DM (Cross Industry Standard Process for Data Mining) dar. Dieses Modell wurde auf Basis von Projekterfahrungen zum Data Mining entwickelt und zeigt somit einen direkten Bezug zur Praxis. Die Entstehungsgeschichte geht bis auf das Jahr 1996 zurück, in dem das CRISP-DM-Konsortium, bestehend aus bekannten Unternehmen wie Daimler und SPSS, gegründet wurde, um diese Erfahrungen im Rahmen eines standardisierten Konzepts festzuhalten.43 Der CRISP-DM-Prozess besteht, wie in der Abbildung 5 zu sehen ist, aus sechs Phasen, die in unterschiedlichen Beziehungen zueinander stehen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5: CRISP-DM Prozessmodell 44

Den Ausgangspunkt für dieses Modell bildet der Datenbestand. Daten durchlaufen die Phasen Business Understanding, Data Understanding, Data Preparation, Modelling, Evaluation und Deployment, wobei hier keine starre Reihenfolge vorgegeben ist. Das Ergebnis jeder Phase bestimmt, welcher Schritt als Nächstes ausgeführt wird. Die Pfeile stellen hierbei die häufigste Reihenfolge und Beziehungen dar. Rückkopplungen zu den vorgelagerten Phasen sind ebenfalls jederzeit möglich. Der äußere Kreis symbolisiert, dass Data-Mining-Prozesse beständig sind und somit kein Ende haben. Gewonnene Erkenntnisse können in diesem Zusammenhang weitere Beziehungen im Geschäftsablauf aufdecken.45 Im Folgenden schließt sich die Betrachtung der einzelnen Phasen an:

- Business Understanding: Datenanalysen haben das Ziel, für den Auftraggeber im Geschäftsablauf Vorteile zu schaffen oder Probleme zu lösen. Diesbezüglich ist das Verständnis der Projektziele und Anforderungen aus Sicht der Unternehmen in diesem ersten Schritt zu definieren und einzubeziehen. Diese Ziele werden anschließend in einem Data-Mining-Kontext umgewandelt und ein erster Plan wird erstellt, wie diese Ziele zu erreichen sind.46
- Data Understanding: Neben der Auswahl geeigneter und zuverlässiger Daten stellt das Verständnis dieser Daten eine sehr große Herausforderung dar, denn eine fehlerhafte Interpretation könnte zu falschen Ergebnissen führen.47 In dieser Phase erfolgt die erste Auseinandersetzung mit den Daten. Neben Datenqualitätsproblemen werden erste Beziehungen aufgedeckt, um Hypothesen zu bilden.48
- Data Preparation: In der Vorbereitung erfolgen alle Aktivitäten, die die Rohdaten in ein konsistentes Format bringen. Dazu gehören Auswahl, Reinigung, Konstruktion, Integration und Formatierung der Daten. Diese Bearbeitungsschritte sind so lange durchzuführen, bis die Datensätze der Modellierung gerechten Formen gebracht sind.49 Dabei existiert zwar keine allumfassende Beschaffenheit, aber gleiche Faktoren, die aus verschiedenen Datensätzen integriert werden, müssen einheitlich gestaltet sein. Es sollte auch eine Strategie bei der Behandlung von Ausreißern und fehlenden Werten bestimmt werden.
- Modelling: Das Modellieren umfasst in Abhängigkeit der Anforderungen die Auswahl und den Einsatz diverser Modellierungstechniken. Hierbei ist zu berücksichtigen, dass diese Techniken mit unterschiedlichen Datenformaten arbeiten.50 Deshalb findet oft eine Rückkopplung auf die Vorbereitungsphase statt.51
- Evaluation: In der vorletzten Phase erfolgt die Bewertung der ausgewählten Modelle anhand von Fragen wie: Hat das Modell die Anforderungen erreicht? Wurden alle Anforderungen berücksichtigt? Kann das Modell von Fachexperten verwendet werden? Ist das Modell geeignet, den Gewinn positiv zu beeinflussen? Falls ja, in welchem Maße? Nachdem diese Fragen zufriedenstellend beantwortet sind, erfolgt der Übergang in die Bereitstellung.52
- Deployment: Im letzten Schritt kommen die Umwandlung und Präsentation der Erkenntnisse in einer Weise, dass der Auftraggeber es verstehen kann. Schließlich erfolgt die Realisierung der Maßnahmen in den meisten Fällen durch den Kunden selbst.53

SEMMA

Mit SEMMA hat das Softwareunternehmen SAS eine iterative Methodik entwickelt, die bei der Implementierung von Data-Mining-Projekten in der Praxis einen unterstützenden Leitfaden bietet und eines der meisteingesetzten Prozessmodelle geworden ist. Die Abkürzung SEMMA steht in dem Zusammenhang für Sample, Explore, Modify, Model und Assess (Abbildung 6).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 6: SEMMA-Prozess 54

- Sample: Der SEMMA-Prozess beginnt mit der Ziehung der Stichprobe, die analysiert werden soll. Im Rahmen der Stichprobenziehung gilt es, eine möglichst gute Widerspiegelung der Verhältnisse in der Grundgesamtheit zu erreichen. Hierbei ist zu beachten, dass alle Ausprägungen der Grundgesamtheit in der Stichprobe abgebildet sind, aber auch gleichzeitig eine schnelle Bearbeitung möglich ist.55
- Explore: In dem zweiten Schritt erfolgt eine explorative Datenanalyse mit dem Ziel, unbekannte Anomalien und Beziehungen in dem Datenbestand aufzudecken.
- Modify: Der dritte Schritt hat die Modifikation von Daten im Sinne von Schaffen, Selektieren und Transformieren der Variablen zur Erstellung eines einheitlichen Datenbestandes zum Gegenstand.
- Model: Im vorletzten Schritt erfolgt das Modellieren durch eine automatische Suche nach zusammenhängenden Regeln und Mustern, die eine zuverlässige Abbildung über die beobachteten Ergebnisse liefern.
- Assess: Der letzte Schritt beinhaltet nach dem Erfüllungsgrad der Anforderungen die Bewertung der Ergebnisse, die ermittelt wurden.

Das Konzept SEMMA bietet also bei der Ausführung eines Data-Mining-Projekts eine vereinfachte und verständliche Vorgehensweise, die beim Darstellen von Lösungen für betriebliche Probleme sowie bei der Definierung der DM-Ziele eingesetzt wird.56

Nach der Beschreibung der zwei meistverbreiteten standardisierten Data-Mining-Modelle ist zu sehen, dass sich beide in ihrer grundlegenden Zielsetzung ähneln. Beide Modelle haben das Ziel, Anwender beim Einsatz von Data Mining in der Realität zu leiten.57 Allerdings ist SEMMA im Gegensatz zu CRISP-DM nicht allumfassend und konzentriert sich hauptsächlich auf die statistischen Schritte. Die-Business-Understanding-Phase des CRISP-DM-Verfahrens ist in der Form nicht vorhanden. Somit werden in SEMMA die unternehmerischen Interessen nicht standardisiert miteinbezogen. Außerdem ist es speziell auf die Data-Mining-Software des Softwareunternehmens SAS zugeschnitten konzipiert und deshalb mit anderen Softwares nur schwer einsetzbar.58

2.5 Ausgewählte Werkzeuge für das Data Mining

Nachdem der Prozess der Wissensgenerierung im wissenschaftlichen sowie praktischen Umfeld umfangreich betrachtet ist, richtet sich das Augenmerk auf die eigentlichen Werkzeuge, die im Rahmen des Data Mining ihren Einsatz finden. Das Data Mining ist seit längerem in vielen Unternehmen unterschiedlicher Branchen verbreitet. Dabei bedient es sich meist mathematisch-statistischer Werkzeuge.59 Abhängig von den zu analysierenden Daten und Datenbeständen sind unterschiedliche Methoden von Bedeutung. Beispielsweise kann je nach Aufgabenstellung zwischen Segmentierungs-, Klassifikations-, Prognose- und Assoziationsmethoden unterschieden werden. Eine praktische Unterteilung der elementaren Methoden liefert Bankhofer, diese sind in der Tabelle 1 zu sehen. Die einzelnen Methoden werden gleichzeitig in verschiedene Anwendungsbereiche eingeordnet und sind somit zum Teil nach Aufgabenstellung vielseitig einsetzbar.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Anwendungsbereiche und Methoden des Data Mining 60

Die Clusteranalyse hat in diesem Rahmen das Ziel, einen gesamten Datenbestand in einzelne Teile zu zerlegen. Entscheidungsbaumverfahren werden dagegen eingesetzt, um Datenobjekte in vordefinierte Klassen zu unterteilen. Neuronale Netze helfen basierend auf Variablenbeziehungen bei Vorhersagen von Ereignissen. Assoziationsanalysen decken Beziehungen zwischen einzelnen Datenobjekten auf. Laut Choudhary u. a. kommen diese Methoden in der Praxis nicht nur einzeln zum Einsatz, sondern häufig in hybrider Form.61

In diesem Abschnitt sind diese in der Praxis am häufigsten verwendeten Werkzeuge einzeln anhand von Beispielen erläutert.

2.5.1 Clusterverfahren im Rahmen der Segmentierung

Mit Clusterverfahren wird die Absicht verfolgt, Elemente eines Datensatzes derart aufzuteilen, dass sie danach innerhalb der gebildeten Klassen möglichst ähnlich und zwischen den Klassen möglichst verschieden sind.62 Clusterverfahren ergeben somit typische Werkzeuge, um die Segmentierung des Datenbestandes durchzuführen. Dabei erfolgt die Clusterbildung nach identifizierten logisch verwandten Zusammenhängen, ohne dass die zu bildenden Klassen a priori bekannt sind. Essenziell für die Anwendung von Clusterverfahren ist die Vorab-Festlegung darüber, wie die Distanz bzw. Ähnlichkeit zweier Datenobjekte zu messen ist. Liegen Datensätze mit ausschließlich numerischen Attributwerten vor, so lässt sich als Distanzmaß beispielsweise die Euklidische Distanz wählen.63 Bei ausschließlich nominalen Attributwerten kann als Ähnlichkeitsmaß die Anzahl der übereinstimmenden Attributwerte zweier Datensätze herangezogen oder nach einer numerischen Codierung verfahren werden.64 Die Literatur enthält unterschiedliche Kategorisierungsansätze für Clusterverfahren, die je nach Ausgangszustand der Daten und dem Ziel der Analyse genutzt werden können. Verbreitet ist die Unterscheidung zwischen unvollständigen/geometrischen, deterministischen sowie probabilistischen Verfahren.65
Relevant für das Data Mining sind die deterministischen Verfahren, die sich einerseits in hierarchische und anderseits in partitionierende Verfahren unterteilen. Die hierarchischen Verfahren bilden iterativ Partitionen des Datenbestandes, indem eine neue Partition aus einer Operation auf einer bestehenden Partition resultiert. Hierbei gibt es zwei Arten von Operationen, wodurch eine weitere Aufteilung der hierarchischen Clusterverfahren in agglomerative und divisive Verfahren erfolgt (Abbildung 7).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 7: Agglomeratives und divisives hierarchisches Clustering 66

- Agglomerative Verfahren: Ausgangspunkt ist eine Partition, in der jeder Datensatz als eigenes Cluster aufgefasst ist. In einem Iterationsschritt werden dann zwei Cluster einer Partition mit der größten Ähnlichkeit bzw. geringsten Distanz bezüglich eines Ähnlichkeitsmaßes zu einem Cluster zusammengefasst, so dass eine neue Partition entsteht, deren Clusteranzahl geringer ist. Dieser Prozess dauert sukzessive an, bis schließlich eine Partition erstellt wird, die aus nur einer Menge, dem Gesamtdatenbestand, besteht.67
- Divisive Verfahren: Ausgangspunkt ist eine Partition, die als einziges Cluster den Gesamtbestand beinhaltet, der schrittweise in kleinere Cluster unterteilt wird, bis schließlich alle Cluster aus jeweils einzelnen Datensätzen bestehen. Dabei ist ebenfalls zu berücksichtigen, dass zum Schluss die Datensätze innerhalb eines jeden Clusters eine möglichst hohe Ähnlichkeit und zu Datensätzen anderer Cluster eine möglichst geringe Ähnlichkeit zeigen.68

Bei den hierarchischen Verfahren entsteht eine Folge von Partitionen, die sich in der Anzahl der Cluster unterscheiden. Es ist damit möglich, nach Durchführung eines solchen Verfahrens eine beliebige Partition auszuwählen und zu verwenden. Insbesondere muss damit die Anzahl der Cluster vor der Anwendung des Verfahrens nicht festgelegt werden.

Dagegen gehen partitionierende Verfahren von einer vordefinierten Clusteranzahl aus, wobei jeder Datensatz auch hier sukzessive in die Klasse eingeteilt wird, zu der er die größte Ähnlichkeit besitzt. Das K-Means-Verfahren69, welches zu den partitionierenden Verfahren gehört und in der Praxis häufig zum Einsatz kommt, beginnt mit der Auswahl zufälliger Repräsentanten, die jeweils in den festgelegten Clustern als Zentrum betrachtet werden. Anschließend sind die zu verteilenden Datensätze den jeweiligen Clustern mit der größten Ähnlichkeit zuzuordnen. Nach jedem Zugang wird das Clusterzentrum neu berechnet, und zwar als Mittelwert aller Datensätze, die sich in diesem Cluster befinden. Dieses Verfahren wird nun für jeden Datensatz wiederholt, bis schließlich alle Datensätze auf die Cluster verteilt sind und/oder sich der Wert der Partitionierung nicht mehr ändert.70
Nun erfolgt die Umsetzung des Clusterverfahrens in der Praxis anhand eines vereinfachten Beispiels, womit ein Verständnis für die Funktionsweise dieser Verfahren geschaffen werden soll. Für eine erfolgreiche Marktanalyse ist die Kenntnis über die angesprochenen Zielgruppen maßgebend. Ein Unternehmen, welches bspw. entdeckt, dass sich die Zielgruppe für eine untersuchte Produktart hauptsächlich aus Personen einer bestimmten Altersgruppe und eines bestimmten Einkommens zusammensetzt, kann sein Sortiment sowie seine Marketingstrategie auf diese Zielgruppe anpassen, um so den Umsatz zu steigern. Zur gezielten Bearbeitung des Marktes gilt es somit, diesen nach Zielgruppen zu unterteilen. Dieser Vorgang ist auch als Marktsegmentierung bekannt. In diesem Beispiel wird gezeigt, wie die Kunden aus Tabelle 2 anhand ihrer Eigenschaften (Alter, Einkommen) gruppiert werden können. Die Gruppen, welche in diesem Kontext auch Cluster genannt werden, sollen somit Kunden mit ähnlichen Eigenschaften beinhalten.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 2: Beispielhafte Kundendaten für eine Marktsegmentierung 71

In Abbildung 8 ist ein mögliches Ergebnis einer solchen Clusteranalyse für das betrachtete Beispiel ersichtlich. Gesucht wurde dabei nach vier Clustern. Gefunden wurde ein Cluster, welcher Personen zwischen 20 und 30 Jahren mit hohem Einkommen beinhaltet, ein Cluster mit Personen zwischen 20 und 30 und niedrigem Einkommen, ein Cluster mit Personen zwischen 30 und 40 und hohem Einkommen sowie ein weiterer Cluster mit Personen derselben Altersschicht, jedoch mit niedrigem Einkommen. Anhand dieser Erkenntnisse ist es dem Unternehmen möglich eine Strategie aufzubauen, die sich auf die jeweiligen Kunden in den Clustern bezieht.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 8: Ergebnis einer Clusteranalyse zu den Daten aus Tabelle 2 72

Nach diesem Beispiel ergibt sich die Annahme, dass Cluster relativ einfach visuell bestimmt werden können. Diese Annahme ist passend, sofern es sich um eine kleine Datenmenge mit lediglich zwei zu untersuchenden Attributen handelt.73 In realen Anwendungen ist dies jedoch durchaus schwieriger, da vor allem große Datenmengen mit mehreren Attributen existieren, Ausreißer eine Segmentierung erschweren und oft zu relativ inhomogenen Clustern führen.74

2.5.2 Entscheidungsbaumverfahren im Rahmen der Klassifikation

Im Unterschied zu Clusteranalysen sind bei Klassifikationsverfahren die Klassen bzw. Gruppen bereits vorgegeben. Diese Modelle können zur Prognose der Klassenzugehörigkeit von Datenobjekten mit unbekannter Klassenzugehörigkeit eingesetzt werden, indem ein solches Datenobjekt anhand seiner Attributwerte einer von mehreren alternativen Klassen zugeordnet wird.75 Zur Klassifikation eignen sich vor allem die Entscheidungsbaumanalysen. Entscheidungsbäume sind einfach zu handhaben und führen zu übersichtlichen grafischen Darstellungen, die dann zu Entscheidungsunterstützungen herangezogen werden (Abbildung 9).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 9: Allgemeines Beispiel für einen Entscheidungsbaum 76

Sie bestehen aus hierarchisch geordneten Knoten, die durch Kanten miteinander verbunden sind. Die Knoten des Baumes repräsentieren die Teilmengen des Datenbestands, die Kanten die Aufteilungsvorschriften. Der Ausgangsdatenbestand ist zunächst in eine Trainings- und eine Testmenge zu unterteilen, deren Klassenzugehörigkeiten a priori bekannt sind.77 Mit der Trainingsmenge werden dann die relevanten Regeln ermittelt, um diese anschließend durch die Testmenge zu validieren.78 Die Hierarchie wird durch eine Klassifizierung auf Basis von Attributwerten aus der Trainingsmenge, das aus mehreren Objekten besteht, erzeugt. Zu jedem Trainingsobjekt erfolgt zunächst die Festlegung der Zielattribute als abhängige Größe, die es zu definieren gilt, da sie die Klassenzugehörigkeit repräsentiert. Als Klasse wird eine Entscheidung definiert, die zu treffen ist, wenn ein Objekt bestimmte Attributsausprägungen hinsichtlich der Entscheidung besitzt. Anschließend sind die unabhängigen Attribute zu identifizieren, welche die Ausprägung der Zielattribute beeinflussen. Ausgehend vom obersten Knoten, der diese Trainingsdaten beinhaltet und Wurzelknoten genannt wird, werden schließlich sukzessive Knoten für Knoten über alle Ebenen des Baumes nach jeweils einem Attribut geprüft und Entscheidungen abgeleitet.79 In jedem Knoten wird mit einem algorithmischen Verfahren entschieden, anhand welchen Attributs die nächste Verzweigung geschehen soll. Die bekanntesten sind hierbei:80

[...]


1 vgl. Kemper u. a. (2010), S. 4.

2 vgl. Frawley u. a. (1992), S. 57.

3 vgl. Fayyad u. a. (1996a), S. 2.

4 Digital Universe Studie der IDC, veröffentlicht in Statista (2012), URL siehe Literaturverzeichnis.

5 vgl. Adriaans und Zantinge (1996), S. 5.

6 vgl. ebenda.

7 vgl. Bacon, (1597).

8 Gluchowski u. a. (2008), S. 15.

9 vgl. ebenda, S. 89.

10 vgl. Krahl u. a. (1998), S. 11.

11 Chamoni und Gluchowski (2004), S. 119.

12 vgl. Gluchowski (2001), S. 6.

13 eigene Darstellung in Anlehnung an Kemper und Unger (2002), S. 665 und Baars und Kemper (2008), S. 139 für die Datenbereitstellungsebene.

14 vgl. Gluchowski u. a. (2008), S. 93.

15 vgl. Bauer und Günzel (2009), S. 6.

16 vgl. ebenda, S. 6.

17 vgl. Lehner (2003), S. 1.

18 Inmon (2005), S. 29.

19 für einen vertiefenden Einblick siehe Gluchowski u. a. (2008), S. 133 ff.

20 vgl. Holthuis (1998), S. 75.

21 vgl. Gómez u. a. (2009), S. 61.

22 vgl. ebenda.

23 Gabriel u. a. (2000), S. 76.

24 vgl. Gómez u. a. (2009), S. 71.

25 vgl. Müller (2000), S. 15.

26 Würthele (2003), S. 21.

27 vgl. Apel u. a. (2010), S. 19.

28 vgl. ebenda, S. 20 f.

29 vgl. Runkler (2010), S. 24 f.

30 vgl. Helfert (2000), S. 70.

31 Bauer und Günzel (2009), S. 43.

32 Für einen vertiefenden Einblick siehe Apel u. a. (2010) sie beschreiben allgemein, wie die Datenqualität erfolgreich gesteuert werden kann, Cordts (2009) entwickelt dagegen ein auf Data Warehouses zugeschnittenes Vorgehensmodell zur Verbesserung der Datenqualität.

33 Fayyad u. a. (1996b), S. 40.

34 Fayyad u. a. (1996b), S. 41.

35 eigene Darstellung in Anlehnung an Düsing (2006), S. 246.

36 vgl. Düsing (2006), S. 247.

37 vgl. ebenda.

38 vgl. Bankhofer (2004), S. 395.

39 vgl. Lieber u. a. (2013), S. 391.

40 siehe Kap. 2.5.

41 vgl. Düsing (2006), S. 254 f.

42 eigene Darstellung in Anlehnung an KDnuggets (2007), URL siehe Literaturverzeichnis.

43 vgl. Gabriel u. a. (2009), S. 124.

44 eigene Darstellung in Anlehnung an Chapman u. a. (2000), S. 10.

45 vgl. Chapman u. a. (2000), S. 10.

46 vgl. Marbán u. a. (2009a), S. 6.

47 vgl. King und Linden (2002), S. 12.

48 vgl. Marbán u. a. (2009a), S. 6.

49 vgl. Chapman u. a. (2000), S. 11.

50 Künstlich Neuronale Netze können z. B. nur mit numerischen Werten arbeiten.

51 vgl. ebenda, S. 11.

52 vgl. King und Linden (2002), S. 12.

53 vgl. Chapman u. a. (2000), S. 11.

54 eigene Darstellung in Anlehnung an Steiner (2008), S. 57.

55 vgl. Steiner (2008), S. 57.

56 vgl. Azevedo, (2008), S.183.

57 vgl. ebenda, S.185.

58 vgl. Rohanizadeh und Moghadam (2009), S. 42.

59 vgl. Köppen u. a. (2012), S. 265.

60 eigene Darstellung in Anlehnung an Bankhofer (2004), S. 397.

61 vgl. Choudhary u. a. (2009), S. 515.

62 vgl. Bacher u. a. (2010), S.18.

63 für einen vertiefenden Einblick siehe Runkler (2010).

64 vgl. Beekmann und Chamoni (2006), S. 274.

65 für einen vertiefenden Einblick siehe Bacher u. a. (2010).

66 eigene Darstellung in Anlehnung an Chamoni und Gluchowski (1998), S. 307.

67 vgl. Windt u. a. (2011), S. 229.

68 vgl. Beekmann und Chamoni (2006), S. 274.

69 für einen vertiefenden Einblick siehe Wu (2012).

70 vgl. Beekmann und Chamoni (2006), S. 275.

71 eigene Darstellung in Anlehnung an Tittel und Steyer (2009), S. 34.

72 eigene Darstellung in Anlehnung an Tittel und Steyer (2009), S. 35.

73 vgl. Tittel und Steyer (2009), S. 35.

74 vgl. Bankhofer (2004), S. 399.

75 vgl. Beekmann und Chamoni (2006), S. 264.

76 eigene Darstellung in Anlehnung an Krahl u. a. (1998), S. 69.

77 vgl. Köppen u. a. (2012), S. 279 f.

78 vgl. Gluchowski u. a. (2008), S. 197.

79 vgl. Petersohn (2005), S. 136.

80 für einen vertiefenden Einblick siehe Han u. a. (2012), S. 336 ff.

Ende der Leseprobe aus 118 Seiten

Details

Titel
Anwendungsfelder für Data Mining in Produktion und Logistik
Hochschule
Universität Stuttgart  (Fraunhofer Institut - Institut für Industrielle Fertigung und Fabrikbetrieb)
Veranstaltung
technisch orientierte Betriebswirtschaftslehre
Note
2,3
Autor
Jahr
2013
Seiten
118
Katalognummer
V281670
ISBN (eBook)
9783656756149
ISBN (Buch)
9783656756156
Dateigröße
3764 KB
Sprache
Deutsch
Schlagworte
anwendungsfelder, data, mining, produktion, logistik
Arbeit zitieren
Yasin Yakut (Autor), 2013, Anwendungsfelder für Data Mining in Produktion und Logistik, München, GRIN Verlag, https://www.grin.com/document/281670

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Anwendungsfelder für Data Mining in Produktion und Logistik


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden