Leseprobe
Inhaltsverzeichnis
1 Einleitung
1.1 Problemstellung
1.2 Zielsetzung
1.3 Aufbau der Arbeit
2 Data Mining
2.1 Einordung
2.1.1 lndustrie4.0
2.1.2 Abgrenzung zu Big Data
2.1.3 Vernetzung mit Business Intelligence
2.2 Konzept des Data Minings
2.2.1 Eigenschaften
2.2.2 Aufgaben des Data Minings
2.2.3 Algorithmen
2.2.4 Data Mining Lebenszyklus
2.3 Anwendungsbeispiele
2.4 Zusammenfassung
3 KonkreterAnwendungsfall
3.1. Anwendungsgebiete
3.1.1 Diagnosen
3.1.2 Ressourcenmanagement
3.1.3 IndividuelleAnpassung medizinischerGeräte
3.1.4 Personalmanagement
3.2 Vor- und Nachteile der Nutzung für das Unternehmen
3.2.1 Potenziale des Data Mining
3.2.2 Herausforderungen des Data Mining
4 Fazit
Abbildungsverzeichnis
Abbildung 1: Teilaspekte der Industrie 4.0 (Godina et. al, 2020, S. 3)
Abbildung 2: CRISP-DM (Chapman, Clinton, Kerber, Khabaza, Reinartz, Shearer& Wirth, 2000)
Abbildung 3: Ist-Daten zur Mehrarbeit des Pflegepersonals in einem Krankenhaus als fiktives Beispiel (Strohmeier, 2015, S. 34)
1 Einleitung
Zur Einleitung dieser Ausarbeitung sollen im Folgenden zunächst Problemstellung, Zielsetzung und Aufbau derArbeit dargelegt werden.
1.1 Problemstellung
,,We are drowning in information, but starving for knowledge”, beschreibt Zukunftsforscher John Naisbitt das exorbitante Wachstum an Datenmengen und fängt damit die Kernproblematik ein, der sich Unternehmen inmitten der Digitalisierung unweigerlich stellen müssen (Naisbitt, 1986). In Zeiten der Industrie 4.0 sorgen schier unendlich wirkende Datenmengen, auch als Big Data bezeichnet, dafür, dass Unternehmen vor der Herausforderung stehen, datengetriebenen Wertschöpfungsprozesse integrieren zu müssen, beziehungsweise diese Datenmengen zielgerichtet zu nutzen und zu verarbeiten (Gölzer, 2016, S. 8 ff.). Die Anzahl und Größe der weltweit vorhandenen Datensammlungen und Datenbanken nimmt dabei stetig zu (Frawley, Piatetsky-Shapiro & Matheus, 1991, S. 10 ff.). Prognosen zeigen sogar, dass das Volumen der jährlich generierten digitalen Datenmenge weltweit im Jahr 2025 bei etwa 175 Zettabyte liegen wird (International Data Corporation, 2018). Ein Zettbayte sind dabei 1.000.000.000.000.000 Megabyte, womit sich zum Beispiel 660 Milliarden Standard-Blu-rays oder 33 Millionen menschliche Gehirne füllen ließen, was die astronomische Dimension dieser Zahlen annähernd erahnen lässt (Statista Digital Economy Compass 2019, 2019). An Daten und Informationen zu gelangen, scheint daher nicht problematisch zu sein, während jedoch die effiziente und zielgerichtete Auswertung dieser Datenmengen für viele Unternehmen eine große Herausforderung darstellt.
1.2 Zielsetzung
An dieser Kernherausforderung setzt Data Mining als leistungsstarkes Analysewerkzeug an, dessen Einsatz in den letzten Jahren erheblich zugenommen hat (Oliff & Liu, 2017, S. 167). Um die Problemstellung, dass viele Unternehmen keinen Überblick über die effiziente Auswertung ihrer Daten besitzen, zielführend angehen zu können, soll in dieser Ausarbeitung ein Grundverständnis für Data Mining dargelegt werden. Das Skizzieren eines daran anschließenden praktischen Anwendungsfalls soll das Potenzial von Data Mining zusätzlich verdeutlichen, da hier die Nutzung von Data Mining-Verfahren exemplarisch dargestellt wird. Im Fokus soll dabei ein Krankenhaus als Organisation stehen, welches Data Mining einführt, um in unterschiedlichen Teildisziplinen zu effizienteren Prozessen und zu neuen Erkenntnissen zu gelangen. Dieser praktische Anwendungsfall dient dabei als exemplarisches Vorgehen und kann sowohl als Anreiz und Orientierung dienen Data Mining in die Unternehmensprozesse zu integrieren. Es sei dabei jedoch angemerkt, dass der gesamte Gestaltungsraum des Data Minings aufgrund der unzähligen Anwendungsmöglichkeiten kaum in einer solchen Ausarbeitung gänzlich abgedeckt werden kann, weshalb dieses Fallbeispiel viel mehr als Einblick in das Potenzial des Data Mining dienen soll.
1.3 Aufbau der Arbeit
Nachdem Problemstellung und Zielsetzung dieser Ausarbeitung bereits erläutert wurden, soll Data Mining als Analysewerkzeug in Kapitel 2 zunächst in den Kontext der Industrie 4.0 eingeordnet werden, während ebenso eine Abgrenzung zu ähnlichen Begrifflichkeiten wie Big Data und Business Intelligence vorgenommen wird. Daraufhin soll das allgemeine Konzept, Voraussetzungen, Aufgaben, Algorithmen, der Prozess und Anwendungsbeispiele des Data Minings dargelegt werden, ehe in Kapitel 3 schließlich das konkrete, jedoch fiktive Fallbeispiel erläutert wird, um ein anschauliches Verständnis für die Anwendung von Data Mining zu erhalten. Potenziale und Herausforderungen, abgeleitet aus dem Fallbeispiel, schließen diese Ausarbeitung letztlich mit einem anschließenden Fazit ab.
2 Data Mining
„Data Mining ist das semi-automatische Aufdecken von Mustern mittels DatenanalyseVerfahren in meist sehr großen und hochdimensionalen Datenbeständen“ (Müller & Lenz, 2013, S. 75). Data Mining lässt sich dabei mit dem Begriff der Datenmustererkennung übersetzen, da es die Prämisse pflegt, Muster und Auffälligkeiten in großen Datenmengen zu erkennen (Weber, 2014, S. 25). Um jedoch ein ganzheitliches Verständnis für Data Mining zu erlangen, braucht es zunächst eine kontextuelle Einbettung, beziehungsweise die Einordnung und Bedeutung von Data Mining, ehe näher auf das Konzept, seine Eigenschaften, Aufgaben, typische Verfahren, den Projektablauf und Anwendungsbeispiele eingegangen werden kann.
2.1 Einordung
Um die Bedeutung und Anwendung von Data Mining ganzheitlich verständlich darstellen zu können, braucht es zunächst einen Blick auf die Industrie 4.0, in welche das Data Mining als ein Teilaspekt einzuordnen ist (Godina, Ribeiro, Matos, Ferreira, Carvalho & Pecas, 2020, S. 1 ff.). Auch die Begriffsabgrenzungen zu Big Data und Business Intelligence sind von großer Bedeutung für die Einordnung, um zu verstehen, wie ähnliche Technologien und Megatrends ineinandergreifen, beziehungsweise aufeinander abgestimmt sind, um so in gemeinsamer Anwendung zum bestmöglichen Ergebnis zu führen.
2.1.1 Industrie 4.0
Die ökonomische Wirtschaft befindet sich nun mehr nach den revolutionären Epochen der Mechanisierung, Elektrifizierung und Informatisierung der Industrie in der vierten industriellen Revolution, die auch vereinfacht als die umfassende Digitalisierung der Industrie, beziehungsweise Industrie 4.0 bezeichnet werden kann (Hellinger, Stumpf & Kobsda, 2013, S. 5). Die Entwicklung cyber-physischer Systeme ermöglicht diese neue Epoche überhaupt erst, da sie dazu beitragen, dass sich Maschinen, Anlagen, Systeme und Betriebe weltweit immer stärker vernetzen, was auch zum Wachstum der Industrial Internet of Things beiträgt (Maschler, White & Weyrich, 2020, S. 2). Mit Industrie 4.0 ist dabei die „intelligente Vernetzung von Maschinen und Abläufen in der Industrie mit Hilfe von Informations- und Kommunikationstechnologie“ (Bundesministerium für Wirtschaft und Energie, 2019) gemeint, was wiederum die Grundlage für neue Wertschöpfungsformen und innovative Geschäftsmodelle geschaffen hat (Hellinger et. al,2013, S. 5).
Der Einsatz moderner Technologien wie Machine Learning, Blockchain Technologien, Additive Manufacturing oder Augemented Reality lassen sich der Industrie 4.0 ebenso zuordnen wie die enormen Datenmengen (Big Data), die wiederum durch Data Mining ausgewertet werden (Maschler et al., 2020, S. 5; Bundesministerium für Wirtschaft und Energie, 2019; Meinhardt & Popp, 2018, S. 229; Vgl. Abbildung 1). Erkennbar wird an dieser Stelle, dass die Industrie 4.0 eine Revolution der Geschäftsprozesse und -modelle ermöglicht und die Zusammenarbeit von Menschen und Technik grundlegend verändert (Ematinger, 2018, S. 9).
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Teilaspekte der Industrie 4.0 (Godina et. al, 2020, S. 3)
2.1.2 Abgrenzung zu Big Data
Der bereits erwähnte Begriff Big Data beschreibt grundsätzlich Technologien, die versprechen, einen grundlegenden Ansatz der Forschung in Informationssystemen zu erfüllen, nämlich die Bereitstellung der richtigen Informationen für den richtigen Empfänger in richtigen Mengen und Qualität zur wiederum richtigen Zeit (Schermann, Hemsen, Buchmüller, Bitter, Krcmar, Markl & Hoeren, 2014, S. 261). Grob beschrieben fasst die Begrifflichkeit Big Data die rasante Entwicklung der Technologie im Bereich der Speicherung und Verarbeitung von Daten zusammen (Schermann et. al, 2014, S. 261). Mit dem Beginn der Industrie 4.0 hat sich Big Data zu einem der meistdiskutierten Themen in Forschung und Praxis entwickelt und sorgt dabei in unterschiedlichsten Disziplinen für virulente Diskussionen, wie etwa im Finanzwesen, Marketing oder der Gesundheitsbranche (Buhl, Moser, Heidemann & Röglinger, 2013, S. 67). Grundsätzlich ist Big Data dabei ein Thema für alle Unternehmen, die mit enormen Datenmengen und neuen Technologien zur Speicherung, Verarbeitung und Analyse dieser Daten konfrontiert sind (Buhl et. al, 2013, S. 67).
Facetten von Big Data sind insbesondere die exorbitante Datenmenge, auch als Volume bezeichnet, die dazu führt, dass Unternehmen gar in der Größenordnung Petabytes ihre Daten listen (Weber, 2014, S. 12). Daneben ist es die Datenvielfalt (Variety), bei der Daten aus diversen Quellen und unterschiedlichster Art, wie etwa unstrukturierten, semistrukturierten und strukturierten Gruppierung entstammen (Weber, 2014, S. 12). Diese überhandgewinnenden Datenmengen gilt es dabei stetig schneller auszuwerten, teilweise gar in Echtzeit, damit die Geschwindigkeit der Verarbeitung mit dem Wachstum standhalten kann (Weber, 2014, S. 12). Als abschließende und an den vorherigen Punkten anknüpfende Facette stehen die Analytics, welche Methoden zur automatisierten Auswertung und Erkennung von Mustern oder Zusammenhängen beinhaltet, zu denen auch das Data Mining gehört (Weber, 2014, S. 12). Die Begrifflichkeit des Big Data kommt der des Data Mining daher recht nahe und wird oftmals synonym verwendet, doch gibt es zentrale Unterschiede, die per Definition zu trennen sind. Big Data ist zunächst eine Begrifflichkeit, die sich auf eine große Datenmenge bezieht, während Data Mining ein tiefes Eintauchen in diese Daten bedeutet, um diese zu extrahieren (Schermann et. al, 2014, S. 261 ff.). Big Data ist zudem ein Konzept und weniger ein präziser Begriff, während Data Mining eine Technik zur Datenanalyse darstellt (Krishna, 2015, S. 93 ff.). Während Big Data große Datenmengen speichert, um diese für spätere Business Anwendungen aufzubereiten, transformiert Data Mining die Informationen in konkretes Wissen, aus dem Handlungsempfehlungen abgeleitet werden können (Krishna, 2015, S. 93 ff.).
Grob zusammengefasst bezeichnet Data Mining Techniken und Verfahren zum Erkennen von Mustern in großen Datenmengen, die auf vorher definierte Art und Weise interessant und nützlich sind fürdie Aufgabenstellung (Petrak, 2015, S. 5ff.). Auch wird der Begriff des Data Mining für Anwendungen dieser Techniken, ebenso wie für die generelle Forschung verwendet, die sich mit dem Entwickeln der Verfahren beschäftigt (Petrak, 2015, S. 5 ff.). Eine allgemeingültige und explizite Definition liegt dabei im wissenschaftlichen Kontext nicht vor, weshalb sich Definitionen in der Literatur teilweise unterscheiden (Petrak, 2015, S. 5ff.).
2.1.3 Vernetzung mit Business Intelligence
Neben der Notwendigkeit, diese bereits angesprochenen riesigen Datenmenge zu speichern, müssen Unternehmen auch in der Lage sein, sie sinnvoll zu nutzen, womit die Business Intelligence ins Spiel kommt (Baars & Kemper, 2021, S. 1 ff.). Business Intelligence (nachfolgend BI) ist eine Sammlung von Anwendungen und Techniken, mit denen Daten in verwertbare Informationen umgewandelt werden können. BI umfasst dabei Datenanalysen auf Unternehmensebene, die Bereiche für betriebliche Verbesserungen und externe Erweiterungen aufzeigen. Darüber hinaus kann Business Intelligence auch die Visualisierung von Daten beinhalten, was strategische Geschäftsentscheidungen weiter erleichtert (Baars & Kemper, 2021, S. 1 ff.). Neben der internen Datenanalyse können Unternehmen BI auch in Datenbanken von Drittanbietern einsetzen, um Erkenntnisse über Konkurrenten oder potenzielle Geschäftspartner zu gewinnen. Der Zweck von Business Intelligence besteht darin, Daten in nützliche Informationen umzuwandeln, damit im Unternehmen datengestützt strategische und operative Entscheidungen getroffen werden können, um Kosteneinsparungen zu erzielen oder Kunden besser bedienen zu können (Baars & Kemper, 2021, S. 1 ff.).
Obwohl BI und Data Mining per Definition recht unterschiedlich sind, funktionieren die beiden Prozesse am besten, wenn sie gemeinsam eingesetzt werden. So kann Data Mining als Vorläufer von BI betrachtet werden. Bei der Erfassung sind die Daten oft roh und unstrukturiert, was es schwierig macht, Schlussfolgerungen zu ziehen. Data Mining entschlüsselt diese komplexen Datensätze und liefert dem Business Intelligence-Team eine bereinigte Version, aus der es Erkenntnisse ableiten kann (Baars & Kemper, 2021, S. 127 ff.). Darüber hinaus kann Data Mining auch kleinere Datensätze untersuchen, womit Unternehmen auf diese Weise die Ursache eines bestimmten Trends ermitteln kann, um ihn dann mithilfe von Business Intelligence Methoden zu nutzen. So nutzen Analysten Data Mining, um spezifische Informationen in dem von ihnen benötigten Format zu sammeln und setzen dann Business Intelligence-Tools ein, um zu ermitteln und darzustellen, warum die Informationen wichtig sind (Baars & Kemper, 2021, S. 127 ff.). Zusammengefasst nutzen Unternehmen Data Mining, um ein Verständnis für das Was zu erlangen, während mit Business Intelligence darauf aufbauend das Wie und Warum beantwortet werden soll. Unternehmen, die sowohl in BI- als auch in DataMining-Tools investieren, können anspruchsvolle Analysen schnell durchführen, testen und interpretieren. Folglich führen Data Mining und Business Intelligence zu schlankeren Prozessen und höheren finanziellen Erträgen (Baars & Kemper, 2021, S. 127 ff.).
2.2 Konzept des Data Minings
Nachdem nun die Einordnung in einen Kontext dargelegt wurde, kann ein näherer Blick auf das konkrete Konzept des Data Minings geworfen werden, was Voraussetzungen, Aufgaben, Algorithmen, den Ablauf und Anwendungsbeispiele umfasst.
2.2.1 Eigenschaften
Wie bereits beschrieben, liegt für das Data Mining keine einheitliche Definition vor, doch lassen sich Eigenschaften und Voraussetzungen benennen, die von den Mustern abverlangt werden, welche die Methoden des Data Minings aufzudecken versuchen. Muster sind dabei beispielsweise regelhafte Beziehungen zwischen Eigenschaften von Objekten, Beziehungen zwischen Objekten, zeitliche Verläufe, räumliche Muster, Gruppierungen ähnlicher Objekte, Abweichungen von statistischen Verteilungen oder auch Ausnahmen und auffällige Objekte (Petrak, 2015, S. 9).
- Verständlichkeit: Das Wissen, das durch dieses Muster generiert wird, muss in leicht verständlicher Sprache oder graphischer Form und zudem in einem angemessenen Umfang dargelegt werden, um vom Anwender erfasst werden zu können (Petrak, 2015, S. 9; Runkler, 2010, S. 2 ff.).
- Gültigkeit: Es muss gewährleistet sein, dass die neuen Erkenntnisse nicht ausschließlich auf die aktuell vorliegenden Daten, sondern auch auf zukünftige Ereignisse, beziehungsweise zukünftige Daten zutreffen wird. Um dies mit einer gewissen Sicherheit abschätzen zu können kann die Certainty Measure Function angewandt werden (Petrak, 2015, S. 9; Runkler, 2010, S. 2ff.).
- Neuheit: Das gefundene Wissen sollte für die Anwender in einer gewissen Weise neu sein und somit Erkenntnisse liefern, die vorher so nicht vorhanden waren (Petrak, 2015, S. 9).
- Nützlichkeit: Damit das neugefundene Wissen auch einen Mehrwert bietet, soll es selbstverständlich auch die Prämisse erfüllen, nützlich zu sein und eine konkrete, sowie relevante Aufgabenstellung erfüllen (Petrak, 2015, S. 9; Runkler, 2010, S.2ff.).
- Nicht-Trivialität: „Bei der Suche nach Wissen im Sinne des Data Mining wird vom Algorithmus verlangt, autonom komplexe Zusammenhänge zu untersuchen und nur interessante als Wissen zu präsentieren“ (Petrak, 2015, S. 9). Das bedeutet, dass das Data Mining System beispielsweise auch eigenständig in einer Datenbank Auffälligkeiten entdecken sollte.
2.2.2 Aufgaben des Data Minings
Nachdem nun Voraussetzungen für das Data Mining beleuchtet wurden, braucht es auch ein Verständnis für die Methoden und Aufgaben, die Anwendung finden. Sämtliche Methoden des Data Minings lassen sich aufteilen in die grundlegenden Aufgaben des Data Minings, welche aus der Klassifikation, Prognose, Clustering und Assoziations- bzw. Sequenzanalysen bestehen (Beekmann & Chamoni, 2006, S. 263 ff.). Um ein Verständnis für die unterschiedlichen Bereich zu erlangen, sollen diese nun nachfolgend grob erläutert werden. Die meisten der Methoden des Data Mining zum Finden von Mustern in Datenbanken stammen ursprünglich aus den Bereichen des maschinellen Lernens oderderStatistik (Petrak, 2015, S. 10).
1. Klassifikation:
Die Klassifikation von Daten und Datensätzen ist eine der populärsten Data-Mining Methoden in der Anwendung (Runkler, 2010, S. 85 ff.; Baars & Kemper, 2021, S. 128). Die Basis bilden vorab festgelegte Klassen. Ein Algorithmus fügt Objekte anhand seiner Merkmale zu diesen Klassen hinzu, sofern sie auf diese Klasse zutreffen. Damit ein Objekt einer Klasse zugeordnet werden kann, braucht es als Grundlage Datensätze, in der eine Zielgröße und ein Merkmal enthalten sind (Runkler, 2010, S. 85 ff.; Baars & Kemper, 2021, S. 128). Beispielsweise könnte für ein Modehaus ein Besucher der Online-Website das Objekt sein. Getestet wird eine neue Rabattaktion als Zielgröße und die Besucher werden klassifiziert als Käufer oder Nicht-Käufer, je nachdem welches Merkmal ihnen zugeschrieben wird, aufgrund ihres Handelns. Mit Hilfe der kumulierten Erkenntnisse über die Besucher kann das Modell trainiert werden und so zukünftig Voraussagen für weitere Objekte treffen. Demnach wird bei der Klassifikation von der Suche nach Mustern gesprochen, die auf Basis von Merkmalen für die Klassifikation durchgeführt wird (Runkler, 2010, S. 85 ff.; Baars & Kemper, 2021, S. 128).
2. Prognose:
Es ist das Ziel der Prognose „auf Basis der beobachteten Daten eine Vorhersage der Zeitreihen über mehrere Zeitschritte in die Zukunft zu produzieren“ (Runkler, 2010, S. 81). Unter Hinzunahme von vergangenen Ursache-Wirkungszusammenhängen wird die Beziehung einer abhängigen Variable zu mehreren unabhängigen Variablen erklärt, um so Prognosen zu stetigen Werten zu generieren (Meyer, 2002, S. 193 ff.; Runkler, 2010, S. 81 ff.; Baars & Kemper, 2021, S. 128). Beispielsweise kann eine Modehauskette die Anzahl an Verkäufen, Kosten in Werbung und Eröffnung neuer Filialen als unabhängige Variablen herbeiziehen, um die Anzahl an Neukunden als abhängige Variable in Erfahrung zu bringen. Zeitliche Sequenzen von Daten spielen in der Prognose als Methodik somit im Data Mining eine große Rolle (Meyer, 2002, S. 193 ff.; Runkler, 2010, S. 81 ff.; Baars & Kemper, 2021, S. 128).
[...]