Diese Arbeit hat zur Aufgabe, ausgewählte Data-Mining-Prozessmodelle anhand ihrer Stärken und Schwächen im Sinne einer qualitativen Analyse zu vergleichen. Darauf aufbauend wird eine Empfehlung abgeleitet, welches Prozessmodell sich für den Gebrauch in Unternehmens-Kontext am besten eignet. Zu Beginn wird den Lesenden mit Kapitel 2 die wachsende Bedeutung von Daten als Ressource verdeutlicht. Im Anschluss daran werden die Grundlagen von Data-Mining und daraus abgeleitete Aufgaben ergründet (Kap. 3). Darauffolgend werden drei ausgewählte Data-Mining-Prozessmodelle und ihre Etappen beschrieben (Kap. 4). Letztlich folgt eine qualitative Analyse, die aus der Gegenüberstellung der einzelnen Phasen (Kap. 5. 1) und der Ergründung qualitativer Unterschiede (Kap. 5. 2) besteht.
Inhaltsverzeichnis
1 Einleitung
1.1 Einführung in die Thematik
1.2 Zielsetzung, Aufbau und Methodik
2 Daten als Ressource
3 Grundlagen zu Data-Mining und Data-Mining-Aufgaben
4 Beschreibung ausgewählter Data-Mining-Prozessmodelle
4.1 Cross-Industry Standard Process for Data Mining (CRISP-DM)
4.2 Knowledge Discovery in Databases
4.3 Team Data Science Process
5 Vergleich ausgewählter Prozesse
5.1 Gegenüberstellung von Etappen ausgewählter Data-Mining-Prozessrahmen
5.2 Beschreibung ausgewählter qualitativer Unterschiede
6 Fazit
Zielsetzung & Themen
Diese Arbeit befasst sich mit der qualitativen Analyse und dem Vergleich ausgewählter Data-Mining-Prozessmodelle, um deren Stärken und Schwächen im Unternehmenskontext zu bewerten und eine fundierte Empfehlung für deren Einsatz zu geben.
- Bedeutung von Daten als strategische Unternehmensressource
- Grundlagen und Aufgabenbereiche des Data-Mining
- Detaillierte Analyse von CRISP-DM, KDD und dem Team Data Science Process (TDSP)
- Qualitativer Vergleich der Prozessrahmen hinsichtlich ihrer Anwendbarkeit
- Ableitung einer Handlungsempfehlung für den Unternehmenseinsatz
Auszug aus dem Buch
4.1 Cross-Industry Standard Process for Data Mining (CRISP-DM)
Der „Cross-Industry Standard Process for Data Mining“ (CRISP-DM) ist ein industrie- und anwendungsübergreifendes Prozessmodell für die Wissensgewinnung mithilfe von Daten. Zudem gilt es als das am häufigsten eingesetzte Modell für Data-Mining-Projekte (Piatetsky, 2014); Göpfert & Breiter, 2015, S. 2). Entsprechend der Abbildung 2 handelt es sich bei dem im Jahre 1996 entwickelten Konzept um ein iteratives Modell, das aus den folgenden Phasen besteht: „Unternehmensverständnis“ (Business Understanding), „Datenverständnis“ (Data Understanding), „Datenvorbereitung“ (Data Preparation), „Modellieren“ (Modeling), „Evaluation“ (Evaluation) und „Anwendung“ (Deployment).
Grundsätzlich sind die Phasen nacheinander umzusetzen. Abbildung 2 zeigt jedoch innerhalb des Zyklus weitere Kreisläufe auf. Das kann damit erklärt werden, dass die Ergebnisse einer jeden Phase andere Etappen beeinflussen (Grljevic & Bosnjak, 2009, S. 2). Damit macht die Darstellung deutlich, dass Wiederholungen innerhalb sowohl als auch nach einer Etappe zum Prozess dazugehören. Der gesamte Prozess dient damit der Datenexploration, da die Erkenntnisse aus einem Durchlauf in einer weiteren Durchführung verwendet werden können (Provost & Fawcett, 2013, S. 27).
Zu Beginn gilt es in der Phase des „Unternehmensverständnisses“ das zugrunde liegende Problem gänzlich nachzuvollziehen und zu formulieren. Auch müssen die sich daraus ableitenden Voraussetzungen und Ziele für das Projekt formuliert werden. Beides erfordert domainspezifische Kenntnisse (Provost & Fawcett, 2013, S. 28). Zudem soll das für die Zielerreichung benötigte festgelegt werden (Siraj & Essgaer, 2011pdf, S. 57).
Zusammenfassung der Kapitel
1 Einleitung: Die Einleitung thematisiert die wachsende Bedeutung von Big Data für Unternehmen und leitet daraus die Notwendigkeit strukturierter Prozessmodelle ab, um aus Daten einen messbaren Mehrwert zu generieren.
2 Daten als Ressource: Dieses Kapitel verdeutlicht den exponentiellen Anstieg von Datenvolumina und klassifiziert Daten als einen modernen Produktionsfaktor, dessen zielgerichtete Nutzung für den Unternehmenserfolg entscheidend ist.
3 Grundlagen zu Data-Mining und Data-Mining-Aufgaben: Es erfolgt eine Definition des Data-Mining als Prozess der Wissensentdeckung sowie eine Differenzierung zwischen prädiktiven und deskriptiven Aufgabenfeldern wie Klassifikation, Regression und Clustering.
4 Beschreibung ausgewählter Data-Mining-Prozessmodelle: Hier werden mit CRISP-DM, KDD und TDSP drei prominente Prozessmodelle im Detail vorgestellt und ihre jeweiligen Phasen hinsichtlich Ablauf und Zielsetzung erläutert.
5 Vergleich ausgewählter Prozesse: In diesem Hauptteil findet eine direkte Gegenüberstellung der Modelle statt, wobei deren Phasen harmonisiert und qualitative Unterschiede hinsichtlich Dokumentation, Flexibilität und Unternehmensbezug herausgearbeitet werden.
6 Fazit: Das Fazit fasst die Analyse zusammen und empfiehlt den Team Data Science Process (TDSP) aufgrund seiner agilen Ausrichtung und der starken Integration unternehmerischer Aspekte als zeitgemäße Lösung für moderne Data-Mining-Projekte.
Schlüsselwörter
Data-Mining, Prozessmanagement, Big Data, CRISP-DM, Knowledge Discovery in Databases, KDD, Team Data Science Process, TDSP, Datenanalyse, Unternehmensressource, Prozessmodell, Predictive Analytics, Deskriptive Statistik, Digitale Transformation, Modellvergleich
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der Bewertung und dem Vergleich verschiedener Prozessmodelle für Data-Mining-Vorhaben, um deren Tauglichkeit für den Einsatz in einem professionellen Unternehmenskontext zu untersuchen.
Was sind die zentralen Themenfelder der Arbeit?
Zentral sind die theoretischen Grundlagen des Data-Mining, die Einordnung von Daten als wichtiger Unternehmensfaktor sowie die detaillierte Analyse der Prozessmodelle CRISP-DM, KDD und TDSP.
Was ist das primäre Ziel oder die Forschungsfrage?
Ziel ist es, durch eine qualitative Analyse die Stärken und Schwächen der genannten Modelle zu identifizieren, um eine begründete Empfehlung auszusprechen, welches Modell sich für den modernen Unternehmenseinsatz am besten eignet.
Welche wissenschaftliche Methode wird verwendet?
Die Autorin bzw. der Autor nutzt eine qualitative Analyse, basierend auf einer literaturbasierten Gegenüberstellung der Prozessphasen sowie der Auswertung von Stärken- und Schwächenprofilen der Modelle.
Was wird im Hauptteil der Arbeit behandelt?
Im Hauptteil werden zunächst die Prozessmodelle einzeln beschrieben und anschließend in einer vergleichenden Übersicht gegenübergestellt, wobei Aspekte wie Dokumentationsqualität, Flexibilität und Praxisbezug im Fokus stehen.
Welche Schlüsselwörter charakterisieren die Arbeit am besten?
Die Arbeit lässt sich am besten durch Begriffe wie Data-Mining, Prozessmodell, CRISP-DM, KDD, TDSP und Unternehmenskontext charakterisieren.
Warum wird der Team Data Science Process (TDSP) besonders empfohlen?
Der TDSP wird empfohlen, da er als zeitgemäßes Modell die Stärken seiner Vorgänger vereint, agile Arbeitsweisen unterstützt und einen starken Fokus auf die Einbindung von Rollen und Kundenakzeptanz legt.
Welche Rolle spielt die Dokumentation beim Vergleich der Modelle?
Die Dokumentationsqualität ist ein wichtiges Qualitätsmerkmal: Während das KDD primär wissenschaftlich dokumentiert ist, bietet das CRISP-DM eine etablierte (wenn auch teils veraltete) Web-Dokumentation, und der TDSP glänzt durch eine aktuelle, praxisnahe Dokumentation durch den Entwickler Microsoft.
- Arbeit zitieren
- David Lewenko (Autor:in), 2020, Data-Mining im Kontext des Prozessmanagements, München, GRIN Verlag, https://www.grin.com/document/980340