Die Auswirkungen der aufziehenden Informationsgesellschaft spiegeln sich auch in der explosionsartigen Zunahme der gespeicherten Informationen wider. So verdoppeln sich die in Datenbanken abgelegten Bestände eines durchschnittlichen Unternehmens nach Schätzungen alle 5 Jahre [IBM96a]. [...] Doch betriebswirtschaftlich machen diese Datensammlungen nur dann Sinn, wenn aus ihnen auch Erkenntnisse abgeleitet werden können, die Unternehmen bei der Verfolgung ihrer individuell unterschiedli-chen Ziele unterstützen können. An dieser Stelle setzen Analysewerkzeuge an, die entweder als Ergänzung zu Datenbankprogrammen, betriebswirtschaftlichen Standar-danwendungssystemen oder auch als Spezialwerkzeuge angeboten werden.
Inhaltsverzeichnis
1 Data Mining - Neuer Ansatz zur Datenanalyse
1.1 Gerichtete Datenanalyse
1.1.1 Query und Reporting
1.1.2 OLAP
1.1.3 Statistische Analyse
1.2 Ungerichtete Datenanalyse
1.2.1 Deduktion versus Induktion
1.2.2 Überwachtes Lernen
1.2.3 Unüberwachtes Lernen
2 Erkenntnisgewinnung aus Datenbanken
2.1 Konzept
2.2 Verwandte Forschungsgebiete
2.3 Aufgaben
2.3.1 Klassifizierung
2.3.1.1 Ziel
2.3.1.2 Techniken
2.3.2 Segmentierung
2.3.2.1 Ziel
2.3.2.2 Techniken
2.3.3 Assoziierung
2.3.3.1 Ziel
2.3.3.2 Techniken
2.3.4 Weitere Aufgaben
2.4 Prozeß
2.4.1 Datenvorbereitung
2.4.1.1 Selektion
2.4.1.2 Reinigung
2.4.1.3 Transformation
2.4.1.4 Data Warehouse als Datenlieferant
2.4.2 Analyse
2.4.3 Ergebnispräsentation und -interpretation
3 Techniken
3.1 Clusteranalyse
3.1.1 Quantifizierung von Ähnlichkeit
3.1.2 Prinzipien der Clusterbildung
3.1.2.1 Nächste-Nachbarn-Verfahren
3.1.2.2 Mittelwertmodelle
3.1.2.3 Repräsentantenverfahren
3.1.2.4 Konstruktion von Clusterzentren
3.1.3 Partitionierende Gruppierungsverfahren
3.1.4 Hierarchische Gruppierungsverfahren
3.1.4.1 Agglomerative Vorgehensweise
3.1.4.2 Divisive Verfahren
3.2 Entscheidungsbäume
3.2.1 Bestandteile und Funktionsweise
3.2.2 Aufbau eines Entscheidungsbaumes
3.2.3 Algorithmen
3.2.3.1 CART
3.2.3.2 ID3 und C4.5
3.2.3.3 CHAID
3.3 Neuronale Netze
3.3.1 Bestandteile und Funktionsweise
3.3.2 Netztopologien
3.3.2.1 Vorwärtsgekoppelte Netze
3.3.2.2 Rekurrente Netze
3.3.3 Netzmodelle und Netztraining
3.3.3.1 Backpropagation
3.3.3.2 Selbstorganisierende Karten (Kohonen-Netze)
3.4 Assoziationsregeln und Sequenzmuster
3.4.1 Assoziationsregeln
3.4.1.1 Assoziationsproblem
3.4.1.2 Aufbau der Algorithmen
3.4.2 Sequenzmuster
4 Betriebswirtschaftliche Anwendungen
4.1 Produktionsplanung und -steuerung
4.1.1 Prozeß- und Qualitätskontrolle
4.1.2 Anlagenüberwachung und -instandhaltung
4.1.3 Auslastungssteuerung
4.1.4 Stochastische Bedarfsermittlung / Absatzprognose
4.2 Vertrieb und Marketing
4.2.1 Preisfindung
4.2.2 Database Marketing
4.2.2.1 Marktsegmentierung und Ranking
4.2.2.2 Individualisierte Kundenansprache
4.2.3 Warenkorbanalyse
4.2.4 Kundenbindung
4.3 Risikomanagement
4.3.1 Bonitätsprüfung
4.3.2 Betrugsentdeckung
5 Vergleich ausgewählter Data Mining-Produkte
5.1 Marktübersicht
5.1.1 Produktentwicklung
5.1.2 Marktsegmente
5.1.2.1 Unternehmensweite Lösungen
5.1.2.2 Client/Server-Lösungen
5.1.2.3 Desktop Produkte
5.2 Testumgebung
5.2.1 Hardware
5.2.2 Daten
5.2.3 Produktauswahl
5.3 Produktvergleich Desktop Data Mining
5.3.1 Allgemeine Produktmerkmale
5.3.1.1 Dokumentation
5.3.1.2 Zielgruppe
5.3.2 Datenvorbereitung
5.3.2.1 Unterstützte Datenquellen vs. Einfachheit der Datenanbindung
5.3.2.2 Selektions- und Transformationsmöglichkeiten vs. Benutzerunterstützung
5.3.2.3 Möglichkeiten zur Stichprobenziehung vs. Automatisierung
5.3.2.4 Möglichkeiten zur Datenreinigung vs. Automatisierung
5.3.2.5 Unterstützung verschiedener Datentypen vs. Transformationsaufwand
5.3.2.6 Automatisierungsmöglichkeiten der Datenvorbereitung vs. Benutzerfreundlichkeit
5.3.3 Analyse
5.3.3.1 Anzahl der Analysemethoden vs. Benutzerfreundlichkeit
5.3.3.2 Automatisierung der Modellbildung vs. Produktivität
5.3.4 Ergebnispräsentation und -interpretation
5.3.4.1 Präsentationsmöglichkeiten vs. Informationsaufbereitung
5.3.4.2 Validierungsmöglichkeiten vs. Automatisierung
5.3.4.3 Integrationsmöglichkeiten in EIS vs. Integrationsaufwand
6 Fazit
Anhang: Produktbeschreibungen
A-1 Business Miner 4.0
Produktübersicht
Datenextraktion und -transformation
Musterentdeckung / Modellbildung
Ergebnispräsentation
A-2 Data Engine 2.1
Produktübersicht
Datenextraktion und -transformation
Musterentdeckung / Modellbildung
Ergebnispräsentation
A-3 KnowledgeSeeker 4.2
Produktübersicht
Datenextraktion und -transformation
Musterentdeckung / Modellbildung
Ergebnispräsentation
A-4 Scenario 2.0
Produktübersicht
Datenextraktion und -transformation
Musterentdeckung / Modellbildung
Ergebnispräsentation
A-5 SuperQuery 1.2
Produktübersicht
Datenextraktion und -transformation
Musterentdeckung / Modellbildung
Ergebnispräsentation
Zielsetzung & Themen
Die Arbeit untersucht den aktuellen Stand von Data Mining-Techniken und analysiert die Leistungsfähigkeit verschiedener Desktop-Lösungen für den betriebswirtschaftlichen Einsatz. Das primäre Ziel ist es, die Eignung und Anwendungsmöglichkeiten dieser Softwareprodukte bei der automatisierten Musterentdeckung in Unternehmensdaten kritisch zu bewerten und einen Leitfaden für deren Auswahl zu bieten.
- Methodische Grundlagen der ungerichteten Datenanalyse
- Mathematische und statistische Konzepte der Musterentdeckung
- Betriebswirtschaftliche Einsatzszenarien für Data Mining
- Vergleichskriterien für Desktop Data Mining-Software
- Bewertung der Leistungsfähigkeit aktueller Marktprodukte
Auszug aus dem Buch
1 Data Mining - Neuer Ansatz zur Datenanalyse
Die Auswirkungen der aufziehenden Informationsgesellschaft spiegeln sich auch in der explosionsartigen Zunahme der gespeicherten Informationen wider. So verdoppeln sich die in Datenbanken abgelegten Bestände eines durchschnittlichen Unternehmens nach Schätzungen alle 5 Jahre [IBM96a]. Das größte, betriebswirtschaftlich genutzte Data Warehouse der Welt wird vom amerikanischen Kaufhauskonzern Wal-Mart unterhalten und umfaßt eine Datenmenge von 25 Terabyte, wobei ca. 90 Millionen Point-of-sale (POS) Transaktionen pro Woche eingespielt werden [WÜRM98, S. 17]. Auf dem naturwissenschaftlichen Sektor entstehen mit dem menschlichen Gen Datenbank-Projekt oder dem NASA Earth Observing System (mit 50 Gigabyte Bilddaten pro Stunde) in den Petabyte-Bereich (1015 Byte) hineingehende Datenbanken [FAYY96a, S. 2].
Technologisch ist dies kein Problem – die rasanten Steigerungen der zu günstigen Kosten verfügbaren Festplattenkapazitäten und die Leistungsfähigkeit der Prozessoren sowie die enormen Leistungssprünge von Datenbanksystemen (sowohl relational als auch multidimensional) halten hier leicht Schritt. Doch betriebswirtschaftlich machen diese Datensammlungen nur dann Sinn, wenn aus ihnen auch Erkenntnisse abgeleitet werden können, die Unternehmen bei der Verfolgung ihrer individuell unterschiedlichen Ziele unterstützen können. An dieser Stelle setzen Analysewerkzeuge an, die entweder als Ergänzung zu Datenbankprogrammen, betriebswirtschaftlichen Standardanwendungssystemen oder auch als Spezialwerkzeuge angeboten werden. Bis zur Einführung von Data Mining-Lösungen Anfang der 90er Jahre war allen Ansätzen gemein, daß der Antrieb zur Datenanalyse vom Anwender (sei es nun der Entscheider oder eine DV-Abteilung) ausgehen muß.
Zusammenfassung der Kapitel
1 Data Mining - Neuer Ansatz zur Datenanalyse: Dieses Kapitel erläutert die zunehmende Bedeutung von Data Mining in der modernen Informationsgesellschaft als Antwort auf die wachsende Datenmenge. Es stellt den Unterschied zwischen gerichteten, manuellen Analyseverfahren und der ungerichteten, automatisierten Datenanalyse heraus.
2 Erkenntnisgewinnung aus Datenbanken: Hier werden das theoretische Konzept der Wissensentdeckung (KDD) und der stufenweise Data Mining-Prozeß beschrieben. Es wird beleuchtet, wie Data Mining existierende Methoden integriert, um Muster in großen Datenbanken autonom zu identifizieren.
3 Techniken: Dieses Kapitel detailliert die wichtigsten Data Mining-Verfahren, einschließlich Clusteranalyse, Entscheidungsbäumen, Neuronalen Netzen sowie Assoziationsregeln. Dabei werden mathematische Hintergründe und die jeweilige Eignung für verschiedene Analyseaufgaben erläutert.
4 Betriebswirtschaftliche Anwendungen: Der Fokus liegt auf der Anwendung der vorgestellten Techniken in verschiedenen Unternehmensbereichen wie Produktion, Marketing und Risikomanagement. Es wird aufgezeigt, wie Data Mining zur Steigerung der Wettbewerbsfähigkeit beitragen kann.
5 Vergleich ausgewählter Data Mining-Produkte: Dieser Teil enthält eine umfassende Marktübersicht und einen direkten Vergleich von fünf Desktop Data Mining-Produkten. Anhand definierter Kriterien wie Datenanbindung, Vorbereitung und Analysefunktionalität wird deren Leistungsfähigkeit bewertet.
6 Fazit: Die Arbeit schließt mit einer zusammenfassenden Bewertung über die Herausforderungen und Potenziale beim Einsatz von Data Mining-Werkzeugen. Es wird betont, dass trotz der Vision autonomer Systeme der Mensch mit seinem Domänenwissen weiterhin eine zentrale Rolle im Erkenntnisgewinnungsprozess spielt.
Schlüsselwörter
Data Mining, Knowledge Discovery in Databases, KDD, Clusteranalyse, Entscheidungsbäume, Neuronale Netze, Assoziationsregeln, Datenvorbereitung, Data Warehouse, Segmentierung, Klassifizierung, Induktives Lernen, Betriebswirtschaftliche Anwendungen, Desktop Data Mining, Modellbildung.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit der Nutzung von Data Mining zur systematischen Analyse großer betrieblicher Datenbestände, um wertvolle, bisher unentdeckte Informationen und Muster zu extrahieren.
Welche zentralen Themenfelder werden behandelt?
Die zentralen Themen umfassen die theoretischen Konzepte der Wissensentdeckung (KDD), die gängigen technischen Algorithmen zur Analyse sowie deren praktische Anwendung in betriebswirtschaftlichen Funktionsbereichen.
Was ist das primäre Ziel oder die Forschungsfrage?
Das Ziel ist die Untersuchung der Leistungsfähigkeit heutiger Data Mining-Werkzeuge, insbesondere im Desktop-Bereich, und eine Bewertung ihrer Eignung für den Einsatz durch Anwender im Unternehmenskontext.
Welche wissenschaftliche Methode wird verwendet?
Neben einer umfassenden Literaturanalyse und Systematisierung der Verfahren beinhaltet die Arbeit einen empirischen Vergleich von fünf ausgewählten Softwarelösungen, um deren Stärken und Schwächen systematisch zu prüfen.
Welche Inhalte dominieren den Hauptteil?
Der Hauptteil gliedert sich in eine fundierte theoretische Herleitung der Analysemethoden (Technik) sowie eine detaillierte Analyse der Einsatzmöglichkeiten (Anwendungen) und einen anschließenden Produkttest.
Was sind die charakteristischen Schlüsselwörter?
Die Arbeit lässt sich vor allem durch die Begriffe Data Mining, Entscheidungsbäume, Clusteranalyse, Neuronale Netze und Knowledge Discovery einordnen.
Wie unterscheidet sich "gerichtete" von "ungerichteter" Datenanalyse?
Bei der gerichteten Analyse formuliert der Anwender vorab eine Hypothese (z.B. Query & Reporting), während bei der ungerichteten Datenanalyse das System selbstständig nach Mustern und Modellen im Datenbestand sucht.
Warum ist die Datenvorbereitung ein so kritischer Prozessschritt?
Laut der Arbeit entfallen bis zu 80 % des Gesamtaufwands auf die Datenvorbereitung, da die Qualität der späteren Analyseergebnisse direkt von der Sauberkeit, Konsistenz und Struktur der zugrundeliegenden Daten abhängt.
- Quote paper
- Carsten Bange (Author), 1998, Data Mining mit Standardwerkzeugen, Munich, GRIN Verlag, https://www.grin.com/document/185176