Name: Data Mining - mehr als ein Modebegriff?
Price: 0.99 EUR
Availability: InStock
Author: Jan Bierbüße
ISBN: 978-3-640-02063-8

Die Arbeit nimmt eine Einordnung des Data Mining vor, stellt eine Auswahl ihrer Methoden vor und geht auf die Visualisierung der Ergebnisse ein.

Leseprobe

Inhaltsverzeichnis

Abkürzungsverzeichnis

Abbildungsverzeichnis

1 Einleitung

2 Einordnung des Data Mining
2.1 Begriffsdefinition
2.2 Historische Entwicklung
2.3 Data Mining im Data Warehouse-Konzept

3 Methoden des Data Mining
3.1 Zielsetzungen
3.2 Assoziierung
3.3 Clusterung
3.3.1 Hierarchische Clusterung
3.3.2 Partitionierende Clusterung
3.4 Klassifizierung

4 Visualisierung der Ergebnisse

5 Zusammenfassung: Die Bedeutung des Data Mining

Literaturverzeichnis

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abb. 1: Knowledge Discovery in Databases-Prozeß

Abb. 2: Komponenten der Management Support Systeme

Abb. 3: Das Data Warehouse-Konzept

Abb. 4: Agglomeratives und divisives hierarchisches Clustering

Abb. 5: Beispiel für einen Entscheidungsbaum

Abb. 6: Streudiagramm-Matrix

1 Einleitung

Die in kommerziellen Datenbanken gespeicherte Datenmenge ist unüberschaubar und wächst rapide an. Zum Beispiel sammeln allein die zur Erdbeobachtung eingesetzten Satelliten der NASA jeden Tag etwa ein Terabyte (109 byte) an Daten.^[1] Es wird geschätzt, daß sich die weltweit verfügbare Datenmenge etwa alle 20 Monate verdoppelt.^[2]

Diese massive Sammlung und Speicherung von Daten aller Art in Unternehmen geschieht zunächst für operative Zwecke wie z. B. die Kundenverwaltung oder das betriebliche Rechnungswesen. Die Nutzung solcher operativer Systeme wird als On-Line Transaction Processing (OLTP) bezeichnet.^[3]

Nun wird seit langem (60er Jahre^[4] ) – mit teilweise recht mäßigem Erfolg – versucht, diese riesigen, häufig auf zahlreichen operativen Datenbanken verteilten Daten auch für strategische Zwecke zu bündeln und verfügbar zu machen. Diese Entwicklung, die im zweiten Kapitel behandelt wird, führte zum Data Warehouse-Konzept, das mit dem On-Line Analytical Processing (OLAP) und dem Data Mining bedeutende Erweiterungen erfahren hat.

In dieser Arbeit wird das Data Mining nach einer Einordnung und Definition (Kapitel 2) genauer betrachtet: Aus der nahezu unüberschaubaren Zahl von statistischen und algorithmischen Methoden werden einige grundlegende in Kapitel 3 dargestellt, danach folgt ein Überblick über die Visualisierung im Data Mining (Kapitel 4). Schließlich werden im Kapitel 5 die Ergebnisse vor allem im Hinblick auf die Erfolgschancen dieses Konzeptes zusammengefaßt. Dabei wird versucht zu bewerten, ob Data Mining tatsächlich eine bahnbrechende Neuerung oder doch nur eine Modeerscheinung ist.

2 Einordnung des Data Mining

2.1 Begriffsdefinition

Für den Begriff Data Mining gibt es in der Literatur unterschiedliche Definitionen, z. B.:

- “the extraction of hidden predictive information from large databases”^[5]
- “The process of finding hidden patterns and relationships in the data”^[6]

Häufig wird der Begriff Data Mining mit Knowledge Discovery in Databases (KDD) gleichgesetzt.^[7] Die weiter verbreitete Auffassung ist jedoch, daß KDD einen Prozeß darstellt, in dem Data Mining ein – wenn auch der wichtigste – Schritt ist^[8] (siehe Abb. 1):

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Knowledge Discovery in Databases-Prozeß^[9]

Danach ist KDD ein Prozeß, der aus der Auswahl des Datenbestandes, der Aufbereitung (Verbesserung der Qualität der ausgewählten Daten), der Festlegung (Reduktion der für die Entdeckung von Wissen relevanten Attribute), der Analyse der so aufbereiteten Daten (eigentliches Data Mining) und der Interpretation und Bewertung der Ergebnisse besteht. Der Prozeß läuft dabei iterativ ab, d. h. abhängig vom Ergebnis einzelner Phasen können vorherige Schritte erneut durchlaufen werden.^[10]

Der zuletzt vertretenen Ansicht wird auch hier gefolgt, so daß zusammenfassend festgestellt werden kann: Data Mining ist die Analyse von zuvor aufbereiteten Daten aus großen Datenbanken mit dem Ziel, bislang unbekannte Muster und/oder zukunftsbezogene Informationen zu entdecken.

2.2 Historische Entwicklung

Data Mining ist das Ergebnis^[11] eines langen Entwicklungsprozesses, der mit der ersten Speicherung von Daten in Unternehmen beginnt. Thearling^[12] unterscheidet dabei vier Entwicklungsphasen:

1. die Phase der Datensammlung (Data Collection) in den 60er Jahren mit der Möglichkeit des statischen Aufrufs vergangenheitsbezogener Daten über Computer und Datenträger;
2. die Phase des Datenzugriffs (Data Access) in den 80er Jahren mit erweiterten dynamischen Abfragemöglichkeiten über relationale Datenbanken mit SQL;
3. die Data Warehousing-Phase in den 90er Jahren mit komfortablen Navigationsmöglichkeiten mit OLAP in multidimensionalen Datenbanken;
4. die sich heute entwickelnde Data Mining-Phase mit selbständiger Wissensermittlung durch den Computer auch für zukunftsbezogene Informationen.

Mit dieser datenbanktechnischen Entwicklung eng verbunden ist die Verbreitung von Management Support Systemen (MSS), d. h. Anwendungen zur „elektronischen Unterstützung betrieblicher Entscheidungsträger bei der Abwicklung anfallender Aufgaben“^[13].

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Komponenten der Management Support Systeme^[14]

Folgende Systeme lassen sich unterscheiden:^[15]

- Management Information Systeme (MIS), die in den 60er und 70er Jahren automatisch Führungsinformationen generieren sollten; das Konzept scheiterte jedoch wegen mangelnder technischer Machbarkeit und kam über eine bloße Automatisierung des bestehenden Berichtswesen nicht hinaus;
- Decision Support Systeme (DSS) werden seit den 70er Jahren zur Unterstützung einzelner Anwender(-gruppen) in eher schlecht strukturierten Situationen eingesetzt; die eher lokale Ausrichtung dieses Konzeptes führte jedoch zum Wildwuchs verschiedener DV-Systeme und steht einer Steuerung des Gesamtunternehmens entgegen;
- Executive Information Systeme (EIS), seit Mitte der 80er Jahre mit neuen Techniken (z. B. Ausnahme-Berichtswesen) und intuitiven Benutzeroberflächen im Einsatz; die Technik wird v. a. in entscheidungsvorbereitenden und Fachbereichen eingesetzt, während sie sich im eigentlich anvisierten Top-Management nicht durchsetzen konnte und sich als zu starr und unflexibel erwies.

Aus dem partiellen Scheitern dieser Systeme ergibt sich die Frage, ob auch das heutzutage diskutierte Data Warehouse-Konzept und das damit verbundene Data Mining zum Scheitern verurteilt ist. Zusammenfassend läßt sich jedenfalls sagen, daß technische und vor allem organisatorische Probleme in der Vergangenheit für die Ernüchterung verantwortlich waren. Diese Thematik wird in Kapitel 5 noch einmal aufgegriffen.

2.3 Data Mining im Data Warehouse-Konzept

Data Mining hat als Analytisches Informationssystem (AIS) seinen Platz im Data Warehouse-Konzept, das nachfolgend kurz dargestellt werden soll:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Das Data Warehouse-Konzept^[16]

Ausgangspunkt des Konzeptes sind die im Unternehmen vorhandenen operativen Datenbestände, die allein noch nicht für die Analytischen Informationssysteme geeignet sind, da sie meist auf mehrere heterogene Plattformen verteilt sind, deren Ressourcen nicht für zusätzliche direkte Abfragen ausreichen und die operativen Daten von ihrer Struktur her noch nicht für Analysezwecke geeignet sind.^[17]

Daher wird ein zentrales Data Warehouse als „eine von den operationalen DV-Systemen isolierte, unternehmensweite Datenbasis, die anhand einer konsequenten Themenausrichtung unternehmensrelevanter Sachverhalte (z. B. Absatzkanäle, Kunden- und Produktkriterien, etc.) speziell für Endbenutzer aufgebaut ist“^[18], geschaffen. Dabei müssen mitunter Daten unterschiedlichster Systeme zusammengeführt werden.^[19] Außerdem kann das Data Warehouse mit externen Daten (z. B. Währungskurse) angereichert werden, die für die Analyse von Bedeutung sind. Kennzeichnend für das Data Warehouse ist u. a. die Dimension Zeit: Während in operationalen Systemen nur der jeweils aktuelle Zeitpunkt dargestellt ist, interessiert bei analytischen Systemen auch die Entwicklung im Zeitablauf.^[20]

Der Zugriff auf die Daten des Data Warehouses erfolgt mit On-Line Analytical Processing (OLAP). Charakteristisch ist hierbei der multidimensionale Datenzugriff im Gegensatz zum relationalen Datenmodell bei OLTP-Systemen.^[21] Das bedeutet, daß z. B. die Kennzahl Umsatz in einem „Würfel“^[22] mit den Kanten (= Dimensionen) Regionen, Produkte und Kunden gespeichert wird.^[23]

Das Data Mining, das ebenfalls auf die Data Warehouse-Daten zugreift, unterscheidet sich vom OLAP vor allem dadurch, daß Informationen generiert werden, von deren Existenz der Benutzer bisher nichts wußte.^[24]

3 Methoden des Data Mining

3.1 Zielsetzungen

„Die beiden übergeordneten Ziele des Data Mining sind immer

- Vorhersage unbekannter oder zukünftiger Werte interessierender Variablen einer Datenmenge oder
- Beschreibung einer Datenmenge durch Muster, die in ihr gefunden wurden“^[25]

Für diese Ziele stehen verschiedene Verfahren zur Verfügung, von denen die drei bekanntesten in den nächsten Abschnitten näher erläutert werden:

1. Assoziierung: das Entdecken von Abhängigkeiten durch das Auffinden auffälliger Attributkombinationen
2. Clusterung: die Einteilung des Datenbestandes in Klassen ähnlicher Daten
3. Klassifikation: Zuordnung von Daten zu bestimmten, vordefinierten Klassen.^[26]

Die Techniken des Data Mining kommen aus den Bereichen Statistik und vor allem Künstliche Intelligenz (KI).^[27] Zu nennen sind hier vor allem Künstliche Neuronale Netze, Entscheidungsbäume, Genetische Algorithmen, die Nachbarschaftssuche und die Regelinduktion.^[28]

3.2 Assoziierung

Ziel der Assoziierung ist es, Zusammenhänge zwischen verschiedenen Attributmerkmalen in großen Datenbanken herauszufinden, die binärer (d. h. nur die Werte 0 und 1 sind zugelassen) oder numerischer Natur sein können.^[29]

Ein Beispiel für ein solches Problem mit binären Werten ist die Warenkorbanalyse:^[30]

I = {i1 , i2 , ... , im} sei eine Menge von binären Werten. Dabei seien 1 bis m die Waren eines Supermarkts. T sei nun eine Transaktion, d. h. der Einkauf eines Kunden, der über die Kasse abgerechnet wird. Die einzelnen Werte geben an, ob die Ware im Einkauf enthalten war (i = 1) oder nicht (i = 0).

Nun werden Regeln der Form X ⇒ Y („Aus X folgt Y“) gesucht, wobei X und Y Teilmengen von I sind. Mit solchen Regeln läßt sich das Kaufverhalten der Konsumenten beschreiben.

Die Güte dieser Regeln wird nach folgenden Kriterien beurteilt:^[31]

- Präzision: Anteil aller T mit X und Y an allen T mit X
- Ausbeute: Anteil aller T mit X und Y an allen T

Die Präzision gibt an, wie gut die Regel stimmt, während die Ausbeute angibt, auf welchen Teil der Gesamtdaten sich die Regel stützen kann.

Für die Lösung des Problems werden zunächst alle Warenkombinationen ermittelt, die eine vorher festgelegte Mindestausbeute erreichen. Danach werden aus diesen Kombinationen Regeln generiert, indem jeweils eine Ware als Y herausgenommen wird, während die restlichen Waren X sind. Aus diesen Regeln werden nur diejenigen mit einer gewissen Mindestpräzision ausgewählt.

3.3 Clusterung

Clusterung ist die Aufteilung eines Datenbestandes auf der Grundlage eines Ähnlichkeitsmaßes, z. B. zur Marktsegmentierung.^[32] Es wird zwischen hierarchischen und partitionierenden Verfahren unterschieden.

3.3.1 Hierarchische Clusterung

Hierarchische Verfahren setzen voraus, daß bereits ein Ähnlichkeitsmaß definiert ist; sie lassen sich in agglomerative und divisive Methoden aufteilen.^[33] Ein Beispiel zeigt Abbildung 4:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 4: Agglomeratives und divisives hierarchisches Clustering^[34]

Die agglomerative Methode geht von n Gruppen aus, die jeweils nur aus einem Element bestehen, und faßt in jedem Schritt die beiden ähnlichsten Gruppen zusammen, bis nur noch eine Gruppe vorhanden ist. Dagegen geht die divisive Methode von einer Gruppe mit allen Elementen aus und bildet schrittweise Untergruppen, bis n Gruppen mit jeweils einem Element entstanden sind. Beide Methoden brechen ab, wenn die gewünschte Anzahl an Gruppen gebildet ist.

3.3.2 Partitionierende Clusterung

Im Gegensatz dazu arbeitet man bei der partitionierenden Clusterung ohne vordefiniertes Ähnlichkeitsmaß. Es handelt sich vielmehr um eine Optimierungsmethode, die zu einer optimalen Partition führen soll.^[35]

Ein Beispiel für ein solches Verfahren ist der K-Means-Algorithmus: Ihm liegt die Annahme zugrunde, daß eine optimale Partition die Summe der euklidischen Abstände der Objekte Xj der Cluster Ci von ihrem Zentrum vi minimiert. Dazu müssen die verschiedenen Attribute erst einmal miteinander vergleichbar gemacht werden, indem man sie auf das Intervall [0, 1] normiert.^[36]

Zu minimieren ist dann die Zielfunktion

Abbildung in dieser Leseprobe nicht enthalten

Ausgehend von K (Anzahl der gewünschten Cluster) Clustern mit jeweils einem Objekt werden die verbleibenden Objekte sukzessive dem „nächsten“ (d. h. mit dem geringsten Abstand von vi) Cluster zugeordnet. Dazu wird das Zentrum vi als Vektor der Merkmalsmittelwerte nach jeder Zuordnung neu berechnet. Wenn alle Objekte zugeordnet sind, prüft man, ob noch Austauschschritte notwendig sind.^[37]

Eine weitere Variante der Clusterung ist die sogenannte Fuzzy-Clusterung, bei der mit der Theorie unscharfer Mengen gearbeitet wird. Diese wird hier jedoch nicht weiter behandelt.

3.4 Klassifizierung

Die Klassifizierung ist eine überwachte Lernmethode, mit der eine Voraussage unbekannter Klassenmerkmale getroffen werden soll.^[38] Sie läuft folgendermaßen ab: Ein Datenbestand, in dem die gesuchten Merkmale bekannt sind, wird in eine (größere) Trainingsdatenbank und eine (kleinere) Testdatenbank aufgeteilt. Anhand der Trainingsdatenbank „lernt“ das System, wie es den Parameter vorhersagen kann. Dies geschieht über die Bildung eines Modells, dessen Güte anhand der Testdatenbank überprüft wird. Ein „gutes“ Modell kann dann dazu dienen, den fehlenden Parameter in anderen Datensätzen vorherzusagen.^[39]

Beispiele für den Einsatz dieser Methode sind die Vorhersage von Antwortraten bei Direktmarketing-Aktivitäten und die Einschätzung des Ausfallrisikos bei der Vergabe von Krediten.^[40]

Es gibt sehr vielfältige Lernmethoden wie z. B.^[41]

- Entscheidungsbäume
- Nachbarschaftssuche
- Regelinduktion
- Künstliche Neuronale Netze
- Bayes-Klassifikation

Auf eine genauere Darstellung dieser Methoden wird hier aus Platzgründen verzichtet.

Ein Beispiel für einen Entscheidungsbaum zur Ermittlung der Kreditwürdigkeit zeigt die folgende Abbildung 5:

Abbildung in dieser Leseprobe nicht enthalten

Abb. 5: Beispiel für einen Entscheidungsbaum^[42]

4 Visualisierung der Ergebnisse

Bei normalen Datenbankoperationen hat der Benutzer vorher Kenntnis von der Existenz des Ergebnisses in der Datenbank. Nicht so beim Data Mining: Hier werden Informationen generiert, deren Existenz vorher nicht bekannt war^[43], z. B. das Modell einer Klassifizierung.

Nun könnte man ein solches Modell als „Black Box“ behandeln, d. h. den Computer mit Daten versorgen und das Ergebnis unbesehen akzeptieren. Dies setzt jedoch voraus, daß der Benutzer dem System vertraut, was in der Regel nicht der Fall sein dürfte.^[44]

Daher wird in der Visualisierung und Interaktion mit dem Benutzer ein wesentlicher Erfolgsfaktor für Data Mining-Projekte gesehen.^[45] Denn die Fähigkeit des menschlichen Gehirns, bildliche Darstellungen zu erfassen, ist sehr viel besser ausgeprägt, als dies z. B. bei Zahlen der Fall ist^[46] – ein Bild sagt mehr als tausend Worte.

Das Problem bei allen Visualisierungstechniken ist die Darstellung von mehr als 3 Dimensionen. Man versucht, diese auf 2 bzw. 3 Dimensionen herunterzuprojizieren, z. B. mit der Streudiagramm-Matrix, bei der alle paarweisen Streudiagramme dargestellt werden, was bereits bei 6 Attributen sehr unübersichtlich ist (Abbildung 6).

Abbildung in dieser Leseprobe nicht enthalten

Abb. 6: Streudiagramm-Matrix^[47]

Neuere sog. pixel-orientierte Visualisierungstechniken sind auch für große Datenmengen geeignet. Diese versuchen, durch eine simultane Visualisierung Muster und Auffälligkeiten sichtbar zu machen.^[48]

5 Zusammenfassung: Die Bedeutung des Data Mining

In dieser Arbeit wurde versucht, einen Überblick über das Thema „Data Mining“ zu geben. Dabei konnten natürlich bei weitem nicht alle Aspekte berücksichtigt werden; dazu ist das Gebiet viel zu umfangreich und komplex.

In Kapitel 2 wurde eine Einordnung des Data Mining vorgenommen, in Kapitel 3 eine Auswahl von Methoden vorgestellt und schließlich in Kapitel 4 die Visualisierung der Ergebnisse thematisiert.

Bleibt die Frage, ob Data Mining mehr als ein Modebegriff ist: Die in dieser Arbeit skizzierte historische Entwicklung hat gezeigt, daß immer wieder neue Schlagwörter das Geschehen prägen und daß die dahinterstehenden Konzepte – zumindest partiell – auch scheitern können. Als Gründe dafür werden immer wieder technische und organisatorische Probleme genannt.^[49]

Die technischen Möglichkeiten des Data Mining sind sicherlich begrenzt, aber das Konzept ist offen für neue Möglichkeiten. Vor allem aus dem Bereich der Künstlichen Intelligenz sind in Zukunft Innovationen zu erwarten.

Schwerer wiegen da schon die organisatorischen Probleme: 70 Prozent der Implementierungen von Executive Information Systems verlaufen erfolglos. Dies liegt vor allem daran, daß sich die Systemlösung nicht an einem gewünschten Soll-Zustand, sondern am Ist-Zustand orientiert, der dadurch nur noch weiter zementiert wird, und daß starke Widerstände gegen das System in der Organisation vorhanden sind.^[50] Die begrenzte Steuerbarkeit des Systems Unternehmung wirkt hier innovationshemmend.

Letztlich wird sich aber die Einsicht durchsetzen, daß der Umgang mit dem Produktionsfaktor Information zu den entscheidenden Erfolgsfaktoren für eine Unternehmung im 21. Jahrhundert gehören wird. Data Mining ist dabei ein wichtiger Schritt in der Entwicklung der entsprechenden Technologien.

Literaturverzeichnis

Aggarwal, C. C./Yu, P. S. (1999), Data Mining Techniques for Associations, Clustering and Classification, in: Zhong, N./Zhou, L. [Hrsg.], Methodologies for Knowledge Discovery and Data Mining: Third Pacific-Asia Conference, PAKDD-99, Beijing, China, April 1999, Proceedings, Berlin u. a., S. 13-23

Bramer, M. A. [Hrsg.] (1999), Knowledge Discovery and Data Mining (IEE Professional Applications of Computing Series 1), London

Chamoni, P. (1998), Ausgewählte Verfahren des Data Mining, in: Chamoni/Gluchowski (1998), S. 301-320

Chamoni, P./Gluchowski, P. [Hrsg.] (1998), Analytische Informationssysteme: Data Warehouse, On-Line Analytical Processing, Data Mining, Berlin u. a.

Chamoni, P./Gluchowski, P. (1998a), Analytische Informationssysteme – Einordnung und Überblick, in: Chamoni/Gluchowski (1998), S. 3-25

Degen, H. (1998), Statistische Methoden zur visuellen Exploration mehrdimensionaler Daten, in: Chamoni/Gluchowski (1998), S. 387-408

Deventer, R./van Hoof, A. (1998), Data Mining mit Genetischen Algorithmen, in: Chamoni/Gluchowski (1998), S. 339-354

Düsing, R. (1998), Knowledge Discovery in Databases und Data Mining, in: Chamoni/Gluchowski (1998), S. 291-299

Hattendorf, M. (1998), Überlebensfähigkeit als Organisationsprinzip: Ein systemtheoretischer Ansatz für das Design und die Implementierung von Analytischen Informationssystemen, in: Chamoni/Gluchowski (1998), S. 467-476

Hofmann, H. (1999), Visualisation in Data Mining – Screening Multivariate Categorical Data, in: Bulletin of the International Statistical Institute, 52nd Session, Proceedings Book 1, Helsinki, S. 295-298

Kemper, H.-G./Finger, R. (1998), Datentransformation im Data Warehouse: Konzeptionelle Überlegungen zur Filterung, Harmonisierung, Verdichtung und Anreicherung operativer Datenbestände, in: Chamoni/Gluchowski (1998), S. 61-77

Mucksch, H. (1998), Das Data Warehouse als Datenbasis analytischer Informationssysteme: Architektur und Komponenten, in: Chamoni/Gluchowski (1998), S. 123-140

Reinartz, T. (1999), Focusing Solutions for Data Mining: Analytical Studies and Experimental Results in Real-World Domains (Lecture Notes in Artificial Intelligence 1623), Diss., Berlin u. a.

Schelp, J. (1998), Konzeptionelle Modellierung mehrdimensionaler Datenmodelle, in: Chamoni/Gluchowski (1998), S. 263-276

Schinzer, H. D./Bange, C. (1998), Werkzeuge zum Aufbau analytischer Informationssysteme: Marktübersicht, in: Chamoni/Gluchowski (1998), S. 41-58

SGD Computing Inc. (2001), The Business Intelligence and Data Warehousing Glossary, o. O., http://www.sgdcomputing.com/glossary.htm, aufgerufen am 12.04.2001

Thearling, K. (1997), Understanding Data Mining: It’s All in the Interaction, in: DSstar 09.12.1997, o. O., hier zitiert nach: http://www3.shore.net/ ~kht/text/dsstar/interaction.htm, aufgerufen am 06.03.2001

Thearling, K. (2001), An Introduction to Data Mining: Discovering hidden value in your data warehouse, White Paper, o. O., http://www3.shore.net/ ~kht/text/dmwhite/dmwhite.htm, aufgerufen am 27.03.2001

Zytkow, J. M./Quafafou, M. [Hrsg.], Principles of Data Mining and Knowledge Discovery: Second European Symposium, PKDD ‘98, Nantes, France, September 1998, Proceedings (Lecture Notes in Artificial Intelligence 1510), Berlin u. a.

[...]

^[1] Vgl. Bramer (1999), S. XIII

^[2] Vgl. Chamoni/Gluchowski (1998a), S. 25

^[3] Vgl. SGD Computing (2001), OLTP

^[4] Vgl. Chamoni/Gluchowski (1998a), S. 6

^[5] Thearling (2001), Data Mining Overview

^[6] SGD Computing (2001), Data Mining

^[7] So z. B. Zytkow/Quafafou (1998), S. V

^[8] Vgl. Reinartz (1999), S. 1 f.

^[9] Düsing (1998), S. 294

^[10] Vgl. Düsing (1998), S. 295

^[11] Damit soll natürlich keineswegs Endgültigkeit impliziert werden.

^[12] Vgl. hierzu und im folgenden Thearling (2001), The Foundations of Data Mining

^[13] Chamoni/Gluchowski (1998a), S. 9

^[14] Chamoni/Gluchowski (1998a), S. 9

^[15] nach Chamoni/Gluchowski (1998a), S. 6 ff.

^[16] Chamoni/Gluchowski (1998a), S. 12

^[17] Vgl. Kemper/Finger (1998), S. 62 f.

^[18] Mucksch (1998), S. 125

^[19] Vgl. zu dieser Problematik Kemper/Finger (1998)

^[20] Vgl. Mucksch (1998), S. 125

^[21] Vgl. Chamoni/Gluchowski (1998a), S. 18

^[22] Bei mehr als 3 Dimensionen spricht man von einem „Hyperwürfel“ (Hypercube)

^[23] Vgl. Schelp (1998), S. 266

^[24] Vgl. Thearling (1997)

^[25] Schinzer/Bange (1998), S. 53

^[26] Vgl. Düsing (1998), S. 297

^[27] Vgl. Chamoni (1998), S. 301

^[28] Vgl. Thearling (2001), The Scope of Data Mining

^[29] Vgl. Aggarwal/Yu (1999), S. 13

^[30] Vgl. zu den folgenden Ausführungen Aggarwal/Yu (1999), S. 14 f.

^[31] Vgl. auch Deventer/van Hoof (1998), S. 345

^[32] Vgl. Düsing (1998), S. 297

^[33] Vgl. Chamoni (1998), S. 306 f.

^[34] Chamoni (1998), S. 307

^[35] Vgl. Chamoni (1998), S. 308 f.

^[36] Vgl. Chamoni (1998), S. 304 f.

^[37] Vgl. Chamoni (1998), S. 308

^[38] Vgl. Aggarwal/Yu (1999), S. 14

^[39] Vgl. Thearling (2001), How Data Mining Works

^[40] Vgl. Schinzer/Bange (1998), S. 54

^[41] Vgl. Aggarwal/Yu (1999), S. 19 f.

^[42] Reinartz (1999), S. 34

^[43] siehe S. 7

^[44] Vgl. Thearling (1997)

^[45] Vgl. Schinzer/Bange (1998), S. 52

^[46] Vgl. Hofmann (1999), S. 295

^[47] Degen (1998), S. 397

^[48] Vgl. Degen (1998), S. 389

^[49] Vgl. Chamoni/Gluchowski (1998a), S. 6 ff.

Häufig gestellte Fragen

Was ist Data Mining laut diesem Dokument?

Data Mining wird als die Analyse von zuvor aufbereiteten Daten aus großen Datenbanken definiert, mit dem Ziel, bislang unbekannte Muster und/oder zukunftsbezogene Informationen zu entdecken. Es ist ein Schritt im Knowledge Discovery in Databases (KDD)-Prozess.

Wie ordnet dieses Dokument Data Mining ein?

Data Mining wird als ein analytisches Informationssystem (AIS) innerhalb des Data Warehouse-Konzepts eingeordnet. Es greift auf die Daten des Data Warehouses zu, um Informationen zu generieren, die dem Benutzer bisher unbekannt waren.

Welche Phasen der historischen Entwicklung des Data Mining werden beschrieben?

Das Dokument unterscheidet vier Entwicklungsphasen: Datensammlung, Datenzugriff, Data Warehousing und Data Mining.

Welche Zielsetzungen werden im Data Mining verfolgt?

Die beiden übergeordneten Ziele sind die Vorhersage unbekannter oder zukünftiger Werte interessierender Variablen einer Datenmenge und die Beschreibung einer Datenmenge durch Muster, die in ihr gefunden wurden.

Welche Methoden des Data Mining werden im Detail erläutert?

Das Dokument beschreibt detailliert die Assoziierung (z.B. Warenkorbanalyse), die Clusterung (hierarchisch und partitionierend) und die Klassifizierung. Es werden auch verwandte Konzepte wie der K-Means-Algorithmus erläutert.

Was ist das Data Warehouse-Konzept und wie hängt Data Mining damit zusammen?

Das Data Warehouse-Konzept beschreibt eine unternehmensweite Datenbasis, die von operativen DV-Systemen isoliert ist und für Endbenutzer aufgebaut ist. Data Mining greift auf diese Daten zu, um Informationen zu generieren, die über herkömmliches OLAP hinausgehen.

Welche Rolle spielt die Visualisierung im Data Mining?

Die Visualisierung spielt eine entscheidende Rolle, da sie dem Benutzer ermöglicht, die durch Data Mining generierten Informationen zu verstehen und zu interpretieren. Das menschliche Gehirn kann bildliche Darstellungen besser erfassen als reine Zahlen. Verschiedene Techniken wie die Streudiagramm-Matrix werden erwähnt.

Wird Data Mining als reine Modeerscheinung betrachtet?

Das Dokument stellt die Frage, ob Data Mining mehr als ein Modebegriff ist, und verweist auf frühere gescheiterte Konzepte. Es werden technische und organisatorische Probleme als mögliche Gründe für das Scheitern genannt. Trotzdem wird betont, dass der Umgang mit Informationen ein entscheidender Erfolgsfaktor für Unternehmen im 21. Jahrhundert sein wird, und Data Mining ein wichtiger Schritt in dieser Entwicklung ist.

Welche Arten von Management Support Systemen (MSS) werden erwähnt?

Management Information Systeme (MIS), Decision Support Systeme (DSS) und Executive Information Systeme (EIS).

Was ist der KDD-Prozess?

Knowledge Discovery in Databases (KDD) ist ein Prozess, der Data Mining beinhaltet, aber auch Schritte wie Datenauswahl, Datenaufbereitung, Transformation, Data Mining und Interpretation/Bewertung umfasst.

Ende der Leseprobe aus 21 Seiten - nach oben

Jetzt kaufen

Titel: Data Mining - mehr als ein Modebegriff?

Seminararbeit , 2001 , 21 Seiten , Note: 2,0

Autor:in: Jan Bierbüße (Autor:in)

Informatik - Wirtschaftsinformatik

Blick ins Buch

Details

Titel: Data Mining - mehr als ein Modebegriff?
Hochschule: FernUniversität Hagen
Veranstaltung: Seminar Statistik
Note: 2,0
Autor: Jan Bierbüße (Autor:in)
Erscheinungsjahr: 2001
Seiten: 21
Katalognummer: V103685
ISBN (eBook): 9783640020638
Sprache: Deutsch
Schlagworte: OLAP Assoziierung Clusterung Klassifikation Data Mining Data Warehouse
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Jan Bierbüße (Autor:in), 2001, Data Mining - mehr als ein Modebegriff?, München, GRIN Verlag, https://www.grin.com/document/103685