OLAP vs. Data Mining - experimentelle Untersuchung auf der Basis eines Ausschnittes von MicroStrategy´s VMall für die Wissensgewinnung mit Skyon


Hausarbeit, 2002

42 Seiten, Note: 1,2


Leseprobe

Inhaltsverzeichnis

1. Einleitung
1.1 Einführung/Zielstellung
1.2 Abgrenzung
1.3 Methodik

2. Grundlagen Business Intelligence
2.1 OLAP
2.2 Data Mining
2.2.1 Einordnung des Data Mining in den Prozess des KDD
2.2.2 Entdecken von Hypothesen
2.2.3 Data Mining Verfahren
2.3 Vergleich OLAP und Data Mining

3. Data Mining Tool Skyon
3.1 Datenanbindung
3.2 Datenaufbereitung
3.3 Skyon Developer
3.3.1 Der Data Manager
3.3.2 Der Visualizer

4. VMall - ein virtuelles Beispielunternehmen
4.1 Einführung VMall
4.2 Beschreibung der Aufgabenstellung
4.3 Ansatz zur Lösung der Aufgabenstellung
4.3.1 Lösung mit MicroStrategy
4.3.2 Lösung mit Skyon
4.4 Gegenüberstellung der Lösungen von MicroStrategy7 und Skyon

5. Schlussbemerkung
5.1 Arbeit mit einem OLAP-Tool
5.2 Arbeit mit einem Data Mining -Tool

Abkürzungsverzeichnis

Abbildungsverzeichnis

Literaturverzeichnis

Anlagen

Thesen

1. Einleitung

1.1 Einführung/Zielstellung

Ein stetiges Wachstum der Datenbestände macht den Zugriff auf gewünschte Informationen bzw. auf in Datenbasen enthaltenes Wissen immer schwieriger. Traditionelle Methoden wie Tabellenkalkulation und ad hoc Datenbankabfragen sind den aktuellen und werden den zukünftigen Anforderungen an Datenanalyse nicht gewachsen sein1.

Ziel dieser Arbeit ist die Untersuchung von Segmentierungsmöglichkeiten - bereits vorhandener Kundendaten - zur Neukundengewinnung mit Hilfe von OLAP und Data Mining. Dadurch soll dem virtuellen Unternehmen VMall die Möglichkeit eröffnet werden, gezielt Marketingaktionen durchzuführen und somit neue, umsatzkräftige Kunden zu werben. Dabei steht vor allem die A- nalyse mit Data Mining, im Speziellen mit dem Tool Skyon, im Vordergrund dieser Arbeit.

1.2 Abgrenzung

Bei der Erstellung dieser Arbeit wurden der Aufbau und die Struktur eines Data Warehouse sowie das OLAP-Tool MicroStrategy7 als bekannt voraus- gesetzt. Diese Gebiete wurden von der Beschreibung ausgenommen, da sie keinen Untersuchungsschwerpunkt der Arbeit darstellen. Beide Themen bil- den jedoch die Grundlage und sollten dem Leser deshalb bekannt sein.

1.3 Methodik

Die Bearbeitung der Fragestellung „Kundensegmentierung“ basiert auf folgendem Vorgehen. Um die Gebiete OLAP und Data Mining in dem Prozess des Business Intelligence voneinander abzugrenzen, wird zuerst auf deren inhaltliche Grundlagen sowie Ausrichtungen eingegangen.

Daran anknüpfend erfolgt eine Einführung in das Data Mining Tool Skyon der Unternehmung Skyon AG mit einer detaillierten Beschreibung des verwende- ten Data Mining Verfahrens Kohonen SOM und der dazugehörigen Visualisierungsmethodik.

Der nächste Abschnitt dieser Arbeit beschäftigt sich mit der Datenbank VMall, die von der Unternehmung MicroStrategy bereitgestellt wurde und ein virtuelles Versandunternehmen abbildet. Daran anschließend wird die Problemstellung und die dazugehörige Datenaufbereitung für Skyon und MicroStrategy7 beschrieben.

Abschließend erfolgt ein Vergleich der Untersuchungsergebnisse beider Softwaretools und es wird eine allgemeine Aussage - bezogen auf das gestellte Fragestellung - erarbeitet.

2. Grundlagen Business Intelligence

Business Intelligence stellt eine stetige Entwicklung der Möglichkeiten zur Datenanalyse dar. Dabei erfolgt die Speicherung von Daten in Form eines Data Warehouse, welches die Basis dieses Prozesses bildet. Mit Hilfe eines OLAP-Tools wird auf ein solches Data Warehouse zugegriffen, um aus den Daten Informationen über Entwicklungen und mögliche Trends zu erhalten. Die bisher letzte Stufe in dem Prozess des BI2 ist Data Mining. Diese Funkti- onalität unterstützt die Wissensgewinnung aus Datenbeständen, muss aber nicht zwangsläufig auf einem Data Warehouse basieren. Jedoch stellt der Zugriff auf ein Data Warehouse, im Gegensatz zu operativen Transaktions- systemen, eine breitere Datenbasis und eine bessere Datenqualität zur Ver- fügung3.

2.1 OLAP

Eine schnelle und flexible Analyse geschäftskritischer Daten wird durch Online Analytical Processing gewährleistet. OLAP vereinfacht die Untersuchung archivierter Daten eines Data Warehouses. Dies erfolgt über die Betrachtung der Daten aus verschiedenen Perspektiven4.

Die Entdeckung von Trends, die Feststellung von Unregelmäßigkeiten sowie deren zugrundeliegenden Ursachen sind die Schwerpunkte bei der Anwendung eines OLAP-Tools. Dadurch wird dem Anwender die Möglichkeit eröffnet, Gründe für vergangene und Perspektiven für zukünftige Geschäftsentwicklungen zu erkennen5.

Dazu werden die OLAP Techniken Slice&Dice, Pivoting und Drilling verwendet. Drilling erlaubt es, Daten aufzubrechen bzw. zu verfeinern und somit detaillierte Ursachen für Entwicklungen darzustellen6. Durch Pivoting kann der Benutzer durch Rotation des gegebenen Datenwürfels die gewünschten Informationen erhalten. Die Gliederung von Daten des Data Warehouse in Schichten bzw. Würfeln um dadurch neue Erkenntnisse zu erhalten ist durch die Slice&Dice Funktionalität möglich7.

2.2 Data Mining

Die Stellung von Data Mining im Business Intelligence Prozess wurde bereits genannt, jedoch nicht in den Prozess des Knowledge Discovery in Databases (KDD) eingeordnet. Dies erfolgt im nächsten Abschnitt.

2.2.1 Einordnung des Data Mining in den Prozess des KDD

Die Einordnung des Data Mining im KDD-Prozess wird seit mehreren Jahren kontrovers diskutiert (s. Brachman/Anand, Chapman, Fayyad, John und Wirth/Reinhartz). Basierend auf dieser Diskussion tendiert die aktuelle Literatur jedoch immer stärker zu dem Prozessmodel von Fayyad8. Demnach unterteilt sich der Prozess des KDD in fünf Teilbereiche (Selection, Preprocessing, Transformation, Data Mining und Interpretation/Evalutation), welche in der folgenden Grafik dargestellt sind.

Abbildung 1: KDD Prozessmodel von Fayyad

Abbildung in dieser Leseprobe nicht enthalten

Quelle: in Anlehnung an Ankerst, M.: Visual Data Mining, S. 2

Daraus ableitend definiert Fayyad Data Mining als Teilschritt des KDD9: „Data Mining ist die nicht-triviale Entdeckung gültiger, neuer, potenziell nützlicher und verständlicher Muster in Datenbeständen10.“ Diese Arbeit basiert, bei der Betrachtung von Data Mining, auf dem Modell von Fayyad.

2.2.2 Entdecken von Hypothesen

Der Prozess des Knowledge Discovery in Databases, und das Data Mining im Speziellen, ist ein Bottom-Up Prozess. Ausgehend von den Basisdaten soll neues, noch unbekanntes Wissen aus Datenbeständen extrahiert werden. Nach Kurz kann die Durchführung dieses Prozesses direkt oder indirekt geschehen11. Im Falle des indirekten Prozesses wird der Vorgang nicht angeleitet, d.h. es findet ein unüberwachter Lernvorgang statt. Der Begriff direkt impliziert, dass der Prozess durch einen Benutzer geführt bzw. angeleitet durchgeführt wird (überwachtes Lernen).

Anhand der unten dargestellten Übersicht wird deutlich, wie sich klassische Verfahren zur Datenanalyse von den Data Mining Verfahren unterscheiden. Hauptmerkmal bei der Unterscheidung ist die Analyserichtung. Beim Data Mining wird, ausgehend von der Datenbasis (Bottom-Up Verfahren), der Ana- lysevorgang angestoßen. Dabei wird zunächst jedes Datum als eigene Klas- se betrachtet, die es zu gruppieren gilt. Klassische Verfahren der Datenana- lyse werden von einem Benutzer gesteuert (Top-Down Verfahren) und set- zen somit Kenntnisse über die Struktur der Metadaten voraus, um effizient Untersuchungen durchführen zu können12. Diese Verfahrensweise betrachtet den gesamten Datenbestand als eine eigene Klasse, die es aufzuspalten gilt13.

Abbildung 2: Problemorientierte Einordnung des Data Mining

Abbildung in dieser Leseprobe nicht enthalten

Quelle: in Anlehnung an Knoblauch, B.: Der Data-Mining Ansatz zur Analyse betriebswirtschaftlicher Daten, S. 9

2.2.3 Data Mining Verfahren

Die Aktualität dieser Thematik zieht wiederum differente Auffassungen der Einordnung existierender Data Mining Verfahren nach sich. Diese Arbeit orientiert sich bei der Gruppierung der Verfahren an Säuberlich14.

Abbildung 3: Auswahl wichtiger Data Mining Verfahren nach der Analyseme- thode

Abbildung in dieser Leseprobe nicht enthalten

Quelle: in Anlehnung an Säuberlich, F.:: KDD und Data Mining als Hilfsmittel zur Entscheidungsfindung, S. 46

Wie in der Abbildung dargestellt, unterteilen sich die Data Mining Verfahren in drei Gruppen: Assoziationsanalyse, Klassifikation/Vorhersage und Seg- mentierung.

Assoziationsanalysen verfolgen im Rahmen des Data Mining die Zielsetzung, eigenständige Assoziationsregeln zu formulieren, die häufig auftretende, in Datenbanken versteckte, Regeln oder Muster beschreiben.

Die wichtigsten Data Mining Fragestellungen lassen sich durch Klassifikation abbilden15. Dieses Verfahren basiert auf der Annahme, dass eine bestimmte Anzahl von Objekten vorhanden ist, die verschiedenen Klassen zugeordnet werden sollen. Durch den Einfluss von Merkmalen eines Objektes auf be- stimmte Klassen wird ein Modell aufgebaut (Klassifikator). Dieser Klassifika- tor wird benutzt, um neue, bisher unbekannte Objekte zu klassifizieren. Die Vorhersage (auch: Prognose) beinhaltet, zusätzlich zu der Klassifikation, ei- ne temporäre Komponente.

Das Ziel der Segmentierung besteht darin, große Datenmengen in kleine, homogen und betriebswirtschaftlich zweckmäßige Gruppen zu unterteilen. Es ist Aufgabe dieser Data Mining Methodik, die Datensätze in eine endliche Anzahl von Segmenten zu gruppieren, so dass diese in sich homogen, zu- einander aber so heterogen wie möglich sind. Im Gegensatz zu der Klassifi- kation wird keine Klasseneinteilung vorgegeben. Stattdessen werden vor- handene Ähnlichkeiten von den Methoden selbständig ermittelt, um daraus folgend Gruppen zu bilden.

Generell kann von den zuvor beschriebenen Data Mining Verfahren folgende Ableitung hergestellt werden. Die Verfahren der Assoziationsanalyse eignen sich besonders zur Identifikation von Kaufmustern (z.B. Warenkorbanalysen), die Klassifikation/Vorhersage für Direktwerbung, Sortimentsgestaltung sowie für Aufdeckung doloser Handlungen. Die Segmentierung wird für die Identifi- kation ertragreicher Segmente, z.B. zur Einordnung von neuen Kunden in bereits bekannte Muster und Werbung von Neukunden, genutzt.

Ein besonderer Schwerpunkt dieser Arbeit liegt auf der Theorie neuronaler Netze, da von dem untersuchten Tool Skyon ein neuronales Netz vom Typ Kohonen SOM verwendet wird. Deshalb erfolgt an dieser Stelle ein Exkurs in diesen Bereich des Data Mining.

Künstliche neuronale Netze beinhalten in Schichten angeordnete Neuronen. Über die Inputschicht werden Daten aufgenommen und durch die Outputschicht Ausgabewerte bereitgestellt. Input- und Outputschicht sind über versteckte Schichten miteinander verbunden, wobei zwischen allen Neuronen benachbarter Schichten gewichtete Verbindungen bestehen16.

Eine besondere Vorgehensweise der Mustererkennung auf Basis neuronaler Netze liegt mit den Kohonen SOM vor, welches aus zwei Schichten, der n- putschicht und der Neuronenkarte, besteht.

Abbildung 4: Kohonen SOM

Abbildung in dieser Leseprobe nicht enthalten

Quelle: in Anlehnung an Chamoni, P.: Ausgewählte Verfahren des Data Mining, S. 317

Jedes Neuron der Inputschicht ist mit jedem Neuron auf der Neuronenkarte verbunden, wobei die Verbindungen gewichtet sind. Dabei wird die Annahme unterstellt, dass sich die Neuronen der Karte auf einem Gitter anordnen. Die- ses Verfahren gruppiert die Neuronen auf der Karte so, dass sie die Topolo- gie der Klassenstruktur widerspiegeln. Die Gewichte zwischen der Input- schicht und der Neuronen-Karte werden iterativ berechnet, welche als Ab- stand bestimmend interpretiert werden. Somit können nur numerische Attri- butwerte als Eingabemuster verwendet werden17. Bei diesem Verfahren er- folgt eine selbständige Anordnung der Neuronen auf dem virtuellen Gitter der Neuronen-Karte. Kohonen definiert SOM als ein „result of a nonparametric regression process that is mainly used to represent high-dimensional, non nonlinearly related data items in an illustrative, often two-dimensional display, and to perform unsupervised classification and clustering18.“ Um neuronale Netze detaillierter differenzieren zu können, unterteilt Weber19 die Data Mining Verfahren in überwachtes und unüberwachtes Lernen. Das überwachte Lernen ist nutzergeführt, d.h. der Anwender greift in den Ablauf der Analyse ein. Die am häufigsten verwendete Methode ist das Multi- layer Perceptron Verfahren.

Beim unüberwachten Lernen findet das Netz selbständig Segmentierungskriterien für die Eingangsmuster. Ein Beispiel für das unüberwachte Lernen stellt das Kohonen SOM dar.

Abbildung 5: Klassifikation mit Neuronalen Netzen

Abbildung in dieser Leseprobe nicht enthalten

Quelle: in Anlehnung an Weber, R.: Data Mining mit intelligenten Technologien - Die Suche nach Informationen in Daten, S. 303

[...]


1 vgl. Knoblauch, B.: Der Data-Mining Ansatz zur Analyse betriebswirtschaftlicher Daten, S. 1

2 vgl. Anhang: Abbildung 8

3 vgl. Küppers, B.: Data Mining in der Praxis, S. 44

4 vgl. Schinzer, H./Bange, C./Mertens, H.: Data Warehouse und Data Mining, S. 39

5 vgl. Hönig, T.: Desktop OLAP in Theorie und Praxis, S. 171

6 vgl. Hönig, T.: Desktop OLAP in Theorie und Praxis, S. 172

7 vgl. Anhang: Abbildung 9

8 vgl. Ankerst, M: Visual Data Mining, S. 2; Kurz, A.: Neue Wege der Datenanalyse mittels neuartiger Knowledge Discovery- und Data Mining-Methoden, S. 253; Säuberlich, F.: KDD und Data Mining als Hilfsmittel zur Entscheidungsfindung, S. 28

9 vgl. Säuberlich, F.: KDD und Data Mining als Hilfsmittel zur Entscheidungsunterstützung, S. 28

10 vgl. Knoblauch, B.: Der Data-Mining Ansatz zur Analyse betriebswirtschaftlicher Daten, S. 14

11 vgl. Kurz, A.: Neue Wege der Datenanalyse mittels neuartiger Knowledge Discovery- und Data Mining- Methoden, S. 257

12 vgl. Kurz, A.: Neue Wege der Datenanalyse mittels neuartiger Knowledge Discovery- und Data Mining-Methoden, S. 270

13 vgl. Küppers, B.: Data Mining in der Praxis, S. 56

14 vgl. Säuberlich, F.: KDD und Data Mining als Hilfsmittel zur Entscheidungsunterstützung, S. 42

15 vgl. Bach, V./Gronover, S.: Kundensegmentierung, S. 38

16 vgl. Anhang: Abbildung 11

17 vgl. Chamoni, P.: Ausgewählte Verfahren des Data Mining, S. 317

18 vgl. Kohonen, T.: Self-Organizing Maps, S. 395

19 vgl. Weber, R.: Data Mining mit intelligenten Technologien - Die Suche nach Informationen, S. 303

Ende der Leseprobe aus 42 Seiten

Details

Titel
OLAP vs. Data Mining - experimentelle Untersuchung auf der Basis eines Ausschnittes von MicroStrategy´s VMall für die Wissensgewinnung mit Skyon
Hochschule
Hochschule für Technik, Wirtschaft und Kultur Leipzig  (Fachbereich Wirtschaftswissenschaften)
Note
1,2
Autor
Jahr
2002
Seiten
42
Katalognummer
V5220
ISBN (eBook)
9783638131872
ISBN (Buch)
9783638683807
Dateigröße
625 KB
Sprache
Deutsch
Schlagworte
Knowledge Discovery in Databases Data Mining OLAP MicroStrategy Skyon Neuronale Netze Kohonen SOM
Arbeit zitieren
Torsten Hildebrandt (Autor), 2002, OLAP vs. Data Mining - experimentelle Untersuchung auf der Basis eines Ausschnittes von MicroStrategy´s VMall für die Wissensgewinnung mit Skyon, München, GRIN Verlag, https://www.grin.com/document/5220

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: OLAP vs. Data Mining - experimentelle Untersuchung auf der Basis eines Ausschnittes von MicroStrategy´s VMall für die Wissensgewinnung mit Skyon



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden