Principles and methods of data mining are a widespread area, i.e. retail dealer use data mining tools to analyze the behavior of customers, computer hardware supplier use data mining to optimize their inventory. There are multiple possibilities of using data mining techniques, even in technical and scientific areas of applications. In regard of manyfold fields of application, there are no less than the number of techniques and methods for Data Mining in existence. Another field to apply Data Mining technique is the domain of simulation. Simulation is the computer-based approach of executing and experimenting of and with models. One aim of this thesis is to analyze data mining tools to see how capable they are solving data mining duties with respect to data calculated by simulation. Different data mining tools are analyzed, commercial tools like SPSS and SPSS Clementine as well as established and freely available tools like WEKA and the R-Project. These tools are analyzed in matters of their data mining functionalities, options to access different data sources, and their complexity of different data mining algorithms. Beyond the analysis of data mining tools with respect to functionality and simulation, envi-ronments for modeling and simulation are analyzed with respect to their possibilities of the utilization for data mining. These environments are the commercial tools Arena and Any-Logic and the freely available SeSam-Project. The effect of all processes of analyzing is a ranking of commonly used data mining tech-niques and concepts. The second part of the thesis occupies with the problem, which data mining method or technique is useful to analyze data provided by a simulation process. It also concerns in which way a method is suitable for the validation of a certain model. In the long run of this thesis the chosen data mining technique is applied to data generated by a simulation process of diffusion and reaction of substances.
Inhaltsverzeichnis
1. Einleitung
1.1 Data Mining
1.2 Simulation
1.3 Zusammenführung und Ziele
2. Simulation
2.1 Definitionen
2.1.1 Definition System
2.1.2 Definition Modell/Modellierung
2.1.3 Definition Simulation
2.2 Aufgabenfelder/Anwendungsbereiche
2.2.1 Vor- und Nachteile der Simulation
2.2.1.1 Vorteile der Simulation
2.2.1.2 Nachteile der Simulation
2.2.2 Simulationsarten
2.2.2.1 Kontinuierliche Simulation
2.2.2.2 Diskrete Simulation
2.2.2.3 Monte Carlo Simulation
2.3 James II
2.3.1 Hintergrund
2.3.2 Ziele
2.3.3 Einordnung und Entwicklungen
2.3.4 Entwicklungsstand
3. Data Mining
3.1. Definition
3.2 Ziel(e) des Data Mining
3.3 Data Mining als Prozess
3.4 Grundlegende Methoden
3.4.1 Klassenbildung
3.4.2 Assoziationen
3.4.3 Klassifizierung
3.4.4 Zeitreihenanalyse
3.5 Optimierung von Data Mining-Modellen und genetische Algorithmen
3.6. Einsatz von Data Mining in der Simulation
4. Vergleichskriterien
4.1 Evaluation der Analysearten
4.1.1 Klassenbildung
4.1.2 Assoziationen
4.1.3 Klassifizierung
4.1.4 Zeitreihenanalyse
4.2 Klassifizierung von Data Mining-Werkzeugen
4.2.1 Erweiterungen von DBMS
4.2.2 Data Mining-Suiten
4.2.3 Eigenständige Data Mining-Tools
4.3 Bewertung der Data Mining-Werkzeuge
4.3.1 Generelle Eigenschaften
4.3.2 Datenbankanbindung
4.3.3 Data Mining-Aufgaben
4.3.4 Data Mining-Algorithmen
4.4 Nutzung von Data Mining in konkreten Simulationsaufgaben
5. Analyse
5.1 Analyse Modellierungs- und Simulations-Umgebungen
5.1.1 Arena
5.1.1.1 Beurteilung der Data Mining-Funktionen
5.1.1.1.1 Externe Datenquellen
5.1.1.1.2 Analyse und Optimierung
5.1.1.1.3 Präsentation
5.1.2 AnyLogic
5.1.2.1 Beurteilung der Data Mining-Funktionen
5.1.2.1.1 Externe Datenquellen
5.1.2.1.2 Analyse und Optimierung
5.1.2.1.3 Präsentation
5.1.3 SeSam
5.1.3.1 Beurteilung der Data Mining-Funktionen
5.1.1.3.1 Externe Datenquellen
5.1.1.3.2 Analyse und Optimierung
5.1.1.3.3 Präsentation
5.2 Analyse einer Bibliothek
5.2.1 WEKA
5.2.1.1 Generelle Eigenschaften
5.2.1.2 Datenbankanbindung
5.2.1.3 Data Mining-Aufgaben
5.2.1.4 Data Mining-Algorithmen
5.3 Analyse eines Werkzeuges
5.3.1 SPSS
5.3.1.1 SPSS Basispaket („SPSS Base“)
5.3.1.1.1 Generelle Eigenschaften
5.3.1.1.2 Datenbankanbindung
5.3.1.1.3 Data Mining-Aufgaben
5.3.1.1.4 Data Mining-Algorithmen
5.3.1.2 SPSS Clementine
5.3.1.2.1 Generelle Eigenschaften
5.3.1.2.2 Datenbankanbindung
5.3.1.2.3 Data Mining-Aufgaben
5.3.1.2.4 Data Mining-Algorithmen
5.3.2 R-Project/R
5.3.2.1 Generelle Eigenschaften
5.3.2.2 Datenbankanbindung
5.3.2.3 Data Mining-Aufgaben
5.3.2.4 Data Mining-Algorithmen
6. Vergleich und Implementationsentscheidung
6.1 Analyse des zugrunde liegenden Datenmaterials (James II)
6.2 Abschließender Vergleich
6.2.1 Modellierungs- und Simulationsumgebungen
6.2.2 Werkzeuge
6.2.3 Bibliotheken
6.3 Ranking der Analysemethoden
6.4 Implementationsentscheidung
7. Implementierung
7.1 Zugrunde liegende Annahmen
7.2 Hilfsklassen
7.2.1 Chi-Quadrat-Berechnungen
7.2.2 Kendalls Tau
7.2.3 Lineare Korrelation nach Pearson
7.2.4 Kontingenztabellen
7.2.5 Student t-Test
7.2.6 Weitere Hilfsklassen
7.3 Klassen und Methoden des k-Means-Algorithmus
8. Auswertung von Simulationsdaten
8.1 Grundmodell
8.1.1 Vorausgesetztes Datenmaterial
8.1.2 Vorverarbeitung
8.2 Vorgaben
8.3 Ergebnisse
8.3.1 Cluster-Analyse mit SPSS
8.3.2 Cluster-Analyse mit dem in James II implementierten Algorithmus
8.4 Beurteilung des implementierten Algorithmus
9. Fazit und Zusammenfassung der Ergebnisse dieser Bachelor-Arbeit
Zielsetzung und Themen
Die vorliegende Arbeit untersucht die Anwendbarkeit von Data Mining-Verfahren zur Analyse von Simulationsergebnissen. Das primäre Ziel ist es, etablierte Data Mining-Werkzeuge und -Methoden hinsichtlich ihrer Eignung für Simulationsdaten zu bewerten, ein Ranking zu erstellen und beispielhaft die Implementierung eines k-Means-Algorithmus innerhalb des bestehenden Simulationsframeworks "James II" an der Universität Rostock zu demonstrieren.
- Evaluation und Vergleich gängiger Data Mining-Werkzeuge und -Bibliotheken
- Analyse der Eignung verschiedener Algorithmen für Simulationsdaten
- Methodische Einordnung von Data Mining im Kontext von Simulationen
- Praktische Implementierung eines k-Means-Clustering-Algorithmus
- Validierung und Auswertung von Simulationsergebnissen durch Data Mining
Auszug aus dem Buch
3.4.1 Klassenbildung
Verfahren und Algorithmen zur Klassenbildung bewirken das Bilden von Clustern oder Gruppen innerhalb von Daten. Diese Verfahren umfassen verschiedene Clusteranalysemethoden, zu der im weitesten Sinne auch Assoziationsverfahren gezählt werden. Dabei wird unterstellt, dass die einzelnen Objekte durch einen Vektor von Messwerten fester und bekannter Dimension charakterisierbar sind. Ausgangspunkt für diese Form der Analyse ist eine konkrete Problemstellung, beispielsweise werden Informationen über eine bestimmte Zielgruppe benötigt, um mit Hilfe dieser Informationen Werbung für ein bestimmtes Produkt zu verbessern. Aufgrund dieser Basisinformationen lassen sich die zu klassifizierenden Objekte auswählen.
Neben den Überlegungen, welche Informationen ein Objekt möglichst gut beschreiben, sollte auch immer abgewogen werden, ob der Aufwand (zusätzliche Datenerhebung, Verarbeitung und Auswertung) zu dem Nutzen (zusätzliche Informationen, Ergebnisvalidierung) in einem positiven Verhältnis steht. Bevor jedoch das jeweilige Analysewerkzeug ausgewählt wird, ist zusätzlich zu untersuchen, welches Skalenniveau und welches Approximationsmaß anwendbar sind. In der Praxis ist außerdem zu beachten, dass die gefundenen Klassen auch interpretierbar sein müssen, was oftmals zu einer Beschränkung der möglichen Klassen führt.
Zusammenfassung der Kapitel
1. Einleitung: Die Einleitung beleuchtet die Relevanz von Data Mining in der Wirtschaft und führt in die Thematik der Simulation als Werkzeug zur Untersuchung komplexer Systeme ein.
2. Simulation: Dieses Kapitel definiert die Grundlagen der Simulation, unterscheidet verschiedene Simulationsarten wie diskrete und kontinuierliche Simulation und stellt das Simulationsframework "James II" vor.
3. Data Mining: Es erfolgt eine Definition von Data Mining als Prozess, gefolgt von einer detaillierten Erläuterung grundlegender Methoden wie Klassenbildung, Assoziationen, Klassifizierung und Zeitreihenanalyse.
4. Vergleichskriterien: Hier werden Kriterien für die Evaluation von Data Mining-Verfahren und -Werkzeugen definiert, wobei verschiedene Kategorien von Werkzeugen hinsichtlich ihrer Eigenschaften bewertet werden.
5. Analyse: Dieses Kapitel analysiert verschiedene Modellierungs-, Simulationsumgebungen sowie Data Mining-Bibliotheken und Werkzeuge wie Arena, AnyLogic, SeSam, WEKA und SPSS.
6. Vergleich und Implementationsentscheidung: Die Ergebnisse der Analysen werden verglichen, um eine fundierte Auswahl für die Implementierung eines Algorithmus zur Validierung von Simulationsergebnissen zu treffen.
7. Implementierung: Der Autor beschreibt die technische Umsetzung eines k-Means-Algorithmus innerhalb des Frameworks "James II" sowie die benötigten Hilfsklassen für statistische Berechnungen.
8. Auswertung von Simulationsdaten: Das Kapitel dokumentiert die praktische Anwendung des implementierten k-Means-Algorithmus auf reale Simulationsdaten und vergleicht die Ergebnisse mit SPSS.
9. Fazit und Zusammenfassung der Ergebnisse dieser Bachelor-Arbeit: Das Fazit fasst die wesentlichen Erkenntnisse der Arbeit zusammen und gibt einen Ausblick auf die weitere Validierung von Simulationsmodellen durch Data Mining.
Schlüsselwörter
Data Mining, Simulation, Modellierung, k-Means-Algorithmus, James II, Clusteranalyse, Klassifizierung, Zeitreihenanalyse, statistische Methoden, Assoziationsregeln, Validierung, Werkzeugbewertung, Software, Algorithmen, Entscheidungsbäume.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Bachelorarbeit untersucht, wie Methoden des Data Mining dazu genutzt werden können, um große Datenmengen, die bei der Simulation komplexer Systeme entstehen, effizient zu analysieren und zu validieren.
Was sind die zentralen Themenfelder?
Die zentralen Themenfelder sind die Simulation als computerbasierte Experimentiermethode, die verschiedenen Verfahren des Data Mining sowie die Analyse und Implementierung von Algorithmen zur Auswertung von Simulationsergebnissen.
Was ist das primäre Ziel der Arbeit?
Das primäre Ziel ist es, Data Mining-Werkzeuge zu evaluieren und einen für die Validierung von Simulationsergebnissen geeigneten Algorithmus beispielhaft im Simulationsframework "James II" zu implementieren.
Welche wissenschaftlichen Methoden werden verwendet?
Die Arbeit nutzt eine methodische Analyse etablierter Data Mining-Werkzeuge (z.B. SPSS, WEKA, R) und implementiert anschließend einen k-Means-Clustering-Algorithmus, um die Anwendbarkeit in einer praktischen Simulationsstudie zu prüfen.
Was wird im Hauptteil behandelt?
Der Hauptteil behandelt die theoretischen Grundlagen der Simulation und des Data Mining, die Definition von Vergleichskriterien für Werkzeuge, die Analyse konkreter Softwareumgebungen sowie die technische Implementierung und Anwendung des k-Means-Algorithmus auf Simulationsdaten.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit lässt sich durch Begriffe wie Data Mining, Simulation, Modellierung, Clusteranalyse, k-Means-Algorithmus und Validierung charakterisieren.
Wie schneidet der implementierte Algorithmus im Vergleich zu SPSS ab?
Der selbst implementierte Algorithmus liefert bei der Clusteranalyse die gleichen Ergebnisse wie SPSS, weist jedoch Unterschiede in der initialen Zentroid-Wahl und der Anzahl der benötigten Iterationen bis zur Stabilität auf.
Warum ist die Wahl des Datenmaterials für die Simulation so wichtig?
Das Datenmaterial muss für die statistischen Analysemethoden, wie sie im Data Mining genutzt werden, geeignet aufbereitet und strukturiert sein, um Aussagen über das Verhalten des Simulationsmodells treffen zu können.
- Quote paper
- B.Sc. Enrico Seib (Author), 2008, Data Mining - Methoden in der Simulation, Munich, GRIN Verlag, https://www.grin.com/document/114550