Please wait
Please install the Adobe Flash Player if no e-book is displayed.
Diploma Thesis, 2001, 87 Pages
Author: Dr. Thomas Zabel
Subject: Computer Science - Commercial Information Technology
Details
Tags: Neuronale, Netze, Clustern, Vorhersage, Methodenvergleich, Tools
Year: 2001
Pages: 87
Grade: 1,3
Bibliography: ~ 98 Entries
Language: German
ISBN (E-book): 978-3-638-32070-2
ISBN (Book): 978-3-638-70341-3
File size: 516 KB
Other users also were interested in the following titles:
Abstract
Die Literatur zum Data Mining dokumentiert zahlreiche Versuche, aus verschiedenartigsten Datenbeständen neue Erkenntnisse zu gewinnen. Es werden unterschiedliche Algorithmen des Data Mining beschrieben. In dieser Arbeit soll die Eignung Künstlich Neuronaler Netze als Mining-Algorithmen für die Methoden Clustern und Vorhersage untersucht werden. Dabei begrenzt sich die Sichtweise auf Backpropagation - und Kohonen-Netze , da diese Neuronalen Netze für Clustern und Vorhersagen prädestiniert sind. Sie stellen eine Alternative zu den statistischen Methoden zur Prognose- bzw. Clustererstellung dar. Die eingesetzten Neuronalen Netze sollen mit dem K-Means-Verfahren und dem Box-Jenkins-Ansatz verglichen werden. Die theoretischen Konstrukte werden anhand von Versicherungsdaten evaluiert. Die Ergebnisse zeigen die Vor- und Nachteile der untersuchten Methoden und geben dem Leser eine Handlungsempfehlung für die Auswahl von Data Mining-Algorithmen in der Praxis.
Excerpt (computer-generated)
Thema:
Neuronale Netze für Clustern und Vorhersage ¡V
Methodenvergleich und Tools
Diplomhausarbeit
im Fachgebiet Wirtschaftsinformatik
am Lehrstuhl für Quantitative Methoden
vorgelegt von:
Thomas Zabel
Abgabetermin: 25. Januar 2001
Inhaltsverzeichnis
Inhaltsverzeichnis ... II
Abkürzungsverzeichnis ... IV
Abbildungsverzeichnis ... V
Tabellenverzeichnis ... VI
Symbolverzeichnis ... VII
1 Einführung ... 1
1.1 Problem ... 1
1.2 Ziel und Aufbau ... 2
2 Neuronale Netze ... 4
2.1 Hintergrund - Eine kurze Geschichte der Neuroinformatik ... 4
2.2 Betriebswirtschaftliche Anwendungen Neuronaler Netze ... 7
2.3 Grundlagen ... 10
2.4 Backpropagation-Netze ... 12
2.5 Eigenschaften ... 15
2.6 Einordnung ... 15
3 Cluster und Vorhersage als Bestandteile von Data Mining ... 17
3.1 Clusteranalyse ... 17
3.1.1 Einführung ... 17
3.1.2 Methodischer Hintergrund ... 18
3.1.2.1 K-Means-Verfahren ... 18
3.1.2.2 Kohonen Netze (SOM ¡V Self-Organizing Feature Maps) ... 22
3.2 Vorhersage ... 24
3.2.1 Einführung ... 24
3.2.2 Methodischer Hintergrund ... 24
3.2.2.1 Box-Jenkins Technik ... 24
3.2.2.2 Backpropagation-Netze ... 31
3.3 Data Mining ... 36
3.3.1 Begriffsbestimmung ... 36
3.3.2 Konzeption des Data Mining ... 36
3.3.3 Phasenmodell des Data Mining-Prozesses ... 38
3.3.3.1 Problemdefinition ... 38
3.3.3.2 Datenaufbereitung ... 39
3.3.3.3 Data Mining-Analyse ... 41
3.3.3.4 Interpretation der Ergebnisse ... 42
4 Einsatz von Neuronalen Netzen in Software-Tools ... 44
4.1 Ausgangssituation ... 44
4.2 Eingesetzte Software ... 45
4.2.1 IBM Intelligent Miner ... 45
4.2.2 KnowledgeSTUDIO ... 46
4.2.3 NeuNet Pro ... 47
4.2.4 SPSS ... 48
4.2.5 SPSS Clementine ... 49
4.3 Vorgehensweise ... 50
4.3.1 Problemdefinition ... 50
4.3.2 Datenaufbereitung ... 51
4.3.3 Analyse - Clusteranalyse ... 54
4.3.3.1 Trainieren des Kohonen-Netzes ... 54
4.3.3.2 Testen des KNN ... 55
4.3.3.3 Clustern der Versicherungsdaten ... 55
4.3.3.4 Vergleich mit dem K-Means-Verfahren ... 56
4.3.3.5 Zusammenfassung ... 56
4.3.4 Analyse - Prognose ... 58
4.3.4.1 Trainieren des Netzes ... 58
4.3.4.2 Testen des KNN ... 59
4.3.4.3 Prognose der Versicherungsdaten ... 60
4.3.4.4 Vergleich mit der Box-Jenkins-Technik ... 63
4.3.4.5 Zusammenfassung ... 66
5 Resümee und Ausblick ... 68
Literaturverzeichnis ... 71
Anhang ... 78
Abkürzungsverzeichnis
AE absoluter Fehler (Absolute Error)
AKF theoretische Autokorellationsfunktion
ANSI-C American National Standard Institute - C
APE absoluter prozentualer Fehler (Absolute Percentage Error)
AR[p] Autoregressiver Prozess der Ordnung p
ARMA [p,q] Autoregressiver Moving Average Prozess mit den Ordnungen p und q
ARIMA [p,d,q] Integrierter Autoregressiver Moving Average Prozess
B, Bj Backshift Operator
COV(Yt,Yt+k) Autokovarianz et Prognosefehler
E(Yt) Erwartungswert der Zufallsvariablen Y
EAKF empirische Autokorrelationsfunktion
ESAKF empirische Stichprobenautokorrelationsfunktion
HTML Hyper Text Markup Language
KDD Knowledge Discovery in Databases
KI Kunstliche Intelligenz
KNN Kunstlich Neuronale Netze
MAD Mittlere absolute Abweichung (Mean Absolute Deviation)
MAPE Mittlerer absoluter prozentualer Fehler (Mean Absolute Percentage Error)
MA [q] Moving Average Prozess der Ordnung q
MLP Multilayer Perceptron
MPE Mittlerer prozentualer Fehler (Mean Percentage Error)
MSE Mittlerer quadratischer Fehler (Mean Square Error)
PAKF Partielle Autokorrelationsfunktion
PSAKF partielle Stichprobenautokorrelationsfunktion
SAKF Stichprobenautokorrelationsfunktion
SE Standardfehler (Standard Error)
SNNS Stuttgart Neural Network Simulator
SOM Self-Organizing Feature Maps
VAR (Yt) Varianz der Zufallsvariablen Y
VR Variationskoeffizient
WWW World Wide Web
XGUI X-Window bases Graphical User Interface
XOR Exklusives Oder
Abbildungsverzeichnis
[...]
Tabellenverzeichnis
Tab. 1: Ergebnis der Faktorenanalyse ... 53
Tab. 2: Prognoseerstellung mit Neuronalen Netzen - Vergleich der Fehlergute ... 61
Tab. 3: Prognoseerstellung mit ARIMA - Fehlergute der Ergebnisse ... 65
Symbolverzeichnis
[...]
1 Einführung
1.1 Problem
Das schnelle Wachstum gespeicherter Datenmengen in der Informationstechnik führte in den vergangenen Jahren zu einem steigenden Interesse an Methoden, die automatisch nützliches Wissen aus großen Datenbestanden filtern.1 Die großen Datenbestande resultieren aus der ständig zunehmenden Große von Datenbanken, dem unablässig wachsenden Informationsfluss speziell in produktiven oder Handelsanwendungen sowie der immer komplexer und schneller werdenden operativen Prozesse in Unternehmen.2
Mit dem Ziel, solche Methoden zu entwickeln, hat sich inzwischen unter Synonymen wie Data Mining, Knowledge Discovery in Databases (KDD) oder Datenmustererkennung eine neue Forschungsrichtung etabliert3, die mehrere bislang isoliert arbeitende Einzeldisziplinen vereinigt. Zu nennen sind die Disziplinen Statistik, Datenbank- und Expertensystemforschung, automatischer Wissenserwerb, Maschinelles Lernen oder Fuzzy-Datenanalyse.
Die zunehmende Bedeutung des Forschungsgebiets macht sich sowohl durch die steigende Zahl von speziellen Workshops4 zu diesem Thema, als auch durch die wachsende allgemeine Beachtung bemerkbar. Die folgende Entwicklung dokumentiert diesen Trend: 1989 ermittelten namhafte Wissenschaftler aus dem Datenbankbereich ein Ranking von zukünftig besonders wichtigen Forschungsthemen. Wahrend das Data Mining dort noch nicht gelistet ist, wird es vier Jahre später in einem sehr ähnlichen Rahmen gleichberechtigt mit anderen Themen auf Platz zwei gefuhrt.5
Die fortschreitende Entwicklung besteht auch bei der betrieblichen Datenhaltung. Schon mittlere Betriebe verbuchen monatlich mehrere hunderttausend Datensatze, die bei entsprechender Auswertung wichtige Informationen für Controllingzwecke liefern können. Die Auswertung ist aber das Problem : "There are too many facts and too little information" 6, umschreibt LINDSAY die Informationssituation der meisten Unternehmen.
1.2 Ziel und Aufbau
Die Literatur zum Data Mining dokumentiert zahlreiche Versuche, aus verschiedenartigsten Datenbeständen neue Erkenntnisse zu gewinnen. Es werden unterschiedliche Algorithmen des Data Mining beschrieben. In dieser Arbeit soll die Eignung Neuronaler Netze, oft auch als Künstliche Neuronale Netze bezeichnet, als Mining-Algorithmen für die Mining-Funktionen Clustern und Vorhersage untersucht werden. Dabei begrenzt sich die Sichtweise auf Backpropagation7- und Kohonen-Netze8, da diese Neuronalen Netze für Clustern und Vorhersagen prädestiniert sind.9
Die Arbeit hat einen zweigeteilten Aufbau (vgl. Abbildung 1). Der erste Teil beinhaltet die theoretischen Grundlagen und umfasst Abschnitt eins bis drei. Im ersten Teil von Kapitel zwei wird die Entstehungsgeschichte der Neuroinformatik dargestellt. An dieser Stelle erhält der Leser einen kurzen chronologischen Überblick der Neuroinformatik. Daran anschließend werden betriebswirtschaftliche Anwendungen Neuronaler Netze diskutiert. Es folgen Grundlagen von Neuronalen Netzen. Nach einer ausführlichen Beschreibung von Backpropagation-Netzen, folgt eine kompakte Darstellung der Vor- und Nachteile Neuronaler Netze. Zum Abschluss von Kapitel zwei erhält der Leser eine Einordnung der Neuronalen Netze. Kapitel drei erläutert die Clusteranalyse und die Vorhersage, die weiteren auch als Prognose benannt wird. Im dritten Abschnitt des Kapitels wird die Problemstellung des Data Minings analysiert, der Begriff des Data Mining definiert und dessen Prozess aufgezeigt.
Der zweite Teil der Arbeit liefert empirische Untersuchungen zur Eignung von Neuronalen Netze für Cluster- und Vorhersagen-Aufgaben. Im Mittelpunkt stehen Kundendaten einer Versicherung. Diese Daten sollen zunächst bezüglich einer Versicherungssparte mit Hilfe von Kohonen-Netzen und K-Means-Verfahren geclustert werden. Ein Vergleich der beiden Verfahren folgt. Im weiteren werden Vorhersagen bezüglich einer Versicherungssparte und deren Beitragshöhen durchgeführt. Die erzielten Prognosen werden durch Backpropagation-Netze und ARIMA-Prozesse10 simuliert. Dabei werden die im ersten Teil der Arbeit erläuterten Modelle mit Hilfe von unterschiedlichen Soft- ware-Tools umgesetzt. Ziel dieses Abschnittes ist es, einen Vergleich zwischen statistischen Methoden und Neuronalen Netze aufzustellen.
[....]
1 Vgl. Chen, M.-S., Han, J., Yu, P. S. (1996), S. 868 f.; Bigus, J. P. (1996), S. 4 f.
2 Vgl. Bigus, J. P. (1996), S. 5 f.
3 Gebräuchlich sind auch : Knowledge extraction, Database exploration, Data pattern processing, Information harvesting oder Database mining. Vgl. Agrawal, R., Imielinski, T., Swami, A. (1993), S. 207 ff. in: Buneman, P., Jajodia, S. (1993), S. 207 ff.; Wang et al. (1994), S. 115 ff.
4 Vgl. Piatetsky-Shapiro, G. (1991), S. 74 ff.; Piatetsky-Shapiro, G. (1993); Piatetsky-Shapiro, G., Frawley, W. J. (1991), S. 1 ff.; Piatetsky-Shapiro, G. et al. (1994); Fayyad, U. M., Uthurusamy, R. (1994), S. 441 ff.
5 Vgl. Stonebraker, M. (1993), S. 701 ff.
6 Lindsay, B. (1994), S. 45 ff.
7 Backpropagation Netze besitzen eine feedforward-Architektur. Sie zeichnen sich durch überwachtes Lernen aus. Das Lernen erfolgt mit Hilfe des Backpropagation-Lernalgorithmus. Vgl. Bigus J. P. (1996), S. 69.
8 Kohonen-Netze sind feedforward-Netze, die sich durch ein unüberwachtes Lernen von Backpropagation Netze unterscheiden. Durch diese Eigenschaften könne sie sich selbst organisieren. Als Resultat gibt dieses Netz eine zweidimensionale Karte aus.Vgl. Bigus J. P. (1996), S. 71.
9 Vgl. Bigus, J. P. (1996), S. 77.
10 Gegenstand von ARIMA-Prozesse sind Zeitreihen, die als Realisierung eines stochastischen Prozesses aufgefasst werden.
Comments
No comments yet
Other users also were interested in the following titles:
Vertrauen oder Kontrolle: Die Bedeutung von Vertrauen zur Steuerung von Unternehmen
Author: Jana CarstensEconomics / Business: Personnel and Organisation, 2003 Download as PDF-file for 8,99 EUR
Die Bedeutung der Kompetenz am Beispiel der Personalentwicklung
Author: Ines LenzPedagogy - Job Education, Occupational Training, Further Education, 2002 Download as PDF-file for 9,99 EUR
Führungsverhalten und Führungsstil - eine kritische Analyse möglicher Auswirkungen auf die Mitarbeitenden
Author: Dipl.-Soz.Päd. Verena SprengerNursing / Foster Care Management / Social Services, 2006 Download as PDF-file for 7,99 EUR
Anwendungsmöglichkeiten eines situativen Führungsstils für junge (Nachwuchs-) Führungskräfte
Author: Burkhard HergenhanEconomics / Business: Business Management, Corporate Governance, 2007 Download as PDF-file for 8,99 EUR
Möglichkeiten, Grenzen und Risiken der Personalentwicklung zur Motivation von Mitarbeitern
Author: Sascha WingenEconomics / Business: Personnel and Organisation, 1995 Download as PDF-file for 19,99 EUR
Data Mining mit SPSS Clementine (Zielsetzung, unterstützte Methoden, Anwendungsbeispiele)
Author: Christian FuchsComputer Science - Commercial Information Technology, 2005 Download as PDF-file for 9,99 EUR
Vor- und Nachteile der Szenariomethode
Author: Katrin BrandEconomics / Business: Business Management, Corporate Governance, 2004 Download as PDF-file for 7,99 EUR
Methoden zur Vermeidung von Demotivation in Unternehmen
Author: Anja BußEconomics / Business: Personnel and Organisation, 2004 Download as PDF-file for 7,99 EUR
Mehr Bildung durch Leistungsdruck? Kritische Betrachtungen zur Einführung nationaler Bildungsstandards
Author: Dirk BrandesPedagogy - School Pedagogics, 2006 Download as PDF-file for 7,99 EUR
Statistik mit SPSS. Fallstudie: Mitarbeiterbefragung
Authors: Florian Lüdeke, Alexander Wall, Martin KruseStatistics, 2003 Download as PDF-file for 11,99 EUR
This text can be quoted and accessed from this url: