Die Literatur zum Data Mining dokumentiert zahlreiche Versuche, aus verschiedenartigsten Datenbeständen neue Erkenntnisse zu gewinnen. Es werden unterschiedliche Algorithmen des Data Mining beschrieben. In dieser Arbeit soll die Eignung Künstlich Neuronaler Netze als Mining-Algorithmen für die Methoden Clustern und Vorhersage untersucht werden. Dabei begrenzt sich die Sichtweise auf Backpropagation - und Kohonen-Netze , da diese Neuronalen Netze für Clustern und Vorhersagen prädestiniert sind. Sie stellen eine Alternative zu den statistischen Methoden zur Prognose- bzw. Clustererstellung dar. Die eingesetzten Neuronalen Netze sollen mit dem K-Means-Verfahren und dem Box-Jenkins-Ansatz verglichen werden.
Die theoretischen Konstrukte werden anhand von Versicherungsdaten evaluiert. Die Ergebnisse zeigen die Vor- und Nachteile der untersuchten Methoden und geben dem Leser eine Handlungsempfehlung für die Auswahl von Data Mining-Algorithmen in der Praxis.
Inhaltsverzeichnis
1 Einführung
1.1 Problem
1.2 Ziel und Aufbau
2 Neuronale Netze
2.1 Hintergrund - Eine kurze Geschichte der Neuroinformatik
2.2 Betriebswirtschaftliche Anwendungen Neuronaler Netze
2.3 Grundlagen
2.4 Backpropagation-Netze
2.5 Eigenschaften
2.6 Einordnung
3 Cluster und Vorhersage als Bestandteile von Data Mining
3.1 Clusteranalyse
3.1.1 Einführung
3.1.2 Methodischer Hintergrund
3.1.2.1 K-Means-Verfahren
3.1.2.2 Kohonen Netze (SOM – Self-Organizing Feature Maps)
3.2 Vorhersage
3.2.1 Einführung
3.2.2 Methodischer Hintergrund
3.2.2.1 Box-Jenkins Technik
3.2.2.2 Backpropagation-Netze
3.3 Data Mining
3.3.1 Begriffsbestimmung
3.3.2 Konzeption des Data Mining
3.3.3 Phasenmodell des Data Mining-Prozesses
3.3.3.1 Problemdefinition
3.3.3.2 Datenaufbereitung
3.3.3.3 Data Mining-Analyse
3.3.3.4 Interpretation der Ergebnisse
4 Einsatz von Neuronalen Netzen in Software-Tools
4.1 Ausgangssituation
4.2 Eingesetzte Software
4.2.1 IBM Intelligent Miner
4.2.2 KnowledgeSTUDIO
4.2.3 NeuNet Pro
4.2.4 SPSS
4.2.5 SPSS Clementine
4.3 Vorgehensweise
4.3.1 Problemdefinition
4.3.2 Datenaufbereitung
4.3.3 Analyse - Clusteranalyse
4.3.3.1 Trainieren des Kohonen-Netzes
4.3.3.2 Testen des KNN
4.3.3.3 Clustern der Versicherungsdaten
4.3.3.4 Vergleich mit dem K-Means-Verfahren
4.3.3.5 Zusammenfassung
4.3.4 Analyse - Prognose
4.3.4.1 Trainieren des Netzes
4.3.4.2 Testen des KNN
4.3.4.3 Prognose der Versicherungsdaten
4.3.4.4 Vergleich mit der Box-Jenkins-Technik
4.3.4.5 Zusammenfassung
5 Resümee und Ausblick
Zielsetzung und Themen
Die Arbeit untersucht die Eignung neuronaler Netze als Algorithmen für die Data-Mining-Funktionen Clustern und Vorhersage, wobei insbesondere Backpropagation- und Kohonen-Netze betrachtet und im Vergleich zu klassischen statistischen Methoden wie K-Means und ARIMA-Prozessen empirisch evaluiert werden.
- Grundlagen neuronaler Netze und ihre betriebswirtschaftliche Relevanz.
- Methodische Ansätze für Clusteranalyse und Prognosemodelle im Data-Mining-Kontext.
- Praktische Anwendung verschiedener Software-Tools zur Datenanalyse.
- Empirischer Vergleich der Modellgüte bei der Analyse von Versicherungsdaten.
- Bewertung der Leistungsfähigkeit und der Prozessintegration neuronaler Netze.
Auszug aus dem Buch
3.1.2.2 Kohonen Netze (SOM – Self-Organizing Feature Maps)
Ein Kohonen-Netz ist ein einschichtiges Netz mit unüberwachten Lernen. Das Modell geht von einer in der Regel zweidimensionalen Neuronenschicht A aus. Gegeben ist ein n-dimensionaler Eingaberaum X={x1,...,xn}. Jedem Neuron nj wird ein n-dimensionaler Gewichtsvektor zugeordnet.
Die Gewichte werden geometrisch interpretiert, d. h. ein Gewicht stellt eine Positionsangabe im Raum und keine Verbindungen zu anderen Neuronen dar. Es existiert eine Ähnlichkeitsfunktion auf dem Eingaberaum, die je 2 Punkten des Raums einen Ähnlichkeitsgrad zuordnet.
Ziel eines Kohonen-Netzes ist es, die Neuronen derartig zu positionieren, dass eine Clusterung der Eingabedaten erreicht wird. Jedes Cluster wird durch ein Neuron präsentiert. Das Clustern erfolgt auf Basis der Ähnlichkeit, die mit Hilfe einer Ähnlichkeits- bzw. Nachbarschaftsfunktion hrs realisiert wird.
Zusammenfassung der Kapitel
1 Einführung: Diese Einleitung skizziert die wachsende Bedeutung von Data Mining zur Bewältigung großer Datenmengen und definiert das Ziel der Untersuchung neuronaler Netze in diesem Bereich.
2 Neuronale Netze: Das Kapitel behandelt die geschichtliche Entwicklung der Neuroinformatik, betriebswirtschaftliche Anwendungen, sowie technische Grundlagen, Eigenschaften und die Einordnung neuronaler Netze.
3 Cluster und Vorhersage als Bestandteile von Data Mining: Hier werden Clusteranalyse und Prognoseverfahren, inklusive der theoretischen Grundlagen für K-Means, Kohonen-Netze und ARIMA, in den Data-Mining-Prozess eingebettet.
4 Einsatz von Neuronalen Netzen in Software-Tools: Dieser Praxisteil analysiert den Einsatz verschiedener Software-Tools zur Analyse von Versicherungsdaten und vergleicht die Ergebnisse neuronaler Methoden mit statistischen Verfahren.
5 Resümee und Ausblick: Das Fazit stellt die theoretischen und empirischen Ergebnisse gegenüber und reflektiert über die Vor- und Nachteile neuronaler Netze bei der betriebswirtschaftlichen Analyse.
Schlüsselwörter
Data Mining, Neuronale Netze, Clusteranalyse, Prognose, Backpropagation, Kohonen-Netze, K-Means, ARIMA, Datenaufbereitung, Modellvergleich, Software-Tools, Versicherungsdaten, Betriebswirtschaft, Mustererkennung, Generalisierung
Häufig gestellte Fragen
Worum geht es in dieser Diplomhausarbeit primär?
Die Arbeit untersucht die Eignung künstlicher neuronaler Netze für Data-Mining-Aufgaben, insbesondere für die Clusterbildung und die Prognose von Zeitreihen im betriebswirtschaftlichen Kontext.
Welche zentralen Themenfelder werden bearbeitet?
Die Arbeit deckt die Theorie neuronaler Netze, statistische Analyseverfahren wie ARIMA und K-Means sowie deren praktische Implementierung in Data-Mining-Prozessen ab.
Was ist das primäre Ziel der Forschungsarbeit?
Das Ziel ist ein Methodenvergleich zwischen neuronalen Netzen und klassischen statistischen Verfahren, um deren Leistungsfähigkeit anhand von Kundendaten einer Versicherung praktisch zu bewerten.
Welche wissenschaftlichen Methoden kommen zur Anwendung?
Es werden Backpropagation-Netze für Prognosen, Kohonen-Netze und K-Means für die Clusteranalyse sowie ARIMA-Modelle zur statistischen Vorhersage verwendet.
Was umfasst der praktische Hauptteil der Arbeit?
Der Hauptteil befasst sich mit der Vorbereitung und Analyse von Versicherungsdaten unter Verwendung von Tools wie SPSS Clementine, IBM Intelligent Miner, NeuNet Pro und SPSS.
Welche Keywords charakterisieren den Kern der Arbeit?
Wichtige Begriffe sind Data Mining, Neuronale Netze, Clusteranalyse, Prognose, K-Means, ARIMA, Backpropagation und Generalisierung.
Wie wurde die optimale Anzahl an verborgenen Neuronen im Netz bestimmt?
Die Bestimmung erfolgte unter Anwendung der Baum-Haussler-Regel, um eine geeignete Architektur für die vorliegenden Trainingsdaten zu gewährleisten.
Warum wurde die Faktorenanalyse vor der Prognose durchgeführt?
Die Faktorenanalyse diente dazu, die Anzahl der potenziellen Einflussfaktoren zu reduzieren, indem hochkorrelierende Variablen zu Faktoren zusammengefasst wurden, um die Modellbildung effizienter zu gestalten.
- Quote paper
- Dr. Thomas Zabel (Author), 2001, Neuronale Netze für Clustern und Vorhersage. Methodenvergleich und Tools, Munich, GRIN Verlag, https://www.grin.com/document/30909