Die Literatur zum Data Mining dokumentiert zahlreiche Versuche, aus verschiedenartigsten Datenbeständen neue Erkenntnisse zu gewinnen. Es werden unterschiedliche Algorithmen des Data Mining beschrieben. In dieser Arbeit soll die Eignung Künstlich Neuronaler Netze als Mining-Algorithmen für die Methoden Clustern und Vorhersage untersucht werden. Dabei begrenzt sich die Sichtweise auf Backpropagation - und Kohonen-Netze , da diese Neuronalen Netze für Clustern und Vorhersagen prädestiniert sind. Sie stellen eine Alternative zu den statistischen Methoden zur Prognose- bzw. Clustererstellung dar. Die eingesetzten Neuronalen Netze sollen mit dem K-Means-Verfahren und dem Box-Jenkins-Ansatz verglichen werden.
Die theoretischen Konstrukte werden anhand von Versicherungsdaten evaluiert. Die Ergebnisse zeigen die Vor- und Nachteile der untersuchten Methoden und geben dem Leser eine Handlungsempfehlung für die Auswahl von Data Mining-Algorithmen in der Praxis.
Inhaltsverzeichnis
Abkürzungsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Symbolverzeichnis
1 Einführung
1.1 Problem
1.2 Ziel und Aufbau
2 Neuronale Netze
2.1 Hintergrund - Eine kurze Geschichte der Neuroinformatik
2.2 Betriebswirtschaftliche Anwendungen Neuronaler Netze
2.3 Grundlagen
2.4 Backpropagation-Netze
2.5 Eigenschaften
2.6 Einordnung
3 Cluster und Vorhersage als Bestandteile von Data Mining
3.1 Clusteranalyse
3.1.1 Einführung
3.1.2 Methodischer Hintergrund
3.1.2.1 K-Means-Verfahren
3.1.2.2 Kohonen Netze (SOM - Self-Organizing Feature Maps)
3.2 Vorhersage
3.2.1 Einführung
3.2.2 Methodischer Hintergrund
3.2.2.1 Box-Jenkins Technik
3.2.2.2 Backpropagation-Netze
3.3 Data Mining
3.3.1 Begriffsbestimmung
3.3.2 Konzeption des Data Mining
3.3.3 Phasenmodell des Data Mining-Prozesses
3.3.3.1 Problemdefinition
3.3.3.2 Datenaufbereitung
3.3.3.3 Data Mining-Analyse
3.3.3.4 Interpretation der Ergebnisse
4 Einsatz von Neuronalen Netzen in Software-Tools
4.1 Ausgangssituation
4.2 Eingesetzte Software
4.2.1 IBM Intelligent Miner
4.2.2 KnowledgeSTUDIO
4.2.3 NeuNet Pro
4.2.4 SPSS
4.2.5 SPSS Clementine
4.3 Vorgehensweise
4.3.1 Problemdefinition
4.3.2 Datenaufbereitung
4.3.3 Analyse - Clusteranalyse
4.3.3.1 Trainieren des Kohonen-Netzes
4.3.3.2 Testen des KNN
4.3.3.3 Clustern der Versicherungsdaten
4.3.3.4 Vergleich mit dem K-Means-Verfahren
4.3.3.5 Zusammenfassung
4.3.4 Analyse - Prognose
4.3.4.1 Trainieren des Netzes
4.3.4.2 Testen des KNN
4.3.4.3 Prognose der Versicherungsdaten
4.3.4.4 Vergleich mit der Box-Jenkins-Technik
4.3.4.5 Zusammenfassung
5 Resümee und Ausblick
Literaturverzeichnis
Anhang
Abkürzungsverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
Abbildungsverzeichnis
Abb. 1: Aufbau der Arbeit
Abb. 2: Feedforward-Multilayer-Perceptron mit H=3 Schichten
Abb. 3: Kohonen self-organizing feature maps
Abb. 4: Ablaufdiagramm für die Modellbildung mit ARIMA
Abb. 5: Der iterative neuronale Prognosemodellbildungsprozess
Abb. 6: Phasenmodell des Data Mining-Prozesses
Abb. 7: IBM Intelligent Miner - Mining Base
Abb. 8: KnowledgeSTUDIO - Clusteranalyse: K-Means
Abb. 9: NeuNet Pro - Scatter Graph
Abb. 10: SPPS - SPSS Dateneditor & Viewer
Abb. 11: SPSS Clementine - Modellbildung
Abb. 12: Phasenmodell der praktischen Analyse
Abb. 13: Gitter - Kohonen-Netz
Abb. 14: MAPE und R2 - Vergleich
Abb. 15: Training vs. Test - Gütevergleich
Abb. 16: Stationaritätsüberprüfung der Trainingsdaten - Trend
Abb. 17: Stationaritätsüberprüfung der Testdaten - Trend
Abb. 18: Tatsächlicher Beitrag und approximierter Beitrag durch SPSS, SPSS
Clementine, NeuNet Pro und IBM Intelligent Miner - Trainingsdaten
(Ausschnitt)
Abb. 19: Tatsächlicher Beitrag und approximierter Beitrag durch SPSS, SPSS
Clementine - Testdaten (Ausschnitt)
Tabellenverzeichnis
Tab. 1: Ergebnis der Faktorenanalyse
Tab. 2: Prognoseerstellung mit Neuronalen Netzen - Vergleich der Fehlergüte
Tab. 3: Prognoseerstellung mit ARIMA - Fehlergüte der Ergebnisse
Symbolverzeichnis
Abbildung in dieser Leseprobe nicht enthalten
1 Einführung
1.1 Problem
Das schnelle Wachstum gespeicherter Datenmengen in der Informationstechnik führte in den vergangenen Jahren zu einem steigenden Interesse an Methoden, die automatisch nützliches Wissen aus großen Datenbeständen filtern.1 Die großen Datenbestände resul- tieren aus der ständig zunehmenden Größe von Datenbanken, dem unablässig wachsen- den Informationsfluss speziell in produktiven oder Handelsanwendungen sowie der immer komplexer und schneller werdenden operativen Prozesse in Unternehmen.2
Mit dem Ziel, solche Methoden zu entwickeln, hat sich inzwischen unter Synonymen wie Data Mining, Knowledge Discovery in Databases (KDD) oder Datenmustererken- nung eine neue Forschungsrichtung etabliert3, die mehrere bislang isoliert arbeitende Einzeldisziplinen vereinigt. Zu nennen sind die Disziplinen Statistik, Datenbank- und Expertensystemforschung, automatischer Wissenserwerb, Maschinelles Lernen oder Fuzzy-Datenanalyse.
Die zunehmende Bedeutung des Forschungsgebiets macht sich sowohl durch die steigende Zahl von speziellen Workshops4 zu diesem Thema, als auch durch die wachsende allgemeine Beachtung bemerkbar. Die folgende Entwicklung dokumentiert diesen Trend: 1989 ermittelten namhafte Wissenschaftler aus dem Datenbankbereich ein Ranking von zukünftig besonders wichtigen Forschungsthemen. Während das Data Mining dort noch nicht gelistet ist, wird es vier Jahre später in einem sehr ähnlichen Rahmen gleichberechtigt mit anderen Themen auf Platz zwei geführt.5
Die fortschreitende Entwicklung besteht auch bei der betrieblichen Datenhaltung. Schon mittlere Betriebe verbuchen monatlich mehrere hunderttausend Datensätze, die bei ent- sprechender Auswertung wichtige Informationen für Controllingzwecke liefern können. Die Auswertung ist aber das Problem : „There are too many facts and too little informa- tion“6, umschreibt LINDSAY die Informationssituation der meisten Unternehmen.
1.2 Ziel und Aufbau
Die Literatur zum Data Mining dokumentiert zahlreiche Versuche, aus verschiedenartigsten Datenbeständen neue Erkenntnisse zu gewinnen. Es werden unterschiedliche Algorithmen des Data Mining beschrieben. In dieser Arbeit soll die Eignung Neuronaler Netze, oft auch als Künstliche Neuronale Netze bezeichnet, als Mining-Algorithmen für die Mining-Funktionen Clustern und Vorhersage untersucht werden. Dabei begrenzt sich die Sichtweise auf Backpropagation7 - und Kohonen-Netze8, da diese Neuronalen Netze für Clustern und Vorhersagen prädestiniert sind.9
Die Arbeit hat einen zweigeteilten Aufbau (vgl. Abbildung 1). Der erste Teil beinhaltet die theoretischen Grundlagen und umfasst Abschnitt eins bis drei. Im ersten Teil von Kapitel zwei wird die Entstehungsgeschichte der Neuroinformatik dargestellt. An dieser Stelle erhält der Leser einen kurzen chronologischen Überblick der Neuroinformatik. Daran anschließend werden betriebswirtschaftliche Anwendungen Neuronaler Netze diskutiert. Es folgen Grundlagen von Neuronalen Netzen. Nach einer ausführlichen Be- schreibung von Backpropagation-Netzen, folgt eine kompakte Darstellung der Vor- und Nachteile Neuronaler Netze. Zum Abschluss von Kapitel zwei erhält der Leser eine Einordnung der Neuronalen Netze. Kapitel drei erläutert die Clusteranalyse und die Vorhersage, die weiteren auch als Prognose benannt wird. Im dritten Abschnitt des Ka- pitels wird die Problemstellung des Data Minings analysiert, der Begriff des Data Mi- ning definiert und dessen Prozess aufgezeigt.
Der zweite Teil der Arbeit liefert empirische Untersuchungen zur Eignung von Neuro- nalen Netze für Cluster- und Vorhersagen-Aufgaben. Im Mittelpunkt stehen Kundenda- ten einer Versicherung. Diese Daten sollen zunächst bezüglich einer Versicherungsspar- te mit Hilfe von Kohonen-Netzen und K-Means-Verfahren geclustert werden. Ein Ver- gleich der beiden Verfahren folgt. Im weiteren werden Vorhersagen bezüglich einer Versicherungssparte und deren Beitragshöhen durchgeführt. Die erzielten Prognosen werden durch Backpropagation-Netze und ARIMA-Prozesse10 simuliert. Dabei werden die im ersten Teil der Arbeit erläuterten Modelle mit Hilfe von unterschiedlichen Soft- ware-Tools umgesetzt. Ziel dieses Abschnittes ist es, einen Vergleich zwischen statistischen Methoden und Neuronalen Netze aufzustellen.
Abbildung in dieser Leseprobe nicht enthalten
Abb. 1: Aufbau der Arbeit
2 Neuronale Netze
2.1 Hintergrund - Eine kurze Geschichte der Neuroinformatik
Die Ursprünge der Neuroinformatik sind die Arbeiten von WARREN MCCULLOCH und WALTER PITTS (1943) und von DONALD HEBB (1949). MCCULLOCH und PITTS be- schreiben in ihrem Aufsatz eine mathematisch formalisierte Version eines Neurons, das Schwellenwertneuron:11 Die Ausgabe des Neurons ist 1, wenn die gewichtete Summe der Eingaben den Schwellenwert des Neurons überschreitet, und 0 andernfalls. MCCULLOCH und PITTS zeigen, dass Netze aus solchen Neuronen beliebige boolesche Funktionen berechnen können. Diesem diskreten Ansatz stehen andere gegenüber, die ein Kontinuum betrachten und auf Differentialgleichungen basieren, um Aussagen über globales Verhalten zu machen; am bekanntesten sind die Arbeiten von Wiener.12
Auf diesen theoretischen Grundlagen baut die primitive Phase der Neuroinformatik auf, die etwa Mitte der 50er Jahre beginnt. Ausdrücklich als Versuch zur Modellierung des Gehirns wird eine Reihe von Varianten einer Klasse von Maschinen für optische Wahr- nehmung untersucht, die Perceptrons.13 Ein Perceptron berechnet im einfachsten Fall aus einer festen Menge von lokalen Prädikaten über begrenzte Teilbereiche einer (ge- dachten) Netzhaut ein globales Prädikat über das auf der Netzhaut dargestellte Bild, indem eine gewichtete Summe der einzelnen Prädikate, die die Werte 1 oder 0 besitzen, gegen einen Schwellenwert geprüft wird. Zur Bestimmung der Gewichte wird ein einfa- cher Algorithmus, Perceptron-Lernregel, der auf schon früher gefundenen mathemati- schen Grundlagen aufbaut benutzt14, die jedoch unter den Neuroinformatikern erst eini- ge Zeit später bekannt werden. Perceptrons und perceptron-ähnliche Modelle stehen in den folgenden Jahren bei mehreren Gruppen im Mittelpunkt. In dem 1962 von ROSENBLATT15 veröffentlichten Buch erreicht die Neuroinformatik einen ersten Höhe- punkt. Hierin wird neben einer ausführlichen experimentellen Analyse der Fähigkeiten von Perceptrons auch ein Beweis für die Konvergenz der Perceptron-Lernregel aufge- führt. Dieser Beweis besagt, dass die Lernregel für jedes von einem Perceptron darstell- barem Prädikat auch eine Lösung findet. Rosenblatt ist ein begeisterter Advokat des Perceptron. Nicht zuletzt diese Ausstrahlung führt dazu, dass sich mit dem Erscheinen des Buches PRINCIPLES OF NEURODYNAMICS16, zahlreiche Forscher für das Perceptron begeistern und eine Welle neuer Arbeiten einsetzt, die allerdings kaum Erfolge hervor- bringen. Insbesondere wird keine Lernregel für das mehrstufige Perceptron gefunden. Man weiß aber, dass es im allgemeinen leistungsfähiger als das einstufige Perceptron ist.
Als 1969 MINSKY und PAPERT ihr berühmtes Buch PERCEPTRONS17 veröffentlichen, kommt es zu einem abrupten Ende der Begeisterung. Sie liefern in diesem Buch die Theorie, dass einstufige Perceptrons manche Probleme nicht lösen können. Die berühm- teste Aussage dieser Theorie lautet, dass ein Perceptron der Ordnung 1 (d. h., dass für jedes lokale Prädikat nur 1 Punkt der Netzhaut ausgewertet wird) die Paritätsfunktion nicht berechnen kann. Die Parität ist das Prädikat, welches angibt, ob die Anzahl der elementaren Punkte auf der Netzhaut, die schwarz sind, gerade ist oder nicht. Die ein- fachste Form dieses Problems ist der Fall von zwei Punkten; die Paritätsfunktion ist in diesem Fall das Exklusiv-Oder (XOR). Allgemeiner lautet die Aussage, dass alle Prob- leme, deren positive und negativen Fälle nicht durch eine Hyperebene (bei n lokalen Prädikaten : im n -dimensionalen Raum) voneinander getrennt werden können, auch stets nicht mit einem Perceptron einer Ordnung kleiner n (also insbesondere: fester Ord- nung) gelöst werden können; Perceptrons können nur die sogenannten linear separier- baren Probleme lösen.
Das Buch von MINSKY und PAPERT wird dahingehend verstanden, dass generell Neuronale Netze keine aussichtsreichen Mechanismen für Lernapparate seien. Die genaue Intention und Rolle des Buches ist strittig. Für eine andere Sichtweise steht HechtNielsen18, sowie der Epilog der Neuausgabe von PERCEPTRONS19. Dies hat zwei Konsequenzen : Erstens kommt die neuroinformatische Forschung lange Zeit fast zum Erliegen und zweitens halten viele Forscher alle grundlegenden Probleme für überwunden, als mit dem Backpropagation-Verfahren später ein Lernalgorithmus gefunden wird, der auch mehrstufige Perceptrons zu trainieren erlaubt und mit dessen Hilfe folglich auch nicht linear trennbare Probleme gelöst werden können.
BRYSON und HO20 beschreiben 1969 Verfahren zur Lösung von Regelungsproblemen, die das heute unter dem Namen Backpropagation bekannte Lernverfahren als Spezial- fall enthalten. Offenbar wird die Arbeit ignoriert, jedenfalls wird die Erfindung in weite- ren Forschungsarbeiten nicht berücksichtigt. Daher erfindet WERBOS21 1974 das Backpropagation-Verfahren erneut. Wieder wird dieser Erfindung keine Beachtung ge- schenkt. Ein drittes Mal wird Backpropagation 1985 von PARKER22 und in ähnlicher Form von LE CUN23 erfunden und diesmal endlich wahrgenommen, wenn auch hauptsächlich indirekt: 1986 schreibt eine Gruppe um DAVID RUMMELHART und JAMES MCCLELLAND das Buch PARALLEL DISTRIBUTED PROCESSING, das unter anderem das Backpropagation - unter Erwähnung von PARKER und LECUN - vorstellt und damit die zweite große Welle der Neuroinformatik einleitet.24
Mit der Entdeckung des Backpropagation-Algorithmus beginnt die Phase der Nutzbar- machung der Neuroinformatik. Waren fast alle Anwendungen des Perceptron von hauptsächlich akademischem Interesse, so beginnt jetzt eine Phase hektischen Auspro- bierens Neuronaler Netze für so ziemlich jede erdenkliche Anwendung. Zahlreiche Verbesserungen des Backpropagation-Algorithmus, insbesondere zur Beschleunigung des Lernens werden vorgestellt. In ihrer 1988 erschienenen Neuausgabe von PERCEPTRON beklagen MINSKY und PAPERT, dass in all der Begeisterung über die Lös- barkeit nicht linear separierbarer Probleme, die wichtigen Fragen der Skalierbarkeit und Lernkomplexität kaum gestellt bzw. beantwortet werden.25 Später werden aber große Fortschritte in dieser Richtung erzielt, wenngleich die theoretischen Ergebnisse für praktische Fälle nur selten nützliche Aussagen liefern.26 Der Höhepunkt der Nutzbarkeit von Neuronalen Netzen ist erreicht. Dagegen hat die industrielle Revolution noch nicht begonnen, steht aber wohl bald bevor. Alle Requisiten sind vorhanden: Erfahrungen mit kleinen Anwendungen, kommerzielles Interesse an umfangreicheren Anwendungen27, ernsthafte Ansätze der Theoriebildung und schließlich die nötige Basistechnologie.
Im Gegensatz zur symbolischen künstlichen Intelligenz gibt es in der Neuroinformatik kaum Streit um die Frage, dass die bisher realisierten Modelle keine künstliche Intelli- genz ausweisen. Die Mechanisierung geistiger Arbeiten ist also noch nicht gelungen. Eine Phase der Verklärung ist in der Neuroinformatik nicht zeitlich abzugrenzen. Zwar sind Ansätze entsprechender Vorstellungen vor allem in der Anfangszeit, später eine Zeitlang nach Erfindung der Backpropagation vorhanden, doch ist den meistens Betei- ligten jederzeit klar, dass die Nachbildung menschlichen Gehirns oder größerer Teile davon allein aufgrund der schieren Menge dort realisierter Bauelemente28 noch für eini- ge Zeit außerhalb der Reichweite verfügbarer technischer Realisierungen bleiben wird.
2.2 Betriebswirtschaftliche Anwendungen Neuronaler Netze
In der wissenschaftlichen Literatur werden seit längerer Zeit Leistungspotentiale Neu- ronaler Netze intensiv diskutiert. Betriebswirtschaftliche Anwendungsmöglichkeiten erlangen an dieser Stelle zunehmendes Interesse. Neuronale Netze sind informations- verarbeitende Systeme, die sich am Aufbau und an der Funktionsweise des menschli- chen Gehirns orientieren.29 Es wird jedoch nicht der Anspruch erhoben, Gehirne nach- zubauen, sondern die natürlichen Vorbilder dienen als Orientierungspunkte. Die beson- deren Fähigkeiten wie Lernfähigkeit, Fehlertoleranz und Mustererkennungsfähigkeit sollen erreicht werden.30
Im Rahmen der Klassifikation der betriebswirtschaftlichen Anwendungsfelder Neuronaler Netze werden in der Literatur häufig die betriebswirtschaftlichen Funktionsbereiche herangezogen, wobei die folgende Einteilung als typisch zu bezeichnen ist:31
- Finanzbereich: z. B. Kreditwürdigkeitsprüfungen, Kursprognosen von Aktien und Devisen sowie Bilanzanalysen
- Marketingbereich: z. B. Absatzprognosen und die Bildung von Marktsegmenten
- Produktionsbereich: z. B. Qualitätskontrolle und Reihenfolgeoptimierung, Prog- nose von Lieferterminen und Produktionskosten
Diese unvollständige Aufzählung zeigt, dass die in den einzelnen Funktionsbereichen existierenden Aufgaben eine starke Ähnlichkeit aufweisen und es folglich zu deutlichen Redundanzen und Interdependenzen kommt. Eine Einteilung erscheint unangebracht, da sich etwa Prognoseprobleme in allen drei angeführten Funktionsbereichen stellen. Eine zweckmäßigere Klassifikation geht davon aus, welche Art von Problemen in den bei- spielhaft genannten Anwendungsfeldern behandelt werden. Dabei lassen sich folgende generelle Probleme nennen: Es existieren Probleme, bei denen der Zusammenhang zwi- schen den gewünschten Merkmalsausprägungen und dem zugehörigen Niveau der un- abhängigen Variablen unbekannt sind. Zudem kommen Probleme, für die keine effiziente Lösungsmethode bekannt ist und die formal nicht mit vertretbarem Aufwand lösbar sind. Bestehen hingegen Probleme, auf die keines der beiden Merkmale zutrifft, dann sind konventionelle Verfahren, wie statistische Methoden, Verfahren der kombina- torischen Optimierung oder auch Heuristiken besser geeignet, weil diese mit deutlich geringerem Aufwand zu einer Lösung führen.32
Diese Differenzierung basiert auf eine in der betriebswirtschaftlichen Entscheidungs- theorie üblichen Klassifikation in wohl- und schlechtstrukturierte Probleme. Ein Prob- lem wird als wohlstrukturiert bezeichnet, wenn der Wirkungszusammenhang zwischen den Handlungsalternativen und deren Folgen bekannt ist, den relevanten Problemmerk- malen eindeutige Werte zugeordnet werden können und eine operationale Zielfunktion sowie ein effizientes Lösungsverfahren zur Ermittlung der optimalen Lösung existieren. Dagegen liegt ein schlechtstrukturiertes Problem immer dann vor, wenn mindestens eines dieser Merkmale nicht erfüllt ist. In Abhängigkeit davon, welches dieser Merkma- le nicht erfüllt ist, lassen sich Probleme mit Wirkungs-, Bewertungs-, Zielsetzungs- oder Lösungsdefekt unterscheiden.33
Neuronale Netze eignen sich insbesondere zur Bearbeitung von wirkungsdefekten Problemen, bei denen die Ergebnisse der Handlungsalternativen in bestimmten Umweltsituationen nicht vorhersagbar sind, d. h., wenn unbekannte Ursache/Wirkungs-Beziehungen vorliegen.34 Die oben angeführten Probleme zeigen jedoch, dass Neuronale Netze auch bei lösungsdefekten Problemen grundsätzlich geeignet sind.35
Es erfolgt bei den bisher im Rahmen lösungsdefekter Probleme überwiegend zur Anwendung kommenden Neuronalen Netzen eine andere Art der Informationsverarbeitung, als dies bei den Netzen der Fall ist, die bei wirkungsdefekten Problemen zum Einsatz gelangen. Entsprechend lassen sich die beiden folgenden grundliegend verschiedenen Ausprägungen Neuronaler Netze unterscheiden:36
- funktionsoptimierende und
- funktionsbildende Neuronale Netze
Bei funktionsoptimierenden Neuronalen NetzenNetzen ist der funktionale Zusammenhang zwischen Eingabe und Ausgabe eines Netzes bekannt. Es werden lediglich die Ausgabedaten gesucht, die diesen Zusammenhang am besten darstellen können. Hierzu ist es notwendig, das Problem in einer Energiefunktion abzubilden, deren Minimum mit der optimalen Lösung des Problems korrespondiert.37
Demgegenüber wird beim funktionsbildenden Ansatz versucht, einen Zusammenhang zwischen Eingabe- und Ausgabewerten aufzustellen. Dies erfolgt so, dass das trainierte Neuronale Netz schließlich als universelle Funktion interpretierbar ist und die Eingabe- und Ausgabewerte abzubilden vermag. Ein solcher Vorgang wird auch als Mustererkennung bezeichnet.38 Bei lösungsdefekten Problemen wird dieses in ein wirkungsdefektes Problem transformiert, wobei zwischen einer direkten und einer indirekten Vorgehensweise zu unterscheiden ist.39
Die erwähnten Abgrenzungsprobleme zwischen den Anwendungsfeldern und die damit einhergehenden Redundanzen lassen sich vermeiden. Dies geschieht wenn den wirkungsdefekten Problemen die Prognose- und Klassifikationsaufgaben und den lösungsdefekten Problemen die Optimierungsaufgaben zugeordnet werden.40
Die Anwendungen Neuronaler Netze für Prognoseaufgaben basieren auf einem vom Netz gebildeten Modell des zu prognostizierenden Systems. Mit diesem Modell soll das Netz in die Lage versetzt werden, aus den Vergangenheitsdaten Zukunftswerte zu generieren. Als typische Prognoseprobleme sind zu nennen:
- Kostenprognosen41
- Kursprognosen von Wertpapieren und Devisen42
- Absatzprognosen43
Bei Klassifikationsaufgaben erfolgt die Zuordnung einer Menge von Objekten zu einer begrenzten Anzahl von Klassen. Während einige Netztypen (z. B. Kohonen-Netze), ähnlich einer Clusteranalyse, selbständig Klassen bilden, erlernen andere Netztypen (z. B. Backpropagation-Netze) auf der Grundlage von Trainingsdaten die Zuordnung zu bereits definierten Klassen. Als typische Klassifikationsprobleme sind zu nennen:
- Marktsegmentierungen44
- Kreditwürdigkeitsprüfung45
- Bilanzanalysen46
Zur Lösung von Optimierungsaufgaben wird für einen funktional beschreibbaren Zu- sammenhang ein Minimal- oder ein Maximalwert gesucht, wobei i.d.R. für das Problem kein effizienter Lösungsweg bekannt ist. Die Aufgabe des Neuronalen Netzes ist es dann, die optimale Lösung oder zumindest eine Lösung, die dem Optimum möglichst nahe kommt, zu finden. Klassische Optimierungsaufgaben sind:
- Transportoptimierung (Travelling-Salesman-Problem)47
- Reihenfolgeplanung48
2.3 Grundlagen
Neuronale Netze sind informationsverarbeitende Systeme, die aus einer großen Anzahl einfacher Einheiten (Zellen, Units) bestehen. Diese vermitteln untereinander Informationen in Form der Aktivierung der Zellen über gewichtete Verbindungen. Zu den Bestandteilen eines Neuronalen Netzes zählen Zellen (Neuronen), Verbindungsnetzwerk und Lernregeln.49 Neuronen besitzen einen Aktivierungszustand aj und einen Ausgabewert oj. Die Ausgabe oj berechnet sich in der Regel durch Anwendung einer nichtlinearen Funktion auf die sogenannte Netzeingabe netj, wobei unter Umständen ein Schwellenwert Θj berücksichtigt wird. Die Netzeingabe ist wiederum in den meisten Fällen die gewichtete Summe der Ausgaben der Vorgängerzellen.
Abbildung in dieser Leseprobe nicht enthalten50
Im Allgemeinen ist die Aktivierungsfunktion f deterministisch, wobei aber auch Ausnahmen in Form von stochastischer Aktivierungsfunktionen existieren. Die meist implementierten Funktionen für f sind
Abbildung in dieser Leseprobe nicht enthalten
Ein Neuronales Netz kann als gerichteter, gewichteter Graph angesehen werden, wobei die Kanten die gewichteten Verbindungen zwischen den Neuronen darstellen. Lernre- geln bzw. Lernverfahren sind Algorithmen, gemäß dem das Neuronale Netz lernt, für eine vorgegebene Eingabe eine gewünschte Ausgabe zu produzieren. Lernen erfolgt in Neuronalen Netzen meist durch Modifikation der Stärke der Verbindungen, die durch Gewichte realisiert wird, als Ergebnis der wiederholten Präsentation von Trainingsmus- tern. Das Ziel ist es, den Fehler zwischen erwarteter Ausgabe und tatsächlicher Ausgabe für alle Trainingsmuster zu minimieren. Das bekannteste überwachte Lernverfahren für Neuronale Netze ist Backpropagation.
Viele in der Praxis verwendeten Neuronalen Netze haben Verbindungen in nur eine Richtung, von den Eingabeneuronen in Richtung der Ausgabeneuronen (feedforward- Netze). Klassifiziert werden diese Zellen nach ihrer Position im Netzwerk. Zellen der Eingabeschicht leiten die Eingabe in das Netz weiter und werden daher als Eingabeneu- ronen bezeichnet. Zellen der Ausgabeschicht geben die Ausgabe des Netzes nach außen und heißen somit Ausgabeneuronen. Zellen der mittleren Schicht(en) dienen nur der Informationsverarbeitung innerhalb des Neuronalen Netzes und werden als verdeckte bzw. verborgene Neuronen bezeichnet.
Es gibt verschiedene Arten von Neuronalen Netzen. Unterschieden wird zwischen Netzen mit Rückkopplung und ohne Rückkopplung. Dabei beschreibt ein Netz ohne Rückkopplung ein Netz, bei dem kein Pfad existiert, der direkt oder indirekt wieder zum gleichen Neuron zurückführt. Netze mit Rückkopplungen werden auch als rekurrente Netze bezeichnet. Hierbei wird wieder unterschieden zwischen der Art der Rückkopplung. Man differenziert zwischen direkter Rückkopplung (direct feedback), indirekter Rückkopplung (indirect feedback), Rückkopplungen innerhalb einer Schicht (lateral feedback) und vollständig verbundenen Netzen.51
2.4 Backpropagation-Netze
Wie bei vielen anderen Arten von Künstlichen Neuronalen Netze, gibt es nicht das Backpropagation-Netz, sondern eine Menge von unterschiedlichen Netzen, die die im folgenden beschriebenen Gemeinsamkeiten aufweisen. Anstelle des Begriffs Backpropagation-Netz wird auch der Begriff multilayer perceptron (MLP) verwendet. Die Basis für Backpropagation-Netze bildet ein mehrschichtiges feedforward-Netz, bestehend aus einer Eingabeschicht, einer Ausgabeschicht und mindestens einer verborgenen Schicht (vgl. Abbildung 2). Verwendung finden sowohl totalverbundene Topologien52 als auch nicht-total-verbundene Topologien, bzw. solche mit Shortcuts53. Allen Typen von Backpropagation-Netzen ist jedoch folgendes gemeinsam :
- Die Neuronen sind in H ≥ 3 Schichten angeordnet
- Die nullte Schicht besteht aus n Verteilerneuronen. Diese Neuronen besitzen
keine Eingangs-Gewichte
- Die nun folgenden H-2 Schichten sind verborgene Schichten
- Die (H-1)-te-Schicht (Ausgabeschicht) besitzt m Neuronen
- Als Aktivierungsfunktion dient in allen nicht-konstanten Neuronen außerhalb der Eingabeschicht im Regelfall die gewichtete Summe der Eingaben
Abbildung in dieser Leseprobe nicht enthalten
Abb. 2: Feedforward-Multilayer-Perceptron mit H=3 Schichten
Das Lernen erfolgt bei Backpropagation-Netzen durch überwachtes Lernen in allen Schichten. Dabei laufen alternierend die folgenden Schritte ab:54
0. Initialisierung der Gewichte mit beliebigen Wert55
1. Forward-Pass (Präsentation eines Eingabevektors x)
In diesem Schritt wird dem Netz ein beliebiger Eingabevektor x aus der Trainings- menge als Input gegeben. Ist #(L0) = n so ist x =(x1,...,xn). In der Schicht L1 wird bei jedem Neuron zunächst die Aktivierung über die Aktivierungsfunktion (i. allg. ge- wichtete Summe der Eingaben) berechnet und mittels der Ausgabefunktion die Aus- gabe ermittelt.56 Die Ausgaben der Schicht L1 bilden die Eingaben für die Schicht L2 usw. Die Daten durchlaufen somit schichtweise das Netz (von links nach rechts) bis die Ausgabeschicht einen Vektor o = (o1,...,om)T mit m= #(LH-1) liefert.
2. Bestimmung des Fehlers
Die vom Netz gelieferte Ausgabe o wird mit der korrekten Ausgabe o ’ verglichen. Da x aus der Trainingsmenge ist, ist o ’ bekannt. Liegt der Fehler unterhalb einer vorgegebenen Güteschwelle, wird das Training abgebrochen und ggf. eine spezielle Testphase eingeleitet, andernfalls erfolgt die Selbstmodifikation durch Schritt 3.
3. Backward-Pass
Der Backward-Pass erfolgt in umgekehrter Richtung wie der Forward-Pass. In ihm werden sukzessiv die Gewichte, beginnend mit den Gewichten der Ausgabeschicht LH-1 nach einer vorgegebenen Lernregel verändert. Die Fehlerkorrektur erfolgt schichtenweiße von rechts nach links, bis zum Schluss die Gewichte der Schicht L1 verändert sind. Das Lernverfahren Backpropagation besitzt wie jedes Gradienten- verfahren eine Vielzahl von Problemen. Diese Probleme entstehen, da dieses lokale Verfahren keine Informationen über die Fehlerfläche insgesamt besitzt, sondern nur Informationen des Gradienten. Dadurch entstehen Probleme wie z. B. Symmetry Breaking, Lokale Minima der Fehleroberfläche, Flache Plateaus, Oszillationen und Verlassen guter Minima.57 Daher wird die Backpropagation-Regel modifiziert. Ein Ansatz, der insbesondere eine Beschleunigung des Gradientenabstiegs auf weiten Plateaus und ein Abbremsen in stark zerklüfteten Fehlerflächen berücksichtigt, ist die Variante Backpropagation mit Momentum-Term.58
Um den Momentum-Term erweiterte Backpropagation-Lernregel :
Abbildung in dieser Leseprobe nicht enthalten59
Die Trainingsdaten stellen beim Lernen Stützstellen dar, über die das Backpropagati- onNetz eine Funktion approximiert. Um zu garantieren, dass das Netz auch außerhalb dieser Stützstellen, für die im zweiten Schritt der Fehler bestimmt wird, eine genügende Genauigkeit besitzt, muss das Netz durch spezielle Testdaten, die disjunkt zu den Trai- ningsdaten sind, getestet werden. Dies geschieht im Regelfall dann, wenn für alle Trai- ningsdaten im zweiten Schritt die gewünschte Genauigkeit erreicht wurde. Liefern hier- bei die Testdaten noch keine gewünschte Genauigkeit, so muss weiter trainiert werden. Hinsichtlich des Zeitpunktes der Anpassung der Gewichte sind zwei Variationen mög- lich: Erfolgt eine Anpassung der Gewichte nach jeder Präsentation eines Beispiels, so spricht man vom online-Training. Wird die Anpassung erst nach der Präsentation meh- rerer Beispiele, z. B. auf der Basis des durchschnittlichen Fehlers, vorgenommen, so spricht man von offline- oder batch-Training.
2.5 Eigenschaften
Neuronale Netze verfügen über einige positive Eigenschaften.60 Die wichtigste Eigenschaft ist die Lernfähigkeit. Im allgemeinen werden Neuronale Netze nicht programmiert, sondern werden, wie im vorherigen Abschnitt beschrieben, durch Lernverfahren mit einer großen Trainingsmenge trainiert. Das Trainieren ermöglicht die Fähigkeit der Generalisierung. Generalisierung ermöglicht die Übertragung das aus einer Trainingsmenge erlernte Wissen auf die Allgemeinheit.
Das Wissen des Neuronalen Netzes ist in den Gewichten gespeichert. Dies unterstützt die verteilte Wissensrepräsentation. Eine verteilte Wissensrepräsentation ermöglicht eine höhere Robustheit gegenüber Funktionsstörungen als herkömmliche Algorithmen. Ein weiterer Vorteil ist die assoziative Speicherung der Information. Die Speicherung der Informationen erfolgt inhaltsbezogen und nicht adressbezogen. Nach erfolgreichem Training reagieren KNN toleranter gegenüber verrauschten Eingabedaten als konventi- onelle Algorithmen.
Da der Wissenserwerb eines KNN nur durch iteratives Lernen erfolgt, ist es schwer, einem Netz ein gewisses Basiswissen bereits mitzugeben, wie es etwa bei lernfähigen KI-Systemen in Form einer Wissensbasis geschieht. Zudem können Neuronale Netze keine Analyse ihres eigenen Wissen durchführen.61 Die meist eingesetzten Lernverfah- ren sind sehr langsam. Daher ist der Anwendung von Neuronalen Netzen sehr zeitaufwendig.
2.6 Einordnung
Lernen in Neuronalen Netzen gemäß den oben eingeführten Rahmen hat eine enge Verwandtschaft zu statistischen Methoden der Datenmodellierung. Zweck dieses Abschnittes ist es, zu zeigen, worin diese Verwandtschaft besteht, was Neuronale Netze dennoch an neuen Anstößen liefern und warum sie als eigenständige Forschungsrichtung neben der Statistik verfolgt werden sollten.
Der überwiegende Teil der in der Neuroinformatik vorgestellten Techniken zur Benut- zung in Lernverfahren ist nur eine neue Verkleidung für Techniken, die in der Statistik längst bekannt sind. Die Verkleidung zeigt sich gerade darin, dass für das Lernen in Neuronalen Netzen eine völlig andere Terminologie benutzt wird, als sie in der Statistik üblich ist. Es folgt eine kurze Gegenüberstellung der Fachtermini in beiden Gebieten:62 Was bei Neuronalen Netzen Eingabe genannt wird, heißt in der Statistik unabhängige Variable (präziser : Eingabe vs. unabhängige Variable und Eingabewert vs. Wert der unabhängigen Variablen), eine Ausgabe heißt abhängige Variable, ein Beispiel heißt Beobachtung, die Trainingsdaten heißen Stichproben, Fehler heißen Residuen, Lernen heißt Schätzen, die Fehlerfunktion heißt Schätzkriterium, das angenäherte Lösen eines Klassifikationsproblems heißt Diskriminantenanalyse, die Gewichte der Verbindungen heißen Parameter und die Werte dieser Gewichte heißen Parameterschätzungen. Mit Ausnahme des Begriffs Parameter wird diese statistische Terminologie in der Literatur über Neuronale Netze kaum verwendet.
Durch diese unterschiedliche Terminologie wird der Zusammenhang zur Statistik nicht offensichtlich. Ein weiterer Grund dafür, dass so vieles aus der Statistik nacherfunden wird, liegt im großen Umfang und der Komplexität der statistischen Literatur, aufgrund derer vielen Forscher in der Neuroinformatik die relevanten Teile nicht ausreichend genug bekannt sind.
An dieser Stelle soll aufgezeigt werden, was in der Neuroinformatik der Statistik nach- erfunden wurde. Einfache Perceptrons mit linearer Aktivierungsfunktion am Ausgangs- neuron entsprechen einer linearen Regression, mit Schwellenwert-Aktivierungs- funktion wird daraus eine lineare Diskriminantenanalyse, bei mehreren Ausgängen ent- sprechend multivariate lineare Regression oder multivariate lineare Diskriminanten- analyse. Ein mehrschichtiges Perceptron (mit sigmoider Aktivierungsfunktion) ist ein Spezialfall der multivariaten nichtlinearen Regression. Netze aus radialen Basisfunkti- onen, die in dieser Arbeit vernachlässigt werden, entsprechen Regressionen mit Kern- funktionen (kernel regression), auch bekannt als Parzen-Fenster. Die aufgenannten Be- griffe bezeichnen jeweils Modelle, die Hypothesen bzw. Lösungsräume definieren. Die für diese Modelle zu verwendenden Lernverfahren (statistisch : Schätzverfahren) sind mit der Modellbildung noch nicht festgelegt. In der Neuroinformatik wird diese Unterscheidung zwischen Modellen und Verfahren oft verwischt. Auch viele Lernver- fahren für Neuronale Netze sind in der Statistik altbekannt. Wie bereits erwähnt, ist zum Beispiel das als Backpropagation bekannte Vorgehen nichts anderes als ein Gradienten- abstieg auf einer mehrdimensionalen Funktion. Selbst ein so innovativ aussehendes Verfahren wie Cascade Correlation erfindet größtenteils die in der Statistik als backfit- ting bekannte Methode neu, wobei mit der Korrelation allerdings ein falsches Schätzkri- terium gewählt wird.63
3 Cluster und Vorhersage als Bestandteile von Data Mining
In der Informationstechnologie zeichnet sich in Betrieben und Behörden, in denen große Datenmengen anfallen, der Trend ab, alle Daten in einem Data Warehouse64 zusammenzufassen, um z. B. Managemententscheidungen zu unterstützen. Operative Datenbanken in den Unternehmen sind meist nicht für Datenanalysen geschaffen, da sie für die tägliche Datenverarbeitung konstruiert sind. Ein hoher Datendurchsatz und eine hohe Transaktionsrate stehen bei der Konstruktion dieser Datenbank im Vordergrund. Entgegen diesen Prioritäten steht die Philosophie des Data Warehouse. Komplexe Auswertungen und Berechungen führen zu einer speziellen Datenorganisation. Dieser prekäre Unterschied macht eine Datenextraktion notwendig.65
Motiviert durch die hohe Menge an Daten, die für jede problemspezifische Frage nur eine geringe Konzentration an relevanten Informationen beinhalten, werden Verfahren gesucht, die aus den Daten auf die jeweilige Fragestellung hin, gefiltert Informationen liefern. Die hier vorgestellten Verfahren besitzen einen explorativen Charakter. Es werden keine Zufälligkeiten untersucht, sondern das gezielte Auffinden von empirischen Klassifikationen und Prognosen.
3.1 Clusteranalyse
3.1.1 Einführung
Unter dem Begriff der Clusteranalyse werden multivariate statistische Verfahren, die Objekte in Klassen gleicher Objekte gruppieren, verstanden. Das Anwendungsgebiet clusteranalytischer Verfahren wird durch das Finden von komplexen Strukturen in hochdimensionalen Räumen charakterisiert.66 Als Ergebnis entstehen gefilterte Informationen. Das Ziel ist es in den einzelnen Klassen eine hohe Homogenität und zwischen den einzelnen Klassen eine hohe Heterogenität zu erreichen. Das Clustern wird auch häufig unüberwachte Klassifizierung genannt.67 Im Gegensatz zur Daten- Klassifizierung, bei der die Datensätze in vordefinierte Klassen eingeteilt werden, er- folgt bei der Clusteranalyse das selbständige Auffinden und Einteilen ähnlicher bzw. gleicher Objekte.68 Dadurch kann ein großer Datenbestand in kleinere, sogenannte Daten-Cluster (Partitionen69 ), abgegrenzt werden, ohne dass zuvor näheres Wissen über mögliche Eigenschaften und Verhaltensweisen einzelner Cluster erforderlich ist.
Bei dem nachfolgenden beschriebenen Clusterverfahren handelt es ich um ein Verfah- ren zur Konstruktion von Clusterzentren. Annahme hierbei ist, dass ein Cluster durch sein Clusterzentrum charakterisiert wird. Ein Clusterzentrum stellt den Mittelwert des Clusters der in die Clusterbildung einbezogenen Variablen dar. Die Bildung der Cluster erfolgt so, dass die Streuung zwischen den Zentren maximiert bzw. die Streuung in den Zentren minimiert wird.70
3.1.2 Methodischer Hintergrund
Im folgenden werden zwei Verfahren erläutert, die zur Erstellung von Clustern geeignet sind. Das K-Means-Verfahren aus dem Bereich der Statistik eignet sich besonders bei Analysen mit großen Datensätzen. Zudem ist dieses Verfahren relativ robust gegenüber Modellverletzungen.71 Der Algorithmus dieses Verfahrens benötigt im Verhältnis zu den hierarchisch agglomerativen Verfahren 72 wenig Rechen- und Speichervolumen. Bei den agglomerativen Verfahren muss die Unähnlichkeitsmatrix zwischen allen Objekten bzw. Variablen im Arbeitsspeicher gehalten werden.73 Im Vergleich dazu ist das K- Means-Verfahren effizient bezüglich Speicherplatz und Zeit.
Das Verfahren aus dem Bereich der Neuronalen Netze, das Kohonen-Netz, ermöglicht die Clustererstellung ohne vorheriges Wissen über die Anzahl der zu erstellenden Cluster. Es ist daher dem Backpropagation-Netz vorzuziehen, da dieses die Clusteranzahl vor der Analyse festlegt. Die Festsetzung der Clusteranzahl beeinträchtigt des Ergebnis der Problemstellung.
3.1.2.1 K-Means-Verfahren
Modellansatz
Das K-Means-Verfahren basiert auf der Konstruktion von Clusterzentren zur Bildung der Cluster Es werden K Clusterzentren x kj (k = 1,2,...,K; j = 1,2,...,m; K = Zahl der
Cluster; m = Zahl der Variablen) so berechnet, dass die Streuungsquadratsumme in den Clustern minimal wird. Diese ist wie folgt definiert:
Abbildung in dieser Leseprobe nicht enthalten
gleich der quadrierten euklidischen Distanz zwischen dem Objekt g und dem Clusterzentrum k ist, kann die Minimierungsaufgabe geschrieben werden als
Abbildung in dieser Leseprobe nicht enthalten
Algorithmus
Die Streuungsquadratsumme in den Clustern lässt sich als Fehlerstreuung interpretieren. Sie ist jene Streuung in den Daten, die nicht durch die Cluster erklärt wird. Die Zielsetzung, die Fehlerstreuung in den Clustern zu minimieren, erfolgt nach einem partitionierenden Algorithmus74, der aus folgenden Schritten besteht:75
Schritt 1 : Berechnung oder Eingabe von Startwerten für die Clusterzentren
Schritt 2 : Zuordnung der Klassifikationsobjekte: Die Klassifikationsobjekte g wer- den jenem Clusterzentrum k zugeordnet, zu dem die quadrierte euklidische Distanz minimal ist. Formal ausgedrückt :
Abbildung in dieser Leseprobe nicht enthalten
Daraus resultiert, dass die Streuungsquadratsumme in den Clustern
Abbildung in dieser Leseprobe nicht enthalten
[...]
1 Vgl. Chen, M.-S., Han, J., Yu, P. S. (1996), S. 868 f.; Bigus, J. P. (1996), S. 4 f.
2 Vgl. Bigus, J. P. (1996), S. 5 f.
3 Gebräuchlich sind auch : Knowledge extraction, Database exploration, Data pattern processing, Information harvesting oder Database mining. Vgl. Agrawal, R., Imielinski, T., Swami, A. (1993),S. 207 ff. in: Buneman, P., Jajodia, S. (1993), S. 207 ff.; Wang et al. (1994), S. 115 ff.
4 Vgl. Piatetsky-Shapiro, G. (1991), S. 74 ff.; Piatetsky-Shapiro, G. (1993); Piatetsky-Shapiro, G., Frawley, W. J. (1991), S. 1 ff.; Piatetsky-Shapiro, G. et al. (1994); Fayyad, U. M., Uthurusamy, R. (1994), S. 441 ff.
5 Vgl. Stonebraker, M. (1993), S. 701 ff.
6 Lindsay, B. (1994), S. 45 ff.
7 Backpropagation Netze besitzen eine feedforward-Architektur. Sie zeichnen sich durch überwachtes Lernen aus. Das Lernen erfolgt mit Hilfe des Backpropagation-Lernalgorithmus. Vgl. Bigus J. P. (1996), S. 69.
8 Kohonen-Netze sind feedforward-Netze, die sich durch ein unüberwachtes Lernen von Backpropa- gation Netze unterscheiden. Durch diese Eigenschaften könne sie sich selbst organisieren. Als Re- sultat gibt dieses Netz eine zweidimensionale Karte aus.Vgl. Bigus J. P. (1996), S. 71.
9 Vgl. Bigus, J. P. (1996), S. 77.
10 Gegenstand von ARIMA-Prozesse sind Zeitreihen, die als Realisierung eines stochastischen Prozes- ses aufgefasst werden.
11 Vgl. McCulloch, W., Pitts, W. (1943), S. 115-133.
12 Vgl. Wiener, N. (1948).
13 Vgl. Rosenblatt, F. (1957).
14 Vgl. Agmon, S. (1954), S. 382-392
15 Vgl. Rosenblatt, F. (1962).
16 Vgl. Rosenblatt, F. (1962).
17 Vgl. Minsky, M., Papert, S. (1969).
18 Vgl. Hecht-Nielsen, R. (1990), S. 14 ff.
19 Vgl. Minsky, M., Papert, S. (1988).
20 Vgl. Bryson, A. E., Ho, Y. C. (1969).
21 Vgl. Werbos, P. (1974).
22 Vgl. Parker, D. B. (1985).
23 Vgl. Le Cun, Y. (1985). S. 599 ff.
24 Vgl. Rummelhart, D., McClelland, J. (1986).
25 Vgl. Minsky, M., Papert, S. (1988), S. 247 ff.
26 Vgl. Anthony, M., (1994); Sontag, E.D. (1994).
27 Vgl. Bigus, J. P. (1996), S. 29.
28 Bei diesen Bauelemente handelt es sich um eine Realisierung von ungefähr 1011 Neuronen und 1013 Verbindungen. Vgl. Kinnebrock, W. (1994), S. 13f.
29 Vgl. Rehkugler, H., Poddig, T. (1991), S. 368 f.; Zell, A. (1994), S. 71 ff.
30 Vgl. Zell, A. (1998), S. 4 f.
31 Vgl. Adam, D., Hering, T., Welker, M. (1995), S. 591 f.; Harston, C. T. (1990), S. 391 ff.
32 Vgl. Becker, J. (1994), S. 167; Steiner, M., Wittkemper, H.-G. (1993), S. 461.
33 Vgl. Adam, D. (1993), S. 7 ff.
34 Vgl. Becker, J. (1994), S. 162.
35 Vgl. Corsten, H., May, C. (1995), S. 45.
36 Vgl. Corsten, H., May, C. (1995), S. 48 f.
37 Vgl. Ruppel, A., Siedentopf, J. (1992), S. 557.
38 Vgl. Rojas, R. (1993), S. 24.
39 Vgl. Corsten, H., May, C. (1995), S. 51
40 Vgl. Becker, J., Prischmann, M. (1992), S. 17 ff.; Faißt, J. (1993), S. 217.
41 Vgl. Becker, J. (1994), S. 158 ff..
42 Vgl. Rehkugler, H., Poddig, T. (1991), S. 368 f.
43 Vgl. Hantschel, G., Zimmermann, H.G. (1992), S. 46 ff.
44 Vgl. Hruschka, H., Natter, M. (1993), S. 426 ff.
45 Vgl. Erxleben, K. et al. (1992), S. 1237 f.
46 Vgl. Baetge, J. et al. (1994), S. 337.
47 Vgl. Pietsch, W., Teubner, A. (1992), S. 346 ff.
48 Vgl. May, C. (1996), S. 1 ff.; Ruppel, A., Siedentopf, J. (1992), S. 554 ff.
49 Vgl. Zell, A. (1998), S. 6.
50 Vgl. Zell, A. (1998), S. 6.
51 Vgl. Zell, A. (1998), S. 7.
52 Bei total-verbundenen Topologien existieren Verbindungen zwischen allen Neuronen. Ein Beispiel für eine totalverbundene Topologie ist das Hopfield-Netz. Vgl. Bigus, J. P. (1996), S. 76.
53 Netze mit Shortcut-Verbindungen besitzen die Eigenschaft, neben den Verbindungen zwischen aufeinanderfolgenden Ebenen auch solche zu besitzen, die Ebenen überspringen.Vgl. Zell, A. (1998), S. 8.
54 Vgl. Zell, A. (1998), S. 7
55 Die Initialisierung der Gewichte geschieht einmalig und wiederholt sich nicht.
56 Ferner sei #(Li) die Anzahl der nicht konstanten Neuronen in Li.
57 Vgl. Bigus, J. P. (1996), S. 29.
58 Vgl. Zell, A. (1998), S. 17.
59 Unter MSE (Mean Square Error) wird der mittlerer quadratischer Fehler verstanden. Vgl. Anhang A.
60 Vgl. Zell, A. (1998), S.4 f.
61 Dieser Vorgang - auch Introspektion genannt - wird bei Erklärungskomponenten von Expertensys- temen durchgeführt.
62 Vgl. Sarle, W. S. (1994), S. 2, Anders, U. (1995), S. 9.
63 Vgl. Lippe, W.-M., Feuring, Th., Jankrift, A. (1994).
64 Vgl. Bigus, J. P. (1996), S. 6 ff.
65 Vgl. Vossen, G. (2000), S. 671 ff.
66 Vgl. Grimmer, U., Mucha, H.-J. (1998), S. 109 f.
67 Vgl. Chen, M.-S., Han, J., Yu, P. S. (1996), S. 875.
68 Vgl. Grimmer, U., Mucha, H.-J. (1998), S. 110.
69 Vgl. Grimmer, U., Mucha, H.-J. (1998), S. 110.
70 Vgl. Bacher, J. (1994), S. 143.
71 Modellverletzungen treten u. a. dann auf, wenn anstelle der quadrierten euklidischen Distanz die City-Block-Metrik verwendet wird. Vgl. Kaufman, L., Rousseeuw, P. J. (1990), S. 144-146, 155- 160.
72 Zu hierarchisch agglomerativen Verfahren vgl. Backhaus, K. et al (2000), S. 350 ff.
73 Vgl. Bacher, J. (1994), S. 302.
74 Der Algorithmus wird in der Literatur als Forgy-Methode bezeichnet. Vgl. Forgy, E. (1965).
75 Vgl. Kaufman, L., Rousseeuw, P. J. (1990), S. 112-133.
- Arbeit zitieren
- Dr. Thomas Zabel (Autor:in), 2001, Neuronale Netze für Clustern und Vorhersage. Methodenvergleich und Tools, München, GRIN Verlag, https://www.grin.com/document/30909
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.