Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose


Bachelorarbeit, 2007
70 Seiten, Note: 2,3

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Konzept

3. Grundlagen
3.1. DAX
3.1.1. Was ist der DAX?
3.1.2. Kenngrößen
3.1.3. Prognose
3.1.4. Auf den DAX handeln
3.2. Regressionsanalyse
3.2.1. Einleitung
3.2.2. Einsatzgebiete
3.2.3. Arten der Regressionen
3.2.4. Einfache lineare Regression
3.2.5. Multiple lineare Regression
3.2.6. Kennzahlen der Regressionsanalyse
3.3. Künstliche neuronale Netze
3.3.1. Einleitung
3.3.2. Das Neuron
3.3.3. Das künstliche neuronale Netz
3.3.4. Vorwärts- und rückwärtsgekoppelte Netze
3.3.5. Lernverfahren
3.3.6. Einsatzgebiete
3.4. State of the Art
3.4.1. Optimierung der technischen Analyse . .
3.4.2. Optimierung auf Geschwindigkeit
3.4.3. Optimierung der Indexprognose durch technische Analyse .
3.4.4. Auswahl geeigneter Eingangsdaten
3.4.5. Optimierung durch andere Verfahren
3.4.6. Nutzen für die eigene Arbeit

4. Prototypische Realisierung und Auswertungen
4.1. Daten-Selektor
4.2. Regressionsanalyse
4.2.1. Anforderungsdefinition
4.2.2. Aufbau der Regressionsanalyse im Flussdiagramm
4.2.3. Durchführung der Regressionsanalysen und Auswertungen
4.3. Künstliche neuronale Netze
4.3.1. Anforderungsdefinition
4.3.2. Konzeption im Flussdiagramm
4.3.3. Durchführung der künstlichen neuronalen Netze und Auswertungen
4.3.4. Auswertung

5. Alle Prognosen im abschließenden Vergleich
5.1. Durchführung
5.1.1. Durchlauf 1
5.1.2. Durchlauf 2
5.1.3. Durchlauf 3
5.1.4. Prognosen im Überblick von Freitag auf Montag
5.1.5. Prognosen im Überblick von Montag auf Dienstag
5.1.6. Prognosen im Überblick von Dienstag auf Mittwoch
5.1.7. Prognosen im Überblick von Mittwoch auf Donnerstag
5.1.8. Prognosen im Überblick von Donnerstag auf Freitag
5.1.9. Die Verfahren im Vergleich
5.1.10. Auswertung

6. Schlussbetrachtung und Ausblick

A. Hilfsmittel

B. Unterschiede bei der Regressionsanalyse bei verschiedener Anzahl von Va- riablen
B.1. 1 Woche
B.2. 1 Monat

C. Untersuchungen der Regressionskoeffizienten der Regressionsanalyse
C.1. Versuch 1
C.1.1. Zeitraum 01.06.2006 bis 01.12.2006 auf täglicher Datenbasis .
C.1.2. Zeitraum 01.06.2006 bis 12.12.2006 auf täglicher Datenbasis .
C.1.3. Zeitraum 15.05.2006 bis 01.12.2006 auf täglicher Datenbasis .
C.2. Versuch 2
C.2.1. Zeitraum 01.08.2006 bis 01.12.2006 auf täglicher Datenbasis .
C.2.2. Zeitraum 01.08.2006 bis 01.12.2006 auf 2-täglicher Datenbasis
C.2.3. Zeitraum 01.08.2006 bis 01.12.2006 auf 3-täglicher Datenbasis
C.3. Versuch 3
C.3.1. 01.10.2006 bis 12.12.2006 auf täglicher Datenbasis
C.3.2. 15.07.2006 bis 12.12.2006 auf 2-täglicher Datenbasis
C.3.3. 30.06.2006 bis 12.12.2006 auf 3-täglicher Datenbasis

D. Auswahl von geeigneten Variablen bei der Regressionsanalyse

E. Passende Netzstruktur beim KNN ermitteln
E.1. Untersuchung nach Faustregel 1
E.2. Untersuchung nach Faustregel 2
E.3. Untersuchung nach Faustregel 3
E.4. Zusammenfassung

F. Letzte Untersuchungen im abschließenden Vergleich aller Prognoseverfah- ren
F.1. Versuch von Montag 5. Februar auf Dienstag 6. Februar
F.1.1. Regressionsanalyse
F.1.2. KNN vollständig
F.1.3. KNN beschränkt
F.2. Versuch von Dienstag 6. Februar auf Mittwoch 7. Februar
F.2.1. Regressionsanalyse
F.2.2. KNN vollständig
F.2.3. KNN beschränkt
F.3. Versuch von Mittwoch 7. Februar auf Donnerstag 8. Februar
F.3.1. Regressionsanalyse
F.3.2. KNN vollständig
F.3.3. KNN beschränkt
F.4. Versuch von Donnerstag 8. Februar auf Freitag 9. Februar
F.4.1. Regressionsanalyse
F.4.2. KNN vollständig
F.4.3. KNN beschränkt

Literatur

Tabellenverzeichnis

1. Unterschiede bei verschiedenen Zeitintervallen und Zeiträumen

2. Unterschiede bei verschiedener Anzahl von Variablen

3. Faustregel-Ergebnisse des KNN Versuch

4. Übersicht der Prognosen zum 5. Februar 2007

5. Übersicht der Prognosen zum 6. Februar 2007

6. Übersicht der Prognosen zum 7. Februar 2007

7. Übersicht der Prognosen zum 8. Februar 2007

8. Übersicht der Prognosen zum 9. Februar 2007

9. Prognoseverfahren im Vergleich

10. Auswertung des KNN

Abbildungsverzeichnis

1. Dax mit Trendlinien

2. Hebelzertifikate auf den DAX (Quelle: comdirect Bank)

3. Daten-Selektor

4. Regressionsanalyse dargestellt als Flussdiagramm

5. Dateninput der Regressionsanalyse

6. Hauptbereich der Regressionsanalyse

7. DAX als lineare Abbildung

8. KNN Teil 1 dargestellt als Flussdiagramm

9. KNN Teil 2 dargestellt als Flussdiagramm

10. Screenshot KNN 1

11. Screenshot KNN 2

1. Einleitung

Der weltweite Börsenhandel ist ein äußerst komplexer Wirtschaftsbereich, in dem sich Veränderungen weder durch mathematische Berechnungen (Formeln) noch durch sichere Faustregeln vorher bestimmen lassen. Dies gilt sowohl für die Aktienindizes als auch für alle Aktienwerte. Selbst wenn sich bestimmte Korrelationen zwischen einzelnen Kenngrößen (Variablen) unter Berücksichtigung vorausgegangener Börsenjahre erkennen lassen, können augenblickliche politische Ereignisse, Unruhen, Katastrophen usw. sämtliche Vorhersagetendenzen zunichte machen.

Im Bereich der Informatik gibt es seit mehreren Jahrzehnten Bestrebungen, mit künst- lichen neuronalen Netzen (KNN) komplexe Sachverhalte, wie z.B. den Börsenhandel, Aussagen abzuverlangen, die Entscheidungen bezüglich solcher Sachverhalte erleichtern sollen. Künstliche neuronale Netzwerke und künstliche Neuronen haben ihren Urprung in der Biologie. In der Informatik, dieser Bereich wird heute auch Neuroinformatik genannt, geht es dabei weniger um das Nachbilden natürlicher neuronaler Netze, sondern um eine Abstraktion von Informationsverarbeitung in einem künstlichen neuronalen Netz. Erst durch schnelle Computer kann der komplexe Lernprozess von künstlichen neuronalen Netzen in, z.B. für den Börsenhandel, akzeptablen Zeiträumen ablaufen.

In der vorliegenden Arbeit geht es schwerpunktmäßig darum, den Aktienindex DAX vorherzusagen. Für diesen Anwendungsbereich soll die Regressionsanalyse dabei helfen, die Ergebnisse der Prognose mit den künstlichen neuronalen Netzen zu optimieren.

2. Konzept

Um das schwierige Ergebnis der optimierten DAX-Aussage anzustreben, wird zunächst einmal nach geeigneten Kenngrößen gesucht, für die historische Kursverläufe vorliegen und die auch gleichzeitig wirtschaftlich relevante Größen sind.

Die Kenngrößen fließen in die Regressionsanalyse ein. Diese liefert eine effiziente Gleichung, mit der durch Eingabe der aktuellen Kenngrößen die DAX-Vorhersage für den nächsten Tag berechnet werden kann.

Ferner werden oben genannte Kenngrößen benötigt, um eine geeignete Netzstruktur für ein künstliches neuronales Netz zu finden.

Es werden zwei verschiedene Netze aufgebaut. In das erste Netz fließen alle Variablen, in das zweite Netz nur ausgewählte Variablen ein. Bei der Auswahl geeigneter Variablen hilft die Regressionsanalyse. Ziel ist es dabei, mit möglichst wenigen relevanten Variablen eine bessere DAX-Prognose zu erhalten.

Für beide Netze gilt es eine geeignete Netzstruktur zu finden. Die Netze werden mit den jeweiligen Kenngrößen gefüllt und trainiert. Anschließend kann mit den aktuellen Kenngrößen der DAX-Wert vom nächsten Tag berechnet werden.

Abschließend werden in einem weiteren Versuch alle drei Verfahren in einem Zeitraum von einer Woche miteinander verglichen, um herauszufinden, welches Verfahren zur bes- ten DAX-Prognose führt. Darüber hinaus wird ein Durchschnittswert errechnet, der sich aus allen drei Verfahren ergibt, um zu sehen, ob damit ein noch besseres Ergebnis erzielt werden kann.

3. Grundlagen

Dieser Abschnitt erklärt zu Beginn die Grundlagen des DAX, der Regressionsanlyse und der künstlichen neuronalen Netze. Anschließend wird ein kleiner Ausblick auf die aktuelle Forschung gegeben.

3.1. DAX

3.1.1. Was ist der DAX?

Laut (Deutsche Börse 2006) ist der DAX der wichtigste deutsche Aktienindex und setzt sich aus den 30 größten börsennotierten und umsatzstärksten Aktiengesellschaften aus Deutschland zusammen. Diese Aktiengesellschaften werden außerdem als Blue-Chips bezeichnet und stellen ca. 75% des Kapitals aller an der Börse gehandelten deutschen Werte zusammen. Diese so genannten Blue-Chips sind nach (Bank-Verlag 1998, S. 59) Standard-Werte wegen allgemein anerkannter Qualität. Diese Unternehmen erfüllen die erforderlichen DAX-Zulassungskriterien (z.B. Quartalsberichterstattung)

Der DAX begann nach (Deutsche Börse 2006) am 30.12.1987 mit 1000 Punkten. Sekündlich wird der DAX aus den XETRA-Kursen, einem elektronischen Handelssystem, berechnet. Einmal jährlich im September wird über die Indexzusammensetzung neu entschieden. Nicht selten kommt es vor, dass ein Unternehmen aus dem DAX ausgeschlossen bzw. in den DAX aufgenommen wird. Unter bestimmten Kriterien kann ein Wert auch vorzeitig aus dem Index ausgeschlossen werden.

Die Kurse an der Börse kommen nach (Brichta 2007) durch Angebot und Nachfrage zustande. Beide sind für das Fallen, Stagnieren oder Steigen der Aktien verantwortlich. Angebot und Nachfrage entstehen durch die Erwartungen der Anleger an ein Unterneh- men. Bringt ein Unternehmen z.B. sehr gute Produkte auf den Markt oder hat sehr gute Aufträge, wäre dies ein Impuls, der zum Steigen der Unternehmensaktie führen könnte.

Die wirtschaftlichen Auswirkungen eines einzelnen Unternehmens haben kaum Einfluss auf den DAX, es sind globalere Abhängigkeiten, die den DAX-Wert verändern können:öl- und Gaspreise, Strompreise, Rohstoffpreise, Zinsen und auch politische Unruhen, Umweltkatastrophen usw.

3.1.2. Kenngrößen

Im Folgenden werden 18 verschiedene Kenngrößen (Edelmetalle, Zinsen, Währungen, Indizes,ölpreis) vorgestellt, die in die Dax-Prognose dieser Arbeit einfließen. Für diese Kenngrößen sind historische Kurse verfügbar, die kostenlos bzw. kostengünstig zu beziehen und in einer eigens angelegten MySQL-Datenbank gespeichert sind.

Edelmetalle

Edelmetalle werden von verschiedenen Branchen und Industrien beansprucht. Der Wert der Edelmetalle setzt sich aus Faktoren wie Knappheit, einfache Lagerfähigkeit und Wiederverwendbarkeit zusammen. Die vier wichtigsten Edelmetalle sind nach (Commerzbank AG 2006, S. 116ff) Gold, Silber, Platin und Palladium. Diese Edelmetalle werden weltweit rund um die Uhr gehandelt.

- Gold

Der größte Teil des Goldes, ca. 3/4, wird von der Schmuckindustrie nachgefragt. Andere Einsatzgebebiete sind die Elektroindustrie und Zahnmedizin. Ferner ist Gold ein wichtiges Anlageinstrument in Form von Münz- und Barrengold.

- Silber

Silber hat im Vergleich zu den anderen Edelmetallen ein großes Aufkommen und wird überwiegend in der Elektro-, Schmuck- und Fotoindustrie eingesetzt. Silber ist wie Gold ein eingesetztes Anlageinstrument.

- Platin

Platin gehört mit zu den am wenigsten vorkommenden Edelmetallen und wird zu ca. 50% in der Autoindustrie verwendet. Der zweitgrößte Teil wird in der Schmuck- industrie verwendet. Weitere Einsatzbereiche sind: LCD-Bildschirme, Laborgeräte und Raketenbau.

- Palladium

Palladium ist ähnlich wie Platin ein seltenes Edelmetall und wird viel in der Autound Schmuckindustrie und Dentalmedizin eingesetzt.

Zinsen

Zinsen haben nach (Lang 2005, S. 63ff) für den privaten Anleger eine wirtschaftliche Bedeutung. Bei einem hohen Zinsniveau investiert der Anleger in festverzinsliche Papie- re, während er bei niedrigen Zinssätzen eher bereit ist, in Wertpapiere zu investieren. Niedrige Zinsen für Kredite senken Unternehmerkosten. In dieser Arbeit wird die deut- sche Umlaufrendite verwendet, die die durchschnittliche Verzinsung des Kapitalmarktes widerspiegelt.

Währungen

Währungen sind nach (Detlef Rettinger 2005, S. 15 u. S. 19) für den Zahlungsverkehr maßgeblich. Der zu meist am Devisenmarkt gehandelte Kurs ist der EUR / USD. An ca. 90% der gehandelten Kurse ist der USD beteiligt. Ein starker Dollar hat z.B. die Auswirkung, dass die USA preiswert Produkte aus dem Euroland importieren können. Für das Euroland bedeutet dies gute Exportchancen. Ein starker Euro bewirkt das Gegenteil. Der Währungskurs ergibt sich automatisch aus Angebot und Nachfrage. Beispiele dafür sind, dass Unternehmen Devisen für ihre Transaktionen benötigen oder Banken im Auftrag eines Kunden eine Transaktion durchführen.

Die fünf wichtigsten Währungen sind der Yen, der Dollar, der Euro, das Pfund (GBP) und der Schweizer Franken (CHF). In die Arbeit fließen folgende Währungen ein:

- EUR / USD
- USD / JPY
- EUR / GBP
- EUR / CHF

Indizes

Indizes sind nach (Bank-Verlag 1998, S. 47) künstliche Gebilde, um die Entwicklung an Wertpapiermärkten darzustellen. Im Bereich der Wertpapierindizes sind neben Renten- indizes vor allem Aktienindizes die häufigste Erscheinungsform. Aktienindizes werden wie Indizes allgemein in einer einzigen Zahl (in Punkten) ausgedrückt. Veränderungen im Stand eines Aktienindex spiegeln die Kursveränderungen der in ihm eingebunde- nen Aktien wider. Diesbezüglich sind Aktienindizes Gradmesser für die Entwicklung an Aktienmärkten.

Neben dem DAX gibt es noch drei weitere wichtige deutsche Indizes, die jeweils ein Marktsegment abbilden und deshalb in die Arbeit mit einfließen. Dies sind der SDAX, MDAX und TecDAX.

Ausländische Märkte haben ebenfalls einen Einfluss auf den DAX. Wenn in den USA z.B. der Dow Jones erheblich an Punkten verliert, besteht auch Gefahr für den Dax an Punkten zu verlieren, sobald Anleger panikartig ihre Wertpapiere verkaufen. Der Dow Jones, Nasdaq 100, Nikkei 225 und Eurostoxx 50 fließen als ausländische Indizes mit in die Arbeit ein.

Ähnlich wie beim Dax spiegelt der Dow Jones Index die 30 größten US-Aktien-Gesellschaften wider. Der Nasdaq ist die New Yorker Börse, an der ca. die Hälfte der US-Aktiengesellschaften gehandelt werden und spiegelt die 100 größten Werte wider, die hier gehandelt werden. Der Nikkei 225 ist ein japanischer Aktienindex und spiegelt die stärksten 225 japanischen Aktienwerte und der Eurostoxx 50 die 50 stärksten europäischen Werte wider.

Ölpreis

Die Mineralölbranche ist die größte Branche weltweit, ihr Wert wird nach (Rifkin 2002, S. 87) auf zwei bis fünf Billionen US-Dollar geschätzt. Innerhalb der Wertschöpfungskette vereint sie viele Glieder:ölfelder, Bohrinseln, Tausende Kilometer von Pipelines, riesigeöltanker, Computersysteme, die den Energiefluss bis zum Endverbraucher lenken, Tank- stellen und zahlreiche andere Unternehmen, die petrochemische Produkte von Schmier- mitteln über Dünger bis hin zu Kunststoffen und Medikamenten herstellen. Rohöl ist gerade in der heutigen Zeit von brisanter wirtschaftlicher Bedeutung, weil Erschließung, Förderung, Transport, Verarbeitung und Distribution von Erdöl und Erdölprodukten kapitalintensive und komplizierte Vorgänge sind und ferner die Golf-Region in Zukunft die Hand auf denöl hat und damit ein erstklassiges Machtmittel besitzt. Nach (Rifkin 2002, S. 133f) werden die Herren am Golf die Preise und Konditionen diktieren. (Rifkin 2002) führt weiter aus, dass die OPEC-Länder in der Lage sind, mit einemöl-Boykott den Preis pro Fass auf 50 US-Dollar und mehr hochzutreiben, was die Weltwirtschaft in eine verheerende Rezession stürzen könnte.

3.1.3. Prognose

Eine Prognose ist laut (vgl. Matthias Wermke 2005, S. 846) ”die Vorhersage einer zukünftigen Entwicklung aufgrund kritischer Beurteilung des Gegenwärtigen.”

Die Börsenprognose unterteilt sich nach (Murphy 2006, S. 66f) in die technische und fundamentale Prognose. Die technische Prognose bezieht sich in erster Linie auf Charts, um künftige Trends vorherzusagen. Bei dieser Prognose (Analyse) werden beispielsweise gleitende Durchschnitte, Trendlinien und Indikatoren ausgewertet.

Abbildung 1: Dax mit Trendlinien

Abbildung in dieser Leseprobe nicht enthalten

In der Abbildung 1 ist in einem Koordinatensystem der DAX-Wert in Punkten (Y- Achse) in Abhängigkeit von der Zeit (X-Achse) dargestellt. Der gezeichnete Graph zeigt für kleinere Zeiträume (Monate) die Auf- und Abwärtsbewegung des DAX-Wertes und gleichzeitig über mehrere Jahre hinweg einen überlagerten Graphen, der den DAX-Trend deutlich erkennen lässt.

Eine Trendlinie gibt es in zwei Variationen: Widerstandslinien, die Hochpunkte eines Trends und Unterstützungslinien, die Tiefpunkte eines Trends verbinden. In die Grafik wurden einige deutlich erkennbare Trendlinien eingezeichnet.

Auf der linken Seite ist ein roter Abwärtstrend zu erkennen. Am Ende dieses Abwärtstrends wird die Widerstandslinie überquert und der Kurs bricht nach oben aus. In der Mitte zeigt die Grafik einen in schwarz dargestellten Seitwärtstrend. Hier sind jeweils die Widerstands- und Unterstützungslinien eingezeichnet. Mit dem Überschreiten der Widerstandslinie ändert sich die Trendrichtung (Aufwärtstrend), der grün abgebildet ist. Dass ein Aufwärtstrend beim Unterschreiten der Unterstützungslinie in einen fallenden Trend wechselt, zeigt die linke grüne Trendlinie.

Bei der fundamentalen Prognose konzentriert sich der Anleger nach (Murphy 2006, S. 66f) auf marktbeeinflussende Größen. Wesentliche Größen dieser Art sind das Zinsni- veau, die Konjunktur, dasöl, ausländische Indizes, Kriege und Naturkatastrophen.

3.1.4. Auf den DAX handeln

Der DAX als Aktienindex ist kein an der Börse handelbarer Wert, denn eine DAX-Aktie gibt es nicht. Aber es gibt die Möglichkeit mit so genannten Zertifikaten auf den DAXTrend zu spekulieren. Geld wird ähnlich einer Wette entweder auf einen steigenden oder fallenden DAX-Wert gesetzt.

Eine Möglichkeit dieser Geldanlage ist das so genannte Hebelzertifikat.

Abbildung 2: Hebelzertifikate auf den DAX (Quelle: comdirect Bank)

Abbildung in dieser Leseprobe nicht enthalten

In Abbildung 2 sind drei verschiedene Hebelzertifikate auf den DAX dargestellt, die über den Zertifikate-Selektor auf der Webseite der Comdirekt-Bank abgerufen werden können. Die dargestellten Hebelzertifikate spekulieren auf einen steigenden DAX.

Der Anleger kauft nach (Comdirect Akademie 2007) die Zertifikate zum Geldkurs (Nach- frage) und verkauft sie zum Briefkurs (Angebot). Die Differenz zwischen beiden Kursen ist der so genannte Spread, der an den Emittenten, in diesem Falle die Commerzbank, geht. Der Hebel geht als Multiplikator in die Gewinn-Verlust-Rechnung ein und be- stimmt damit das Risiko. In der oben genannten Abbildung ist ein Zertifikat mit dem

Hebel 8,58 ausgewiesen. Wenn dieses Zertifikat gekauft wird und der DAX nun um 5 % steigt, dann steigt auch der Wert des Zertifikats um 8,58x5% = 34,32 %. Der Hebel wirkt in beide Richtungen und kann deshalb bei einem hohen Wert zu hohen Gewinnen oder Verlusten führen.

Wenn der DAX den von dem Emittenten für dieses Zertifikat vorgegebenen KnockoutWert unterschreitet, verfällt das Zertifikat und der Anleger erleidet einen Totalverlust. Je größer der Hebel, desto kleiner ist der Abstand zum Knockout und umso größer damit das Risiko eines Totalverlusts.

3.2. Regressionsanalyse

3.2.1. Einleitung

(Klaus Backhaus 2006, S. 46) beschreibt das Verfahren der Regressionsanalyse wie folgt:

Die Regressionsanalyse ist ein Verfahren der multivariaten Statistik, die es ermöglicht, Beziehungen zwischen einer abhängigen und einer bzw. mehreren unabhängigen Va- riablen zu analysieren. Durch die analysierten Beziehungen lässt sich eine Gleichung aufstellen, die das Verhalten der abhängigen Variablen mit den jeweiligen Gewichtungen der unabhängigen Variablen widerspiegelt. Im Anwendungsgebiet der Regressionsanalyse lassen sich dadurch z.B. Prognosen durchführen, indem die Parameter der unabhängigen Variablen verändert werden und dadurch die abhängige Variable prognostiziert wird.

3.2.2. Einsatzgebiete

Einsatzgebiete sind in den unterschiedlichsten Bereichen vorstellbar wo mehrdimensionale Daten vorliegen. Ein Beispiel aus der Autoindustrie ist nach (Samprit Chatterjee 1991, S. 259f) der Benzinverbrauch, bei dem ermittelt wird, welche Variablen (Leistung, Gewicht, Strömungswiderstand, Vergaser, Anzahl der Gänge, Automatik/Manuell usw.) überwiegend für den Benzinverbrauch verantwortlich sind.

Auch in der Marktforschung wird die Regressionsanalyse eingesetzt. (Christian Homburg 2000, S. 205) beschreibt ein Beispiel aus dem Marketing, bei dem der Marktanteil oder die Absatzmenge durch Parameter wie z.B. den Preis, die Anzahl der Leser oder das Werbebudget ermittelt werden. In diesem Zusammenhang dient die Regressionsanalyse auch zur Schätzung des Images eines Produkts.

Ein anderes Einsatzgebiet ist das Wetter. Bei einer Untersuchung der Stadt Darmstadt nach (Christian Homburg 2000, S. 205) wurde z.B. mittels der Regressionsanalyse gezeigt, wie sich die Jahresdurchschnittstemperatur in dem Zeitraum von 1950 bis 2000 um 1,1 bis 1,2 Grad erhöht hat.

In der Medizin geht es oft um die Diagnose von Krankheiten. So kann z.B. nach (B. Baltes-Götz 2006) untersucht werden, welche Faktoren für Durchblutungsstörungen verantwortlich sind. Die Variablen wären in diesem Falle z.B. das Gewicht, der Blutdruck, der Stress oder die Lebensweise.

3.2.3. Arten der Regressionen

In die einfache Regressionsanalyse fließen nach (Samprit Chatterjee 1991, S. 1f) zwei Variablen ein, wobei es eine abhängige Variable und eine unabhängige Variable gibt. Im Weiteren gibt es die multiple Regressionsanalyse, die aus einer abhängigen und mehreren unabhängigen Variablen besteht. Die gängigsten Modelle sind das lineare und das nicht lineare Modell.

3.2.4. Einfache lineare Regression

Der Aufbau der einfachen linearen Regressionsanalyse wird im Folgenden dargestellt. Die Daten für die einfache Regression liegen nach (vgl. Samprit Chatterjee 1991, S. 2ff) in der Form (yi, xi), i = 1, ..., n vor. Daraus lässt sich folgendes Gleichungsmodell erstellen:

Abbildung in dieser Leseprobe nicht enthalten

Es soll ein linearer Zusammenhang zwischen Yi und xi hergestellt werden. Dazu kommen die Regressionskoeffizienten β0 und β1 ins Spiel. β1 stellt den Regressionskoeffizienten, also die Gewichtung von xi dar und β0 stellt den Wert von xi = 0 dar, damit das Ganze auch linear eingezeichnet werden kann. ϵi ist die Störgröße, die auftritt, da ein 100%iger linearer Zusammenhang nur im Idealfall (echte Regression) erreicht werden kann.

Ziel ist es mit dem Gleichungsmodell eine Funktion Yi = β0 + β1xi aufzustellen, die den Wert Yi mit geringstem Fehler ϵi berechnet.

Die Berechnung des Regressionskoeffizienten erfolgt mit folgender Formel:

Abbildung in dieser Leseprobe nicht enthalten

den Mittelwert von x und y dar.

Abbildung in dieser Leseprobe nicht enthalten

Die sich dadurch ergebende Gleichung kann ins Streudiagramm von x und y eingezeichnet werden.

3.2.5. Multiple lineare Regression

In der multiplen Regression liegen die Daten nach (vgl. Richard A. Johnson 1992, S. 285ff) als Matrix vor

Abbildung in dieser Leseprobe nicht enthalten

aus der sich folgende Gleichungen aufstellen lassen: Y1 = β0 + β1x11 + β2x12 + ... + βtx1t + ϵ1 Y2 = β0 + β1x21 + β2x22 + ... + βtx2t + ϵ2 Yi = β0 + β1x1i + β2x2i + ... + βtxit + ϵi

Bei der echten multiplen Regression wird wieder davon ausgegangen, dass der Störfaktor ϵi = 0 ist.

Das Ganze lässt sich schließlich als Matrix-Notation darstellen:

Abbildung in dieser Leseprobe nicht enthalten

Aus dieser Notation lassen sich die Regressionskoeffizienten β1 bis βt berechnen. β = (X′X)−1 X′y

Abbildung in dieser Leseprobe nicht enthalten

Zum Berechnen der Gleichung müssen mehr Datensätze als Variablen vorliegen, damit die Inverse der Matrix ((X′X)−1 ) berechnet werden kann.

Mit Hilfe der Regressionskoeffiezienten kann schließlich die Gleichung aufgestellt werden, die Y widerspiegelt.

Abbildung in dieser Leseprobe nicht enthalten

Diese Gleichung kann für weitere Berechnungen und Prognosen als Vorlage dienen.

3.2.6. Kennzahlen der Regressionsanalyse

Für den weiteren Verlauf sind einige Kennzahlen der Regressionsanalyse von Bedeutung. So z.B. das Bestimmtheitsmaß, welches aussagt, zu wie viel Prozent der Y-Anteil durch den X-Anteil erklärt wird.

Das Bestimmtheitsmaß berechnet sich nach (Richard A. Johnson 1992, S. 292) wie

folgt:

Abbildung in dieser Leseprobe nicht enthalten

R2 liegt immer zwischen 0 und 1. Je mehr R2 gegen 1 strebt, desto mehr wird y durch x erklärt.

Schließlich gibt es noch die Varianz der Störgröße, die nach (Samprit Chatterjee 1991, S. 292) wie folgt berechnet wird:

Abbildung in dieser Leseprobe nicht enthalten

Aus der Varianz lässt sich dann durch Ziehen der Wurzel die Standardabweichung be- rechnen.

Abbildung in dieser Leseprobe nicht enthalten

3.3. Künstliche neuronale Netze

3.3.1. Einleitung

Künstliche neuronale Netze werden nach (Lawrence 1992, S. 18) den biologischen neu- ronalen Netzen nachgebildet. Ein menschliches Gehirn besteht aus Milliarden von Ner- venzellen, die auch als Neuronen bezeichnet werden. Diese Neuronen sind miteinander

Abbildung in dieser Leseprobe nicht enthalten

verbunden und senden durch diese Verbindungen ihre Informationen. Im Ergebnis beschreibt (vgl. Lawrence 1992, S. 18) ”ein intelligentes Wesen, das fähig ist zu lernen, analysierend zu verstehen, etwas vorauszusehen und wieder zu erkennen.”

3.3.2. Das Neuron

Bei den Neuronen gibt es nach (Serge Zakharian 1998, S. 5) drei verschiedene Arten:

- Eingangsneuronen stellen die Verbindung zur Außenwelt her und nehmen nur deren Informationen auf
- Ausgangsneuronen, die Informationen an die Außenwelt abgeben
- verdeckte Neuronen, die zwischen den Eingangs- und Ausgangsneuronen liegen

Ein Neuron besteht nach (Serge Zakharian 1998, S. 19) aus folgenden Eigenschaften: Eingänge, Gewichte, Schwellenwert, Ausgang, Aktivierungswert und die Aktivierungs- funktion.

Bei der Verarbeitung in einem Neuron werden nach (Serge Zakharian 1998, S. 2f) im ers- ten Schritt Informationen im Sinne von Eingängen erfasst. Im nächsten Schritt wird der Aktivierungswert berechnet. Dieser stellt eine gewichtete Summe der Eingänge dar, die sich daraus ergibt, dass jeder Eingangswert mit einem bestimmten Gewichtsfaktor mul- tipliziert wird. Die Gewichte werden im Vorfeld während des Lernprozesses berechnet. Nach (Lawrence 1992, S. 71) stellt das Gewicht die Stärke für den jeweiligen Eingangs- wert dar. Weiterhin kann nach (Uhlig 1995, S. 18) die Gewichtung ein positives oder negatives Vorzeichen annehmen, aber auch Null sein. Anschließend wird nach (Serge Zak- harian 1998) vom Aktivierungswert der Schwellenwert subtrahiert. Wenn dieser über- schritten wird, ist das Neuron aktiv. Im letzten Schritt wird der Ausgangswert berechnet. Für die Berechnung des Ausgangswertes wird eine Aktivierungsfunktion benötigt, der der Aktivierungswert übergeben wird. Für die Aktivierungsfunktion gibt es verschiedene mathematische Modelle. So ein Modell ist z.B. eine binäre Aktivierungsfunktion, die nur 0 oder 1 aufweist. Der berechnete Ausgangswert stellt nun den Aktivierungszustand des Neurons dar und wird dann an das nächste Neuron weitergegeben.

3.3.3. Das künstliche neuronale Netz

Nach (Lawrence 1992, S. 67ff) besteht ein künstliches neuronales Netz aus mehreren mit- einander verbundenen Schichten von Neuronen. Ein Netz setzt sich aus drei verschiede- nen Schichtarten zusammen. Es gibt die Eingangsschicht, die nur aus Eingangsneuronen besteht, die verborgene Schicht, die nur verdeckte Neuronen und die Ausgangsschicht, die nur Ausgangsneuronen enthält. Die verborgene Schicht kann mehrschichtig existieren. Jedes Netz besteht nach (Uhlig 1995, S. 16ff) daher aus mindestens drei Schichten. Der Ablauf beginnt damit, dass die Eingangsneuronen in der Eingangsschicht Daten emp- fangen. Dort werden diese verarbeitet und an die Neuronen in der verborgenen Schicht weitergeleitet. Sofern das Netz mehrere verborgene Schichten enthält, werden die Daten von verborgener Schicht zu verborgener Schicht weitergeleitet, bis im letzten Schritt die Neuronen die Ausgangsschicht erreichen. Die Verbindungen zwischen den Neuronen exis- tieren nach (Lawrence 1992, S. 69f) in zwei verschiedenen Varianten. Es gibt hemmende Verbindungen, die ein Neuron daran hindern, aktiv zu werden und erregende Verbin- dungen, die ein Neuron dazu veranlassen, aktiv zu werden. Mit steigender Anzahl von Neuronen in den verborgenen Schichten steigt nach (Uhlig 1995, S. 18) die Komplexität des Netzwerks, weil damit mehr Abhängigkeiten und komplexere Regeln für das Lernen möglich sind.

3.3.4. Vorwärts- und rückwärtsgekoppelte Netze

(Lawrence 1992, S. 83ff) unterteilt die Netzwerke in zwei Haupttypen: In dem rück- wärtsgekoppelten Netz (Feedback Netz) können die Ausgänge eines Neurons direkt mit Neuronen einer vorherigen Schicht verbunden werden. Die Neuronen im Netzwerk beein- flussen sich gegenseitig und sich selbst. In dem vorwärtsgekoppelten Netz (Feedforward Netz) sind die Ausgänge von Neuronen nicht von vorhergehenden Neuronen abhängig. Die Signale im Netz gehen also Schicht für Schicht nur in eine Richtung. Nach (Uhlig 1995, S. 16) wird dieses Netzmodell als einziges für die Prognose von Finanzen verwen- det. Die gebräuchlichsten Netzwerkmodelle sind laut (Lawrence 1992, S. 89) heutzutage nichtlineare vorwärtgekoppelte Netze. Weiterhin sagt (Lawrence 1992, S. 89) ohne näher zu begründen, dass die gebräuchlichen vorwärtsgekoppelten Netze besser arbeiten als die rückwärtsgekoppelten Netze. Er gibt ferner an, dass die vorwärtsgekoppelten Netze we- sentlich schneller sind, weil jeweils nur ein Durchlauf benötigt wird. Diesen Haupttypen unterliegen nun zahlreiche Untertypen, die sich in Netztopologien und Verbindungsarten voneinander unterscheiden. Beispiele hierfür wären Perzeptron, Hopfield und Neocogni- tron.

3.3.5. Lernverfahren

Damit ein künstliches neuronales Netz benutzt werden kann, muss es zunächst trainiert werden. Diesbezüglich unterscheidet (Lawrence 1992, S. 90f) zwischen dem überwachten und nicht überwachten Lernen. Beim überwachten Lernen muss das Ergebnis eines Durchlaufs bekannt sein. Jedem Ausgangsneuron wird mitgeteilt, wie das ideale Ergebnis aussehen soll. Das Netzwerk generiert aus jedem Eingang einen Ausgang und vergleicht diesen mit dem zuvorbenannten Soll-Wert (ideales Ergebnis). Die Signale werden rückwärts durch die Netze geleitet. Auf diesem Weg werden die Gewichtungen entsprechend verändert, damit vermieden wird, dass ein Fehler ein weiteres Mal auftreten kann. Beim nicht überwachten Lernen wird das Netz nur mit den Eingangsdaten gefüllt. Das Netz generiert sich die jeweiligen Einstellungen von allein.

Im Lernprozess werden nach (Uhlig 1995, S. 18) überwiegend die Gewichte verändert. Durch das Verringern einer positiven Gewichtung oder das Verstärken einer negativen Gewichtung wird z.B. ein zu hoher Ausgabewert bearbeitet. Weiterhin kann auch der Schwellenwert neu angepasst werden. Dadurch soll das Ausgabeziel besser erreicht wer- den. Zu Beginn des Lernens werden Gewichtungen und Schwellenwerte mit Zufallswerten belegt.

Für das Lernen gibt es wiederum verschiedene Algorithmen, die den Lernverfahren un- tergeordnet sind. Beim überwachten Lernen gibt es z.B. den Backpropagation Algorith- mus.

3.3.6. Einsatzgebiete

Es gibt zahlreiche Einsatzgebiete für künstliche neuronale Netze. Zum Beispiel können sie bei der Klassifikation von Eigenschaften, Trends usw. eingesetzt werden.

Nach (Karsten Füser, S. 75) nutzen Banken künstliche neuronale Netze bei der Prüfung der Kreditwürdigkeit ihrer Kunden. In einer Software werden z.B. Informationen wie Alter, Familienstand, Geschlecht, Kinderanzahl, Einkommen etc. eingegeben und am Ende gibt sie die Klassifikation heraus, ob ein Kredit gewährt werden sollte oder nicht.

[...]

Ende der Leseprobe aus 70 Seiten

Details

Titel
Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose
Hochschule
Universität Bremen
Note
2,3
Autor
Jahr
2007
Seiten
70
Katalognummer
V73403
ISBN (eBook)
9783638829458
ISBN (Buch)
9783638831642
Dateigröße
1086 KB
Sprache
Deutsch
Anmerkungen
Es wurden zwei Anwendungen unter Windows programmiert. Eine für die Regressionsanalyse und eine für die künstlichen neuronalen Netze. Nun soll die Regressionanalyse dabei helfen relevanten Variablen auszuwählen, mit denen das künstliche Neuronale Netz gefüttert wird, um dadurch noch bessere Ergebnisse bei der DAX Prognose zu erhalten. Untersucht wurde ein Zeitraum von einer Woche und entsprechend bewertet.
Schlagworte
Regressionsanalyse, Optimierung, Netzen, DAX-Prognose
Arbeit zitieren
B. Sc. Philipp von der Born (Autor), 2007, Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose, München, GRIN Verlag, https://www.grin.com/document/73403

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Regressionsanalyse zur Optimierung von künstlichen neuronalen Netzen bei der DAX-Prognose


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden