Big Data Analytics and Machine Learning in Finance

Overview and Application


Seminararbeit, 2018
38 Seiten, Note: 1,3

Leseprobe

Inhaltsverzeichnis

1 Einleitung

2 Big Data Analytics und Machine Learning
2.1 Funktionsweise der Big Data Analytics
2.2 Machine Learning - Methoden und Funktion
2.2.1 Supervised Learning
2.2.2 Unsupervised Learning
2.2.3 Dimensionalitätsreduktion
2.2.4 Reinforcement Learning
2.2.5 Deep Learning
2.3 Anwendungsgebiete im Bereich Finance
2.3.1 Handelsstrategien
2.3.2 Kreditscoring
2.3.3 Betrugserkennung
2.3.4 Machine Learning in der praktischen Anwendung

3 Empirische Anwendung von Machine Learning zur Betrugserkennung
3.1 Datensatz
3.2 Vorgehensweise
3.3 Ergebnisse und Interpretation

4 Schluss

A Anhang A

B Anhang B

Symbolverzeichnis

Abkürzungsverzeichnis

Tabellenverzeichnis

Literatur

Zusammenfassung

Im Rahmen dieser Arbeit zum Thema Big Data Analytics werden verschiedene Anwendungsbereiche des Machine Learnings aufgezeigt. Beginnend mit einer kurzen Darlegung der wesentlichen Konzepte von Big Data und des Machine Learnings werden anschließend Applikationen dessen in den Bereichen Han- delsstrategien, Krediscoring sowie Betrugserkennung vorgestellt. Außerdem er- folgt eine Anwendung der logistischen Regression sowie eines Entscheidungs- baums um ein binäres Model zur Klassifikation betrügerischer Daten zu kon- struieren. Es konnte festgestellt werden, dass bei großen Datenmengen Machi- ne Learning Methoden zur Analyse derer essentiell sind und großen Nutzen hinsichtlich der Erkennung von Mustern in den Daten stiften.

1 Einleitung

„Its going to be interesting to see how society deals with artificial intelligence, but it will definitely be cool.“ Mit dieser Einstellung begegnet Colin Angle, der Gründer von iRobot, der Thematik der Künstlichen Intelligenz (KI) und ihren Auswirkungen auf die Gesell- schaft (Marr, 2017). Als einer der Vorreiter im Bereich der KI gilt Marvin Minsky. Dieser erlangte insbesondere durch seine These bzgl. neuronaler Netze Bekanntheit. Minsky um- schreibt den Begriff der KI wie folgt: „The science of making machines do things that would require intelligence if done by men.“ (Minsky, 1954; Dennis, 2018).

KI und deren Möglichkeiten, diese anzuwenden, ist demnach schon seit geraumer Zeit im Blickpunkt der Forschung. Dank moderner Hochleistungsrechner erlangt die lange theo- retisch erforschte KI heutzutage zunehmend in praktischen Anwendungen, wie bspw. Ap- ple’s automatisiertes Spracherkennungstool Siri, an Bedeutung (Siri Team, 2018).

Als Teilbereich der KI gilt Machine Learning (ML), welches insbesondere einer Maschine ermöglicht, aus Erfahrungen zu lernen, um darauf basierende Entscheidungen zu treffen (Alpaydın, 2014, S.3). Um Methoden des ML anzuwenden, ist eine extrem große Daten- menge (Big Data) erforderlich. Eine zentrale Rolle kommt dabei dem Thema Data Mining zu. Mithilfe von Data Mining wird versucht, aus einer Vielzahl von vorliegenden Daten zu- sammenhängende Strukturen zu erkennen. Da dies ab einer entsprechend großen Daten- menge nicht mehr händisch durchgeführt werden kann, sind hierfür automatisierte Ana- lysen zweckmäßig (Fayyad et al., 1996, S.38 f.).

Im Rahmen dieser Arbeit gilt es darzulegen, wie die Themen Big Data und ML im Bereich Finance bereits Anwendung finden bzw. zukünftig angewendet werden können. Dazu gibt es bislang primär theoretische Abhandlungen, die sich mit möglichen Einsatzgebieten be- schäftigen. Dennoch werden in dieser Arbeit auch Anwendungsgebiete genannt, in wel- chen KI bzw. ML bereits in der Praxis von Unternehmen angewendet wird.

Zunächst gilt es das Thema ML sowie dessen Ausprägungen theoretisch darzulegen. An- schließend wird Bezug zum Thema Finance genommen, indem die Anwendungsgebiete Handelsstrategien, Kreditscoring sowie Betrugserkennung näher erläutert werden. Insbe- sondere wird dabei erwähnt, welche Methoden des ML in den jeweiligen Teilbereichen be- reits in theoretischen Abhandlungen diskutiert wurden. Außerdem wird dargelegt, in wel- chen Bereichen ML bereits praktische Anwendung findet. Anschließend werden mithilfe des Statistikprogramms R die Klassifikationsmodelle Entscheidungsbaum und logistische Regression zum Thema Betrugserkennung von Kreditkartentransaktionen empirisch an- gewandt. Zum Schluss erfolgt eine Zusammenfassung der ermittelten Ergebnisse.

2 Big Data Analytics und Machine Learning

Eine Studie der International Data Corporation prognostiziert bis zum Jahr 2025 ein Wachs- tum der weltweit existierenden Datenmenge auf bis zu 163 Zettabytes. Ein Zettabyte um- fasst dabei die Datenmenge einer Milliarde Terrabytes (Reinsel et al., 2017).

Dabei gilt zudem zu berücksichtigen, dass es sich bei den vorhandenen Daten neben struk- turierten Datensätzen wie z.B. Marktdaten auch um unstrukturierte Daten aus Social Media- Bereichen o.ä. handeln kann. Daten ab einer Größenordnung mehrerer Terrabytes werden als Big Data definiert und bedürfen zur Auswertung derer komplexer analytischer Verfah- ren (Chen et al., 2012, S.1166).

Eine Methodik, welche zur Big Data Analytics Verwendung findet ist das ML. Im Nach- folgenden wird das Konzept des ML im Detail beschrieben, wobei zunächst wesentliche Eigenschaften der Big Data vorgestellt werden.

2.1 Funktionsweise der Big Data Analytics

Die Charakteristika der Big Data umfasst die Begriffe V olume, Velocity, Variety und Veracity. Volume beschreibt in diesem Zusammenhang die enorme Größe der Datenmenge, welche bereits in Kapitel 2 thematisiert wurde. Das exponentielle Wachstum der Datenmengen erklärt sich mitunter durch die Velocity, welche besagt, dass die Daten zudem in wachsen- der Geschwindigkeit generiert werden (Laney, 2001). Der Begriff Variety umschreibt die Herausforderung, die sich aus den verschiedenen Formen strukturierter sowie unstruk- turierter Daten ergeben (Laney, 2001). Im Bereich Finance lassen sich die zur Verfügung stehenden Datentypen grds. in die Kategorien Fundamentaldaten, Marktdaten, Analysen und alternative Daten unterteilen (Lopez de Prado, 2018, S.23 ff.). Zu dem Bereich der Fundamentaldaten zählen primär buchhalterische Größen. Daten dieser Form können aus Unternehmensberichten entnommen werden, wodurch sie für analytische Zwecke wenig individuellen Nutzen generieren, da nach Veröffentlichung derer der gesamte Markt auf diese Daten zugreifen kann. Zudem werden aufgrund von Regularitäten lediglich verhält- nismäßig wenig Daten publiziert. Im Vergleich zu Fundamentaldaten sind Marktdaten bör- sengeneriert. Dazu gehören bspw. Preise finanzieller Vermögenswerte, Angaben zur Vola- tilität, Dividendenzahlungen, o.ä. Bei den Analysen handelt es sich um Daten, die bereits verarbeitete Werte umfassen. Als letzten Datentyp repräsentieren die alternativen Daten Kennzahlen wie die Anzahl an Google-Suchaufrufen, Beiträgen in Social-Media-Kanälen, Satellitenaufnahmen, etc. Aufgrund unterschiedlicher Formate der Daten, sind diese sehr komplex zu verarbeiten, liefern jedoch bei richtiger Verarbeitung wertvolle Informationen, die anderen Marktteilnehmern unter Umständen verwehrt bleiben.

Zuletzt sollte zudem die Qualität bzw. Genauigkeit der Daten berücksichtigt werden, die der Begriff Veracity einschließt (Palfreyman, 2013).

Der Definition von Gartner zufolge bedürfen Daten mit diesen Charakteristika eine Art der Informationsverarbeitung, welche mittels innovativer und kosteneffizienter Systeme neue Möglichkeiten im Bereich der Automatisierung von Prozessen sowie der allgemeinen Entscheidungsfindung schaffen (Gartner, Inc. and/or its Affiliates., 2018).

Um das hohe Datenvolumen auszuwerten gilt es zu der jeweiligen Art der Daten passende Modelle zu entwickeln (Alpaydın, 2014, S.14).

2.2 Machine Learning - Methoden und Funktion

ML lässt sich in verschiedene Teilbereiche einteilen, zu welchen die Verfahren des Super- vised Learning, Unsupervised Learning und Reinforcement Learning gehören (Kotsiantis, 2007, S.249). Ziel des ML ist es generell, mithilfe einer Datenmenge und entsprechender Software Modelle zu entwickeln, um allgemeingültige Regularitäten zu erhalten. Damit diese repräsentativ sind, ist eine entsprechende Größe des Datenvolumens von Nöten. Zu- dem wird die Annahme getroffen, dass in naher Zukunft in den beobachteten Bereichen keine großen Veränderungen zu erwarten sind, und somit von vergangenen Daten auf die Zukunft geschlossen werden kann (Alpaydın, 2014, S.2). Sämtliche dabei entwickelte Mo- delle können sowohl einzeln als auch kombiniert in sogenannten Ensembles angewendet werden (Alpaydın, 2014, S.492). Außerdem wird das Prinzip des Deep Learnings, eine auf neuronalen Netzwerken basierende Form des ML, näher erläutert (Goodfellow et al., 2016, S.6).

2.2.1 Supervised Learning

Um aus generierten Daten, welche dem Input entsprechen, einen Output zu erzeugen be- darf es allgemein einen Algorithmus, der einer Anordnung von Anweisungen entspricht. Jedoch ist zu berücksichtigen, dass es für spezielle Fragestellungen, wie bspw. Formen des Kundenverhaltens, keinen allgemeingültigen Algorithmus zur Entscheidungsfindung gibt. Um sich der Lösung zu Fragestellungen dieser Art anzunähern, fungieren bereits zuvor generierte, strukturierte Daten, in welchen dem Input bereits konkrete Output-Werte zu- geordnet sind als Trainingsdatensatz für den Computer (Alpaydın, 2014, S.1 f.,S.9). Im Prinzip des Supervised Learnings erlernt das System nun Muster in der Zuordnung zu erkennen, um zukünftig auf Basis neuer Input-Daten den korrekten Output zu ermitteln. Dem dabei entwickelten Modell ist es nach Abschluss des Trainingsprozesses möglich, Pro- gnosen für die Zukunft zu erstellen (Alpaydın, 2014, S.5,S.11). Stets zu berücksichtigen gilt hierbei das Thema Noise, das eine Anomalie im Trainingsset darstellt und somit komple- xere Modelle erfordert oder bei einfachen Modellen vermeintlich zu Fehlern führen kann (Alpaydın, 2014, S.30). Noise entspricht Abweichungen in den Daten die sich bspw. durch falsch zugrundegelegte Werte ergeben können (Maes et al., 2002, S.2).

Klassifikation Methoden des Supervised Learnings werden insbesondere zur Klassifika- tion verwendet. Der mögliche Output wird dabei durch verschiedene Klassen repräsen- tiert. Die entsprechende Klasse wird ermittelt, indem ein vorher trainiertes Modell durch die Eingabe neuer Input-Daten durchlaufen wird (Alpaydın, 2014, S.21). Im Rahmen die- ser Arbeit wird insbesondere das binäre Klassifikationsverfahren betrachtet, bei welchem lediglich zwei mögliche Klassen als Output existieren. Ziel ist, ein möglichst effizientes Modell zu entwickeln um die Input-Daten den richtigen Klassen zuzuordnen. Als mögli- che Klassifizierungsmethode nennt Kotsiantis (2007) bspw. die Support-Vector-Machines (SVM). Im Prinzip dieser SVM wird zur Trennung zwei verschiedener Klassen eine Grenze zwischen dem jeweils nächstgelegenen Vektor beider Kategorien gezogen. Die dabei ver- wendeten Vektoren entsprechen einer Teilmenge der Daten des Trainingssets der jeweili- gen Klasse. Berücksichtigt werden bei dieser Teilmenge lediglich Daten, die in der Nähe der anschließenden Grenze liegen. Der Abstand zwischen der gewählten Grenze und den Vektoren wird als Margin bezeichnet. Diesen Abstand der Grenze gilt es zu beiden Vekto- ren hin zu maximieren, um ein möglichst effizientes Modell zu erhalten und somit spätere Input-Daten eindeutig kategorisieren zu können (Alpaydın, 2014, S.349 ff.). Des Weiteren können gem. Kotsiantis (2007) Entscheidungsbäume sowie Random Forests zur Klassifi- kation angewendet werden. Random Forests entsprechen einem Ensemble aus mehreren Entscheidungsbäumen, die in Kapitel 3.2 noch detaillierter erläutert werden. Dabei vari- ieren die einzelnen Entscheidungsbäume des Random Forests in der Anzahl an berück- sichtigten Merkmalen sowie der zur verwendenden Teilmenge des Datensatzes um den Baum zu trainieren. Durch die unterschiedliche Konstellation der Entscheidungsbäume können verschiedene Prognosen entstehen. Ziel der Random Forests ist es, durch einen Zusammenschluss der jeweiligen Prognosen insgesamt die Vorhersagegenauigkeit zu er- höhen (Alpaydın, 2014, S.235). Außerdem können Bayesian Networks zur Klassifikation dienen. Mithilfe von Bayesian Networks können Abhängigkeiten verschiedener Variablen graphisch dargestellt werden. Zwischen Variablen befindliche Pfeile bedeuten, dass die Va- riable X, von welcher der Pfeil ausgeht, eine andere Variable Y mit der Wahrscheinlichkeit P (Y | X) direkt beeinflusst. Somit kann das Eintreten eines bestimmten Ereignisses unter Zuhilfenahme der Wahrscheinlichkeiten berechnet werden (Alpaydın, 2014, S.387 f.).

Regression Neben der Klassifizierung gilt als weiteres Konzept des Supervised Lear- nings die Regressionsanalyse. Ziel dieser ist es, als Output Y = f (X) + e einen numerischen Wert in Abhängigkeit der unabhängigen Variablen des Inputs X zu erhalten. In der mul- tiplen linearen Regression als Beispiel wird die dafür benötigte Funktion f (X) näherungs- weise durch g (X) = L d

β i X i + β 0 geschätzt. g (X) definiert sich somit durch die verschie- denen Merkmale d der Daten des Trainingssets. Bei der Bildung des spezifischen Schätzers g (X) wird versucht den Error e zu minimieren (Alpaydın, 2014, S.34 f., S.77, S.110). Im Rahmen dieser Arbeit wird insbesondere die logistische Regression näher betrachtet. Bei dieser Form der Regression liegt ein binäres Modell vor, wodurch lediglich zwei Werte für den Output möglich sind (Hosmer et al., 2013, S.1). Aus diesem Grund ist die logistische Regression ebenfalls zur Klassifikation geeignet. Diese wird insbesondere im Kapitel 3.2 noch näher dargelegt.

Modellbeurteilung Um zu ermitteln welche der Methoden am effizientesten ist, dient das Kriterium der Prognosegenauigkeit, das die Anzahl an richtigen Prognosen in Relation zur Gesamtzahl aller Prognosen darstellt (Alpaydın, 2014, S.562). Bei der Bildung des Modells gilt zudem zu berücksichtigen, dass dieses weder über- noch unterangepasst werden sollte. Unteranpassung liegt vor, wenn das Modell zu allgemein gehalten ist, um die Funktion der Daten im vorliegenden Datensatz zu beschreiben. Im Vergleich dazu liegt Überanpassung vor, wenn das Modell zu spezifisch auf die Funktion der Daten des Trainingssets ausgelegt ist (Alpaydın, 2014, S.39). Eine Gefahr der Überanpassung kann bspw. mithilfe der Dimen- sionalitätsreduktion, welche in Kapitel 2.2.3 detailliert erläutert wird, reduziert werden (S.2 Li et al., 2017; Alpaydın, 2014, S.83 f.). Als weitere Methoden um Über- bzw. Un- teranpassung zu vermeiden eignen sich Varianten der Kreuzvalidierung. Bei der k -fachen Kreuzvalidierung als Beispiel wird der Datensatz in k Teilmengen untergliedert, die alle in ihrer Größe übereinstimmen. Im Anschluss daran wird das Modell basierend auf ki Teilmengen trainiert. Dies wird für jede mögliche Konstellation durchgeführt. Somit wird jedes Mal eine andere Teilmenge i beim Trainingsprozess nicht berücksichtigt. Die jeweils außer Acht gelassene Teilmenge i dient zur Validierung des Modells. Anschließend wird das Modell mit jenen ki Teilmengen gewählt, welches beim Test durch die Teilmenge i die höchste Prognosegenauigkeit erzielen konnte (Alpaydın, 2014, S.39 f., S.559).

2.2.2 Unsupervised Learning

Als weiteres Verfahren des ML dient das Unsupervised Learning. Der wesentliche Unter- schied zum Supervised Learning besteht darin, dass nicht versucht wird Muster in der Zuordnung zwischen Input und Output zu erkennen, da lediglich ein Input zur Verfü- gung steht. Demzufolge ist das Ziel des Unsupervised Learnings, Muster im vorhandenen Input zu erkennen. Als zentrale Methode eignet sich hierfür die Clusteranalyse, welche anhand des Inputs Gruppierungen der einzelnen Datenpunkte zu erkennen versucht (Al- paydın, 2014, S.11). Generell dient die Clusteranalyse zum einen als Vorarbeit für eine darauffolgenden Anwendung des Supervised Learnings und zum anderen zur besseren Nachvollziehbarkeit struktureller Zusammenhänge im zugrundeliegenden Datensatz (Al- paydın, 2014, S.173 f.). Eine konkrete Spezifikation der Clusteranalyse ist die hierarchische Clustermethode. Bei dieser Methode gilt es die Gruppen so zu bilden, dass die innerhalb einer Gruppe befindlichen Daten einander homogener sind, als diejenigen verschiedener Gruppen (Alpaydın, 2014, S.176).

2.2.3 Dimensionalitätsreduktion

Bevor Verfahren des Supervised bzw. Unsupervised Learnings angewendet werden, gilt es unter Umständen noch eine Dimensionalitätsreduktion durchzuführen (Alpaydın, 2014, S.115). Ziel dieser ist es, die zur Bildung des Modells verwendete Anzahl an Variablen auf diejenigen zu reduzieren, die für eine hohe Prognosegenauigkeit entscheidend sind. Op- timalerweise ist der Algorithmus des Modells selbst in der Lage zwischen relevanten und irrelevanten Informationen zu differenzieren, um den Output lediglich anhand relevan- ter Daten zu ermitteln. Dennoch ist es aus Speicherkapazitätsgründen, dem Vermeiden der späteren Extraktion nicht benötigter Daten oder zur verbesserten Wissenstransaktion, dank der leichteren Nachvollziehbarkeit der zugrundeliegenden Prozesse, hilfreich (Al- paydın, 2014, S.115 f.). Zudem wird die Gefahr der Überanpassung reduziert sowie durch weniger benötigten Rechenaufwand ein Kostenvorteil generiert (Li et al., 2017, S.2). Dabei gibt es zwei Methoden, namentlich der Merkmalsselektion und der Merkmalsextraktion (Alpaydın, 2014, S.116 ff.).

Ein wesentlicher Bestandteil der Merkmalsextraktion ist die Hauptkomponentenanalyse. Da Werte des Outputs bei der Hauptkomponentenanalyse unberücksichtigt bleiben, ist diese dem Unsupervised Learning zuzuschreiben (Alpaydın, 2014, S.121). Ziel dieser Ana- lyse ist es, die Anzahl an Variablen auf die sogenannten Hauptkomponenten zu reduzieren, wobei eine Transformation des ursprünglichen Datensatzes erfolgt. Die Hauptkomponen- ten sind unkorreliert und nach Wichtigkeit, in diesem Fall dem Maximum an erklärba- rer Varianz, geordnet. Da ein hoher Anteil der Varianz des Datensatzes durch die ersten Hauptkomponenten erklärt werden kann, wird ermöglicht, den transformierten Datensatz auf diese zu reduzieren (Jolliffe, 1986, S.1).

Als Vorgehensweise zur Merkmalsselektion eignet sich die Teilmengenselektion, um die Anzahl an Merkmalen bei Anwendungen des Supervised Learnings zu reduzieren. Ziel dieser ist es, die Genauigkeit der Prognose unter Verwendung möglichst weniger Daten zu maximieren. Zum einen kann diese Selektion vorwärts erfolgen, indem mit einer Variable, die als Parameter dient, begonnen wird, und schrittweise eine weitere hinzugefügt wird. Der entgegengesetzte Ansatz ist die Rückwärtsselektion, bei der zu Beginn alle Variablen berücksichtigt werden, und mit jedem Durchgang diejenige Variable eliminiert wird, deren Eliminierung zur maximalen Reduzierung des Modellfehlers führt (Alpaydın, 2014, S.116 f.). Diese Vorgehensweisen der Merkmalsselektion können unter Umständen sehr aufwendig und rechenintensiv sein (Alpaydın, 2014, S.118).

Als eine spezielle Methode zur Merkmalsselektion nennen Cantú-Paz et al. (2004) die Chi- Quadrat-Analyse, welche in Kapitel 3.2 näher erläutert wird.

2.2.4 Reinforcement Learning

Als dritte Form des ML steht beim Reinforcement Learning die Sequenz aufeinanderfol- gender Aktionen im Vordergrund. Beim Reinforcement Learning fungiert der Entschei- dungsträger als Agent, der in Abhängigkeit seiner Umwelt und seines Zustandes s eine Ak- tion a im Zeitpunkt t ausführt und dafür eine Belohnung r erhält und sich anschließend in Zeitpunkt t + 1 befindet. Dabei ist jedoch nicht bekannt, welche der möglichen Aktionsab- folgen die optimale ist. Nachdem eine Aktion ausgeführt wurde ändert sich der Zustand des Agenten in der gegebenen Umwelt und es gilt abermals eine Aktion auszuwählen. Es handelt sich hierbei um ein Markov Entscheidungsproblem, das besagt, dass der nachfol- gende Zustand s t +1und dessen Belohnung ausschließlich vom aktuellen Zustand s t und der gewählten Aktion a t abhängen, nicht jedoch von vorangehenden Zuständen. Sobald ei- ne komplette Abfolge von Aktionen ausgeführt wurde, somit ein Zustand eintritt, in wel- chem keine Aktionen mehr zu tätigen sind, erhält der Agent die kummulierte Belohnung seiner Aktionen. Ziel des Agenten ist es seine zum Schluss erhaltene Belohnung unter Berücksichtigung von Diskontierung zu maximieren: max E rL∞ γ i −1 r t + i r. Die Diskontrate ist dabei durch 0 ≤ γ < 1 definiert, um bei kontinuierlichen Modellen den zeitlichen Erhalt der Belohnung miteinzubeziehen. Hat das Modell endlich Schritte gilt γ = 1. Der Agent er- mittelt hierfür eine Strategie, die sich dadurch definiert, dass erlernt wurde, welche Aktion in Abhängigkeit welchen Zustandes optimal zu wählen ist um die Belohnung und somit den Wert der Strategie zu maximieren (Alpaydın, 2014, S.520 f.).

Ein wesentlicher Algorithmus zur Anwendung des Reinforcement Learnings ist Q-Learning:

Abbildung in dieser Leseprobe nicht enthalten

mit 0 < α ≤ 1 als Parameter für den Lernfaktor. α wird größer gewählt, sofern der Zu- standsraum, in welchem sich der Agent aktuell befindet, noch nicht allzu gut erforscht ist. Bei bereits ergründeten Zustandsräumen gilt es α entsprechend kleiner zu wählen (S.96, S.144, S.179 Watkins, 1989; Sutton und Barto, 1998, S.148). Mithilfe dieser Formel kann das optimale Q ∗, das den Wert eines Zustands in Anbetracht dessen möglicher Aktionen darstellt, approximativ ermittelt werden (S.148 Sutton und Barto, 1998; Alpaydın, 2014, S.522).

2.2.5 Deep Learning

Mithilfe des Deep Learnings wird ermöglicht, für komplizierte Problemstellungen wie bspw. der automatisierten Sprach- oder Bilderkennung, Modelle zu entwickeln (Goodfel- low et al., 2016, S.1). Dies ist dank des Ansatzes neuronaler Netzwerke und deren hierar- chischer Anordnung verschiedener Ebenen möglich. Die erste Ebene entspricht dem Input. In den nachfolgenden Schichten werden basierend auf den vorangegangenen zunehmend spezifischere Merkmale aus dem gegebenen Input extrahiert (Goodfellow et al., 2016, S.6). Neuronale Netzwerke orientieren sich in ihrem Aufbau dabei an der Funktionsweise des menschlichen Gehirns (Alpaydın, 2014, S.267).

Als wichtiges Verfahren eignet sich bspw. die Monte Carlo Methode (Goodfellow et al., 2016, S.567). Liu et al. (2017) entwickelten in Bezug auf ML die traditionelle Monte Carlo Methode weiter zu einer selbstlernenden. Die Idee dahinter ist, dass mithilfe von ML mehr Informationen aus den Daten generiert werden können, um somit die Effizienz der Monte Carlo Simulation zu verbessern. Auch für Regressionen oder Klassifikationen können so- genannte Multilayer Perceptrons, eine aus mehreren Ebenen bestehende Form neuronaler Netzwerke, Anwendung finden (Alpaydın, 2014, S.267).

2.3 Anwendungsgebiete im Bereich Finance

2.3.1 Handelsstrategien

Als Begründer der modernen Portfoliotheorie gilt Markowitz (1952), der die Auswahl der Vermögenswerte eines diversifizierten Portfolios von den ökonomischen Größen Rendi- te und Korrelation ausmachte. Mithilfe von ML gibt es neue Ansätze um ein optimiertes Portfolio zu erhalten. So analysieren bspw. Gu et al. (2018) die Prognosefähigkeit bzgl. Aktien- bzw. Portfoliorenditen unter Anwendung von 13 verschiedenen ML Methoden. Gezielt wird dabei die Risikoprämie anhand unterschiedlicher finanzieller Kennzahlen, die als Prädikatoren dienen, geschätzt. Als einen der großen Vorteile von ML nennen sie abermals die Möglichkeit der Dimensionalitätsreduktion, wobei sich rausstellt, dass v.a. die Liquidität, die Volatilität und der Momentum-Effekt entscheidungsrelevante Größen darstellen. Grundsätzlich lässt sich sagen, dass ML großes Potential birgt, erwartete Ren- diten anhand der Risikoprämien zu prognostizieren, wobei v.a. bei Anwendung neurona- ler Netze sowie Entscheidungsbäumen zur Regression positive Resultate erzielt werden. Verglichen wurde die Sharpe ratio einer buy-and-hold-Strategie des S&P500 mit der ei- nes dank ML optimierten Portfolios, welche bei Letzterem wesentlich höher war. Gu et al. (2018) fanden zudem heraus, dass ML Methoden am effizientesten bei der Renditeprogno- se großer, liquider Aktien eingesetzt werden können.

Ritter (2017) als weiteres Beispiel analysiert, inwiefern durch den Einsatz von Q-Learning, Handelsstrategien entwickelt werden können, die unter Berücksichtigung von Transakti- onskosten Arbitragegewinne erzielen können. Ritter (2017) entwickelt dabei einen Algo- rithmus, der unter Zugrundelegung einer konkaven Nutzenfunktion die Risikoaversion rationaler Händler beim dynamischen Handel, in diesem Fall von multiperiodischen Port- folios, abbildet. Ziel ist es, eine Strategie zu finden, die den erwarteten Nutzen des Portfo- liowerts maximiert. Dabei handelt es sich um einen theoretischen Markt unter gegebenen Bedingungen für die Transaktionskosten. Der Algorithmus kennt diese jedoch nicht, sodass erst nachdem eine Handelsaktion durchgeführt wurde unter Abzug der Kosten die daraus entstandene Veränderung des Portfoliowerts resultiert. Arbitragegewinne werden hierbei jedoch nicht durch das Ausnutzen von Preisunterschieden auf verschiedenen Märkten er- zielt, sondern durch den Mean-Reversion-Effekt, indem erwartet wird, dass Preise wieder zu ihren Gleichgewichtspreisen konvergieren.

Um das Problem der Unter- bzw. Überanpassung zu vermeiden, verwenden Ban et al. (2018) zur datenbasierten Portfoliooptimierung das Konzept der auf der Performance ba- sierenden Regularisierung (PBR) sowie der Kreuzvalidierung.

Das Konzept der Regularisierung dient im Allgemeinen dazu, die Komplexität des Modells zu berücksichtigen. Dazu wird versucht eine Abwandlung der Error Funktion zu minimie- ren: E 1 = er r or on d ata + λ m o d e l compl exi ty. Durch ein zu wählendes, positives λ können komplexere Modelle bestraft werden, da diese höhere Werte für E 1liefern. Modelle die komplexer sind und somit zur Überanpassung neigen kennzeichnen sich durch hohe Varianz. Mithilfe der Regularisierung kann diese Varianz somit begrenzt werden, da zu komplexe Modelle einen zu hohen E 1liefern und somit nicht berücksichtigt werden (Al- paydın, 2014, S.85).

In dem Paper von Ban et al. (2018) wird somit versucht durch die Regularisierung bei der Modellbildung die Varianz des Portfoliorisikos und der -rendite zu begrenzen. Dadurch soll vermieden werden, ein Modell zu entwickeln welches lediglich auf Basis der Trainings- daten gute Ergebnisse erzielt, nicht jedoch bei Anwendung des Modells mit Testdaten. Generell werden in der Studie zwei verschiedene Modelle mit unterschiedlichen Risiko- maßen verwendet: der durchschnittliche Value-at-Risk und die durchschnittliche Varianz. Für beide Modelle werden die Parameter zur Bestimmung des optimalen Grads an Regu- larisierung separat durch die k -fache Kreuzvalidierung ermittelt. Die Validierung erfolgt dabei auf dem Maß der Sharpe-Ratio. Mithilfe von PBR in Kombination mit der Kreuzva- lidierung wird in der Arbeit versucht, das Konzept der sample average approximation (SAA) zu verbessern. Diese SAA versucht basierend auf einer Monte Carlo Simulation Optimie- rungsprobleme zu lösen (Kleywegt et al., 2001, S.480). Die Strategie der SAA führt jedoch oftmals zu instabilen Lösungen (Ban et al., 2018, S.1137). Die beiden entwickelten Model- le der durchschnittlichen Varianz bzw. des durchschnittlichen Value-at-Risk wurden dabei basierend auf einem Testdatensatz getestet. Verglichen wurden diese Ansätze mit weiteren Strategien, wie z.B. der SAA, einem Minimum-Varianz-Portfolio o.ä. Sämtliche Ergebnisse wurden unter Anwendung der Sharpe-Ratio bzw. des Portfolio Turnover evaluiert. Mithilfe der PBR konnten im Vergleich zu den anderen Strategien bessere Ergebnisse erzielt wer- den.

[...]

Ende der Leseprobe aus 38 Seiten

Details

Titel
Big Data Analytics and Machine Learning in Finance
Untertitel
Overview and Application
Hochschule
Universität Regensburg
Note
1,3
Autor
Jahr
2018
Seiten
38
Katalognummer
V491316
ISBN (eBook)
9783668981188
Sprache
Deutsch
Reihe
Aus der Reihe: e-fellows.net stipendiaten-wissen
Schlagworte
Big Data, Machine Learning, Logistische Regression, Entscheidungsbaum, Finance
Arbeit zitieren
Miriam Wastl (Autor), 2018, Big Data Analytics and Machine Learning in Finance, München, GRIN Verlag, https://www.grin.com/document/491316

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Big Data Analytics and Machine Learning in Finance


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden