Die vorliegende Arbeit beschäftigt sich mit der Auswertung drei wesentlicher Methoden zur Analyse von Textmaterial. Diese Methoden stammen allesamt von Wissenschaftlern mit dem Ziel, zukünftig valide Prognosen über den Einfluss einer Neuveröffentlichung zu treffen. Die erste Ausarbeitung mit dem Titel „When is a Liability not a Liability? Textual analysis, Dictionairies, and 10-Ks“ (Loughran,
McDonald 2009) befasst sich mit der Auswertung von Texten mittels
Wörterbüchern. Die zweite Arbeit namens “Using news articles to predict stock price movements” (Gidófalvi 2001) untersucht den Einfluss von Finanz- und Unternehmensnachrichten auf 12 Aktienkurse des NASDAQ-Index. Dabei wird als Algorithmus der naive Bayes-Textklassifikator verwendet, der aufgrund seiner einfachen und praktischen Anwendbarkeit häufig von Wissenschaftlern zur Klassifizierung von Nachrichten benutzt wird. Schließlich beschäftigt sich die dritte Ausarbeitung mit dem Titel „Kursrelevanzprognose von Ad-hoc-Meldungen“ (Schulz, Spilipoulou, Winkler 2003) mit dem Einfluss mitteilungspflichtiger
Unternehmensnachrichten auf deren Aktienkurse, um zukünftige Prognosen vorherzusagen.
Das Ziel dieser Ausarbeitung ist die Analyse der konzeptionellen Vorgehensweise der drei Veröffentlichungen. Es soll dargelegt werden, wie die Methodik der Modelle als auch die Metrik der Auswertung der Ergebnisse bei allen drei Arbeiten sind. Dabei soll anhand der Systematiken anderer Wissenschaftler eine Beurteilung und
gegebenenfalls Erweiterung der einzelnen Modelle erfolgen.
Inhaltsverzeichnis
1 Einleitung
1.1 Das Wesen des Text Minings
1.2 Aufbau und Zielsetzung der Arbeit
1.3 Bisherige Literatur
2 When is a Liability not a Liability? Textual analysis, Dictionaries, and 10-Ks
2.1 Einführung
2.2 Analyse des Datensatzes
2.2.1 Schriftlicher Datensatz
2.2.2 Zeitraum des Datensatzes
2.3 Analyse der Evaluation
2.3.1 Erstellung der Wörterbücher
2.3.2 Analyse der Termgewichtung
2.3.3 Leistungsvergleich Fin-Neg Liste und Harvard Dictionary
2.4 Kritik am Aufbau der Arbeit
2.5 Zusammenfassung
3 Using News Articles to Predict Stock Price Movements
3.1 Einführung
3.2 Datensatz
3.2.1 Datenaufbereitung
3.2.2 Indikator zur Bestimmung der Bewegungsklassen
3.3 Anwendung des naiven Bayes-Textklassifikators
3.4 Auswertungsmetrik
3.4.1 Auswertung des Indikators der Bewegungsklassen
3.4.2 Auswertung der Gruppenzuordnung von Nachrichten
3.4.3 Auswertung des Zeitintervalls des Nachrichteneinflusses
3.5 Zusammenfassung
4 Kursrelevanzprognose von Ad-hoc-Meldungen
4.1 Einführung
4.2 Datenbasis
4.2.1 Ermittlung der Datenbasis
4.2.2 Beschränkte Datenbasis und Sample Selection Bias
4.2.3 Eingeschränkte Einsetzbarkeit
4.3 Kursrelevanz von Ad-hoc Meldungen
4.3.1 Ermittlung der Kursrelevanz von Ad-hoc Meldungen
4.3.2 Problem der Schätzung der erwarteten Rendite
4.3.3 Branchenübergreifende Bewertung und die Arbitrage Pricing Theorie
4.3.4 Die Verwendung von Intraday-Kursen als bessere Indikatoren
4.4 Klassifikation und Evaluation von Ad-hoc Meldungen
4.4.1 Vorgehensweise und Ergebnisse
4.4.2 Klassifikationsfehler als einziges Maß für die Güte des Modells
4.4.3 Problematische Klassifizierung nach Wahrscheinlichkeiten
4.4.4 Das Handelsvolumen als weiterer Indikator für Kursrelevanz
4.5 Zusammenfassung
5 Schlussfolgerung und Ausblick
Zielsetzung & Themen
Die vorliegende Seminararbeit verfolgt das Ziel, die konzeptionelle Vorgehensweise und Methodik von drei ausgewählten wissenschaftlichen Publikationen zum Thema Text Mining im Finanzbereich zu analysieren, kritisch zu bewerten und miteinander zu vergleichen, um Erkenntnisse über die Eignung verschiedener Verfahren zur Prognose von Aktienkursbewegungen zu gewinnen.
- Analyse und Kritik von Text Mining Methoden (Wörterbuch-Ansatz vs. maschinelles Lernen).
- Untersuchung der Leistungsfähigkeit von Fin-Neg-Listen gegenüber Standard-Wörterbüchern.
- Evaluierung des naiven Bayes-Textklassifikators zur Vorhersage von Aktienkursbewegungen.
- Kritische Würdigung der Datenbasis und Methodik bei der Vorhersage von Ad-hoc-Meldungen.
- Synthese von Gemeinsamkeiten und Unterschieden der betrachteten Forschungsansätze.
Auszug aus dem Buch
2.1 Einführung
Im Text „When is a Liability not a Liability? Textual Analysis, Dictionaries, and 10-Ks“ von den Autoren Tim Loughran und Bill McDonald geht es um das text mining mittels Wörterbüchern. Speziell wird hier die Analyse von Texten aus dem Bereich der Finanzwirtschaft betrachtet. Globales Ziel ist es eine Entwicklung bestimmter Variablen auf Basis von analysierten schriftlichen Informationen zu erkennen.
Die hier untersuchten Informationen stammen aus 10-K Reporten verschiedener US-amerikanischer Firmen. 10-K Berichte sind Jahresberichte, welche von der Securities and Exchange Commission (SEC) gefordert werden. Sie bieten einen umfassenden Überblick über die Geschäftstätigkeit eines Unternehmens und dessen finanzielle Situation (http://www.sec.gov/answers/form10k.htm). Diese Texte sollten mittels eines Wörterbuches analysiert und gedeutet werden. Wörterbücher klassifizieren Wörter in bestimmte Kategorien wie „negative Wörter“ oder „positive Wörter“. Das hier u. a. verwendete Wörterbuch ist das Harvard Dictionary. Es enthält Schlüsselbegriffe zur computergestützten Inhaltsanalyse in Bezug auf psychologisch relevante Fragestellungen (Degenhardt 1996, S. 14, Mayring 2008, S. 14). Die Autoren haben erkannt, dass die Analyse von 10-K Berichten dennoch eines speziellen Wörterbuchs bedarf. In den Berichten wird eine Geschäftssprache angewandt, die vor allem Wörter aus dem Finanzbereich beinhaltet. Somit erstellen die Autoren verschiedene Wortlisten, welche finanzielle Informationen besser analysieren sollten.
Des Weiteren motiviert die Autoren die Überlegung eine neue Termgewichtungsformel zu erzeugen. Die Termgewichtung ist die Gewichtung eines Begriffs in einem oder mehreren Dokumenten mit Hilfe eines mathematischen Ansatzes (Singhal 2009, S. 5 f.). Primäres Ziel ist es das Rauschen von Wortmissklassifizierungen einzudämmen. Missklassifizierungen entstehen durch falsche Wortinterpretation, z. B. kann das Wort „Steuern“ als negativ interpretiert werden. Dies muss aber nicht der Fall sein, wenn das Wort aus einem Finanzbericht stammt. Da kann z. B. die Senkung von „Steuern“ positiv sein. Die genaue Klassifizierung von Wörtern ist vor allem für die Textanalyse wichtig, da die Wörter im Text sowohl nach ihrer Bedeutung als auch nach ihrer Häufigkeit oder Gewichtung analysiert werden (Loughran, McDonald 2009, S. 5, S. 29).
Zusammenfassung der Kapitel
1 Einleitung: Diese Einleitung führt in das Themenfeld Text Mining ein, erläutert die Relevanz für die Finanzwissenschaft und beschreibt den Aufbau sowie die Zielsetzung der vorliegenden Seminararbeit.
2 When is a Liability not a Liability? Textual analysis, Dictionaries, and 10-Ks: Das Kapitel analysiert den Einsatz von Wörterbüchern zur Auswertung von 10-K Berichten und bewertet die Entwicklung neuer, fachspezifischer Wortlisten sowie mathematischer Termgewichtungen zur Reduktion von Missklassifizierungen.
3 Using News Articles to Predict Stock Price Movements: Hier wird die Anwendung eines naiven Bayes-Textklassifikators untersucht, um anhand von Finanznachrichten Vorhersagen über Aktienkursbewegungen innerhalb festgelegter Zeitintervalle zu treffen.
4 Kursrelevanzprognose von Ad-hoc-Meldungen: Das Kapitel kritisiert und evaluiert ein Klassifikationsmodell für Ad-hoc-Meldungen, wobei insbesondere Probleme der Datenbasis, Schätzfehler und die Eignung verschiedener Indikatoren diskutiert werden.
5 Schlussfolgerung und Ausblick: Der abschließende Teil synthetisiert die Ergebnisse der drei untersuchten Studien, zieht ein Fazit über die Zweckmäßigkeit von Text Mining Methoden im Finanzsektor und formuliert zukünftige Forschungsperspektiven.
Schlüsselwörter
Text Mining, Finanzanalyse, 10-K Berichte, Ad-hoc-Meldungen, Naive Bayes Klassifikator, Wörterbuch-Methode, Termgewichtung, Marktmodell, Kursrelevanz, Finanznachrichten, Informationseffizienz, Ereignisstudie, Klassifikationsfehler, Aktienkursvorhersage, Geschäftsberichte
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit dem Einsatz von Text Mining zur Analyse von Finanztexten. Ziel ist es, drei spezifische wissenschaftliche Ansätze zu untersuchen, die darauf abzielen, aus unstrukturierten Textdaten wie Geschäftsberichten oder Nachrichten Prognosen für Aktienkursentwicklungen abzuleiten.
Was sind die zentralen Themenfelder?
Die zentralen Themen sind die methodische Vorgehensweise bei der automatisierten Inhaltsanalyse (Text Mining), der Vergleich zwischen standardisierten und branchenspezifischen Wörterbüchern, die Anwendung maschineller Lernverfahren wie dem naiven Bayes-Klassifikator sowie die Bewertung der Prognosegüte bei Ad-hoc-Meldungen.
Was ist das primäre Ziel oder die Forschungsfrage?
Das primäre Ziel ist die Analyse und kritische Beurteilung der konzeptionellen Vorgehensweise, der verwendeten Modelle und der Auswertungsmetriken in den drei ausgewählten Publikationen, um deren Eignung für finanzwirtschaftliche Prognosen zu validieren.
Welche wissenschaftliche Methode wird verwendet?
Es werden Ansätze der quantitativen Inhaltsanalyse angewandt, insbesondere die Verwendung von Wörterbüchern zur Tonalitätsbestimmung, statistische Termgewichtung (tf-idf) sowie das maschinelle Lernen mittels naiver Bayes-Klassifikatoren und logistischer Regression zur Vorhersage von Ereigniseffekten auf den Aktienmarkt.
Was wird im Hauptteil behandelt?
Im Hauptteil werden nacheinander die drei gewählten Publikationen detailliert vorgestellt, deren Datengrundlage und Methodik erläutert, die Ergebnisse einer kritischen Analyse unterzogen und Verbesserungsvorschläge formuliert.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit lässt sich durch Begriffe wie Text Mining, Finanzanalyse, 10-K Berichte, Ad-hoc-Meldungen, Naive Bayes Klassifikator, Wörterbuch-Methode, Kursrelevanz und Aktienkursvorhersage charakterisieren.
Warum wird das Harvard Dictionary für 10-K Berichte als kritisch angesehen?
Das Harvard Dictionary ist ein allgemeines Wörterbuch und erfasst die spezifische Fach- und Geschäftssprache in 10-K Berichten nicht adäquat, was zu einer hohen Rate an Fehlklassifizierungen führt, da beispielsweise neutrale Finanzbegriffe fälschlicherweise als negativ eingestuft werden.
Welches Problem besteht bei der Vorhersage von Ad-hoc-Meldungen?
Ein zentrales Problem ist die hohe Fehlerrate der Klassifikationsmodelle. Ursachen hierfür sind unter anderem eine zu enge Datenbasis, die nur auf DAX100-Unternehmen fokussiert, sowie Störfaktoren, die eine präzise Identifikation der kursrelevanten Informationen erschweren.
- Quote paper
- Nicole Tode (Author), Tarek Abuzarour (Author), Fabian Lang (Author), 2010, Text Mining - Drei Methoden zur Textanalyse, Munich, GRIN Verlag, https://www.grin.com/document/202971