Natural Language Processing (NLP) im Bankensektor. Chancen und Herausforderungen


Projektarbeit, 2021

39 Seiten, Note: 1,3


Leseprobe


Inhaltsverzeichnis

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

1 Motivation und Zielsetzung

2 Begriffliche und theoretische Grundlagen
2.1 NLP und Linguistik
2.2 NLP im Zusammenhang mit Machine Learning (ML) und Deep Learning (DL)
2.3 Heuristik-basiertes NLP
2.4 Machine Learning für NLP
2.4.1 Naive Bayes
2.4.2 Support Vector Machine (SVM)
2.4.3 Hidden Markov Model (HMM)
2.5 Deep Learning für NLP
2.5.1 Recurrent Neural Networks
2.5.2 Long Short-Term Memory (LSTM)
2.5.3 Convolutional Neural Network (CNN)
2.5.4 Transformers

3 Natural Language Processing-Pipeline
3.1 Datenerfassung
3.2 Textextraktion und -bereinigung
3.3 Pre-Processing
3.4 Feature-Engineering
3.5 Modellierung
3.6 Evaluation
3.7 Post-Modellierungsphase

4 Natural Language Processing im Bankensektor
4.1 Sentimentanalyse
4.1.1 Relevanz von Sentiment im Finanzsektor
4.1.2 Sentimentanalyse
4.1.3 Der Lexikon-basierte Ansatz
4.2 Weitere NLP-Konzepte und Anwendungsfelder
4.3 Vorteile
4.4 Herausforderungen

5 Fazit

Literaturverzeichnis

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

Abbildungsverzeichnis

Abbildung 1: Beziehung zwischen KI, ML, DL und NLP

Abbildung 2: Zwei-dimensionale Klassendarstellung einer SVM

Abbildung 3: Ein rekurrentes neuronales Netz

Abbildung 4: Convolutional Neural Network Algorithmus

Abbildung 5: Generische NLP-Pipeline

Abbildung 6: Gekennzeichnete Entitäten durch spaCy

Tabellenverzeichnis

Tabelle 1: Teildisziplinen der Linguistik

1 Motivation und Zielsetzung

Der Mensch ist die am weitesten entwickelte Spezies auf der Erde. Der Erfolg des Menschen ist auf seine Fähigkeit zurückzuführen, zu kommunizieren und Informationen auszutauschen. Die Kommunikation zwischen den Menschen basiert auf der Sprache, die mit insgesamt über 7000 an der Zahl1 eines der vielfältigsten und komplexesten Elemente des menschlichen Daseins darstellt. Laut einem Bericht von Seagate soll die geschätzte Summe der weltweiten Daten bis 2025 auf 175 Zettabyte2 anwachsen. Mittlerweile werden pro Stunde mehr Daten generiert, als vor nur zwei Jahrzehnten in einem ganzen Jahr.3 Ein Großteil dieser Daten liegt in Textform vor, die in hohem Maße unstrukturiert ist. Um aus diesen Daten aussagekräftige und verwertbare Erkenntnisse zu gewinnen, ist es wichtig, sich mit der Technik der Verarbeitung natürlicher Sprache, auch Natural Language Processing (NLP) genannt, vertraut zu machen.

Ziel der Arbeit ist es daher, einen Überblick über die verschiedenen Ansätze zu NLP zu schaffen, aufzuzeigen wie die Technologie im Bankensektor angewendet werden kann und welche möglichen Potentiale sich dadurch erschließen lassen. Es werden auch die aktuellen Herausforderungen und Einschränkungen von NLP betrachtet und erläutert. Vor dem Hintergrund der Vielzahl an vorhanden Techniken für NLP werden in dieser Arbeit nur die Gängigsten unter ihnen vorgestellt. Nach den einführenden begrifflichen und theoretischen Grundlagen wird des Weiteren der typische NLP-Prozess mit seinen Hauptvorgängen dargestellt. Anhand der Sentimentanalyse wird ein konkretes Anwendungsbeispiel mit den einhergehenden Vorteilen beschrieben. Abschließend werden die erlangten Erkenntnisse im Fazit durch eine Schlussbetrachtung abgerundet.

2 Begriffliche und theoretische Grundlagen

2.1 NLP und Linguistik

Natural Language Processing, auch Computerlinguistik genannt, ist eine Schnittstelle zwischen Sprachwissenschaft und Informatik, die sich mit der Analyse und Modellierung der menschlichen Sprache beschäftigt.4 Es ist eine wichtige Komponente der Software, respektive Anwendungen, die wir tagtäglich nutzen: Sprachassistenten, Chatbots oder Spam-Filter bedienen sich dieser Technologie. Spracherkennung, Named Entity Recognition, Sentimentanalyse, maschinelle Übersetzungen oder Dokumentenzusammenfassungen sind unter anderem aktuelle Aufgaben von NLP.5

Für das Verständnis von NLP, ist in erster Linie das Verständnis von einigen Aspekten der Linguistik und der Struktur der Sprache elementar. Untersuchungsgegenstand der Linguistik ist die Sprache. Sie ist ein strukturiertes Kommunikationssystem, das komplexe Kombinationen seiner Bestandteile, wie Zeichen, Wörter und Sätze umfasst.6

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1 : Teildisziplinen der Linguistik (In Anlehnung an Lobin 2010, S. 10f )

In der Tabelle 1 sind die einzelnen Teildisziplinen der Linguistik dargestellt, mit Ausnahme der Phonologie, weil sich aus dieser allein, inhaltlich nichts ableiten lässt. Kombiniert man Phoneme, bildet sich ein sog. Morphem – die kleinste Einheit der Sprache, die eine konstante Bedeutung hat. Nicht alle Morpheme sind Wörter, aber alle Präfixe und Suffixe sind Morpheme. So setzt sich etwa das Wort „Multimedia“ aus „Multi“ und „media“ zusammen. „Multi“ ist allerdings kein Wort, sondern ein Präfix, welches die Bedeutung ändert, wenn man es mit „Media“ kombiniert. Somit ist „Multi“ ein Morphem. Die Lexik ist der Wortschatz, bzw. die Gesamtheit aller Wörter einer Sprache. Die Wortsemantik beschäftigt sich mit der Bedeutung der einzelnen Wörter. Die Syntax, bzw. die Satzgrammatik, ist ein Satz von Regeln, um grammatikalisch korrekte Sätze aus Wörtern und Phrasen in einer Sprache zu konstruieren. Im Gegensatz zur Wortsemantik beschäftigt sich die Satzsemantik mit der Bedeutung von ganzen Sätzen oder deren Bestandteilen, wie Satzgliedern oder Teilsätzen. Auf der Sprachebene der Textlinguistik, also der Lehre vom Text, wird untersucht, welcher formale und/ oder inhaltliche Zusammenhang zwischen den Sätzen besteht.7

Theoretisch ist Linguistik nicht unbedingt für jedes NLP-Problem erforderlich. Arbeitet man aber mit fremden Sprachen, ist es hilfreich zu wissen, wie diese aufgebaut sind. Auch in Fällen, in denen strukturierte Daten schwer zu bekommen sind und trotzdem ein hoher Grad an Genauigkeit gefordert wird, kann das traditionelle NLP, das auf den oben genannten Themen basiert, seine Stärken ausspielen.8

2.2 NLP im Zusammenhang mit Machine Learning (ML) und Deep Learning (DL)

Künstliche Intelligenz (KI) befähigt Computer, bis zu einem bestimmten Grad, zu „Denken“. Das bedeutet, dass ein Computer durch KI in der Lage ist, selbstständig Entscheidungen zu treffen. ML ist ein Teilbereich der KI und gibt den Computern die Fähigkeit zu lernen und sich zu verbessern, ohne expliziert programmiert zu werden. Es beschäftigt sich also mit der Entwicklung von Algorithmen, die aus einer Menge von Daten lernen und davon Vorhersagen oder Entscheidungen ableiten können.9

DL ist wiederum ein spezieller Teilbereich von ML. Es verwendet künstlich erzeugte Neuronen, die ein vielschichtiges Netzwerk bilden, die dazu dienen, auch in unstrukturierten Daten, Muster zu erkennen. Hier besteht eine Ähnlichkeit zum menschlichen Gehirn; DL ist also gewissermaßen eine Imitation des menschlichen Lernverhaltens, basierend auf großen Datenmengen.10 Im Gegensatz zu einfachen ML-Modellen, sind DL-Modelle sowohl hardwaretechnisch anspruchsvoller als auch zeitintensiver. Das resultiert daraus, dass für die Erzeugung von künstlichen neuronalen Netzwerken viele unstrukturierte Daten verarbeitet und analysiert werden müssen. Zusätzlich unterscheiden sich ML und DL noch in der Interpretierbarkeit. Während ML durch bspw. einfache Entscheidungsbäume oder lineare Regression leicht zu interpretieren ist, stellt DL oft eine Blackbox dar, die schwer bis unmöglich zu interpretieren ist.11

In Abbildung 1 ist zu erkennen, dass sich alle drei Bereiche innerhalb der Künstlichen Intelligenz einordnen lassen und dass es untereinander zu einigen Überschneidungen kommt. Dies lässt sich darauf zurückführen, dass in den anfänglichen NLP-Anwendungen, wie auch bei den anfänglichen KI-Anwendungen, vieles auf Heuristik und Regeln basierte. Zudem wurden NLP-Anwendungen in den vergangenen Jahrzehnten, stark von ML-Methoden beeinflusst. Zuletzt wurden auch immer häufiger DL-Methoden für NLP-Anwendungen adoptiert.12

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1 : Beziehung zwischen KI, ML, DL und NLP 13

Es gibt verschiedene Ansätze, um NLP-Anwendungen zu programmieren. Prinzipiell wird diese in drei Kategorien, Heuristik-basiertes NLP, Machine Learning für NLP und Deep Learning für NLP, unterteilt. Die Ansätze werden in den nächsten Kapiteln vorgestellt.

2.3 Heuristik-basiertes NLP

Heuristiken sind einfache „Faustformeln“, die auf den bisherigen, subjektiven Erfahrungen beruhen und vor allem in schwer überschaubaren Situationen, bzw. Problemfeldern, angewandt werden.14 Die Entwicklung von Heuristik-basierten NLP-Systemen setzt also voraus, dass der Entwickler über ein gewisses Fachwissen in dem Bereich verfügt, um Regeln für das Programm zu formulieren. Solche Systeme greifen in der Regel auf große Datenressourcen wie Wörterbücher oder Thesauri15 zu, wie z. B. bei lexikonbasierter Sentimentanalyse. Hierbei wird die Anzahl der negativ- und positiv-behafteten Wörter ermittelt, um schließlich Aussagen über das Sentiment des Textes tätigen zu können.16 In Kapitel4.1.3wird auf diesen Ansatz nochmal eingegangen.

Reguläre Ausdrücke (RE), häufiger regular expressions (regex) genannt, sind nützliche Werkzeuge für Textanalysen und werden häufig verwendet, um Regeln-basierte NLP-Systeme zu entwickeln. Sie stellen eine formale Sprache zum Spezifizieren einer Zeichenkette dar, wovon NLP im Allgemeinen, durch Verwendung bei der Phonologie, Morphologie, Informationserkennung und Spracherkennung, profitiert. Beim Scannen von Texten werden REs verwendet, um bestimmte Zeichenfolgen zu finden, wie z. B. E-Mails oder Abkürzungen. Weitere Funktionen können Textfilter, bspw. für Spamerkennung, oder auch die Konvertierung in bestimmte Formate sein.17 Reguläre Ausdrücke haben jedoch ihre Grenzen. So muss man auf andere Modelle zugreifen, möchte man komplexere Informationen aus Texten extrahieren. Dafür wird oft kontextfreie Grammatik18, eine formale Grammatik, die von Noam Chomsky entwickelt wurde, verwendet. Aufgrund des Fokus der Arbeit wird an dieser Stelle nur auf die weiterführende Literatur der kontextfreien Grammatik verwiesen.19

Heuristik eignet sich gut für die Entwicklung von NLP-Systemen in der ersten Version, da sie dem Entwickler hilft, ein besseres Verständnis für das vorliegende Problem zu erlangen. Zudem wird Heuristik auch in den letzten Versionen eines NLP-Modells angewandt, da sie bestimmte Lücken schließen kann, die ein ML oder DL NLP-System hinterlassen hat.20

2.4 Machine Learning für NLP

2.4.1 Naive Bayes

Naive Bayes ist ein Algorithmus für Klassifikationsaufgaben, das auf dem Satz vom Bayes basiert:

Abbildung in dieser Leseprobe nicht enthalten

Anhand des Satzes von Bayes lässt sich die bedingte Wahrscheinlichkeit der zwei Ereignisse A und B bestimmen, falls eine bedingte Wahrscheinlichkeit bereits bekannt ist. In der obigen Formel ist die bedingte Wahrscheinlichkeit von A, falls B bereits eingetreten ist. Umgekehrt gilt dies auch analog für. Für die jeweilige Wahrscheinlichkeit der Ereignisse stehen und.21

Beim Naive Bayes wird angenommen, dass jedes Merkmal bedingt unabhängig ist. Mithilfe dieser Annahme lässt sich ein Text und dessen Inhalt numerisch darstellen, indem man, beispielsweise bei einem Zeitungsbericht, die Wirtschafts-spezifischen und Kultur-spezifischen Wörter zählt. Damit kann man letztlich Zeitungsartikel in Wirtschafts- oder Kultur bezogene Artikel klassifizieren, solange die vorher genannte Annahme zutrifft. Offensichtlich trifft die Annahme, dass bestimmte Merkmale bedingt unabhängig voneinander sind, was in einem Text bedeutet, dass die Wörter unabhängig voneinander sind, in vielen Fällen nicht zu. Trotzdem eignet sich Naive Bayes als anfänglicher Algorithmus dazu, Texte zu klassifizieren, weil es schnell entwickelt ist22

2.4.2 Support Vector Machine (SVM)

Die SVM ist keine Maschine im herkömmlichen Sinne, sondern ein mathematisches Verfahren bzw. ein Algorithmus, welcher anhand einer Menge von Beispielen eine Hyperebene bestimmt, die als Trennung von zwei Kategorien gilt, z. B. Wirtschaft vs. Kultur bei Textklassifizierungen von Zeitungsartikeln.23

In Abbildung 2 werden zwei Klassen, durch die SVM so getrennt, dass die Entfernung zwischen den einzelnen Punkten der beiden Klassen und der Hyperebene, maximiert ist. Die rote Linie stellt dabei die Hyperebene dar. Diese wird von den Stützvektoren, die prinzipiell Datenpunkte, die näher an der Hyperebene sind und in gestrichelten Linien dargestellt werden, beeinflusst. Der freie Raum zwischen den Stützvektoren und der Hyperebene, wird auch Marge genannt. Je größer die Marge, desto zuverlässiger lassen sich zukünftige Daten klassifizieren. Allerdings besteht hier ein Trade-Off, da durch die größere Marge auch tendenziell mehr Daten nicht klassifiziert werden, weil sie nicht eindeutig zugeordnet werden können.24 Der Nachteil von SVM ist, dass mehr Trainingszeit benötigt wird und zudem bei einer großen Datenmenge schlecht skaliert werden kann.25

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2 : Zwei-dimensionale Klassendarstellung einer SVM 26

2.4.3 Hidden Markov Model (HMM)

Das Hidden Markov Model ist ein stochastisches Modell, welches, aufbauend auf der Markovkette, es ermöglicht, eine Sequenz unbekannter Variablen aus einem Satz bekannter Variablen, vorherzusagen. Ein simples Beispiel dafür ist die Vorhersage des Wetters (unbekannte, bzw. verdeckte Variable) basierend auf der Kleidung die jemand trägt (bekannte, bzw. beobachtete Variable).

Der Grund, warum es verdecktes Markow-Modell genannt wird, ist, dass es auf den Annahmen des Markov-Ansatzes fundiert, welche besagen, dass die Zukunft unabhängig von der Vergangenheit ist, wenn die Gegenwart gegeben ist. Anders ausgedrückt bedeutet das, dass wenn man den gegenwärtigen Zustand kennt, keine weiteren historischen Informationen benötigt werden, um die Zukunft vorherzusagen. Man geht also davon aus, dass es beim HMM einen nicht beobachtbaren Prozess mit verborgenen Zuständen gibt, der den beobachtbaren Zustand, bzw. die Daten, erzeugt. Ein HMM versucht dann, die versteckten Zustände aus dem Output zu modellieren.27

Die menschliche Sprache ist von Natur aus sequenziell. Man liest beispielsweise von links nach rechts und das aktuelle Wort in einem Satz hängt davon ab, was vor ihm kam. Geht man nun davon aus, dass die Grammatik einer Sprache eine Sequenz unbekannter Variablen und der ausgegebene Text die Sequenz der bekannten Variablen ist, ist HMM ein leistungsstarkes Werkzeug für die Modellierung von Textdaten.28

2.5 Deep Learning für NLP

2.5.1 Recurrent Neural Networks

Ein rekurrentes neuronales Netz (RNN) ist ein neuronales Netz, das sequenzielle Daten oder Zeitreihendaten verwendet. Es zeichnet sich durch sein „Gedächtnis“ aus, da es frühere Informationen aus vorherigen Inputs nutzt, um den aktuellen Input und Output zu beeinflussen. Die Ausgabe von RNN hängt von den vorherigen Elementen innerhalb der Sequenz ab, wie in Abbildung 3 auf Seite9dargestellt.29 Natürliche Sprachen sind ebenfalls sequenziell, was ein RNN-Modell, welches in der Lage ist, einen Text von vorne bis hinten zu lesen, für Textanalysen sehr nützlich macht. RNNs werden häufig für Textklassifizierungen oder Textgenerierung verwendet.30

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3 : Ein rekurrentes neuronales Netz 31

2.5.2 Long Short-Term Memory (LSTM)

Wie im vorangegangenen Kapitel erörtert, liegt der Vorteil bei RNN-Modellen darin, dass sie kontextbezogene Informationen zwischenspeichern können. Jedoch leiden Standard-RNN-Modelle an einem Kurzzeitgedächtnis, weil der Einfluss von älteren Inputs mit jeder Zirkulation entweder stark abnimmt oder exponentiell ansteigt und somit verzehrt ist. Dieses Problem wird auch als Vanishing & Exploding Gradient Problem bezeichnet.32

Das Kernkonzept von LSTMs, welche ebenfalls auf RNN basieren, ist der Zellstatus und seine verschiedenen Gates. Der Zellstatus transportiert relevante Informationen entlang der Sequenzkette, man kann diesen auch als Speicher des Netzwerks betrachten. Innerhalb der LSTM-Zelle wird während der Verarbeitung der Sequenz über neuronale Netze entschieden, ob bestimmte Informationen relevant sind und damit dem Zellstatus hinzugefügt werden sollen, oder nicht. Durch diesen Filter können auch für den Kontext relevante Informationen aus früheren Zeitabschnitten in spätere Zeitabschnitte übertragen werden, womit die Auswirkungen des Kurzzeitgedächtnisses verringert werden.33

2.5.3 Convolutional Neural Network (CNN)

Bei Computer-Vision-Aufgaben wie Bildklassifizierung oder Videoerkennung sind CNNs sehr beliebt. Ein CNN besteht aus mehreren Schichten, in denen jeweils eine Mustererkennung durchgeführt wird. Dabei dient der Output der vorhergehenden Schicht als Input für die nächste. Verarbeitet wird der Input in Form einer Matrix. Darin liegt auch der Unterschied zu den normalen neuronalen Netzwerken, die beispielsweise bei einem Multi-Layer-Perceptron (MLP) Vektoren als Input benötigen. Bei der Verarbeitung von Bildern würde das bedeuten, dass man die Pixel des Bildes in einer langen Kette hintereinander arrangieren müsste – dieser Prozess wird auch Flattening genannt. Deshalb besitzen normale neuronale Netzwerke nicht die Fähigkeit, Objekte in einem Bild unabhängig von deren Position zu identifizieren. Dasselbe Objekt hätte bei einer veränderten Position einen anderen Input-Vektor.34

Ein CNN besteht aus Filtern, die Convolutional Layer genannt werden und Aggregations-Schichten, die Pooling Layer genannt werden. Der Convolutional Layer konvertiert die Bilder über sog. Convolution Operationen in ein neues Bild. Das neue Bild wird auch Feature Map genannt, weil es die Merkmale des Originalbildes hervorhebt. Dieser Filterungsprozess geschieht auf einer sehr kleinen Pixelebene, oft 5x5 oder 3x3 Pixel. Es fährt dann wie ein Erkennungsraster von links nach rechts über das gesamte Bild. Nach dem Convolutional Layer folgt der Pooling Layer, der die benachbarten Pixel des gefilterten Bildausschnittes zu einem einzigen Wert zusammenfasst, wodurch sich die Dimension des Bildes reduziert. Dabei werden bei dem sog. MaxPooling nur die stärksten Signale weitergegeben, um ein höheres Niveau der Abstraktion des Inhaltes zu erreichen und die Parameteranzahl zu reduzieren. Convolutional und Pooling Layer werden nacheinander sequenziert, bis man nach dem Flattening eine komprimierte Darstellung des Inhaltes bekommt, die man in einen Fully Connected Layer speisen kann. Dort sind alle Neuronen mit allen Inputs und Outputs verbunden, die schließlich zu dem Endergebnis, z. B. einer Bildklassifizierung führen.35 Abbildung 4 auf Seite11stellt einen solchen Prozess bildhaft dar.

Um CNNs für NLP zu nutzen, kann man jedes Wort in einen entsprechenden Wortvektor konvertieren, mit einer einheitlichen Größe für alle Vektoren. Diese können dann übereinander gestapelt werden, um eine Matrix der Dimension zu bilden, mit n = Anzahl der Wörter im Satz und d = Größe der Wortvektoren. Diese Matrix lässt sich nun wie ein Bild von der CNN behandeln. Mit diesem Konzept kann bspw. eine Sentimentanalyse durchgeführt werden.36

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 4 : Convolutional Neural Network Algorithmus 37

2.5.4 Transformers

NLP-Modelle, die auf RNN basieren, verarbeiten Daten sequenziell, also Wort für Wort. Bei langen Sequenzen, bzw. langen Texten, sind RNN nicht besonders effizient, aufgrund des Vanishing Gradient Problems. Das LSTM-Modell stellt eine Lösung für dieses Problem dar, weil es den Gate-Mechanismus nutzt, um Informationen nach ihrer Relevanz zu filtern. Doch wie gewöhnliche RNN-Modelle auch, kann LSTM nicht parallel trainiert werden, was unter Umständen in einer sehr langen Trainingszeit resultieren kann.38 Zusätzlich erschwert die sequenzielle Natur von RNN, die Vorteile von modernen Rechenanlagen voll auszuschöpfen.

In dem Paper „Attention Is All You Need“ aus dem Jahre 2017, stellte ein Google AI-Team, die sog. Transformers vor. Diese können, mithilfe des Aufmerksamkeits-Mechanismus, die gesamten Input-Sequenzen bzw. den ganzen Text gleichzeitig wahrnehmen ohne es nacheinander Wort für Wort verarbeiten zu müssen.39 Transformers stützen sich also nicht auf vergangene verborgene Zustände, um Abhängigkeiten mit vorherigen Wörtern zu erfassen, sie verarbeiten einen Satz als Ganzes. Deshalb besteht kein Risiko, vergangene Informationen zu verlieren, bzw. zu vergessen. Der Aufmerksamkeits-Mechanismus berücksichtigt die Beziehung zwischen den einzelnen Wörtern, indem es ein einzelnes Wort in Bezug auf den Kontext betrachtet und anschließend einen Attention-Score berechnet. Die einzelnen Attention-Scores werden dann als Gewichte für einen gewichteten Durchschnitt aller Wortrepräsentationen verwendet, der in ein vollständig verbundenes Netzwerk eingespeist wird, um eine neue Repräsentation für das bestimmte Wort zu erzeugen, die widerspiegeln soll, in welchem Kontext das zu Beginn betrachtete Wort verwendet wird.40 Zum Beispiel kann das Wort Bank in einem bestimmten Kontext als Finanzinstitut vorkommen, in einem anderen Kontext als Sitzmöbel.

Ein weiterer Vorteil von Transformers, der vor allem kosten- und zeitsparend sein kann, ist, dass sie sich optimal für das sog. Transfer Learning eignen.41 Transfer Learning soll durch das Implementieren von bereits angeeignetem Wissen aus einem anderen Modell, das Lernen eines neuen Modells verbessern. Dies kann unter anderem die Initialisierungsphase erleichtern, wodurch Zeit gespart wird und im Idealfall auch bessere Ergebnisse geliefert werden.42 Große Transformers, wie beispielsweise BERT (Bidirectional Encoder Representations from Transformers), die auf einer enorm großen Datenmengen-Basis trainiert werden, werden als Grundlage für kleinere, nachgelagerte NLP-Tasks verwendet, indem sie für ein spezifisches Problem fine-getuned werden.43

Aufgrund ihrer Fähigkeit, Kontexte auch im großen Rahmen zu erkennen und der daraus erhöhten Darstellungskapazität im Vergleich zu anderen Deep Networks, werden Transformers heutzutage immer häufiger für NLP-Aufgaben verwendet.44

3 Natural Language Processing-Pipeline

In den vorhergehenden Kapiteln wurden die grundlegenden Modelle und Theorien für NLP vorgestellt. In den nachfolgenden Kapiteln soll gezeigt werden, wie ein Schritt-für-Schritt Textverarbeitungsprozess, auch NLP-Pipeline genannt, aussieht. Dies soll ein Verständnis dafür aufbauen, wie man NLP-Techniken in bereits bestehende Prozesse, innerhalb der Bank, integrieren könnte, um anschließend eine Potenzialanalyse, durchführen zu können.

Abbildung 5 auf Seite13zeigt den typischen Ablauf einer NLP-Pipeline. Die einzelnen Schritte werden in den nachfolgenden Kapiteln erläutert. Es ist anzumerken, dass der dargestellte Ablauf nicht immer linear verläuft. Je nach Art des NLP-Problems, muss der Ablauf entsprechend angepasst werden – es kann auch sein, dass man einzelne Schritte wiederholt. Zudem nimmt jeder Teilprozess, abhängig von vielen Faktoren, wie unter anderem die Datenqualität, unterschiedlich viel Zeit und Aufwand in Anspruch.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 5 : Generische NLP-Pipeline (In Anlehnung an Vajjala et al. 2020, S. 38)

3.1 Datenerfassung

Im Jahr 2018 schrieb die FAZ, dass Daten das neue Öl seien.45 Auch wenn die FAZ mit diesem Titel eine andere Assoziation des Begriffes „Öl“ beabsichtigte, kann man trotzdem behaupten, dass Daten im übertragenden Sinne als Treibstoff für ML-Systeme dienen. Umso entscheidender ist die Datenqualität bei fast jedem ML-Projekt: Schlechte Daten können nur schwer oder gar nicht erkannt werden. Basiert ein Modell teilweise auf solch falschen Informationsbausteinen, verliert es seinen Wert und damit auch seine Aussagekraft.

Idealerweise hat man bereits eine gute Datenlage, bspw. durch historische Datenerfassung des Vertriebscontrollings. Damit wäre der Punkt Datenerfassung vorerst abgeschlossen. Allerdings ist dies bekanntermaßen nicht immer der Fall und man muss auf andere Datenquellen zugreifen.

[...]


1 Vgl. Joshi et al. (2020), S. 1.

2 Ein Zettabyte = 1021 Bytes - entspricht einer Milliarde Terabytes.

3 Vgl. Seagate Technology LLC (2020), S. 9.

4 Vgl. Lobin (2010), S. 10.

5 Vgl. Vajjala et al. (2020), S. 5.

6 Vgl. Lobin (2010), S. 10.

7 Vgl. Vajjala et al. (2020), S. 8ff.

8 Vgl. Zulkifli (2018), Online im Internet.

9 Vgl. Ongsulee, S. 1ff.

10 Vgl. Deng/Liu (2018), S. 6ff.

11 Vgl. Deng/Liu (2018), S. 9; Ongsulee (2017), S. 4f.

12 Vgl. Vajjala et al. (2020), S. 14ff.

13 Vajjala et al. (2020), S. 15.

14 Vgl. Jean-Paul Thommen (2018), Online im Internet.

15 Geordnete Zusammenstellung von Begriffen, die durch Synonymie-Beziehungen miteinander verbunden sind.

16 Vgl. Vajjala et al. (2020), S. 16.

17 Vgl. Gaganpreet Kaur (2014), S. 168f.

18 Vgl. Chomsky/Schützenberger (1959), S. 118ff.

19 Vgl. Earley (1970), S. 94ff.Der Early Parser ermöglicht es, alle Arten der kontextfreien Grammatik zu analysieren, wird hier jedoch nur beispielhaft genannt.

20 Vgl. Vajjala et al. (2020), S. 18.

21 Vgl. Ranganathan (2019), S. 403ff.

22 Vgl. Murphy (2006), S. 4ff; Vajjala et al. (2020), S. 20.

23 Vgl. Noble (2006), S. 1565.

24 Vgl. Noble (2006), S. 1565f.

25 Vgl. Vajjala et al. (2020), S. 20.

26 Vajjala et al. (2020), S. 21.

27 Vgl. Kraft et al. (2001), S. 406.

28 Vgl. Vajjala et al. (2020), S. 21f.

29 Vgl. Mikolov et al. (2010), S. 1045ff.

30 Vgl. Karpathy (2015), Online im Internet.

31 Olah (2015), Online im Internet.

32 Vgl. Graves (2012), S. 32; Hochreiter/Schmidhuber (1997), S. 1f.

33 Vgl. Graves (2012), S. 32ff.

34 Vgl. Indolia et al. (2018), S. 680f.

35 Vgl. Kim (2017), S. 121ff.

36 Vgl. Vajjala et al. (2020), S. 24.

37 Trimble eCognition Suite (2019), Online im Internet.

38 Vgl. Shi et al. (2016), S. 1.

39 Vgl. Vaswani et al. (2017), S. 2f.

40 Vgl. Google AI Blog (2017), Online im Internet; Vaswani et al. (2017), S. 3f.

41 Vgl. Vajjala et al. (2020), S. 26.

42 Vgl. Olivas et al. (2010), S. 242f.

43 Vgl. Devlin et al. (2018), S. 1f; Raffel et al. (2019), S. 1.

44 Vgl. Vajjala et al. (2020), S. 25f.

45 Vgl. Frankfurter Allgemeine Zeitung GmbH (2018), Online im Internet.

Ende der Leseprobe aus 39 Seiten

Details

Titel
Natural Language Processing (NLP) im Bankensektor. Chancen und Herausforderungen
Hochschule
Duale Hochschule Baden-Württemberg Mannheim, früher: Berufsakademie Mannheim
Note
1,3
Autor
Jahr
2021
Seiten
39
Katalognummer
V1139665
ISBN (eBook)
9783346515094
ISBN (Buch)
9783346515100
Sprache
Deutsch
Schlagworte
NLP, Natural Language Processing, Digitalisierung, Digital Finance, Künstliche Intelligenz, KI, AI, Machine Learning, Deep Learning, Artificial Intelligence, NLP-Pipeline, Computerlinguistik
Arbeit zitieren
Grigorij Mogilnik (Autor:in), 2021, Natural Language Processing (NLP) im Bankensektor. Chancen und Herausforderungen, München, GRIN Verlag, https://www.grin.com/document/1139665

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Natural Language Processing (NLP) im Bankensektor. Chancen und Herausforderungen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden