Das vorliegende Papier fasst eine Studie zusammen, die darauf abzielte, Techniken aus dem Forschungsgebiet der künstlichen Intelligenz bei der Auflösung phorischer (kataphorischer und anaphorischer) Pronominaladverbien einzusetzen. Nach der Erstellung eines Datensatzes, der durch die Annotation von Textdaten mit dem Annotationstool InCeption entstand, gelang es uns, einen Klassifikationsalgorithmus namens Multi-Layer-Perzeptron-Classifier (MLP-Classifier) mit Scikit-learn, einer Softwarebibliothek für maschinelles Lernen in der Programmiersprache Python, zu trainieren, wobei wir letztendlich eine Präzision von etwa 90% erreichten.
Inhaltsverzeichnis
- KÜNSTLICHE INTELLIGENZ (KI) UND DATASCIENCE IN DER TEXTLINGUISTIK: Einsatz von künstlichen neuronalen Netzwerken (KNN) zur Auflösung von phorischen Pronominaladverbien (PPAR)
- Zusammenfassung
- Einleitung
- 1. Künstliche Intelligenz (KI): Intelligenzverleihung oder selbständiges Denken von Maschinen?
- 2. Maschinenlernen (ML)
- 3. Datascience: Textannotation und Datensatzaufbau
- 3.1. Textannotation über InCeption und Export des Datensatzes
- 4. Anwendung von SciKit Learn beim Aufbau vom PPAR
- 4.1. Aufbau des PPAR
- Schlussbetrachtung und Ausblicke
- Literaturverzeichnis
Zielsetzung & Themenfelder der Arbeit
Diese wissenschaftliche Arbeit konzentriert sich darauf, Methoden aus dem Forschungsgebiet der Künstlichen Intelligenz einzusetzen, um phorische (kataphorische und anaphorische) Pronominaladverbien in deutschen Texten zu erkennen und deren Auflösung zu automatisieren. Das primäre Ziel ist die Entwicklung und das Training eines Klassifikationsalgorithmus (Multi-Layer-Perzeptron-Classifier) unter Verwendung der Softwarebibliothek Scikit-learn, um eine hohe Präzision bei dieser Aufgabe zu erreichen.
- Automatisierung der Auflösung phorischer Pronominaladverbien (PPAR)
- Einsatz von Künstlichen Neuronalen Netzwerken (KNN) und Scikit-learn
- Erstellung und Annotation eines spezifischen Datensatzes mit dem Tool InCeption
- Analyse und Differenzierung von Künstlicher Intelligenz, Maschinenlernen und Datenwissenschaft
- Entwicklung und Evaluierung eines MLP-Classifiers für textlinguistische Aufgaben
- Perspektiven für zukünftige Verbesserungen und die Implementierung als Webanwendung
Auszug aus dem Buch
KÜNSTLICHE INTELLIGENZ (KI) UND DATASCIENCE IN DER TEXTLINGUISTIK: Einsatz von künstlichen neuronalen Netzwerken (KNN) zur Auflösung von phorischen Pronominaladverbien (PPAR).
In Anlehnung an die vorherige Auseinandersetzung mit der Automatisierungsproblematik des Auflösungsvorgangs anaphorischer Pronominaladverbien entstand die Idee, die Technik des maschinellen Lernens zur besseren Verarbeitung dieser Problematik anzuwenden.¹ Dafür haben wir zunächst über 1000 Textabschnitte aus dem Deutschen Referenzkorpus (DeReKo) in einem Textkorpus gesammelt, der anschließend mit InCeption, einem Annotationstool zur Konstitution von Datensätzen für Machine-Learning-Projekte, annotiert wurde. Sobald wir den Datensatz im TSV-Format exportiert hatten, wählten wir aus Scikit-learn einen Lernalgorithmus aus, der in der Lage ist, Pronominaladverbien zunächst zu identifizieren, sie dann entweder als Anapher oder Katapher zu klassifizieren und anschließend mit ihrer jeweiligen Antezedenz (Rückwärtsbezug) oder Postzedent (Vorwärtsbezug) zu verknüpfen. ² Da es sich um eine Aufgabenstellung mit mehreren Zielvariablen handelt, entschieden wir uns für den MLP-Classifier. Nach der Einrichtung der einzelnen Module und Methoden, die wir im Folgenden erläutern werden, haben wir den Algorithmus trainiert und anschließend getestet, wobei wir jedes Mal zur Verbesserung einige Hyperparameter optimieren mussten.
Das Wort Intelligenz ist vom lateinischen Wort intellegere abgeleitet worden. Dieses lateinische Wort seinerseits ist ein Determinativkompositum³, das aus inter (zwischen) und legere (Lesen/ wählen) besteht (Detlef H. Rost 2013). Was wortwörtlich bedeuten würde entweder (zwischen lesen) oder (zwischen wählen). Ersichtlich bei dieser etymologischen Betrachtungsweise des Begriffs Intelligenz ist, dass der Begriff zum Einsatz kommt, wenn es vor allem darum geht, die Fähigkeit eines (biologischen/künstlichen) Wesens entweder zwischen verschiedenen Dingen zu wählen oder noch zwischen den Zeilen zu lesen (Also die Fähigkeit zu entschlüsseln, was nicht explizit dargelegt worden ist). Hierbei sieht man schon eine gewisse geistige bzw. kognitive Aktivität des (biologischen/künstlichen) Wesens.
Weiterhin lässt sich diese aus der etymologischen Betrachtungsweise abgeleitete Vermutung noch mit der reinen Übersetzung des lateinischen Worts ins Deutsche bestätigen. Das Wort intelligere wird ins Deutsche mit „erkennen“, „einsehen"; „verstehen" übersetzt (vgl. Detlef H. Rost 2013). Und um etwas zu erkennen, zu prüfen oder noch zu verstehen, benötigt man unbedingt Zugriff auf ein kognitives bzw. neuronales Netz. In dieser Hinsicht verweist der Begriff Intelligenz auf die Fähigkeit eines Wesens Lösungen zur Überwindung bestimmter Hürde zu finden.⁴
Zusammenfassung der Kapitel
Zusammenfassung: Dieses Kapitel fasst die gesamte Studie zusammen, die KI-Techniken zur Auflösung phorischer Pronominaladverbien nutzt und eine Präzision von etwa 90% erreicht.
Einleitung: Die Einleitung motiviert die Anwendung von maschinellem Lernen für die Auflösung anaphorischer Pronominaladverbien und beschreibt die anfängliche Datenerfassung, Annotation und die Wahl des MLP-Classifiers.
1. Künstliche Intelligenz (KI): Intelligenzverleihung oder selbständiges Denken von Maschinen?: Dieses Kapitel beleuchtet die Etymologie des Begriffs Intelligenz, unterscheidet zwischen heuristischen und selbstlernenden Ansätzen und definiert maschinelle Intelligenz.
2. Maschinenlernen (ML): Hier wird Maschinenlernen als eigenständiges Teilgebiet der KI eingeführt, dessen Ziel es ist, Muster in Daten zu finden, und die drei Hauptarten – überwachtes, unüberwachtes und bestärkendes Lernen – beschrieben.
3. Datascience: Textannotation und Datensatzaufbau: Das Kapitel erläutert die Bedeutung von Daten und Data Science für ML-Systeme, insbesondere den Aufbau des Textkorpus und des Datensatzes durch Textannotation.
3.1. Textannotation über InCeption und Export des Datensatzes: Dieser Abschnitt beschreibt detailliert den Prozess der Textannotation mit dem Online-Tool InCeption, die verwendeten Tagsets und den Export der Daten für das Modelltraining.
4. Anwendung von SciKit Learn beim Aufbau vom PPAR: Dieses Kapitel beschreibt die Verwendung der Scikit-learn Softwarebibliothek zur Entwicklung des PPAR-Systems und klassifiziert die verschiedenen Algorithmentypen, die darin enthalten sind.
4.1. Aufbau des PPAR: Hier werden die konkreten Schritte zur Implementierung des Multi-Layer-Perzeptron-Classifiers (MLP-Classifier) mithilfe von Jupyter Notebook und Scikit-learn erläutert, inklusive Datenaufbereitung und Modelltraining.
Schlussbetrachtung und Ausblicke: Die Schlussbetrachtung fasst die erzielte Präzision zusammen und diskutiert zukünftige Forschungsperspektiven, einschließlich der Implementierung als Webanwendung und Integration in ein umfassenderes Textlinguistisches Tool.
Schlüsselwörter
Künstliche Intelligenz (KI), Maschinenlernen (ML), Datascience, Phorische Pronominaladverbien (PPA), Neuronale Netze (KNN), Scikit-learn, Textannotation, Datensatzaufbau, Multi-Layer-Perzeptron-Classifier, Anapher, Katapher, Textlinguistik, Algorithmen, Python.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit befasst sich mit dem Einsatz von Künstlicher Intelligenz und Maschinellem Lernen, speziell Neuronalen Netzwerken, um phorische Pronominaladverbien in deutschen Texten automatisch zu erkennen, zu klassifizieren und mit ihren Bezugspunkten zu verknüpfen.
Was sind die zentralen Themenfelder?
Die zentralen Themenfelder umfassen Künstliche Intelligenz, Maschinelles Lernen, Datenwissenschaft, Textlinguistik und die automatische Resolution von Pronominaladverbien.
Was ist das primäre Ziel oder die Forschungsfrage?
Das primäre Ziel ist die Entwicklung und Evaluierung eines maschinellen Lernsystems, das phorische Pronominaladverbien mit hoher Präzision auflösen kann.
Welche wissenschaftliche Methode wird verwendet?
Es wird ein Ansatz des maschinellen Lernens verwendet, der auf Künstlichen Neuronalen Netzwerken (MLP-Classifier) basiert und mit der Python-Bibliothek Scikit-learn implementiert wird, gestützt auf einen manuell annotierten Datensatz.
Was wird im Hauptteil behandelt?
Im Hauptteil werden die Konzepte von Künstlicher Intelligenz und Maschinellem Lernen, der Prozess der Datenwissenschaft einschließlich Textannotation und Datensatzaufbau, sowie die spezifische Anwendung und Implementierung von Scikit-learn zur Entwicklung des PPAR-Systems detailliert behandelt.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit wird durch Schlüsselwörter wie Künstliche Intelligenz (KI), Maschinenlernen (ML), Datascience, Phorische Pronominaladverbien (PPA), Neuronale Netze und Textannotation charakterisiert.
Welche Präzision konnte das entwickelte System erreichen?
Das entwickelte System, ein Multi-Layer-Perzeptron-Classifier (MLP-Classifier), erreichte eine Präzision von etwa 90% bei der Auflösung der Pronominaladverbien.
Welches spezifische Tool wurde für die Textannotation verwendet?
Für die manuelle Annotation der Textdaten und die Erstellung des Datensatzes wurde die Onlineplattform InCeption verwendet.
Worin liegt der Unterschied zwischen "Intelligenzverleihung" und "künstlicher Intelligenz" nach der Definition der Arbeit?
Laut Arbeit bezieht sich "Intelligenzverleihung" auf heuristisch basierte Systeme, die Regeln folgen, während "künstliche Intelligenz" selbstdenkende, ML-basierte Systeme beschreibt, die sich selbst verbessern.
Wie soll das PPAR-System zukünftig für eine breitere Nutzergruppe zugänglich gemacht werden?
Zukünftig soll das PPAR-System als Webanwendung implementiert und in ein umfassenderes "Textlinguistisches Tool (TT)" integriert werden, um die Nutzung auch ohne Programmierkenntnisse zu ermöglichen.
- Quote paper
- Nelson Fogo (Author), 2025, Künstliche Intelligenz (KI) und Datascience in der Textlinguistik, Munich, GRIN Verlag, https://www.grin.com/document/1618982