Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten


Term Paper (Advanced seminar), 2017

25 Pages, Grade: 1,7


Excerpt


Inhaltsverzeichnis

1 Einleitang

2 Methodik
2.1 Zum aktuellen Forschungsstand
2.2 Die verwendeten P0S- Tagger
2.3 Auswahl der Texte
2.3.1 Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt
2.3.2 Heinrich Heine - Lore-Ley
2.3.3 Arthur Schnitzler - Lieutenant Gusti (Ausschnitt)
2.3.4 "Erlebnis im Zug"

3 PoS-Tagging und Vergleich der Ergebnisse
3.1 Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt
3.2 Heinrich Heine - Lore-Ley
3.3 Arthur Schnitzler - Lieutenant Gusti (Ausschnitt)
3.4 "Erlebnis im Zug"

4 Zusammenfassung der Ergebnisse und Problemursachen

5 Schluss

Literaturverzeichnis

Programme und Tools

Anhang 1: Forumsbeitrag eines Fans

Anhang 2: Heinrich Heine - Lore-Ley

Anhang 3: Arthur Schnitzler - Lieutenant Gusti (Ausschnitt)

Anhang 4: "Erlebnis im Bus"

1 Einleitung

Automatische Tagger spielen eine wichtige Rolle bei der Bearbeitung großer Textkorpora. Ohne sie wäre es nicht möglich große Textmengen in kurzen Zeiträumen mit bestimmten linguistischen Merkmalen zu annotieren und somit für die weitere Bearbeitung zugänglich zu machen. Viele dieser Tagger sind als Open-Source Software verfügbar.

Das Ziel dieser Arbeit ist es, einen Vergleich zwei solcher Tagger durchzuführen, indem sie auf unterschiedliche deutsche Texte angewandt werden, die von der deutschen Standardvarietät in kleinem bis großem Umfang abweichen. Anschließend können die Textstellen betrachtet werden, bei denen die Tagger unterschiedliche Annotationen erzeugen. Der Fokus liegt dabei auf der Frage, welche Probleme durch die Besonderheiten der deutschen Sprache und seiner Varietäten bei den hier verwendeten Taggern beispielhaft auftreten und den daraus resultierenden falschen oder ambigen Annotationen.

Der Aufbau der Arbeit gliedert sich wie folgt: Zunächst werden im Abschnitt 'Methodik' - nach einem kurzen Überblick über den aktuellen Forschungsstand - die verwendeten Part-of-Speech-Tagger (PoS-Tagger) vorgestellt.

Anschließend werden deutsche Texte für den Test der Tagger ausgewählt und vorgestellt. Diese Texte sollen sich in ihrer Abweichung von der deutschen Standardvarietät möglichst stark unterscheiden, um eine breite Fläche an möglichen "Stolpersteinen" für die Tagger zu bieten.

Anschließend erfolgt die Annotation der ausgewählten Texte mit den ausgewählten Taggern und schließlich eine Auswertung der resultierenden annotierten Token.

Zum Schluss werden die Ergebnisse noch einmal kurz zusammengefasst.

2 Methodik

2.1 Zum aktuellen Forschungsstand

Der Vergleich deutscher PoS-Tagger wurde insbesondere in der Arbeit von Giesbrecht u. Evert (2009) bereits ausführlich vorgenommen. Hier wurden mehrere PoS-Tagger, die mit journalistischen Texten des TIGER-Korpus trainiert wurden, auf verschiedene Textarten angewendet und die Ergebnisse anschließend ausgewertet. Das Resultat war eine Verschlechterung der Korrektheit beim Tagging von ursprünglich etwa 97% (bei Texten, die den Trainingstexten ähneln) auf deutlich schlechtere Werte für andere Textsorten. Als Hauptgründe hierfür wurden zum einen die Unterschiede verschiedener Textarten zu den Trainingsdaten, andererseits die Granulierung des Tagsets genannt.

Die in der vorliegenden Arbeit durchgeführte Studie unterscheidet sich insofern, als dass hier ein Fokus speziell auf die Fehlerquellen gerichtet werden soll, indem diese beispielhaft an getaggten Textausschnitten aufgezeigt und erläutert werden.

2.2 Die verwendeten P0S- Tagger

In dieser Arbeit werden die folgenden bewährten PoS-Tagger verwendet: 1. TreeTagger - a part-of-speech tagger for many languages

Dieser Tagger wurde von Helmut Schmid an der Universität Stuttgart entwickelt (Schmid, 1995). Es werden Entscheidungsbäume verwendet, um die Wortart eines Tokens zu bestimmen. Dabei wird auf das Stuttgart-Tübingen-Tagset (Schiller et al., 1999) zurückgegriffen.

Für diese Studie wurde die von der Online-WebSeite ״COPA-TRAD“ implementierte Version des TreeTaggers von 2016 verwendet.

2. Stanford Log-linear Part-Of-Speech Tagger

Dieser Tagger basiert auf der Arbeit von Kristina Toutanova (et ab, 2003). Auch dieser Tagger verwendet für das Deutsche das Stuttgart-Tübingen-Tagset (STTS).

Verwendet wurde die auf der Homepage bereitgestellte Version 3.7.0 des Stanford POS Taggers, unter der Verwendung des ״fast-german-taggers“-Moduls.

Beide Tagger verwenden also das STTS, das oft als das Standardtagset für das Deutsche angesehen wird (vgl. Zinsmeister 2015: 104). Damit ist gewährleistet, dass sich die Ergebnisse des Tagging tabellarisch nebeneinanderstellen und so vegleichen lassen. Um Problemursachen ausfindig zu machen werden Tabellen aller Token eines Textes erstellt, in denen ein Token von beiden Taggern mit unterschiedlichen Tags versehen wurden.

2.3 Auswahl der Texte

Für den Vergleich der Tagger werden mehrere deutsche Texte herangezogen. Da die Genauigkeit der Tagger für "normale, hochdeutsche" Texte bereits ausführlich beschrieben ist, wurden hier Texte ausgewählt, die sich durch eine oder mehrere Besonderheiten vom Standarddeutschen unterscheiden. Die Tagger erreichen bei Texten, die professionellen journalistischen Ansprüchen genügen eine hohe Genauigkeit von etwa 97% (Giesbrecht u. Evert, 2009) und daher eine geringe Fehlerquote bei der Wortartenannotation, wenn sie auf entsprechende Texte angewandt werden. Da die Tagger mit solchen Texten "trainiert" werden, ist dies nicht weiter verwunderlich.

Es stellt sich die Frage, inwiefern diese Tagger an ihre Grenzen gebracht werden können, indem Texte verwendet werden, die mehr oder weniger stark von den "Trainingstexten" abweichen. Die folgende Auswahl an Texten für diese Studie wurde daher nach dem Kriterium getroffen, sich durch bestimmte Merkmale von standardsprachlichen Zeitungsartikeln abzugrenzen. Gleichzeitig sollen die ausgewählten Texte untereinander nicht zu ähnlich sein, um ein möglichst breites Spektrum an Variation zu erfassen. Es bleibt allerdings stets zu bedenken, dass eine solche Auswahl nur einen kleinen Ausschnitt an möglichen Sprachvarianten und Besonderheiten aufzeigen kann. Der Fokus liegt auf den Unterschieden bei der

Annotation durch die PoS-Tagger, um mögliche Fehlerquellen aufzuzeigen.

2.3.1 Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt

Dieser Text (Anhang 1) zeichnet sich zunächst nicht durch offensichtliche Besonderheiten aus. Es handelt sich um den schriftlichen Beitrag eines Fans im Online­Fanforum des Vereins Eintracht Frankfurt. Der Autor kommentiert die aktuelle Situation des Vereins in der laufenden Bundesliga Saison. Inhaltlich distanziert sich der Autor jedoch von der journalistischen Darstellung des Vereins durch verschiedene, namentlich nicht genannte Sportjournalisten in den Frankfurter Printmedien. Der Text ist dabei stilistisch im Format eines offenen Briefes an diese Journalisten geschrieben. Der Text enthält ein paar Schreibfehler, die für das Tagging nicht korrigiert wurden.

2.3.2 Heinrich Heine - Lore-Ley

Dieses Gedicht Heines von 1824 (Anhang 2) steht zum einen beispielhaft für die Gedichtform, zum anderen ist der Text annähernd 200 Jahre alt, weshalb man mit Fehlem der Tagger aufgrund des zeitlichen Unterschieds rechnen könnte, da die Tagger an sehr viel moderneren Texten trainiert wurden.

2.3.3 Arthur Schnitzler - Lieutenant Gusti (Ausschnitt)

Bei diesem Text handelt es sich um einen Abschnitt aus Schnitzlers Novelle "Lieutenant Gusti", genau genommen um den 2. Absatz der 11. Auflage von 1906 (Anhang 3). Die Besonderheit dieses Texts liegt darin, dass er als innerer Monolog verfasst ist und durch die Erzähltechnik des Bewusstseinsstroms geprägt ist. Der Aufbau und die Textsyntax unterscheiden sich damit deutlich von der Art der Texte, mit denen die Tagger trainiert wurden.

2.3.4 "Erlebnis im Zug"

Bei diesem Text handelt es sich um eine humoristische Erzählung eines Erlebnisses (Anhang 4). Ursprünglich ein öffentlicher Beitrag eines Facebook-Nutzers, wurde dieser Beitrag von einem Nutzer der Website ״reddit“ transkribiert und veröffentlicht. Der Text zeichnet sich durch seine konzeptuelle Mündlichkeit aus, es werden viele umgangssprachliche Wörter verwendet. Der Text enthält sowohl indirekte als auch direkte Rede. Zudem finden sich einige Rechtschreibfehler und grammatikalische Besonderheiten, wie etwa Verb Zweitstellung nach ״weil“.

Daraus schlussfolgernd könnte man hier eine besonders große Diskrepanz zwischen den Resultaten des Taggings durch die beiden PoS-Tagger erwarten.

3 PoS-Tagging und Vergleich der Ergebnisse

In diesem Abschnitt werden die Ergebnisse des PoS-Taggings der vier Texte mit den beiden Taggern vorgestellt und diskutiert. Die Tabellen 1-4 zeigen jeweils in der ersten Spalte den Tag eines Tokens durch den Stanford Tagger, in der zweiten Spalte den entsprechenden Tag durch den TreeTagger. Dies wird - bis auf wenige Ausnahmen - für alle Token durchgeführt, die von den beiden Taggern mit einem unterschiedlichen Tag versehen wurden. Der entsprechende, bzw. die entsprechenden Token werden in Spalte 3 angegeben, so wie sie im Text vorliegen.[1] In Spalte 4 wird schließlich noch die Gesamthäufigkeit des entsprechenden unterschiedlichen Taggings im jeweiligen Text angegeben. Taggt beispielsweise der Stanford Tagger zwei Token als VVFIN, während der TreeTagger diese Token als VVINF angibt, so ist die Häufigkeit mit 2״“ angegeben. Der Umgekehrte Fall, dass also der TreeTagger ein Token als VVFIN markiert, und der Stanford Tagger als VVINF, ist in der ersten Zuordnung nicht enthalten, sondern wird extra gezählt und aufgeführt.

Die Tabellen sind alphabetisch nach den Tags des Stanford Taggers sortiert. Dies hat den Vorteil, dass alphabetisch ähnliche Tags die selben Wortarten repräsentieren. Somit kann man, ausgehend vom Stanford Tagger, direkt vergleichen, welche Tags der TreeTagger für die jeweiligen Token zugeordnet hat.

3.1 Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt

Bei dem Vergleich der Tagging-Ergebnisse (Tabelle 1) dieses Texts zeigen sich einige Auffälligkeiten.

Tabelle 1: Unterschiedliches PoS-Tagging verschiedener Token im Text des Forumsbeitrags

Abbildung in dieser Leseprobe nicht enthalten

[...]


[1] Inklusive Rechtschreibfehler, Groß- und Kleinschreibung.

Excerpt out of 25 pages

Details

Title
Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten
College
Technical University of Darmstadt  (Institut für Sprach- und Literaturwissenschaft)
Course
Forschungsthemen der Korpus- und Computerlinguistik - computervermittelte Interaktion (DH)
Grade
1,7
Author
Year
2017
Pages
25
Catalog Number
V433475
ISBN (eBook)
9783668754065
ISBN (Book)
9783668754072
File size
560 KB
Language
German
Keywords
Computerlinguistik, POS, Tagging, Stanford POS
Quote paper
Jascha Daniló Jung (Author), 2017, Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten, Munich, GRIN Verlag, https://www.grin.com/document/433475

Comments

  • No comments yet.
Look inside the ebook
Title: Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free