Automatische Tagger spielen eine wichtige Rolle bei der Bearbeitung großer Textkorpora. Ohne sie wäre es nicht möglich große Textmengen in kurzen Zeiträumen mit bestimmten linguistischen Merkmalen zu annotieren und somit für die weitere Bearbeitung zugänglich zu machen. Viele dieser Tagger sind als Open-Source Software verfügbar.
Das Ziel dieser Arbeit ist es, einen Vergleich zwei solcher Tagger durchzuführen, indem sie auf unterschiedliche deutsche Texte angewandt werden, die von der deutschen Standardvarietät in kleinem bis großem Umfang abweichen. Anschließend können die Textstellen betrachtet werden, bei denen die Tagger unterschiedliche Annotationen erzeugen. Der Fokus liegt dabei auf der Frage, welche Probleme durch die Besonderheiten der deutschen Sprache und seiner Varietäten bei den hier verwendeten Taggern beispielhaft auftreten und den daraus resultierenden falschen oder ambigen Annotationen.
Der Aufbau der Arbeit gliedert sich wie folgt: Zunächst werden im Abschnitt 'Methodik' – nach einem kurzen Überblick über den aktuellen Forschungsstand - die verwendeten Part-of-Speech-Tagger (PoS-Tagger) vorgestellt. Anschließend werden deutsche Texte für den Test der Tagger ausgewählt und vorgestellt. Diese Texte sollen sich in ihrer Abweichung von der deutschen
Standardvarietät möglichst stark unterscheiden, um eine breite Fläche an möglichen "Stolpersteinen" für die Tagger zu bieten. Anschließend erfolgt die Annotation der ausgewählten Texte mit den ausgewählten Taggern und schließlich eine Auswertung der resultierenden annotierten Token. Zum Schluss werden die Ergebnisse noch einmal kurz zusammengefasst.
Inhaltsverzeichnis
1 Einleitung
2 Methodik
2.1 Zum aktuellen Forschungsstand
2.2 Die verwendeten PoS- Tagger
2.3 Auswahl der Texte
2.3.1 Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt
2.3.2 Heinrich Heine - Lore-Ley
2.3.3 Arthur Schnitzler - Lieutenant Gustl (Ausschnitt)
2.3.4 "Erlebnis im Zug"
3 PoS-Tagging und Vergleich der Ergebnisse
3.1 Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt
3.2 Heinrich Heine - Lore-Ley
3.3 Arthur Schnitzler - Lieutenant Gustl (Ausschnitt)
3.4 "Erlebnis im Zug"
4 Zusammenfassung der Ergebnisse und Problemursachen
5 Schluss
Zielsetzung & Themen
Die vorliegende Arbeit untersucht die Leistungsfähigkeit und Fehlerquellen von automatischen Part-of-Speech-Taggern bei der Annotation von deutschen Texten. Dabei liegt der Fokus auf der Analyse, wie unterschiedliche Textarten – von journalistisch beeinflussten Beiträgen bis hin zu literarischen Texten – die Annotation beeinflussen und welche spezifischen Probleme (z. B. Rechtschreibfehler, unübliche Syntax oder Namenserkennung) dabei auftreten.
- Vergleich von automatischen Tagger-Systemen (Stanford Tagger & TreeTagger)
- Analyse von Abweichungen bei der Annotation von Nicht-Standard-Texten
- Untersuchung von Fehlerquellen bei der Wortartenbestimmung
- Evaluation des Einflusses von Tokenisierung und Textvorbereitung
Auszug aus dem Buch
3.4 "Erlebnis im Zug"
Auch der letzte Text dieser Studie bringt für viele Token unterschiedliche Tags hervor.
Insbesondere die Häufung bei der Zuordnung von "normalen Nomen" und "Eigennamen" - sowohl NN zu NE, als auch NE zu NN - fällt hier auf. Betrachtet man die entsprechenden Token, so fällt auf, dass hier viele verschiedene Gründe vorliegen können. Einige als NE getagte Wörter lassen sich wahrscheinlich darauf zurückführen, dass der Tagger das Lemma nicht kennt; für den Stanford Tagger etwa die Wörter "Schaffner", "Code", "Abteil" und "Kampfgetümmel". Der TreeTagger dagegen taggte u.a. die Wörter "QR" (gemeint ist "QR-Code"), "VHS" und "Handy" als Eigennamen. Während sich diese Fehler auf unbekannte Lemmata zurückführen lassen, so gibt es auch den umgekehrten Fall, dass ein Token als ein bestimmtes Lemma erkannt wird, das aber innerhalb des Textes nicht gemeint ist. So erkennt der TreeTagger Omer als einen Namen - etwa Vorname oder Nachname - und taggt dieses Wort entsprechend als Eigenname. Gemeint ist hier aber "(die) Oma". Um solche Fehler zu vermeiden ist also eine Korrektur der Texte vor der Tokenisierung notwendig.
Zusammenfassung der Kapitel
1 Einleitung: Die Arbeit definiert die Rolle automatischer Tagger für große Textkorpora und steckt das Ziel ab, die Fehleranfälligkeit bei der Annotation von Nicht-Standard-Texten zu untersuchen.
2 Methodik: Es werden die eingesetzten Tagger (TreeTagger und Stanford Tagger) vorgestellt und die Auswahlkriterien für die zu untersuchenden Textproben dargelegt.
3 PoS-Tagging und Vergleich der Ergebnisse: Die Ergebnisse der Annotation für die vier ausgewählten Texte werden gegenübergestellt und Abweichungen in der Wortartenzuordnung detailliert analysiert.
4 Zusammenfassung der Ergebnisse und Problemursachen: Die Arbeit zieht Bilanz über die Herausforderungen des Taggings und betont die Notwendigkeit von Pre- und Postprocessing.
5 Schluss: Es wird festgehalten, dass automatische Annotation keine manuelle Arbeit ersetzt, sondern die Bedeutung einer sorgfältigen Vorbereitung und Kenntnis der Systemschwächen hervorhebt.
Schlüsselwörter
Part-of-Speech-Tagging, PoS-Tagger, TreeTagger, Stanford Tagger, automatische Annotation, Korpuslinguistik, Wortarten, Eigennamen, Tokenisierung, Fehlerquellen, deutsche Sprache, Textkorpora, linguistische Datenverarbeitung, Annotation, Lemmatisierung
Häufig gestellte Fragen
Worum geht es in dieser wissenschaftlichen Arbeit grundlegend?
Die Arbeit analysiert die Genauigkeit und die Fehlermöglichkeiten von automatischen Wortartentaggern bei der Bearbeitung verschiedener deutscher Textsorten.
Welche zentralen Themenfelder werden bearbeitet?
Im Zentrum stehen die automatische Textannotation, der Vergleich gängiger Tagger-Tools sowie die Identifikation von Problemen bei der linguistischen Analyse von Texten, die nicht dem Standard entsprechen.
Was ist die zentrale Forschungsfrage der Untersuchung?
Die Forschungsfrage konzentriert sich darauf, welche spezifischen Probleme durch sprachliche Besonderheiten in unterschiedlichen Textarten bei der automatischen Annotation auftreten und wie sich diese auf die Fehlerraten der Tagger auswirken.
Welche wissenschaftliche Methode wird zur Untersuchung verwendet?
Die Studie nutzt einen vergleichenden Ansatz: Vier verschiedene Texte werden mit zwei unterschiedlichen Taggern (Stanford Tagger und TreeTagger) annotiert, um anschließend die Diskrepanzen in den Ergebnissen systematisch auszuwerten.
Was deckt der Hauptteil der Arbeit ab?
Der Hauptteil widmet sich der detaillierten Gegenüberstellung der Tagger-Ergebnisse für die ausgewählten Texte, darunter ein Forumsbeitrag, Literatur von Heine und Schnitzler sowie eine umgangssprachliche Erzählung.
Welche Schlüsselwörter charakterisieren die Untersuchung am besten?
Zu den wichtigsten Begriffen zählen PoS-Tagging, automatische Annotation, Fehlerquellen, Textkorpora und die linguistische Analyse deutscher Sprachvarianten.
Warum spielt die Textvorbereitung eine entscheidende Rolle für die Tagger-Ergebnisse?
Die Arbeit zeigt auf, dass Rechtschreibfehler, ungewöhnliche Zeichensetzung oder eine nicht standardkonforme Tokenisierung die automatische Zuweisung von Wortarten durch die Tagger massiv stören können.
Welche Schlussfolgerung zieht der Autor in Bezug auf die Zukunft automatischer Annotation?
Der Autor schließt, dass automatische Annotationen zwar hilfreich sind, aber niemals die manuelle Qualitätskontrolle vollständig ersetzen können, da ein Verständnis für die spezifischen Systemschwächen notwendig bleibt.
- Arbeit zitieren
- Jascha Daniló Jung (Autor:in), 2017, Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten, München, GRIN Verlag, https://www.grin.com/document/433475