Grin logo
en de es fr
Shop
GRIN Website
Texte veröffentlichen, Rundum-Service genießen
Zur Shop-Startseite › Germanistik - Linguistik

Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten

Titel: Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten

Hausarbeit (Hauptseminar) , 2017 , 25 Seiten , Note: 1,7

Autor:in: Jascha Daniló Jung (Autor:in)

Germanistik - Linguistik
Leseprobe & Details   Blick ins Buch
Zusammenfassung Leseprobe Details

Automatische Tagger spielen eine wichtige Rolle bei der Bearbeitung großer Textkorpora. Ohne sie wäre es nicht möglich große Textmengen in kurzen Zeiträumen mit bestimmten linguistischen Merkmalen zu annotieren und somit für die weitere Bearbeitung zugänglich zu machen. Viele dieser Tagger sind als Open-Source Software verfügbar.

Das Ziel dieser Arbeit ist es, einen Vergleich zwei solcher Tagger durchzuführen, indem sie auf unterschiedliche deutsche Texte angewandt werden, die von der deutschen Standardvarietät in kleinem bis großem Umfang abweichen. Anschließend können die Textstellen betrachtet werden, bei denen die Tagger unterschiedliche Annotationen erzeugen. Der Fokus liegt dabei auf der Frage, welche Probleme durch die Besonderheiten der deutschen Sprache und seiner Varietäten bei den hier verwendeten Taggern beispielhaft auftreten und den daraus resultierenden falschen oder ambigen Annotationen.

Der Aufbau der Arbeit gliedert sich wie folgt: Zunächst werden im Abschnitt 'Methodik' – nach einem kurzen Überblick über den aktuellen Forschungsstand - die verwendeten Part-of-Speech-Tagger (PoS-Tagger) vorgestellt. Anschließend werden deutsche Texte für den Test der Tagger ausgewählt und vorgestellt. Diese Texte sollen sich in ihrer Abweichung von der deutschen
Standardvarietät möglichst stark unterscheiden, um eine breite Fläche an möglichen "Stolpersteinen" für die Tagger zu bieten. Anschließend erfolgt die Annotation der ausgewählten Texte mit den ausgewählten Taggern und schließlich eine Auswertung der resultierenden annotierten Token. Zum Schluss werden die Ergebnisse noch einmal kurz zusammengefasst.

Leseprobe


Inhaltsverzeichnis

  • Einleitung
  • Methodik
    • Zum aktuellen Forschungsstand
    • Die verwendeten PoS-Tagger
    • Auswahl der Texte
      • Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt
      • Heinrich Heine – Lore-Ley
      • Arthur Schnitzler - Lieutenant Gustl (Ausschnitt)
      • "Erlebnis im Zug"
  • POS-Tagging und Vergleich der Ergebnisse
    • Forumsbeitrag eines Fans des Fußballvereins Eintracht Frankfurt
    • Heinrich Heine - Lore-Ley
    • Arthur Schnitzler - Lieutenant Gustl (Ausschnitt)
    • "Erlebnis im Zug"
  • Zusammenfassung der Ergebnisse und Problemursachen
  • Schluss

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit der Evaluation von zwei automatischen Part-of-Speech-Taggern (PoS-Tagger) im Deutschen. Ziel ist es, die Leistungsfähigkeit der Tagger im Umgang mit verschiedenen Textarten zu testen, die von der Standardvarietät des Deutschen abweichen. Dabei liegt der Fokus auf der Identifizierung und Analyse von Fehlerquellen, die durch die Besonderheiten der deutschen Sprache und ihrer Varietäten entstehen.

  • Vergleich von zwei PoS-Taggern für verschiedene deutsche Texte
  • Analyse von Fehlerquellen im PoS-Tagging
  • Untersuchung der Auswirkungen von Sprachvariation auf die Tagger-Performance
  • Beispiele für problematische Textstellen
  • Zusammenfassende Darstellung der Ergebnisse

Zusammenfassung der Kapitel

Die Einleitung gibt einen kurzen Überblick über die Bedeutung automatischer PoS-Tagger und die Ziele der Arbeit. Kapitel 2, "Methodik", stellt die verwendeten PoS-Tagger und die ausgewählten deutschen Texte vor, die sich in ihrer Abweichung vom Standarddeutschen unterscheiden. Es werden auch die Ergebnisse des Vergleichs der Tagger in Bezug auf die getesteten Texte zusammengefasst. Das dritte Kapitel, "POS-Tagging und Vergleich der Ergebnisse", präsentiert die Ergebnisse des Taggings der ausgewählten Texte und analysiert die Fehlerquellen, die durch die Besonderheiten der deutschen Sprache und ihrer Varietäten entstehen.

Schlüsselwörter

Part-of-Speech-Tagging, PoS-Tagger, Deutsches Standarddeutsch, Sprachvariation, Fehlerquellen, TreeTagger, Stanford Log-linear Part-Of-Speech Tagger, Stuttgart-Tübingen-Tagset.

Ende der Leseprobe aus 25 Seiten  - nach oben

Details

Titel
Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten
Hochschule
Technische Universität Darmstadt  (Institut für Sprach- und Literaturwissenschaft)
Veranstaltung
Forschungsthemen der Korpus- und Computerlinguistik - computervermittelte Interaktion (DH)
Note
1,7
Autor
Jascha Daniló Jung (Autor:in)
Erscheinungsjahr
2017
Seiten
25
Katalognummer
V433475
ISBN (eBook)
9783668754065
ISBN (Buch)
9783668754072
Sprache
Deutsch
Schlagworte
Computerlinguistik POS Tagging Stanford POS
Produktsicherheit
GRIN Publishing GmbH
Arbeit zitieren
Jascha Daniló Jung (Autor:in), 2017, Fehlerquellen beim Part-of-speech-Tagging am Beispiel verschiedener Textarten, München, GRIN Verlag, https://www.grin.com/document/433475
Blick ins Buch
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
  • Wenn Sie diese Meldung sehen, konnt das Bild nicht geladen und dargestellt werden.
Leseprobe aus  25  Seiten
Grin logo
  • Grin.com
  • Zahlung & Versand
  • Impressum
  • Datenschutz
  • AGB
  • Impressum