Viele Kinder lernen es wahrscheinlich schon in der Grundschule: Mit bunten Farben werden die verschiedenen Wortarten in einem Satz unterstrichen. Das klingt eigentlich ganz einfach, doch für den Computer ist es nicht so leicht, Texte zu lesen und zu verstehen wie für den Menschen.
Es bedarf zunächst einer syntaktischen Analyse, damit er wenigstens teilweise an diese Fähigkeit heranreicht und nach „Verstehen“ der Grammatik mit bestimmten Methoden auch Inhalte verstehen kann, wie z.B. auch Inhalte aus dem Internet.
Das Internet nimmt einen immer größeren Raum in unserer Gesellschaft ein. Alle möglichen wichtigen und unwichtigen Informationen sind dort öffentlich zugänglich. Um diese Informationen maschinell herauszulesen und zu filtern, ist es oft ein grundlegender Vorverarbeitungsschritt, in einem Satz zu jedem Wort die richtige Wortkategorie zuzuordnen, was Part-of-Speech-Tagging (POS-Tagging) genannt wird. Mit den gewonnen Informationen aus den Annotationen können Maschinen leichter die Bedeutung eines Satzes erfassen oder in eine andere Sprache übersetzen.
Automatisches Part-of-Speech Tagging ermöglicht genau diese Zuordnung maschinell. Häufig wird Part-of-Speech-Tagging als „solved task“ bezeichnet, da die Exaktheit bis zu 98% beträgt. Allerdings muss man dabei berücksichtigen, dass bei diesen hohen Treffgenauigkeiten ausschließlich Zeitungstexte oder in ähnlicher Sprache geschriebenen Texte betrachtet wurden, die in der Regel formgerecht und fehlerfrei sind.
Andere Textarten wie z.B. Texte in Umgangssprache erreichen deutlich geringere Genauigkeiten. Besonders im Internet finden sich viele unterschiedliche Textgattungen, dazu kommen u.a. eine Menge Rechtschreibfehler, grammatikalisch nicht korrekte Sätze, untypische Wortverwendungen oder Dialekte.
Es macht in der heutigen Zeit, die sich immer mehr um das Internet dreht, auf jeden Fall Sinn, das Taggen möglichst diesen Bedingungen anzupassen, um selbst bei umgangssprachlichen oder nicht ganz korrekten Sätzen eine möglichst hohe Fehlerfreiheit gewährleisten zu können.
In dieser Arbeit geht es um mögliche Ansätze zur Verbesserung des POS-Tagging in Web-Texten. Dafür wird in Abschnitt 2 zuerst POS-Tagging allgemein vorgestellt, in Abschnitt 3 die Probleme, die bei Web-Texten auftreten, aufgezeigt und in Abschnitt 4 mögliche Lösungsansätze vorgestellt. Im letzten Abschnitt wird dann noch das Ergebnis zusammengefasst und ein Ausblick auf das weitere Vorgehen gegeben.
Inhaltsverzeichnis
- Einleitung
- Part-of-Speech (POS) Tagging
- Was ist POS-Tagging?
- Wie funktioniert POS-Tagging?
- Wofür braucht man POS-Tagging?
- Probleme bei Web-Texten
- Auswertung von POS-Tagging im Internet anhand eines Experiments
- Die Ursachen
- Verbesserungsansätze und Anpassungen
- Fehler aus unbekannten Wörtern verringern
- Aktives Lernen
- Domänen Anpassung
- Fehler entdecken und korrigieren
- Ergebnis und weiterer Ausblick
Zielsetzung und Themenschwerpunkte
Diese Arbeit untersucht die Herausforderungen und Möglichkeiten der Verbesserung von Part-of-Speech-Tagging (POS-Tagging) im Kontext von Web-Texten. Sie analysiert die spezifischen Probleme, die durch die heterogene Natur von Web-Texten entstehen, und stellt verschiedene Ansätze vor, um die Genauigkeit und Effizienz von POS-Tagging in diesem Bereich zu steigern.
- Herausforderungen des POS-Tagging in Web-Texten
- Mögliche Lösungsansätze zur Verbesserung der Tagging-Genauigkeit
- Die Bedeutung von Domänenanpassung und aktivem Lernen
- Analyse von Fehlerquellen und -korrekturmethoden
- Ausblick auf zukünftige Forschungsrichtungen im Bereich des POS-Tagging für Web-Texte
Zusammenfassung der Kapitel
Die Einleitung führt in die Thematik des POS-Tagging ein und erläutert dessen Bedeutung für die Verarbeitung von Texten im Internet. Kapitel 2 stellt das POS-Tagging allgemein vor, beleuchtet die Funktionsweise und die verschiedenen Tagsets. Kapitel 3 fokussiert auf die spezifischen Probleme, die beim POS-Tagging von Web-Texten auftreten, und analysiert die Ursachen dieser Schwierigkeiten anhand eines Experiments. Kapitel 4 präsentiert verschiedene Lösungsansätze und Anpassungen, um die Genauigkeit des POS-Tagging in Web-Texten zu verbessern. Hier werden Methoden wie die Reduzierung von Fehlern aus unbekannten Wörtern, aktives Lernen, Domänenanpassung und Fehlerkorrektur vorgestellt. Das letzte Kapitel fasst die Ergebnisse der Arbeit zusammen und gibt einen Ausblick auf zukünftige Forschungsrichtungen.
Schlüsselwörter
Part-of-Speech-Tagging, Web-Texte, POS-Tagger, Domänenanpassung, aktives Lernen, Fehlerkorrektur, Mehrdeutigkeit, Trainingskorpus, Wortarten, Lexikoneintrag, Satzanalyse, syntaktische Analyse, semantische Analyse, Wortkategorie, Annotation.
- Quote paper
- Anonym (Author), 2012, Sprache und Semantik. Part-of-Speech-Tagging angewendet auf Web-Texte, Munich, GRIN Verlag, https://www.grin.com/document/300840