1 Einleitung
Die automatische Disambiguierung von Wortbedeutungen, im folgenden WSD (Word Sense Disambiguierung) genannt, ist ein aktuelles Forschungsthema, das sich mit der „Entmehrdeutung“ von Wörtern innerhalb eines Textes beschäftigt.
Anwendungsgebiete dieses Prozesses, der jedem Wort den entsprechenden Sinn zuordnen soll, sind mitunter die Übersetzung von Texten sowie das Verstehen einer Sprache.[1] Innerhalb eines Dokumentes können homonyme Wörter [2], wie „Bank“, „Schloss“ oder „Stock“ und polyseme Wörter [2] und Wortgruppen wie „das sagt mir nichts“ oder „er sagt mir etwas“ auftreten. Diese Wörter besitzen 2 oder mehr Bedeutungen und können sogar unterschiedlichen Wortarten angehören. So steht „Bank“ auf der einen Seite für die „Sitzgelegenheit“, auf der anderen Seite für die „Institution“.
Die Aufgabe der WSD ist es, die jeweils richt ige Bedeutung dem entsprechenden Wort zuzuweisen. Im Laufe der Entwicklung der WSD wurden verschiedene Verfahren entwickelt, um eine möglichst hohe Rate korrekter Bedeutungszuordnungen zu erzielen. Werkzeuge der Disambiguierung bilden die „Part-of-Speech Tagger“[2] und integrierte Wörterbücher [3].
2 Integrierte Wörterbücher und Homographen
Integrierten Wörterbücher sind eine Grundlage der WSD. Jedem
Disambiguierungsalgorithmus liegt ein solches Bedeutungswörterbuch zugrunde. Die Wörterbücher selbst unterscheiden sich in der Anzahl der gespeicherten Wörter, der Sprache(n) und in den angelegten Homographen [2]. So sind einige fähig zwischen den Sprachen, also multilingual, zu arbeiten, andere hingegen nicht.
Die Wahl des Wörterbuches kann somit die Leis tungsfähigkeit eines Programms zur Disambiguierung von Wortbedeutungen mitbestimmen. Im Folgenden werden das LDOCE, ULTRA und WordNet näher erklärt:
- 2 -
LDOCE (Longman Dictionary of Contemporary English). Das LDOCE ist ein vollständiges Englischwörterbuch, was ursprünglich für Studenten geschrieben wurde. [2]
Es besteht aus 41.000 Hauptwörtern, die in Termen mit 72.000 Wortbedeutungen definiert sind. Neben diesen Eigenschaften enthält das LDOCE außerdem grammatikalische Kategorien und Unterkategorien, die eine Disambiguierung erleichtern sollen. [3]
ULTRA (Universal Language Translator). Das ULTRA ist ein multilinguales System, welches dazu in der Lage ist auch zwischen verschiedenen Sprachen (Englisch, Chinesisch, Deutsch, Japanisch und Spanisch) zu übersetzen. Das ULTRA enthält demzufolge 2 verschiedene Lexikas. Eines, welches zwischen den Sprachen die entsprechend übersetzten Worte disambiguiert und eines, welches in der gleichen Sprache einem Wort oder einer Wortgruppe die entsprechende Bedeutung zuordnet. [3]
WordNet. Das WordNet ist eine sehr große Wissensbasis, die englische Verben, Substantive und Adjektive enthält, die ebenfalls in einer Form von Homographen angeordnet sind. Die Homographen werden je nach Häufigkeit im SemCor einsortiert, damit die Disambiguierung leichter fällt. Das WordNet ist dem LDOCE sehr ähnlich. [4]
Auf einem Homographen werden die möglichen Bedeutungen eines Wortes zusammengefasst. Nach Wilks und Stevenson [2] besitzt das Wort „Bank“ bspw. Folgende 5 Bedeutungen auf einem Homo graphen (zusätzlich zu den 2 bereits genannten).
1 Land entlang der Seite eines Flusses, Sees, etc.
2 Erde, die zu einem Haufen aufgetürmt wird, oftmals zur Ziehung einer Grenze 3 Eine Ansammlung von Wolken, Schlamm, Schnee, etc. 4 Absperrungen einer Rennstrecke, um diese für Fahrer sicherer zu machen 5 Sandbank
Es hängt von dem entsprechenden Programmalgorithmus ab, welche dieser Bedeutungen nun dem Wort „Bank“ zugewiesen wird.
- 3 -
3 Word Sense Tagger
Die „Word Sense Tagger” haben, formal gesehen, die Aufgabe Wörter in einem Text zu markieren, die noch nicht disambiguiert sind [2]. Welche Wörter dabei markiert werden sollen, stellt ein aktuelles Problem der WSD dar.
Es kommt auf das entsprechende Selektionskriterium an, welche Wörter aus einem Text als noch nicht disambiguiert angesehen werden [1]. Das können offene Klassenwörter sein, wie Verben, Substantive und Adjektive. Es kann aber auch eine begrenzte Anzahl an Wörtern in einem Satz oder Text sein.
Findet der „Word Sense Tagger“ ein entsprechendes Wort, so versucht er dieses Wort zuerst einem oder mehreren Homographen zuzuordnen, die in dem integrierten Wörterbuch enthalten sind. Abhängig vom Algorithmus wird eine der Bedeutungen, die auf dem Homographen liegen, dem Wort zugeordnet.
4 Probleme der WSD
Das Tagging-Problem. Es gibt verschiedene „Word Sense“ Tagger, die unterschiedliche Wörter bzw. Teile des Textes Markieren. Es ist ein Problem, welche Wörter der entsprechende Tagger nun als noch nicht disambiguiert markieren soll [2]. Da die Bedeutung eines Wortes mitunter von ihrem Kontext abhängig ist, ist es nicht möglich, dass alle Wörter in einem Text als „mehrdeutig“ deklariert werden. Es ist also erforderlich, dass bestimmte Wörter als eindeutig vorausgesetzt werden. Welche sollen das sein? Die Wahl der Selektionskriterien ist demnach entscheidend.
Wahl des Bedeutungswörterbuches. Es gibt viele integrierbare Lexikas neben dem LDOCE und dem WordNet. Diese beiden Wörterbücher sind monolingual. Für
Übersetzungsprogramme ist es jedoch notwendig e in multilinguales oder zumindest bilinguales Wörterbuch zu benutzen.
- 4 -
Quote paper:
Susanne Matthäs, 2003, Automatische Disambiguierung von Wortbedeutungen, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Das Phänomen der männlichen Eifersucht bei Max Frisch
German Studies - Modern German Literature
Scholarly Paper (Advanced Seminar), 35 Pages
Die Darstellung der Weiblichkeit in den Werken Max Frischs. Rollen und...
German Studies - Modern German Literature
Termpaper, 20 Pages
Neurolinguistische Grundlagen des Zweitspracherwerbs in der frühen Kin...
German - German as a Foreign Language / Second Language
Scholarly Paper (Advanced Seminar), 21 Pages
Die Faktoren der Satzgliedabfolge im Mittelfeld
German - German as a Foreign Language / Second Language
Intermediate Examination Paper, 22 Pages
Empirische Beobachtungen und p...
German - German as a Foreign Language / Second Language
Scholary Paper (Seminar), 22 Pages
Susanne Matthäs has published the text Automatische Disambiguierung von Wortbedeutungen
Susanne Matthäs has uploaded a new text
Proseminar II. Neues Testament - Kirchengeschichte
Martin Meiser, Uwe Kühneweg, Rudolf Leeb, Petra von Gemünden, Thomas Schmeller
Siegfried Kreuzer, Dieter Vieweger, Friedhelm Hartenstein, Jutta Hausmann, Wilhelm Pratscher
Informationserschließung und Automatisches Indexieren
Ein Lehr- und Arbeitsbuch
Winfried Gödert, Matthias Nagelschmidt, Klaus Lepsky
Handbuch der Automatischen Identifikation 3. Strichcode-Praxis
Projektierung, Codeauswahl, Dr...
Bernhard Lenk
0 comments