Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur


Masterarbeit, 2006
109 Seiten, Note: 1

Leseprobe

Inhaltsverzeichnis

1 Einleitung
1.1 Motivation
1.2 Aufgabenstellung
1.3 Vorgehensweise und Struktur der Arbeit

2 Information Retrieval
2.1 Einführung und Definition des Information Retrieval
2.2 Struktur und Funktionsweise eines Information-Retrieval-Systems
2.3 Beurteilung von IR-Systemen
2.4 Gewinnung von Indextermen
2.5 Das Vektorraummodell
2.6 Auflösen von Mehrdeutigkeiten
2.7 Thesauren

3 Cross-language Information Retrieval
3.1 Einführung und Definition des Cross-language Information Retrieval
3.2 Architekturen von CLIR-Systemen
3.3 Auflösen von Mehrdeutigkeiten im CLIR
3.4 Interlingual Retrieval
3.5 Erkennung der Sprache eines Textes mit n -Grammen

4 Serviceorientierte Architekturen
4.1 Einordnung der serviceorientierten Architektur
4.2 Elemente einer serviceorientierten Architektur
4.3 Merkmale einer serviceorientierten Architektur
4.4 Web Services

5 Anforderungen und Entwurf des Systems
5.1 Vorbedingungen und Anforderungen an das System
5.2 Systemarchitektur und Systementwurf
5.3 1. Phase: Entwurf der Interlingua-Wörterbücher und Konzepterkennung
5.4 2. Phase: Entwurf des Indexierungsprozesses
5.5 3. Phase: Entwurf des Suchprozesses
5.6 Abschließender Systemüberblick

6 Verwendete Methoden und Werkzeuge
6.1 Allgemeine Werkzeuge
6.2 Apache Lucene
6.3 Lucene Erweiterungen und sonstige Werkzeuge

7 Implementierung der Suchanwendung
7.1 Allgemeines über das entwickelte System
7.2 Nutzung des Systems
7.3 Implementierung der Interlingua-Wörterbücher undÜbersetzung
7.4 Implementierung der Indexierung
7.5 Implementierung der Suche als Webseite
7.6 Implementierung der Suche als Web Service
7.7 Beispielanfragen an die Suchanwendung
7.8 Überblick über die Projektdateien

8 Bewertung des Systems und mögliche Erweiterungen
8.1 Das Interlingua-Konzept
8.2 Bewertung der Indexierung
8.3 Bewertung der Suche

9 Zusammenfassung und Ausblick

Abkürzungsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Literaturverzeichnis

1 Einleitung

1.1 Motivation

1.1.1 Entwicklung der Sprachanteile im Internet

Durch die schnelle Verbreitung des Internets in den letzten zehn Jahren ist ein Zustand eingetreten, in dem annähernd der gesamten Welt ein normiertes, digitales Kommunikati- onsmedium zur Verfügung steht. Standards wie etwa TCP/IP, HTTP und HTML sorgen für einen weltweit vereinheitlichten Datenaustausch - sei es in Form von Webseiten, E- Mails oder multimedialen Datenströmen. Es hat sich eine allgemein akzeptierte Technologie etabliert, die einen grenzüberschreitenden Nachrichten- und Datenaustausch ermöglicht.

Trotz aller Bemühungen, die internationale und interkulturelle Kommunikation zu ver- einfachen, kann das Internet (zur Zeit) nicht mehr sein als ein Medium, das zuverlässig und schnell Daten überträgt, jedoch die Bedeutung dieser Daten in den seltensten Fällen inter- pretieren kann. Unter dem Namen Web 2.0 oder Semantic Web wurden bereits Entwicklun- gen vorgestellt, bei denen die im Internet publizierten Informationen durch entsprechende Beschreibungsmethoden mit Bedeutungen versehen werden. Eine starke Verbreitung dieser neuen Nutzungsmöglichkeiten hat bisher allerdings noch nicht eingesetzt.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1.1: Sprachverteilung der Internet-Webseiten von 1997 und 2002.

Quellen: Daten für das Jahr 1997: [Ali97]. Daten für das Jahr 2002: [Ebb02].

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1.1: Die Top 10 Muttersprachen der Internetbenutzer. Stand: 31. März 2006. Quelle: [Min06a].

Die den Internetdaten fehlende Semantik ist auch Grund dafür, dass das Internet unter sprachwissenschaftlichen Aspekten noch in den Kinderschuhen steckt. Die Tatsache, dass weltweit unterschiedlichste Gruppen die Entwicklung des Internets vorangetrieben haben (und heute noch vorantreiben), führte zwar dazu, dass jede Sprache und eventuelle Dialekte vom Internet unterstützt und digital repräsentiert werden können, änderte aber nichts daran, dass sich die Inhalte nur denjenigen erschließen, die der entsprechenden Sprache mächtig sind. Das Internet kann zur Zeit die Verständigung in verschiedenen Sprachen genauso wenig vereinfachen wie die Erfindung des Telefons den Beruf des Dolmetschers überflüssig machte. Die Sprachbarriere ist also nach wie vor im Internet vorhanden und obwohl es unbestritten Fortschritte auf dem Gebiet der maschinellen Übersetzung zu verzeichnen gibt, sind immer noch keine ausgereiften Technologien entstanden, die eine sprachtransparente Nutzung des Internets ermöglichen.

Das Forschungsgebiet des Cross-language Retrievals verfolgt eine Vorstufe dieses Ideals. Ziel ist nicht die vollständigeÜbersetzung des Internets in alle gewünschten Sprachen, sondern das Suchen und Finden von Dokumenten, die in einer anderen Sprache verfasst sind als die Suchanfrage. Viele Schwierigkeiten der maschinellen Übersetzung, wie z. B. syntaktische Umbauten sowie Ergänzung und Entfernung von Wörtern, sind im Cross-language Retrieval nicht vorhanden, da ein Text bezüglich einer Anfrage nur als relevant oder nicht relevant eingestuft werden muss. Für diese Klassifizierung sind nur punktuelleÜbersetzungen notwendig. Freilich ist dieser Ansatz nur für Personen interessant, die einerseits zwar keine fremdsprachliche Suchanfragen formulieren, andererseits aber durchaus ein in der Fremdsprache geschriebenes Dokument lesen und verstehen können.

Abbildung 1.1 zeigt, dass die Weltsprache Englisch in den Anfängen des Internets 1997 mit einem Anteil von 84 % eindeutig die dominierende Sprache von Webseiten war. Bereits 2002 hatte sich dieses Bild verändert: Der Anteil von in anderen Sprachen verfassten Webseiten hatte stark zugenommen und Englisch war nur noch mit 56,4 % vertreten.

Dass diese Verteilung im Netz jedoch immer noch nicht der Sprachverteilung in der Wirk- lichkeit entspricht, wird bei Betrachtung der Tabellen 1.1 und 1.2 deutlich. In Tabelle 1.1 ist ersichtlich, dass lediglich 30 % der Internetnutzer Englisch als Muttersprache sprechen.

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1.2: Die Top 10 Länder mit den meisten Internetbenutzern. Stand: 31. März 2006. Quelle: [Min06b].

An zweiter und dritter Stelle stehen bereits die fernöstlichen Sprachen Chinesisch (13,0 %) und Japanisch (8,5 %), dann erst sind Spanisch, Deutsch und Französisch vertreten. In Tabelle 1.2 werden die Top 10 Länder mit den meisten Internetbenutzern aufgeführt. Auch dort stehen China und Japan bereits an zweiter und dritter Stelle. Es ist damit zu rechnen, dass sich die Sprachverteilung des Internets weiterhin an die realen Gegebenheiten annähern wird. Durch die wachsende digitale Sprachvielfalt werden daher die maschinelle Übersetzung und das Cross-language Retrieval noch stärker in den Mittelpunkt des Internets rücken.

1.1.2 Moderne Systementwicklung

Für die Entwicklung von IT-Systemen müssen immer komplexere Sachverhalte beschrieben, modelliert und programmiert werden. Dadurch sind stets neue Programmierkonzepte ent- standen, die sich für die zunehmende Komplexität von Projekten eignen. Momentaner Stand der Technik sind die serviceorientierten Architekturen, die auf dem Prinzip beruhen, dass ein Dienst von einem Dienstbetreiber für einen Dienstnutzer zur Verfügung gestellt wird. Die Nutzung eines Dienstes findet dynamisch zur Laufzeit des Programms statt, wobei der Dienstnutzer ggf. zwischen mehreren, funktional gleichen Diensten wählen kann. Ein Dienst wird in einer standardisierten Form beschrieben und kann plattformübergreifend genutzt werden, wodurch eine problemlose Maschine-zu-Maschine-Kommunikation ermöglicht wer- den soll. Die Implementierung des Dienstes kann in einer beliebigen Programmiersprache erfolgen.

Populäre Internetangebote wie Google und Amazon sind bereits als Web Service verfügbar und können somit von anderen Programmen genutzt werden.

1.2 Aufgabenstellung

Ziel dieser Arbeit ist die Prototypentwicklung einer sprachübergreifenden Suchmaschine. Dazu soll eine geeignete Architektur ausgewählt und implementiert werden. Das System indexiert Dokumente ohne Benutzerinteraktion und stellt die notwendigen Datenstrukturen bereit. Dabei wird die Sprache eines Dokuments automatisiert erkannt und als Metainformation in den Index eingetragen. Außerdem sollen aktuelle, sprachspezifische Analysetechniken auf die Texte angewendet werden, um die Retrievaleffizienz zu steigern.

Die zu indexierenden Dokumente stammen aus einem abgegrenztem Themengebiet, das durch eine überschaubare Menge an Vokabeln ausgezeichnet ist. Diese Einschränkung ermöglicht die eigene Erstellung eines Wörterbuchs, das durch geeignete Kontextinformationen die korrekte Übersetzung mehrdeutiger Wörter ermöglicht.

Das Durchsuchen des Dokumentbestandes kann sowohl durch die Nutzung einer zu er- stellenden Weboberfläche erfolgen, als auch durch die Bereitstellung und Verwendung eines Web Services, wie er in aktuellen serviceorientierten Architekturen zu finden ist. Wie bei geläufigen Internetsuchmaschinen üblich, soll das System neben der Standardsuche auch die Suche nach exakten Phrasen unterstützen und in den Suchergebnissen Textauszüge der Trefferdokumente anzeigen.

Die gesamte Architektur soll daraufhin ausgerichtet sein, dass die Suchmaschine um zusätzliche Datenquellen, Dateiformate und Sprachen erweitert werden kann. Wie eingangs deutlich wurde, gewinnen auch zunehmend fernöstliche Sprachen an Bedeutung. Deshalb soll das System initial neben den Sprachen Deutsch und Englisch auch die Indexierung von japanischen Texten unterstützen. So wird gleichzeitig die Fähigkeit demonstriert, nichtlateinische Zeichensätze zu verarbeiten.

1.3 Vorgehensweise und Struktur der Arbeit

Zunächst werden im sich anschließenden Kapitel 2 die Grundlagen des Information Re- trievals vorgestellt. Neben der obligatorischen Definition und der generellen Funktionsweise von Information Retrieval Systemen werden insbesondere die Verarbeitung von Texten zur Gewinnung von Indextermen, das Vektorraummodell und der Umgang mit mehrdeutigen Wörtern behandelt.

Im 3. Kapitel werden diese Inhalte um den Aspekt der sprachübergreifenden Suche erwei- tert. Nach der Nennung von unterschiedlichen Architekturen wird ein Schwerpunkt auf das Interlingual Retrieval gelegt, das im zu entwickelnden System zum Einsatz kommen wird. Außerdem wird beschrieben, durch welches Verfahren die Sprache eines Textes zuverlässig erkannt werden kann.

Das 4. Kapitel beschäftigt sich mit den Grundlagen von serviceorientierten Architekturen (SOA). Nach einem Abriss der Historie von unterschiedlichen Programmierparadigmen wer- den die Funktionsweise und die Vorteile der serviceorientierten Architekturen erläutert. Als konkrete Implementierungstechnik einer SOA kommen zur Zeit hauptsächlich Web Services zum Einsatz, deren Kernkomponenten ebenfalls in diesem Kapitel kurz vorgestellt werden.

In dem darauf folgenden 5. Kapitel werden die Anforderungen festgelegt und der Entwurf des Systems beschrieben. Dabei werden drei wesentliche Phasen identifiziert:

1. Erstellung der Interlingua-Wörterbücher und Konzepterkennung
2. Indexierung
3. Suchen

Auf Basis des Entwurfes werden anschließend im 6. Kapitel die verwendeten Methoden und Werkzeuge präsentiert.

Kapitel 7 beschreibt die Implementierung der Anwendung. Nach einer kurzen Einführung in die konkrete Nutzung werden die Umsetzung der o. g. ersten beiden Phasen ”Suchen“in Gestaltder Weboberfläche und des Web sowie die Zugriffstechniken für die 3. Phase Services erläutert.

Eine kritische Würdigung des Systems, in der auch Erweiterungsmöglichkeiten genannt werden, erfolgt in Kapitel [8]. Die Zusammenfassung sowie ein Ausblick finden im schließenden Kapitel [9] statt.

2 Information Retrieval

In diesem Kapitel werden die Grundlagen des Information Retrievals vorgestellt. Nach der Definition des Begriffs wird der Aufbau und die Arbeitsweise eines Information-Retrieval- Systems erläutert. Anschließend wird kurz auf die Maße zur Beurteilung von IR-Systemen und die Analyse von Texten zur Gewinnung von Indextermen eingegangen. Da heutige Such- maschinen meist auf dem sogenannten Vektorraummodell basieren, werden dieses Modell und wichtige damit in Zusammenhang stehende Konzepte erklärt. Da das Synonymie- und das Polysemieproblem im Information Retrieval von Bedeutung sind, werden diese Proble- me erläutert und Techniken zum Umgang damit präsentiert. Abschließend wird auf Aufgabe und Form von Thesauren eingegangen.

2.1 Einführung und Definition des Information Retrieval

Information Retrieval (IR) ist ein Fachgebiet, das insbesondere seit der rasanten Verbrei- tung des Internets an Bedeutung gewonnen hat. Im WWW dient ein IR-System dazu, eine anhand von Suchbegriffen beschriebene Fragestellung entgegen zu nehmen und anschlie- ßend diesbezüglich relevante Internetseiten aufzulisten. IR-Systeme kommen aber auch in einer Vielzahl von (Wissens-)Datenbanken zum Einsatz, um das Auffinden von bestimmten Informationen zu erleichtern.

Für den Begriff des Information Retrieval existiert keine allgemein akzeptierte Definition. In [BYRN99] (S. 1) werden die Aufgaben und Ziele des IR wie folgt beschrieben:

Information Retrieval (IR) deals with the representation, storage, organization of, and access to information items. The representation and organization of the information items should provide the user with easy access to the information in which he is interested.

Anhand dieser Definition wird deutlich, dass für eine effektive Wiedergewinnung von In- formationen zunächst die Repräsentation, Verwaltung und Speicherung von Dokumenten zu behandeln sind. Anschließend kann dann - i. d. R. durch die Eingabe von Suchtermen - der eigentliche Suchvorgang durchgeführt werden. Eine Besonderheit des Information Re- trievals besteht darin, dass bei der Suche vage bzw. ungenaue Anfragen zu verarbeiten sind und meist natürlichsprachliche Dokumente gesucht werden. Diese Tatsache wird auch auf der Webseite der Fachgruppe ”Information Retrieval “inder Gesellschaft der Informatik betont ([Fuh96]):

Im Information Retrieval (IR) werden Informationssysteme in bezug auf ihre Rolle im Prozess des Wissenstransfers vom menschlichen Wissensproduzenten zum Informations-Nachfragenden betrachtet. Die Fachgruppe ” InformationRe- trieval “ in der Gesellschaft für Informatik beschäftigt sich dabei schwerpunktmä-ßig mit jenen Fragestellungen, die im Zusammenhang mit vagen Anfragen und unsicherem Wissen entstehen. Vage Anfragen sind dadurch gekennzeichnet, daßdie Antwort a priori nicht eindeutig definiert ist. [...]

Demnach prägen insbesondere die Vagheit und die Unsicherheit das Information Retrieval. Der Begriff Vagheit ist in der Definition der Fachgruppe ”InformationRetrieval“dabeietwas missverständlich beschrieben. Er ist vielmehr als das Problem zu verstehen, dass der Be- nutzer sein Informationsbedürfnis nicht präzise darstellen kann. Das zeigt sich auch anhand der Tatsache, dass mehrere Benutzer die gleiche Fragestellung oft mit unterschiedlichen Anfragen beschreiben. Die Unsicherheit des IR besteht darin, dass das System bestimmte Kenntnisse über die Inhalte der Dokumente (z. B. die exakte Bedeutung eines mehrdeutigen Wortes) nicht besitzt, was zu fehlerhaften und fehlenden Antworten führen kann.

Reginald Ferber stellt in [Fer[03]] (S. [30]) außerdem fest, dass im Information Retrieval auch Aspekte der Wissensverarbeitung des Menschen zu berücksichtigen sind und es damit auch humanwissenschaftliche Anteile wie z. B. die Sprachpsychologie enthält. Deshalb sei die Vagheit des IR auch daher zu begründen, dass es zwischen der Informatik und den Kognitionswissenschaften anzusiedeln ist.

Die Vagheit im IR ist gleichzeitig ein wichtiges Unterscheidungskriterium zum so genann- ten Data Retrieval, das z. B. bei einer SQL-Abfrage einer relationalen Datenbank vorgenom- men wird. Hier erhält man als Ergebnis Datensätze, die präzise die in der Abfrage definierten Bedingungen erfüllen. Aufgrund dieser grundsätzlich anderen Arbeitsweise spricht man bei IR-Systemen von ”weichen“undbeiData-Retrieval-Systemenvon ”hartenAnfragen“.

Es bleibt festzuhalten, dass Information Retrieval sich mit der Repräsentation, Speiche- rung und Organisation von natürlichsprachlichen Informationen sowie mit der Wiederauf- findbarkeit dieser Informationen beschäftigt. Dabei sind ungenaue, vage Anfragen der Be- nutzer und ggf. dem System fehlendes semantisches Wissen über die Dokumente zu berück- sichtigen. Ziel eines jeden IR-Systems ist unumstritten die Gewinnung von Informationen, die den Informationsbedarf des Nutzers gut abdecken. Die Ergebnismenge soll dabei mög- lichst viele relevante und wenig irrelevante Dokumente enthalten (siehe [BYRN[99]], S. [2]).

2.2 Struktur und Funktionsweise eines Information-Retrieval-Systems

Grundsätzlich gibt es beim Information Retrieval zwei Komponenten, die durch das IRSystem in Bezug gebracht werden: Zum einen die Objektsammlung bzw. Wissensbasis, die durchsucht werden soll, zum anderen die Anfrage des Benutzers, anhand derer die relevanten Dokumente gefunden werden sollen. Sowohl die Objekte als auch die Anfragen müssen in einem IR-System geeignet repräsentiert werden, damit die Suche schnell und effektiv durchgeführt werden kann. Der eigentliche Retrievalprozess vergleicht nun Anfrage und Dokumente und gibt bezüglich der Anfrage als relevant eingestufte Dokumente als Ergebnismenge zurück. Abbildung 2.1 zeigt den grundlegenden Aufbau eines IR-Systems. Der Suchprozess ist in der Grafik durch den oval markierten Pfeil zu erkennen.

Ein möglicher naiver Ansatz, um ein IR-System zu betreiben, ist die Entgegennahme des Suchbegriffs und die sequentielle Suche dieses Suchbegriffs in allen Dokumenten. Es ist leicht einzusehen, dass diese Vorgehensweise bei umfangreichen und wachsenden Do- kumentmengen sowie vielen gleichzeitigen Anfragen eine unzureichende Skalierbarkeit und

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.1: Grundlegender Aufbau eines IR-Systems. Quelle: [Fer03], S. 25.

Performanz besitzt. Deshalb führen IR-Systeme eine Vorverarbeitung der Dokumentmenge durch, die eine effizientere Suche ermöglichen soll.

Klassische Information Retrieval Modelle (z. B. das Boolesche Retrieval) sehen dabei eine abfrageoptimierte Indexierung vor. Dazu werden die jeweils für ein Dokument charakteris- tischen Wörter ermittelt (siehe Abschnitt 2.4) und in eine invertierte Liste eingetragen. Die invertierte Liste ist mit einer Datenbank vergleichbar, die zu einem bestimmten Wort sehr schnell alle in der Dokumentmenge vorhandenen Fundstellen aufzeigen kann. Aufgrund der hohen Geschwindigkeitsanforderung steht die invertierte Liste in dem Konflikt, einerseits alle charakteristischen Wörter zu enthalten, andererseits nicht zu umfangreich zu werden.

Zur Durchführung der Suche werden die Anfrage ähnlich der Dokumentindexierung zu- nächst analysiert und darin enthaltene Indexterme identifiziert. Die invertierte Liste liefert zu diesen Termen die Fundstellen. Anhand der Fundstellen werden dann die relevanten Dokumente ermittelt. In weiterentwickelten Modellen wie dem Vektorraummodell (siehe Abschnitt 2.5) wird die Ähnlichkeit zwischen Anfrage und einzelnen Dokumenten über ein Ähnlichkeitsmaß genauer bestimmt.Beider Darstellungder Suchergebnisse ist essomöglich, dass die relevanten Dokumente absteigend nach ihrer Ähnlichkeit sortiert werden und damit die (wahrscheinlich) passendsten Dokumente dem Nutzer gleich zu Beginn angezeigt werden.

2.3 Beurteilung von IR-Systemen

Um die Qualität von IR-Systemen zu beurteilen bzw. IR-Systeme zu vergleichen, betrachtet man in erster Linie die Retrievalergebnisse. Es werden hierbei zwei Evaluierungsmaße verwendet (vgl. [Fer03], S. 86 f.):

Precision Die Precision gibt an, wieviele der gefundenen Dokumente bezüglich der Anfrage relevant sind. Dieses Maß beschreibt die Genauigkeit der Suchergebnisse.

Recall Der Recall gibt an, wieviele aller vorhandenen relevanten Dokumente in der Antwort des IR-Systems enthalten sind. Recall macht also eine Aussage über die Vollständigkeit des Retrievalprozesses.

Die Entscheidung, ob ein Dokument bezüglich einer Anfrage relevant bzw. nicht relevant ist, kann von einer Maschine nicht entschieden werden. Deshalb werden die Dokumente in Testsammlungen und -anfragen im Vorhinein von Spezialisten klassifiziert. Basierend auf dieser Klassifikation können dann die Werte für Precision und Recall eines konkreten IRSystems berechnet werden.

Formal werden Precision und Recall in [Fer03] (S. 86) wie folgt definiert:

Abbildung in dieser Leseprobe nicht enthalten

Es ist leicht einzusehen, dass sowohl für Precision als auch für Recall der Wert 1 anzustreben ist. In der Praxis verhalten sich beide Werte allerdings gegenläufig, d. h. eine hohe Präzision geht meist mit einer abgeschwächten Vollständigkeit einher und umgekehrt.

2.4 Gewinnung von Indextermen

Da das Information Retrieval insbesondere für die Suche in natürlichsprachlichen Texten eingesetzt wird, stößt man auf mehrere Schwierigkeiten, die man während des Indexierungs- prozesses, d. h. bei der Gewinnung von Indextermen, berücksichtigen muss. Im Folgenden werden die verschiedenen Phasen der Indexierung eines Textdokuments beschrieben und mögliche Lösungsansätze erläutert (vgl. [BYRN99], S. 165 f.). Das Verfahren ist in Abbil- dung 2.2 veranschaulicht. Zu beachten ist, dass viele Stufen der Indexierung optional sind und somit übersprungen werden können. In der Abbildung verdeutlichen Pfeile die mögli- chen Prozessabläufe.

1. Aus informationstechnischer Sicht ist ein digitales Textdokument zunächst ein Daten- strom aus Zeichen. Das Ziel des ersten Schrittes besteht darin, diesen Strom in Wörter aufzuteilen, die in den darauf folgenden Schritten als Kandidaten für die Aufnahme in den Index in Betracht gezogen werden. Dazu wird der Text einer lexikalischen Ana- lyse unterzogen. Als naheliegendste und häufigste Indikation für eine Worterkennung dienen die Leerzeichen. Nach dieser Leerzeichen-Segmentierung können jedoch Wörter entstehen, für die weitere Betrachtungen notwendig sind. Dabei handelt es sich u. a. um die folgenden Sonderfälle:

- allein stehende und mit Buchstaben kombinierte Zahlen,

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.2: Stufen der Indexierung eines Textdokuments. Quelle: [BYRN99], S. 166.

- Wörter, die Trenn- bzw. Bindestriche enthalten,
- Wörter, die Sonderzeichen (z. B. @, Apostroph) enthalten,
- Behandlung von Punkten (Satzende vs. Eigenname (z. B. x.id)).

In dieser Phase wird außerdem meist eine Konvertierung der Wörter in durchgehende Klein- oder Großschreibung vorgenommen. Nur in Domänen, wo strikt zwischen Klein- und Großschreibung unterschieden wird (z. B. Unix-Befehle) sollte die Originalschreibweise erhalten bleiben.

Die Elemente, die man nach Ausführung dieser ersten Stufe erhält, werden auch als Token bezeichnet, die in den weiteren Ausführungen durch eckige Klammern kenntlich gemacht werden ([bank]). Ein Token besteht mindestens aus dem ursprünglichen Wort selbst, kann aber auch weitere Informationen beinhalten (z. B. eine Angabe über die Position innerhalb des Dokuments).

2. Nicht alle Wörter, die der erste Schritt als Termkandidaten liefert, sind als Indexterme geeignet. Wörter, die sich nicht zur Unterscheidung verschiedener Texte eignen, da sie in einem Großteil der Dokumente vorkommen, sind so genannte Stoppw ö rter. Insbesondere Artikel, Präpositionen und Konjunktionen finden sich in einer Vielzahl von Dokumenten und sind zudem keinerlei Träger von auszeichnenden Informationen. Deshalb können Stoppwörter aus der Kandidatenmenge eliminiert werden. Dies geschieht anhand einer sprachabhängigen Stoppwortliste, die auch über die o. g. Wortgruppen hinausgehende Stoppwörter enthalten kann.

3. Insbesondere Nomen sind Träger von auszeichnenden Informationen. Deshalb kann

in diesem Schritt die Kandidatenmenge weiter reduziert werden, indem alle Wörter außer Nomen eliminiert werden. Voraussetzung für diesen Schritt sind Wörterbücher, die Wörter als Nomen klassifizieren.

4. Wörter einer natürlichen Sprache werden bei ihrer Verwendung häufig gebeugt. Im ein fachsten Fall geschieht dies durch Anhängen eines Suffixes an den Wortstamm (z. B. bei der Bildung des Plurals: Tisch Tische). Jedoch gibt es auch komplexere Beu- gungsformen, die keinem allgemeingültigen Muster folgen (Haus Häuser vs. Maus Mäuse). Um den Umfang des Index zu verkleinern und damit die IR-Effizienz zu erhöhen sowie den Recall zu verbessern, kann ein IR-System bei der Indexierung (und später auch bei der Verarbeitung der Anfrage) eine Grundformenreduktion oder Stammformenreduktion durchführen. Bei der Grundformenreduktion werden Beugun- gen von Substantiven auf den Nominativ Singular sowie Flexionen von Verben auf den Infinitiv zurückgeführt. Die Stammformenreduktion hingegen führt gebeugte Wörter auf ihren Wortstamm zurück. Beide Reduktionsformen werden auch als Lemmatisie- rung oder Stemming bezeichnet (vgl. [Fer03], S. 40 f.). Es gibt mehrere Verfahren, um eine Lemmatisierung durchzuführen. Eine Möglichkeit besteht in der Aufstellung von Regelsätzen, die Wörter automatisiert in ihre Stammform transformieren (siehe z. B. [Por79] für englische und [Cau99] für deutsche Texte). Bei dieser Variante können aller- dings nicht alle Sonderfälle lexikalischer Flexionen berücksichtigt werden. Ein anderer Ansatz besteht darin, für jedes Wort in einem geeigneten Lexikon dessen Grundform bzw. dessen Stamm nachzuschlagen.

5. Im letzten Schritt wird nun die eigentliche Indexierung durchgeführt. Die bis hierhin hervorgegangenen Termkandidaten bzw. der Volltext (falls Stoppworteliminierung, Re- duktion auf Nomen und Lemmatisierung ausgespart wurden) werden entweder manuell oder automatisch für die Eintragung in den Index ausgewählt. Bei der ersten Variante entscheidet dabei ein Spezialist über die Eignung als Indexterm. Werden die zuläs- sigen Indexterme für einen Eintrag in die invertierte Liste grundsätzlich ”vonHand“ vorgegeben, spricht man von einem kontrollierten Vokabular (vgl. [Fer03], S. 36). Bei der automatischen Indexierung werden meist die Termkandidaten aus den vorherigen Stufen unverändert übernommen und als Indexterme verwendet.

2.5 Das Vektorraummodell

Um ein Information-Retrieval-System zu entwickeln, muss man sich zunächst für ein IRModell entscheiden, welches die Darstellung der Anfragen und Dokumente implementiert. Neben dem weniger mächtigen booleschen Retrieval ist insbesondere das Vektorraummodell sehr leistungsfähig und deshalb weit verbreitet.

2.5.1 Vektorrepräsentation und Termgewichtung

Beim Vektorraummodell werden Dokumente als Vektoren in einem hochdimensionalen Vek- torraum dargestellt. Jede Dimension repräsentiert dabei einen Indexterm. Im einfachsten Fall wird der Wert der i -ten Komponente eines Dokumentvektors auf 1 gesetzt, falls der i -te Term in diesem Dokument mindestens einmal vorkommt (entspricht dem booleschen Retrieval). Für eine genauere Relevanzbeurteilung eines Dokuments werden in Vektorkom- ponenten allerdings nicht binäre Werte, sondern reelle Zahlen zur Gewichtung verwendet. Folgende Parameter fließen dabei in die Berechnung des Gewichts ein (vgl. [Fer03], S. 67 f.):

Termhäufigkeit Im einfachsten Fall wird als Gewicht [Abbildung in dieser Leseprobe nicht enthalten] die Häufigkeit [Abbildung in dieser Leseprobe nicht enthalten] des Terms [Abbildung in dieser Leseprobe nicht enthalten]im Dokument [Abbildung in dieser Leseprobe nicht enthalten] verwendet. Dabei wird allerdings nicht berücksichtigt, dass in längeren Texten die Häufigkeiten der Terme i. d. R. größer sind als in kurzen. Um diese Gegebenheit auszugleichen, wird die Termhäufigkeit in Relation zu dem Vorkommen des häufigsten Terms [Abbildung in dieser Leseprobe nicht enthalten] im Text gesetzt:

Abbildung in dieser Leseprobe nicht enthalten

Da dieses Maß lediglich das Vorkommen eines Terms innerhalb eines Dokuments betrachtet, ist die Termhäufigkeit ein lokaler Gewichtungseinfluss.

Inverse Dokumentenhäufigkeit Die inverse Dokumentenhäufigkeit (inverse document fre- quency, kurz IDF) beschreibt die Anzahl der Dokumente [Abbildung in dieser Leseprobe nicht enthalten], in denen ein Term [Abbildung in dieser Leseprobe nicht enthalten] auftritt. Auch hier gibt es zunächst eine einfache Form:

Abbildung in dieser Leseprobe nicht enthalten

Um die hohen Gewichte seltener Terme abzudämpfen, wird in der folgenden Variante logarithmiert:

Abbildung in dieser Leseprobe nicht enthalten

N ist dabei die Gesamtanzahl an Dokumenten im Retrieval System. Dieses Maß betrachtet im Gegensatz zur Termhäufigkeit das Vorkommen ü ber alle Dokumente und wird deshalb als globaler Gewichtungseinfluss bezeichnet.

Abbildung in dieser Leseprobe nicht enthalten

In [BYRN99] (S. 29) wird folgende Berechnung des Termgewichtes empfohlen, da diese beide Parameter kombiniert und somit lokale und globale Gewichtungseinflüsse berücksichtigt:

Abbildung in dieser Leseprobe nicht enthalten

2.5.2 Anfragerepräsentation und Ähnlichkeitsmaße

Für die Ausführung der Suche wird auch die Anfrage in einen (ggf. gewichteten) Vektor, den Anfragevektor, umgewandelt. Anschließend werden die Dokumentvektoren mit dem Anfra- gevektor paarweise verglichen und die Ähnlichkeiten festgestellt. Die dabei resultierenden Ähnlichkeitswertekönnen für die Erstellung einer Rangfolge genutzt werden, indem die Do kumente nach der Ähnlichkeit absteigend sortiert werden. Es gibt unterschiedliche Ähnlich- keitsmaße, von denen zwei im Folgenden kurz mit Berechnungsformel genannt werden [Abbildung in dieser Leseprobe nicht enthalten]. Dabei ist q der Anfragevektor und w i der Dokumentvektor des Dokuments d i.

Abbildung in dieser Leseprobe nicht enthalten

Das einfach zu berechnende Skalarprodukt hat in der Praxis mehrere Schwächen aufgezeigt. Der Maximalwert ist offensichtlich nur durch die endliche Anzahl von Vektordimensionen begrenzt. Deshalb haben längere Dokumente statistisch gesehen größere Chancen, hohe Ähnlichkeitswertezubekommen.AufgrunddieserSchwäche wurden weitereÄhnlichkeits maße wie z. B. das Cosinus-Maß entwickelt. Beim Cosinus-Maß hat die Länge der Vektoren keinen direkten Einfluss auf die Ähnlichkeit; lediglich die Ausrichtung der Vektoren wird betrachtet. Außerdem liegt der Ähnlichkeitswert beim Cosinus-Maß stets zwischen 1 und 1 und erlaubt somit eine absolute Beurteilung.

2.5.3 Definition des Vektorraummodells

Abschließend soll eine Definition des Vektorraummodells genannt werden, die alle oben genannten Aspekte noch einmal zusammenfasst (aus [Fer03], S. 62):

Definition 2.2 [Abbildung in dieser Leseprobe nicht enthalten] eine endliche Menge von Termen und [Abbildung in dieser Leseprobe nicht enthalten] eine Menge von Dokumenten. Für jedes Dokument d i ∈ D sei zu jedem Term [Abbildung in dieser Leseprobe nicht enthalten] T ein Gewicht w i,[Abbildung in dieser Leseprobe nicht enthalten] gegeben. Die Gewichte des Dokuments d i lassen sich zu einem Vektor [Abbildung in dieser Leseprobe nicht enthalten]n zusammenfassen. Dieser Vektor beschreibt das Dokument im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentvektor genannt. Auch Anfragen werden durch Vektoren repräsentiert. Wie bei der Repräsentation der Do- kumente wird die Anfrage durch eine Menge gewichteter Terme dargestellt. Der Vektor der Gewichte wird Anfragevektor genannt.

Schließlich sei eine Ä hnlichkeitsfunktion [Abbildung in dieser Leseprobe nicht enthalten] definiert, mit der jedem Paar aus zwei Vektoren [Abbildung in dieser Leseprobe nicht enthalten] ein reeller Ä hnlichkeitswert [Abbildung in dieser Leseprobe nicht enthalten] zugewiesen wird.

2.6 Auflösen von Mehrdeutigkeiten

2.6.1 Synonymie und Polysemie

Viele natürliche Sprachen haben die Eigenschaft, dass Gegenstände, Vorgänge usw. durch mehrere unterschiedliche Wörter beschrieben werden können. Diese in Worte gefassten Ideen werden wie in der einschlägigen Literatur im Folgenden Konzepte genannt. Alle Wörter, die das gleiche Konzept beschreiben, werden als Synonyme bezeichnet, sind also Wörter gleicher (oder sehr ähnlicher) Bedeutung. (Beispiel: Rasen Wiese, Grün, Weide . . .). Bei der Suche kann die Existenz von Synonymen dazu führen, dass Dokumente nicht gefunden werden, die ausschließlich Synonyme der Suchbegriffe enthalten. Da diese Dokumente jedoch das gleiche Konzept thematisieren, sind sie bezüglich der Suchanfrage relevant.

Des weiteren können einzelne Wörter mehrere Bedeutungen haben, wobei nur durch den Kontext erkennbar ist, welches Konzept beschrieben wird. (Beispiel: Bank 1. Erschöpft setzte sie sich auf eine Bank. 2. Morgen hat sie ein Beratungsgespräch bei der Bank, weil sie einen Kredit aufnehmen will.) Diese Probleme sind in der Literatur auch als Synonymie und Polysemie bekannt. Abbildung 2.3 zeigt diese beiden Probleme noch einmal grafisch auf. Bewusst werden die Konzepte grafisch dargestellt, um die Unabhängigkeit der Konzepte von einer Sprache zu verdeutlichen.

Im Information Retrieval müssen diese Probleme gleich an zwei Stellen berücksichtigt werden, wenn man die Effektivität des IR-Systems steigern will. Einerseits muss erkannt

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.3: Veranschaulichung von Synonymie und Polysemie.

werden, welche Konzepte der Autor eines Dokuments vermitteln will, andererseits ist festzustellen, welchen Informationsbedarf ein Benutzer der Suchmaschine mit seinen Suchtermen ausdrücken möchte ([Bal01], S. 9). In der englischen Literatur wird dieser Prozess auch als Disambiguation bezeichnet.

Im Folgenden werden kurz einige verbreitete Techniken zum Umgang mit Mehrdeutigkei- ten erläutert, die zur Lösung oder zumindest Abschwächung o. g. Probleme Einsatz finden können.

2.6.2 Query Expansion

Query Expansion begegnet insbesondere dem Synonymieproblem. Vor Ausführung der Su- che werden zunächst anhand eines geeigneten Thesaurus (siehe Abschnitt 2.7) Synonyme oder andere verwandte Begriffe zu den Termen der Anfrage gesucht. Diese Synonyme wer- den anschließend der ursprünglichen Anfrage hinzugefügt. Nun wird die modifizierte Anfrage ausgeführt. Dieses Verfahren hat zur Folge, dass bei Eingabe von ‘Rasen’ die Suche um die Begriffe ‘Wiese’, ‘Grün’ und ‘Weide’ erweitert wird. Entsprechend werden auch Dokumente gefunden, die mindestens eines dieser Synonyme enthalten. Bei diesem Ansatz wird folg- lich nicht versucht, die durch die Suchterme beschriebenen Konzepte korrekt zu erkennen und danach gezielt zu suchen, sondern es werden alle möglichen Konzepte in Betracht ge- zogen. Diese Verbreiterung der Suche führt zwar zu einer Verbesserung des Recalls, aber auch gleichzeitig zu einer Reduzierung der Precision. Außerdem muss im Vektorraummodell berücksichtigt werden, dass der Ursprungsterm und seine Synonyme bei der Berechnung der Termgewichtung als ein einziger Pseudoterm behandelt werden. Ansonsten würde ein Synonym, das selten in der Dokumentsammlung verwendet wurde, unberechtigt ein stär- keres Gewicht erhalten, obwohl der Ursprungsterm eine sehr niedrige IDF und damit ein schwaches Gewicht hat (siehe auch [BC98b]).

2.6.3 Festlegung des Konzepts im Dialog mit dem Benutzer

Eine weitere Technik zur Auflösung von Mehrdeutigkeiten besteht in einer Interaktion mit dem Benutzer. Dieses Verfahren ist insbesondere bei der Verarbeitung der Suchanfrage in- teressant, da diese i. d. R. nur eine kleine Menge von Termen enthält ([Fer03], S. 47). Dabei erkennt das System - anhand eines Thesaurus oder unter Nutzung statistischer Methoden - Terme, die mehrdeutig sind, und bietet dem Benutzer eine Menge möglicher Konzepte an. Anschließend wird die Suche gezielt auf die Angaben des Benutzers ausgerichtet. Bezugnehmend auf die oben genannten Beispiele müsste der Benutzer bei Eingabe von ‘Bank’ als Suchterm anschließend zwischen ‘Bank (Finanzwesen)’ und ‘Bank (Möbel)’ wählen, um dem System das korrekte Konzept mitzuteilen. Im Weiteren kann entweder eine Query Expansion durchgeführt werden, die allerdings nur Synonyme aus den festgelegten Konzepten verwendet, oder die nun spezifizierten Anfragekonzepte werden mit Dokumentkonzepten in Bezug gebracht, falls diese für die Dokumente hinterlegt sind.

2.6.4 Nutzung von Kookurrenzdaten

Es wurde bereits festgestellt, dass mehrdeutige Wörter ihre Bedeutung durch den Kontext erhalten, also durch das gleichzeitige Auftreten mit bestimmten anderen Wörtern. Bei der Erstellung einer Kookurrenzstatistik wird analysiert, welche Wörter besonders häufig gleich- zeitig in einem Dokument auftreten ([Bal01], S. 10 und [Fer03], S. 224). Voraussetzung für eine aussagekräftige Kookurrenzstatistik ist ein so genannter Korpus, also eine große, für die Domäne repräsentative Textsammlung. Die Qualität des Korpus bedingt die Korrektheit und den Umfang der Kookurrenzdaten. In der Praxis stellt diese Voraussetzung eines der größten Probleme dar ([BC98b]).

2.6.5 Erkennung von Konzepten anhand von Kontext

Die Konzeptauswahl im Dialog mit dem Anwender ist zwar die zuverlässigste Methode zur Auflösung von Mehrdeutigkeiten, während der Indexierung jedoch meist nicht praktikabel. Stattdessen ist neben der Nutzung von Kookurrenzdaten die Erkennung von Konzepten anhand eines speziellen Wörterbuches möglich. Dieses Wörterbuch enthält zu jedem mehr deutigen Begriff die möglichen Konzepte und gibt zur Differenzierung So könnte der mehrdeutige Begriff ”Kontextwörter“an. ”Bank“imZusammenhangmitdemKontextwort ”Geld“ auf das Geldinstitut und in Kookurrenz mit dem Kontextwort ”Park“aufdasMöbelstück abgebildet werden. Dabei kann der im Ursprungstext betrachtete Umgebungsbereich nur wenige Wörter vor und nach dem mehrdeutigen Begriff, aber auch das gesamte Dokument umfassen. Die Genauigkeit dieser automatisierten Konzepterkennung hängt unmittelbar von dem Umfang und der Qualität des genutzten Wörterbuchs ab.

Technisch lässt sich diese Vorgehensweise durch das Vektorraummodell realisieren. Es werden sowohl für das mehrdeutige Wort und seine Umgebungswörter als auch für den Wörterbucheintrag mit den Kontextwörtern Vektoren aufgespannt. Nach einem Vergleich mittels Cosinus-Maß wird das ähnlichere Konzept gewählt.

2.7 Thesauren

In seiner einfachsten Form besteht ein Thesaurus zum einen aus einer Liste wichtiger Wörter einer spezifischen Domäne, zum anderen aus verwandten Begriffen für jedes dieser Wörter. Oft handelt es sich dabei um Synonyme ([BYRN99], S. 170). Fortgeschrittene Thesauren haben jedoch eine weit komplexere Struktur. So können sie zusätzlich auch Phrasen, An- tonyme, Oberbegriffe und speziellere Begriffe beinhalten. Bei mehrdeutigen Wörtern werden die verschiedenen Konzepte gruppiert und einzeln aufgelistet. Somit erfassen Thesauren Wörter und Ausdrücke eines Sachgebiets und beschreiben die Beziehungen zwischen ihnen.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2.4: Suchergebnisse von Wordnet bei der Suche nach ”bench“.

Wenn Thesauren im IR eingesetzt werden, dienen sie der Beschreibung des Wissens- gebietes, in dem die Suchmaschine eingesetzt wird, und der eindeutigen Zuordnung von Dokumenten zu dieser Domäne. Der Thesaurus bildet das kontrollierte Vokabular, d. h. er beinhaltet die Terme, die zur Indexierung verwendet werden dürfen (vgl. [Fer03], S. 54). Jeder Term im Thesaurus ist sorgfältig ausgewählt, hat innerhalb der spezifischen Domäne eine wohldefinierte Bedeutung und ist mit einer Menge von verwandten Wörtern verknüpft. Die Wörter des kontrollierten Vokabulars werden Deskriptoren genannt und ausschließlich diese werden zur Indexierung von Dokumenten verwendet. Falls ein Dokument ein oder mehrere Synonyme eines Deskriptors enthält, wird zur Indexierung dieses Dokuments der Deskriptor verwendet, da dieser zusammen mit den Synonymen (innerhalb des Fachgebiets) dasselbe Konzept repräsentiert.

Ein umfangreicher Thesaurus ist eine wichtige Voraussetzung für die Query Expansion, bei der die ursprüngliche Anfrage um verwandte Wörter erweitert werden soll. Für die englische Sprache ist im Internet der freie Thesaurus WordNet [1] verfügbar, der seit 1985 am Cognitive Science Laboratory der Princeton University entwickelt wird (jüngste Veröffentlichung: WordNet 2.1 im März 2005).Ähnliche Projekte für Deutsch und weitere europäische Sprachen wurden zwar initiiert, haben aber seit längerem keine Aktualisierung erfahren oder sind nicht frei zugänglich. Dazu zählt auch das Projekt GermaNet [2], dessen Datenbestand vom Oktober 2001 stammt, das aber nicht zum freien Download steht. Eine neue Release war für Mai 2006 angekündigt, jedoch zum Zeitpunkt der Erstellung dieser Arbeit (Juni 2006) noch nicht veröffentlicht.

Abbildung 2.4 auf Seite 21 zeigt die Ergebnisse von WordNet bei der Eingabe von ‘bench’.

3 Cross-language Information Retrieval

Aufbauend auf Kapitel 2 werden die Methoden des Information Retrievals nun um den Aspekt der sprachübergreifenden Suche erweitert. Nach der Vorstellung der verschiedenen Ansätze und Architekturen zur Realisierung von Cross-language Retrieval-Systemen wird auf die Auflösung von Mehrdeutigkeiten bei derÜbersetzung eingegangen. Dann wird ein Schwerpunkt auf das Interlingual Retrieval gelegt, bei der eine ”Zwischensprache“zumEin- satz kommt. Abschließend wird die Vorgehensweise erklärt, um die Sprache eines Textes schnell und zuverlässig zu erkennen.

3.1 Einführung und Definition des Cross-language Information Retrieval

Wenn das Retrieval-System nicht nur Dokumente finden soll, die in der gleichen Sprache wie die Anfrage geschrieben sind, spricht man vom Cross-language Information Retrieval (CLIR) oder auch dem multilingualen oder translingualen Information Retrieval. Soergel gibt in [Soe97] die folgende Definition von CLIR an, welche dieser Arbeit in leicht eingeschränkter Form zu Grunde gelegt werden soll:

Cross-language retrieval is the retrieval of any type of object (text, images, products, etc.) composed or indexed in one language (the target language) with a query formulated in another language (the source language). There may be any number of source languages and any number of target languages. Queries can be written or spoken or constructed by selections from a menu presented in the source language.

Anzumerken ist hierbei, dass ein CLIR-System selbstverständlich auch die monolinguale Su- che (d. h. Anfrage- und Dokumentsprache sind identisch) unterstützt. Neben der rein schrift- lichen Suchanfrage sieht die Definition auch gesprochene Anfragen vor. Derartige Anfragen werden in dieser Arbeit nicht behandelt. Zudem wird sich auf die Suche in Textsammlungen beschränkt.

Bei der Entwicklung eines CLIR-Systems sind zunächst für jede einzelne zu unterstützen- de Sprache die grundsätzlichenÜberlegungen aus dem monolinugalen Information Retrie- val (Stoppwörter, Stamm- bzw. Grundformenreduktionen etc.) anzustellen (siehe Abschnitt 2.4). Ein häufiges Problem stellt dabei auch die Verarbeitung von unterschiedlichen En- codings dar. Während die Buchstaben der englischen Sprache durch ASCII-Encodierung vollständig repräsentiert werden können, führen u. U. schon die deutschen Umlaute zu Verarbeitungs- und Darstellungsfehlern. Diese Problematik spitzt sich bei der Darstellung und Verarbeitung von japanischen oder arabischen Schriftzeichen weiter zu. Auch die Er- kennung von einzelnen Wörtern in Sprachen nichtlateinischen Ursprungs kann eine Heraus- forderung darstellen.

Bevor im Folgenden auf die Varianten eines CLIR-Systems und Widrigkeiten des sprach- übergreifenden Retrievals eingegangen wird, sei an dieser Stelle angemerkt, dass das CLIR- Problem nicht mit dem Problem der maschinellen Übersetzung (machine translation (MT)) gleichgesetzt werden kann. Maschinelle Übersetzung hat zum Ziel, einwandfreie und sprach- lich richtige Übersetzungen von einer Quell- in eine Zielsprache zu liefern. Dabei kann es auch notwendig sein, dass Wörter ergänzt (zum Beispiel durch Einfügen von Artikeln im Deut- schen), gebeugt und entfernt werden müssen oder dass der Text auf andere Weise syntaktisch modifiziert wird. CLIR hat eine verlagerte Zielsetzung: Obwohl auch hier maschinelle Über- setzung eingesetzt wird, steht im Mittelpunkt das Finden von relevanten Informationen, die in Texten unterschiedlicher Sprachen enthalten sind. Dabei genügt das Suchen von einzel- nen Termen oder Phrasen in den fremdsprachigen Dokumenten, die gleichbedeutend mit den Anfragetermen sind oder zu diesen in Relation stehen. Genauer gesagt sucht man in der fremdsprachlichen Dokumentsammlung nach Texten, die das gleiche Konzept wie die Anfrage thematisieren. Eine vollständigeÜbersetzung, die von einem Muttersprachler als sprachlich richtig und ästhetisch beurteilt wird, ist hierzu nicht notwendig ([Bal01], S. 15). Ungeachtet dessen wirken sich Fortschritte der maschinellen Übersetzung selbstverständlich auch auf die Effizienz von CLIR-Systemen aus.

Cross-language Information Retrieval ist inzwischen auch eine aufmerksam verfolgte Disziplin der Text Retrieval Conference (TREC) [1] , die von dem amerikanischen National Institute of Standards and Technology (NIST) organisiert wird. Bei dieser jährlichen Veranstaltung werden genaue Referenzexperimente auf großen Testkollektionen definiert, welche die Teilnehmer auf ihren Systemen durchführen. Aufgrund dieser Vorgehensweise können die Systeme anschließend aussagekräftig verglichen werden.

Ähnlichesleistetdaseuropäische Projekt Cross-language Evaluation Forum (CLEF) [2] , das ebenso wie TREC Testsuiten zum Vergleich und zur Leistungsbeurteilung von CLIRSystemen zur Verfügung stellt und regelmäßige Fachkonferenzen veranstaltet.

3.2 Architekturen von CLIR-Systemen

In [Oar98] wird zwischen den korpusbasierten (corpus-based) und den wissensbasierten (know- ledge-based) CLIR-Systemen unterschieden. Korpusbasierte Verfahren unternehmen den Ver- such, nützlichesÜbersetzungswissen aus Trainingssammlungen zu extrahieren. Dieses Ver- fahren setzt domänenspezifische Dokumentsammlungen voraus, die sich als Trainingskorpus eignen. Allerdings sind schlechtere Retrievalergebnisse festzustellen, wenn die Suchmaschi- ne außerhalb dieser Domänen angewendet wird (vgl. [Oar97]). Die zweite Variante sieht die Nutzung von Wörterbüchern und ähnlichen Nachschlagewerken vor und wird in dieser Arbeit eingehender betrachtet. Bilinguale Wörterbücher sind im Gegensatz zu den meist domänenspezifischen Korpora besser verfügbar bzw. einfach zu erstellen und decken einen allgemeineren Wortschatz ab. In [Oar98] werden vier fundamentale Ansätze für wissensba- siertes CLIR genannt:

1. die direkte Zuordnung von Termen unterschiedlicher Sprachen ohne Übersetzung,
2. die Übersetzung der Anfrage in alle vorhandenen Dokumentsprachen,

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3.1: Die vier Ansätze des wissensbasierten Cross-language Information Retrievals:

1. Direkte Zuordnung von Termen unterschiedlicher Sprachen.
2. Übersetzung der Anfrage in die Zielsprache.
3. Übersetzung der Dokumente in die Anfragesprache.
4. Übersetzung von Anfrage und Dokumenten in eine gemeinsame Sprache. In Anlehnung an [Oar99].

3 Cross-language Information Retrieval
3. die Übersetzung der Dokumente in alle vorgesehenen Anfragesprachen und
4. die Übersetzung sowohl der Dokumente als auch der Anfrage in eine gemeinsame Sprache.

Abbildung 3.1 auf Seite 25 zeigt die vier Ansätze in einer Grafik. Ein Beispiel für die direkte Zuordnung von Termen einer Sprache zu solchen einer anderen ist das so genannte Cognate Matching. Hierbei wird versucht, Wörter gleichen Ursprungs zu erkennen. So findet man das Wort night in leicht abgewandelter Form auch in anderen Sprachen: nuit, Nacht, nox etc. Es ist offensichtlich, dass dieses einfache Verfahren nur bei Sprachen eingesetzt werden kann, die von ihrer Herkunft eng verwandt sind.

Die Ansätze zwei und drei benötigen entweder eineÜbersetzung der Dokumente oder der Anfragen. Im 4. Fall werden Dokumente und Anfragen in eine gemeinsame Sprache übersetzt (Interlingual Retrieval). Die Nutzung einer Interlingua, also einer künstlichen oder natürli- chen Zwischensprache, erlaubt eine Architektur, die das Einbinden neu zu unterstützender Sprachen vereinfacht. Für jede neu ergänzte Sprache wird lediglich ein Übersetzungpro- gramm in die Interlingua benötigt. Das gleiche Programm kann zurÜbersetzung der An- fragen in die Interlingua verwendet werden. Der Retrievalprozess findet nun ausschließlich innerhalb der Interlingua statt. Eine umgekehrte Übersetzung ist nicht notwendig.

Unabhängig von der gewählten Architektur haben sich mittlerweile die folgenden zwei grundlegenden Probleme des sprachübergreifenden Retrievals herauskristallisiert:

1. Die nun sprachübergreifende Mehrdeutigkeit im CLIR (siehe Abschnitt 3.3) kann zu einer weiteren Verschlechterung von Precision und Recall im Vergleich zu der Qualität von monolingualen Retrievalsystemen führen.
2. Der Mangel an verfügbarenÜbersetzungsressourcen wie Korpora, Wörterbücher bzw. Wortlisten und maschineller Übersetzungssysteme kann die Entwicklung eines produk- tiven CLIR-Systems erschweren. Umfangreiche und domänenspezifische Korpora sind u. U. nicht leicht zu finden und zu verwenden. Die eigene Erstellung von Thesauren und Wörterbüchern erfordert häufig einen enormen zeitlichen und materiellen Auf- wand. Falls man auf bereits verfügbare Ressourcen zurückgreift, sind professionelle Systeme vielfach nicht kostenlos verwendbar. Außerdem sind die benötigten Ressour- cen nicht oder nur unzureichend für alle Sprachkombinationen vorhanden. In [BS03] und [BC98a] werden Möglichkeiten aufgezeigt, wie man dem Mangel an Ressourcen begegnen kann.

3.3 Auflösen von Mehrdeutigkeiten im CLIR

In Abschnit 2.6 wurde bereits die Schwierigkeit dargestellt, mehrdeutige Begriffe innerhalb einer Sprache aufzulösen. Im CLIR verschärft sich dieses Problem, da auch mit Mehrdeutig- keiten bei der Übersetzung zwischen unterschiedlichen Sprachen umzugehen ist. Deshalb ist das Mehrdeutigkeitsproblem einer der Hauptgründe für die im Vergleich zum monolingualen Retrieval geringere Effektivität von CLIR-Systemen. Im Folgenden werden mehrere Ansätze aufgezeigt, wie mit diesem Problem in der Literatur und in der Praxis umgegangen wird.

3.3.1 Parallele und vergleichbare Korpora

Ein korpusbasierter Ansatz für das Mehrdeutigkeitsproblem ist die Nutzung von parallelen und vergleichbaren Korpora. Bei parallelen Korpora handelt es sich um Textsammlungen, die neben dem Originaldokument auch Dokumente mit Übersetzungen des Dokuments in eine oder mehrere Sprachen beinhalten. Die Zuordnung eines Dokuments zu Dokumenten mit Übersetzungen ist explizit gegeben.

Die Dokumentgruppen in einem vergleichbaren Korpus hingegen beinhalten keine gegen- seitigen Übersetzungen,sondernbeziehensichnuraufdasgleicheThema(vgl.[Bal01], S. 24).

Um nun für ein Wort die richtigeÜbersetzung unter mehreren Kandidaten auszuwählen, wird (vereinfacht) folgendermaßen verfahren (vgl. [BC98b]):

1. Das Wort wird monolingual in dem Dokumentbestand gesucht.
2. In den den Trefferdokumenten zugeordneten Übersetzungsdokumentenwerdendie Vorkommen der Übersetzungkandidaten gezählt.
3. Der Kandidat mit dem höchsten Vorkommen wird alsÜbersetzung des Worts verwen- det. Zu beachten ist hier, dass zur Gewinnung der Übersetzungskandidaten offensichtlich ein Wörterbuch benötigt wird. Der Korpus dient lediglich zur Auswahl eines dieser Wörter.

3.3.2 Nutzung von Kookurrenzstatistiken

Ein weiteres korpusbasiertes Verfahren ist die Nutzung von Kookurrenzstatistiken. Für den monolingualen Fall wurde diese Methode bereits in 2.6.4 erläutert. Termkookurrenzen kön- nen auch im CLIR effektiv eingesetzt werden. Auch hier wird die Tatsache zu Grunde gelegt, dass korrekte Übersetzungen der Anfrageterme in den Dokumenten der Zielsprache gemein- sam auftreten und gleichzeitig falsche Übersetzungen tendenziell nicht gemeinsam in einem Dokument vorhanden sind. Der genutzte Korpus liegt in diesem Fall für jede Sprache separat vor, d. h. es handelt sich nicht zwangsläufig um parallele oder vergleichbare Korpora.

Eine mögliche Vorgehensweise zur Umsetzung dieses Verfahrens wird in [BC98b] erläutert. Als Beispiel seien zwei Anfrageterme termA und termB gegeben. A ist die Menge möglicher Übersetzungenfür [Abbildung in dieser Leseprobe nicht enthalten] sei eine möglicheÜbersetzung. Entsprechendes gilt für termB. Nun werden alle möglichen Paarungen ([Abbildung in dieser Leseprobe nicht enthalten] gebildet und jeweils die em -Metrik berechnet, die die ”Bedeutung“desPaaresbezogenaufdieDokumentsammlung ausdrückt. Die em -Metrik ist definiert als

Abbildung in dieser Leseprobe nicht enthalten

[...]


[1] http://wordnet.princeton.edu. (Abruf 20.06.2006)

[2] http://www.sfs.uni-tuebingen.de/lsd. (Abruf 20.06.2006)

[1] http://trec.nist.gov. (Abruf: 22.06.2006)

[2] http://www.clef-campaign.org. (Abruf: 22.06.2006)

Ende der Leseprobe aus 109 Seiten

Details

Titel
Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur
Hochschule
Fachhochschule Bonn-Rhein-Sieg
Note
1
Autor
Jahr
2006
Seiten
109
Katalognummer
V119720
ISBN (eBook)
9783640231546
ISBN (Buch)
9783640231713
Dateigröße
4143 KB
Sprache
Deutsch
Schlagworte
Implementierung, Anwendung, Metadaten-, Volltextsuche, Architektur
Arbeit zitieren
Florian Quadt (Autor), 2006, Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur, München, GRIN Verlag, https://www.grin.com/document/119720

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden