Durch die sich weiter verdichtende, weltweite Vernetzung entsteht das Bedürfnis, die sprachübergreifende Verständigung zwischen verschiedenen Ländern und Kulturen zu vereinfachen. Eine sprachtransparente Nutzung des Internets ist mangels ausgereifter maschineller Übersetzungssysteme noch nicht möglich. Das Cross-language Information Retrieval (CLIR) stellt einen Kompromiss dar: Der Anwender formuliert eine Suchanfrage in seiner Muttersprache und erhält als Ergebnis auch fremdsprachliche Trefferdokumente.
Im Rahmen dieser Master Thesis wurde ein Protoyp eines Cross-language Retrieval System entwickelt, das die Sprachen Deutsch, Englisch und Japanisch unterstützt. Als Architektur kommt das Interlingual Retrieval zum Einsatz, bei dem sowohl die Dokumente als auch die Anfragen in eine gemeinsame Interlingua übersetzt werden, innerhalb derer die eigentliche Suche durchgeführt wird. Die für das System gewählte Interlingua ist konzeptbasiert und weist dadurch keine Mehrdeutigkeiten auf. Damit Dokumente mittels des richtigen Konzeptnamens indexiert werden, wird eine automatische Sprach- und Konzepterkennung durchgeführt, die auf Basis von Kontextwörtern das korrekte Konzept eines mehrdeutigen Wortes berechnet.
Bei der Suchanfrage wird das richtige Konzept für einen mehrdeutigen Begriff durch Interaktion mit dem Benutzer festgelegt.
Neben der konzeptbasierten Suche wird auch die Phrasensuche unterstützt. Alternativ zu dem Zugriff über eine Weboberfläche steht das System als Web Service zur Verfügung.
Inhaltsverzeichnis
1 Einleitung
1.1 Motivation
1.2 Aufgabenstellung
1.3 Vorgehensweise und Struktur der Arbeit
2 Information Retrieval
2.1 Einfuhrung und Definition des Information Retrieval
2.2 Struktur und Funktionsweise eines Information-Retrieval-Systems
2.3 Beurteilung von IR-Systemen
2.4 Gewinnung von Indextermen
2.5 Das Vektorraummodell
2.6 Auflosen von Mehrdeutigkeiten
2.7 Thesauren
3 Cross-language Information Retrieval
3.1 Einfuhrung und Definition des Cross-language Information Retrieval
3.2 Architekturen von CLIR-Systemen
3.3 Auflosen von Mehrdeutigkeiten im CLIR
3.4 Interlingual Retrieval
3.5 Erkennung der Sprache eines Textes mit n-Grammen
4 Serviceorientierte Architekturen
4.1 Einordnung der serviceorientierten Architektur
4.2 Elemente einer serviceorientierten Architektur
4.3 Merkmale einer serviceorientierten Architektur
4.4 Web Services
5 Anforderungen und Entwurf des Systems
5.1 Vorbedingungen und Anforderungen an das System
5.2 Systemarchitektur und Systementwurf
5.3 1. Phase: Entwurf der Interlingua-Worterbucher und Konzepterkennung
5.4 2. Phase: Entwurf des Indexierungsprozesses
5.5 3. Phase: Entwurf des Suchprozesses
5.6 Abschließender Systemuberblick
6 Verwendete Methoden und Werkzeuge
6.1 Allgemeine Werkzeuge
6.2 Apache Lucene
6.3 Lucene Erweiterungen und sonstige Werkzeuge
7 Implementierung der Suchanwendung
7.1 Allgemeines uber das entwickelte System
7.2 Nutzung des Systems
7.3 Implementierung der Interlingua-Worterbucher und Ubersetzung
7.4 Implementierung der Indexierung
7.5 Implementierung der Suche als Webseite
7.6 Implementierung der Suche als Web Service
7.7 Beispielanfragen an die Suchanwendung
7.8 Uberblick uber die Projektdateien
8 Bewertung des Systems und mogliche Erweiterungen
8.1 Das Interlingua-Konzept
8.2 Bewertung der Indexierung
8.3 Bewertung der Suche
9 Zusammenfassung und Ausblick
Zielsetzung & Themen
Das Hauptziel dieser Arbeit ist die Entwicklung eines Prototyps für eine erweiterbare, sprachübergreifende Suchmaschine (Cross-language Information Retrieval), die auf einer serviceorientierten Architektur (SOA) basiert. Dabei soll ein System geschaffen werden, das Dokumente automatisiert indexiert, sprachübergreifend durchsuchbar macht und mittels Interlingua-Ansatz eine semantische Konzepterkennung ermöglicht.
- Entwurf und Implementierung eines CLIR-Systems basierend auf dem Interlingua-Prinzip.
- Automatisierte Spracherkennung und Indexierung von Dokumenten in Deutsch, Englisch und Japanisch.
- Konzeptbasierte Suche mit Unterstützung für Standardsuche, Volltext- und Phrasensuche.
- Integration serviceorientierter Architekturen durch Bereitstellung einer Weboberfläche und Web-Service-Schnittstellen.
Auszug aus dem Buch
1.1.1 Entwicklung der Sprachanteile im Internet
Durch die schnelle Verbreitung des Internets in den letzten zehn Jahren ist ein Zustand eingetreten, in dem annähernd der gesamten Welt ein normiertes, digitales Kommunikationsmedium zur Verfügung steht. Standards wie etwa TCP/IP, HTTP und HTML sorgen für einen weltweit vereinheitlichten Datenaustausch – sei es in Form von Webseiten, E-Mails oder multimedialen Datenströmen. Es hat sich eine allgemein akzeptierte Technologie etabliert, die einen grenzüberschreitenden Nachrichten- und Datenaustausch ermöglicht.
Trotz aller Bemühungen, die internationale und interkulturelle Kommunikation zu vereinfachen, kann das Internet (zur Zeit) nicht mehr sein als ein Medium, das zuverlässig und schnell Daten überträgt, jedoch die Bedeutung dieser Daten in den seltensten Fällen interpretieren kann. Unter dem Namen Web 2.0 oder Semantic Web wurden bereits Entwicklungen vorgestellt, bei denen die im Internet publizierten Informationen durch entsprechende Beschreibungsmethoden mit Bedeutungen versehen werden. Eine starke Verbreitung dieser neuen Nutzungsmöglichkeiten hat bisher allerdings noch nicht eingesetzt.
Zusammenfassung der Kapitel
1 Einleitung: Beschreibt die Motivation hinter dem Projekt, die Problematik der Sprachbarrieren im Internet sowie die Zielsetzung und Struktur der Arbeit.
2 Information Retrieval: Erläutert die theoretischen Grundlagen des Information Retrievals, einschließlich Modellierung, Indizierung, Ranking und Problemen wie Synonymie und Polysemie.
3 Cross-language Information Retrieval: Führt in die Thematik der sprachübergreifenden Suche ein, diskutiert Architekturen und Verfahren zur Mehrdeutigkeitsauflösung sowie das Konzept der Interlingua.
4 Serviceorientierte Architekturen: Behandelt die Konzepte serviceorientierter Architekturen (SOA) sowie die praktische Implementierung mittels Web Services, SOAP und WSDL.
5 Anforderungen und Entwurf des Systems: Definiert die Systemanforderungen und beschreibt den detaillierten Entwurf des CLIR-Systems, unterteilt in die Phasen Konzepterkennung, Indexierung und Suche.
6 Verwendete Methoden und Werkzeuge: Stellt die eingesetzten Software-Technologien vor, insbesondere Apache Lucene als Suchframework, cngram zur Spracherkennung und Snowball-Stemmer.
7 Implementierung der Suchanwendung: Beschreibt den konkreten Implementierungsprozess des Systems, inklusive der Erstellung der Interlingua-Wörterbücher sowie der Weboberfläche und Web-Service-Schnittstellen.
8 Bewertung des Systems und mogliche Erweiterungen: Liefert eine kritische Würdigung des entwickelten Prototyps und diskutiert Ansätze zur Optimierung sowie zukünftige Erweiterungsmöglichkeiten.
9 Zusammenfassung und Ausblick: Fasst die Ergebnisse der Arbeit zusammen und gibt einen Ausblick auf die zukünftige Bedeutung sprachübergreifender Suchtechnologien.
Schlüsselwörter
Information Retrieval, Cross-language Information Retrieval, CLIR, Serviceorientierte Architektur, SOA, Web Services, Interlingua, Konzepterkennung, Apache Lucene, Indexierung, Spracherkennung, Mehrdeutigkeitsauflösung, Thesaurus, Suchmaschine, Sprachbarriere
Häufig gestellte Fragen
Worum geht es in dieser Master Thesis grundlegend?
Die Arbeit befasst sich mit der Entwicklung einer sprachübergreifenden Suchmaschine, die Dokumente verschiedener Sprachen (Deutsch, Englisch, Japanisch) in einem gemeinsamen Konzeptindex zusammenführt.
Was sind die zentralen Themenfelder der Arbeit?
Zentral sind das Information Retrieval, das Cross-language Information Retrieval (CLIR) unter Verwendung einer Interlingua sowie die Implementierung einer serviceorientierten Architektur (SOA) mit Web Services.
Was ist das primäre Ziel oder die Forschungsfrage?
Ziel ist der Entwurf und die Implementierung eines Prototyps, der eine sprachübergreifende Suche ermöglicht, ohne dass eine vollständige maschinelle Übersetzung aller Dokumente erforderlich ist.
Welche wissenschaftliche Methode wird primär verwendet?
Die Arbeit nutzt den Ansatz des Interlingual Retrieval, kombiniert mit dem Vektorraummodell für das Ranking sowie statistischen und lexikalischen Verfahren (wie N-Grammen und Stemming) zur Sprach- und Konzepterkennung.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in theoretische Grundlagen (IR, CLIR, SOA), den Systementwurf, die Beschreibung der verwendeten Werkzeuge (Lucene) und die detaillierte Implementierung der Suchanwendung.
Welche Schlüsselwörter charakterisieren diese Arbeit?
Kritische Begriffe sind Interlingua, Cross-language Information Retrieval, Apache Lucene, Serviceorientierte Architektur, Konzepterkennung und Indexierung.
Wie geht das System mit mehrdeutigen Begriffen um?
Bei der Indexierung erfolgt die Auflösung automatisiert durch den Vergleich von Kontextvektoren, bei der Suche wird dem Benutzer eine Auswahlmöglichkeit über ein Formular zur Konzepterkennung geboten.
Welche Rolle spielt die Interlingua in diesem System?
Die Interlingua dient als gemeinsame semantische Basis, in die Dokumente und Suchanfragen überführt werden, um einen sprachunabhängigen Suchprozess zu ermöglichen.
Warum wird Apache Lucene als Basis gewählt?
Lucene bietet als frei verfügbares Java-Framework leistungsfähige Funktionen für die Indizierung und Suche, die sich durch eigene Erweiterungen wie den ConceptAnalyzer für das Projekt anpassen lassen.
- Quote paper
- Florian Quadt (Author), 2006, Implementierung einer erweiterbaren Anwendung zur sprachübergreifenden Metadaten- und Volltextsuche in einer serviceorientierten Architektur, Munich, GRIN Verlag, https://www.grin.com/document/119720