Bei dieser Retrieval-Methode werden in einem n -dimensionalen Raum A nfragen und Dokumente in Form von Vektoren repräsentiert, wobei jeder Suchbegriff eine Dimension darstellt. Die gefundenen Dokumente werden aufgrund ihrer Deskriptoren als Vektoren in den Raum eingeordnet, ihre Position im R aum bezeichnet ihre Relevanz. Messbar wird die Ähnlichkeit zwischen Anfrage und Dokument anhand des Cosinus- Winkels zwischen Anfrage- und Dokumentvektor: Je kleiner das Cosinus-Maß des Winkels zwischen Anfrage und Dokument, desto größer die Ähnlichkeit zwischen Dokument und Anfrage.
Die Vektor-Retrieval-Methode ist weit verbreitet, hat jedoch den Nachteil, dass sie Terme als voneinander unabhängig betrachtet. Wie bei den anderen „klassischen“ Retrieval-Techniken (Boolsches Retrieval, probabilistisches Retrieval, vgl. http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26) werden exakte Übereinstimmungen zwischen in der Anfrage enthaltenen und in den Dokumenten verwendeten Termen, unabhängig vom Kontext, in dem sie gebraucht werden gesucht. Diese Technik ist in der Hinsicht problematisch, dass es z.B. für ein und dieselbe Sache oft verschiedene Bezeichnungen gibt, und somit relevante Dokumente oft nicht ausgegeben werden, weil im Dokument eine andere Bezeichnung als in der Anfrage verwendet wurde. Hier setzt Latent Semantic Indexing an: Dokumente werden aufgrund von Wort-Assoziationen und kontextue llen Zusammenhängen indexiert, sodass auch relevante Dokumente, die mit der Anfrage keine Wörter gemeinsam haben gefunden werden.
Inhaltsverzeichnis
- Vektorraum-Modell und seine Verbesserung: LSI
- Was ist LSI?
- Wie funktioniert LSI?
- Einsatz von LSI im Cross-Language Information Retrieval
- Cross-Language-LSI (CL-LSI)
- Machine Translation-LSI (MT-LSI)
- Singular Value Decomposition (SVD)
- Vor- und Nachteile von LSI
Zielsetzung und Themenschwerpunkte
Die Arbeit befasst sich mit Latent Semantic Indexing (LSI) als einer Weiterentwicklung des Vektorraum-Modells im Bereich des Information Retrieval. Sie erläutert die Funktionsweise von LSI, die Vorteile und Nachteile dieser Technik und ihren Einsatz im Cross-Language Information Retrieval (CL-LSI und MT-LSI).
- LSI als Erweiterung des Vektorraum-Modells
- Bedeutung kontextueller Zusammenhänge zwischen Termen
- Einsatz von LSI für effizienteres Information Retrieval
- Anwendung von LSI im Cross-Language Information Retrieval
- Vorteile und Nachteile von LSI
Zusammenfassung der Kapitel
Vektorraum-Modell und seine Verbesserung: LSI
Das Kapitel stellt das Vektorraum-Modell als eine gängige Retrieval-Methode vor und erläutert die Funktionsweise und die Schwächen dieser Methode. LSI wird als eine Verbesserung des Vektorraum-Modells vorgestellt, die die Berücksichtigung kontextueller Zusammenhänge ermöglicht.
Was ist Latent Semantic Indexing?
Dieses Kapitel definiert LSI als eine Variante der Vektor-Retrieval-Methode, die die Abhängigkeiten zwischen Termen berücksichtigt, um das Retrieval zu verbessern. Es erläutert, wie LSI traditionelle Retrieval-Methoden übertrifft, indem es Wort-Assoziationen und kontextuelle Zusammenhänge einbezieht.
Wie funktioniert LSI?
Das Kapitel beschreibt die Funktionsweise von LSI, die auf der Analyse von Dokumenten im Hinblick auf Ähnlichkeiten bei kontextuellen Zusammenhängen basiert. Es erklärt die Verwendung von Singular Value Decomposition (SVD) zur Untersuchung assoziativer Beziehungen zwischen Termen und die Entwicklung einer Repräsentation von Gebrauch und Bedeutung der Wörter in einem mehrdimensionalen Raum.
Schlüsselwörter
Die Arbeit konzentriert sich auf die Schlüsselwörter Latent Semantic Indexing (LSI), Vektorraum-Modell, Information Retrieval, Cross-Language Information Retrieval, Singular Value Decomposition (SVD), kontextuelle Zusammenhänge, Wort-Assoziationen, semantische Relationen und Mehrdimensionalität.
- Arbeit zitieren
- Irene Götz (Autor:in), 2001, Latent Semantic Indexing (LSI) - ein kurzer Überblick, München, GRIN Verlag, https://www.grin.com/document/21633