Bei dieser Retrieval-Methode werden in einem n -dimensionalen Raum A nfragen und Dokumente in Form von Vektoren repräsentiert, wobei jeder Suchbegriff eine Dimension darstellt. Die gefundenen Dokumente werden aufgrund ihrer Deskriptoren als Vektoren in den Raum eingeordnet, ihre Position im R aum bezeichnet ihre Relevanz. Messbar wird die Ähnlichkeit zwischen Anfrage und Dokument anhand des Cosinus- Winkels zwischen Anfrage- und Dokumentvektor: Je kleiner das Cosinus-Maß des Winkels zwischen Anfrage und Dokument, desto größer die Ähnlichkeit zwischen Dokument und Anfrage.

Die Vektor-Retrieval-Methode ist weit verbreitet, hat jedoch den Nachteil, dass sie Terme als voneinander unabhängig betrachtet. Wie bei den anderen „klassischen“ Retrieval-Techniken (Boolsches Retrieval, probabilistisches Retrieval, vgl. http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26) werden exakte Übereinstimmungen zwischen in der Anfrage enthaltenen und in den Dokumenten verwendeten Termen, unabhängig vom Kontext, in dem sie gebraucht werden gesucht. Diese Technik ist in der Hinsicht problematisch, dass es z.B. für ein und dieselbe Sache oft verschiedene Bezeichnungen gibt, und somit relevante Dokumente oft nicht ausgegeben werden, weil im Dokument eine andere Bezeichnung als in der Anfrage verwendet wurde. Hier setzt Latent Semantic Indexing an: Dokumente werden aufgrund von Wort-Assoziationen und kontextue llen Zusammenhängen indexiert, sodass auch relevante Dokumente, die mit der Anfrage keine Wörter gemeinsam haben gefunden werden.

Extracto

Inhaltsverzeichnis

Vektorraum-Modell und seine Verbesserung: LSI

Was ist LSI?
Wie funktioniert LSI?

Einsatz von LSI im Cross-Language Information Retrieval

Cross-Language-LSI (CL-LSI)
Machine Translation-LSI (MT-LSI)

Singular Value Decomposition (SVD)
Vor- und Nachteile von LSI

Zielsetzung und Themenschwerpunkte

Die Arbeit befasst sich mit Latent Semantic Indexing (LSI) als einer Weiterentwicklung des Vektorraum-Modells im Bereich des Information Retrieval. Sie erläutert die Funktionsweise von LSI, die Vorteile und Nachteile dieser Technik und ihren Einsatz im Cross-Language Information Retrieval (CL-LSI und MT-LSI).

LSI als Erweiterung des Vektorraum-Modells
Bedeutung kontextueller Zusammenhänge zwischen Termen
Einsatz von LSI für effizienteres Information Retrieval
Anwendung von LSI im Cross-Language Information Retrieval
Vorteile und Nachteile von LSI

Zusammenfassung der Kapitel

Vektorraum-Modell und seine Verbesserung: LSI

Das Kapitel stellt das Vektorraum-Modell als eine gängige Retrieval-Methode vor und erläutert die Funktionsweise und die Schwächen dieser Methode. LSI wird als eine Verbesserung des Vektorraum-Modells vorgestellt, die die Berücksichtigung kontextueller Zusammenhänge ermöglicht.

Was ist Latent Semantic Indexing?

Dieses Kapitel definiert LSI als eine Variante der Vektor-Retrieval-Methode, die die Abhängigkeiten zwischen Termen berücksichtigt, um das Retrieval zu verbessern. Es erläutert, wie LSI traditionelle Retrieval-Methoden übertrifft, indem es Wort-Assoziationen und kontextuelle Zusammenhänge einbezieht.

Wie funktioniert LSI?

Das Kapitel beschreibt die Funktionsweise von LSI, die auf der Analyse von Dokumenten im Hinblick auf Ähnlichkeiten bei kontextuellen Zusammenhängen basiert. Es erklärt die Verwendung von Singular Value Decomposition (SVD) zur Untersuchung assoziativer Beziehungen zwischen Termen und die Entwicklung einer Repräsentation von Gebrauch und Bedeutung der Wörter in einem mehrdimensionalen Raum.

Schlüsselwörter

Die Arbeit konzentriert sich auf die Schlüsselwörter Latent Semantic Indexing (LSI), Vektorraum-Modell, Information Retrieval, Cross-Language Information Retrieval, Singular Value Decomposition (SVD), kontextuelle Zusammenhänge, Wort-Assoziationen, semantische Relationen und Mehrdimensionalität.

Final del extracto de 15 páginas - subir

Detalles

Título: Latent Semantic Indexing (LSI) - ein kurzer Überblick
Universidad: University of Hildesheim (Angewandte Sprachwissenschaft)
Curso: Virtuelles Hauptseminar
Calificación: 2,0
Autor: Irene Götz (Autor)
Año de publicación: 2001
Páginas: 15
No. de catálogo: V21633
ISBN (Ebook): 9783638252065
Idioma: Alemán
Etiqueta: Latent Semantic Indexing Virtuelles Hauptseminar
Seguridad del producto: GRIN Publishing Ltd.

Citar trabajo: Irene Götz (Autor), 2001, Latent Semantic Indexing (LSI) - ein kurzer Überblick, Múnich, GRIN Verlag, https://www.grin.com/document/21633

Latent Semantic Indexing (LSI) - ein kurzer Überblick