Bei dieser Retrieval-Methode werden in einem n -dimensionalen Raum A nfragen und Dokumente in Form von Vektoren repräsentiert, wobei jeder Suchbegriff eine Dimension darstellt. Die gefundenen Dokumente werden aufgrund ihrer Deskriptoren als Vektoren in den Raum eingeordnet, ihre Position im R aum bezeichnet ihre Relevanz. Messbar wird die Ähnlichkeit zwischen Anfrage und Dokument anhand des Cosinus- Winkels zwischen Anfrage- und Dokumentvektor: Je kleiner das Cosinus-Maß des Winkels zwischen Anfrage und Dokument, desto größer die Ähnlichkeit zwischen Dokument und Anfrage.

Die Vektor-Retrieval-Methode ist weit verbreitet, hat jedoch den Nachteil, dass sie Terme als voneinander unabhängig betrachtet. Wie bei den anderen „klassischen“ Retrieval-Techniken (Boolsches Retrieval, probabilistisches Retrieval, vgl. http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26) werden exakte Übereinstimmungen zwischen in der Anfrage enthaltenen und in den Dokumenten verwendeten Termen, unabhängig vom Kontext, in dem sie gebraucht werden gesucht. Diese Technik ist in der Hinsicht problematisch, dass es z.B. für ein und dieselbe Sache oft verschiedene Bezeichnungen gibt, und somit relevante Dokumente oft nicht ausgegeben werden, weil im Dokument eine andere Bezeichnung als in der Anfrage verwendet wurde. Hier setzt Latent Semantic Indexing an: Dokumente werden aufgrund von Wort-Assoziationen und kontextue llen Zusammenhängen indexiert, sodass auch relevante Dokumente, die mit der Anfrage keine Wörter gemeinsam haben gefunden werden.

Excerpt

Inhaltsverzeichnis

1. Vektorraum-Modell und seine Verbesserung: LSI

2. Was ist LSI?

3. Wie funktioniert LSI?

4. Einsatz von LSI im Cross-Language Information Retrieval

4.1 Cross-Language-LSI (CL-LSI)

4.2 Machine Translation-LSI (MT-LSI)

5. Singular Value Decomposition (SVD)

6. Vor- und Nachteile von LSI

Zielsetzung und Themen der Arbeit

Die vorliegende Arbeit hat zum Ziel, das Konzept des Latent Semantic Indexing (LSI) als effiziente Erweiterung des klassischen Vektorraum-Modells im Information Retrieval vorzustellen. Die zentrale Forschungsfrage befasst sich damit, wie durch die Modellierung kontextueller Zusammenhänge und die Reduktion von semantischen Räumen eine präzisere Suche ermöglicht wird, die über reine Stichwortübereinstimmungen hinausgeht.

Grundlagen des Vektorraum-Modells und seine methodischen Grenzen
Funktionsweise von LSI durch die Analyse von Wort-Assoziationen
Anwendungsmöglichkeiten von LSI im Cross-Language Information Retrieval (CL-LSI und MT-LSI)
Die mathematische Rolle der Singular Value Decomposition (SVD) zur Dimensionsreduktion
Nutzenanalyse sowie Vor- und Nachteile des LSI-Verfahrens

Auszug aus dem Buch

Singular Value Decomposition

“The singular-value decomposition (SVD) technique is closely related to eigenvector decomposition and factor analysis. For information retrieval and filtering applications we begin with a large term-document matrix, in much the same way as vector or Boolean methods do. This term-document matrix is decomposed into a set of k, typically 200 –300, orthogonal factors from which the original matrix can be approximated by linear combination; this analysis reveals the “latent” structure in the matrix that is obscured by noise or by variability in word usage.” [Littman et al. p. 53]

“In general, documents can be regarded as collections of words. A correlation matrix […] can be constructed to make this correspondence explicit. In such a matrix, the columns represent documents and the rows represent words that appear in the documents. In practice, such correlation matrices are rectangular; the number of words is greater than the number of documents. A value can be assigned to a word (e.g., “0” or “1”) based on whether it appears in a document or not. Each word-row defines an orthogonal dimension; documents are thus located in a high-ordered space. For virtually any actual collection of documents, the matrix will be ‘sparse’: there will be many zeros, effectively given regions in which some subsets of documents are not found.

A correlation matrix […] makes clear why word-based indexing and retrieval can lead to bad results. Traditional word-based retrieval depends on finding a match between a word and a document – a cell in the matrix containing a “1”. When users use different words (perhaps meaning the same thing) they will retrieve different documents, since two different words will almost have different patterns of “0”s and “1”s. LSI attempts to circumvent this problem by indexing documents based on secondary and tertiary associations of words – essentially, ‘discovering’ the semantic relations that discriminate among alternative word meanings, as revealed by the co-occurrence patterns of words in documents.

Zusammenfassung der Kapitel

1. Vektorraum-Modell und seine Verbesserung: LSI: Dieses Kapitel führt in das klassische Vektorraum-Modell ein und erläutert dessen Nachteil, Terme als unabhängig zu betrachten, was LSI als Lösungsansatz motiviert.

2. Was ist LSI?: Hier werden die Kernmerkmale von LSI definiert, insbesondere der Fokus auf die automatische Modellierung von Abhängigkeiten zwischen Wörtern basierend auf ihrem Kontext.

3. Wie funktioniert LSI?: Dieses Kapitel beschreibt den Prozess der Erstellung einer Correlation Matrix und deren Transformation mittels SVD in einen reduzierten semantischen Raum.

4. Einsatz von LSI im Cross-Language Information Retrieval: Der Fokus liegt hier auf dem vollautomatischen, sprachübergreifenden Abruf von Dokumenten ohne notwendige manuelle Übersetzung.

5. Singular Value Decomposition (SVD): Dieser Exkurs erläutert die mathematische Grundlage aus der linearen Algebra, die zur Extraktion der latenten Strukturen in der Term-Dokument-Matrix dient.

6. Vor- und Nachteile von LSI: Abschließend werden die Effizienzgewinne bei der Trefferquote den Herausforderungen bei der Polysemie und dem hohen Rechenaufwand gegenübergestellt.

Schlüsselwörter

Latent Semantic Indexing, LSI, Information Retrieval, Vektorraum-Modell, Singular Value Decomposition, SVD, Semantik, Wort-Assoziationen, Cross-Language, Dokumenten-Indexierung, Kontext, mehrdimensionaler Raum, Retrieval-Techniken, Dokument-Retrieval.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit erläutert das Verfahren des Latent Semantic Indexing (LSI) als eine Methode zur Optimierung der Informationssuche, die über rein schlagwortbasierte Ansätze hinausgeht.

Was sind die zentralen Themenfelder?

Die Schwerpunkte liegen auf der algorithmischen Struktur von LSI, der mathematischen Grundlage (SVD) sowie der Anwendung im sprachübergreifenden Dokumenten-Abruf.

Was ist das primäre Ziel der Untersuchung?

Das Ziel ist es, aufzuzeigen, wie LSI durch das Erkennen von semantischen Wort-Assoziationen die Trefferqualität im Vergleich zu traditionellen Retrieval-Methoden signifikant steigern kann.

Welche wissenschaftliche Methode wird verwendet?

Es handelt sich um eine theoretische Analyse und methodische Beschreibung eines informatischen Verfahrens auf Basis von Modellen aus der linearen Algebra.

Was wird im Hauptteil behandelt?

Der Hauptteil behandelt die Funktionsweise der Dimensionsreduktion im Vektorraum sowie die praktische Implementierung von LSI für einsprachige und mehrsprachige Retrieval-Szenarien.

Welche Schlüsselwörter charakterisieren die Arbeit?

Die zentralen Begriffe sind LSI, Information Retrieval, SVD, semantische Räume und sprachübergreifende Dokumentensuche.

Wie unterscheidet sich LSI vom herkömmlichen Vektorraum-Modell?

Während klassische Modelle lediglich exakte Übereinstimmungen von Begriffen suchen, modelliert LSI latente Abhängigkeiten zwischen Wörtern und erkennt somit semantische Nähe, auch wenn keine identischen Begriffe verwendet werden.

Warum spielt SVD eine zentrale Rolle für LSI?

Die Singular Value Decomposition ist der mathematische Prozess, der den hochdimensionalen, spärlich besetzten Vektorraum in einen kompakteren, semantisch aussagekräftigeren Raum transformiert, indem Rauschen reduziert wird.

Excerpt out of 15 pages - scroll top

Details

Title: Latent Semantic Indexing (LSI) - ein kurzer Überblick
College: University of Hildesheim (Angewandte Sprachwissenschaft)
Course: Virtuelles Hauptseminar
Grade: 2,0
Author: Irene Götz (Author)
Publication Year: 2001
Pages: 15
Catalog Number: V21633
ISBN (eBook): 9783638252065
Language: German
Tags: Latent Semantic Indexing Virtuelles Hauptseminar
Product Safety: GRIN Publishing GmbH

Quote paper: Irene Götz (Author), 2001, Latent Semantic Indexing (LSI) - ein kurzer Überblick, Munich, GRIN Verlag, https://www.grin.com/document/21633

Latent Semantic Indexing (LSI) - ein kurzer Überblick