Latent Semantic Indexing (LSI) - ein kurzer Überblick


Presentación (Redacción), 2001

15 Páginas, Calificación: 2,0


Extracto


Inhalt

Vektorraum- Modell und seine Verbesserung: LSI

Was ist LSI?

Wie funktioniert LSI?

Einsatz von LSI im Cross-Language Information Retrieval
Cross-Language-LSI (CL-LSI)
Machine Translation-LSI (MT-LSI)

Singular Value Decomposition (SVD) (englisch)

Vor- und Nachteile von LSI

Literatur

Mehr zum Thema LSI

1 Vektorraum-Modell und seine Verbesserung: LSI

Latent Semantic Indexing ist eine Variante des Vektorraum-Modells.

Das Vektorraum-Modell:

Bei dieser Retrieval-Methode werden in einem n-dimensionalen Raum Anfragen und Dokumente in Form von Vektoren repräsentiert, wobei jeder Suchbegriff eine Dimension darstellt. Die gefundenen Dokumente werden aufgrund ihrer Deskriptoren als Vektoren in den Raum eingeordnet, ihre Position im Raum bezeichnet ihre Relevanz. Messbar wird die Ähnlichkeit zwischen Anfrage und Dokument anhand des Cosinus- Winkels zwischen Anfrage- und Dokumentvektor: Je kleiner das Cosinus-Maß des Winkels zwischen Anfrage und Dokument, desto größer die Ähnlichkeit zwischen Dokument und Anfrage.

Abbildung in dieser Leseprobe nicht enthalten

Mehr zum Thema Vektorraum-Modell unter:

http://www.informatik.hu-berlin.de/~schulzki/sm/sm2-2.html Verifizierungsdatum: 15.08.01

http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26 Verifizierungsdatum: 15.08.01

Die Vektor-Retrieval-Methode ist weit verbreitet, hat jedoch den Nachteil, dass sie Terme als voneinander unabhängig betrachtet. Wie bei den anderen „klassischen“ Retrieval-Techniken (Boolsches Retrieval, probabilistisches Retrieval, vgl. http://www.iud.fh-darmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26) werden exakte Übereinstimmungen zwischen in der Anfrage enthaltenen und in den Dokumenten verwendeten Termen, unabhängig vom Kontext, in dem sie gebraucht werden gesucht. Diese Technik ist in der Hinsicht problematisch, dass es z.B. für ein und dieselbe Sache oft verschiedene Bezeichnungen gibt, und somit relevante Dokumente oft nicht ausgegeben werden, weil im Dokument eine andere Bezeichnung als in der Anfrage verwendet wurde. Hier setzt Latent Semantic Indexing an: Dokumente werden aufgrund von Wort-Assoziationen und kontextuellen Zusammenhängen indexiert, sodass auch relevante Dokumente, die mit der Anfrage keine Wörter gemeinsam haben gefunden werden.

2 Was ist Latent Semantic Indexing?

- Variante der Vektor-Retrieval-Methode, bei der die Abhängigkeiten zwischen Termen zur Verbesserung des Retrievals genau und automatisch modelliert werden
- Abweichen von traditionellen Retrieval- Methoden, die auf dem Prinzip des exact match zwischen Termen in Anfrage und Dokument basieren, und die Wörter behandeln, als wären sie voneinander unabhängig
- Methode zur Verbesserung des Document Retrieval die berücksichtigt, dass Wörter in Dokumenten nicht unabhängig voneinander und zufällig verwendet werden, sondern dass sie in impliziten Abhängigkeiten - „latent semantics -, basierend auf ihrer Bedeutung, zueinander stehen
- LSI umgeht Probleme der traditionellen Retrieval-Methoden (z.B. verschiedene Ausdrücke für ein- und dieselbe Sache) durch eine Indexierung der Dokumente basierend auf sekundären und tertiären Wort-Assoziationen, den semantischen Relationen, welche man erhält, indem man Muster eruiert, nach welchen Wörter gemeinsam verwendet werden
- LSI erleichtert die Konstruktion eines mehrdimensionalen Raumes, in dem Terme und Dokumente einander zugeordnet werden
- Diese Methode erstellt erst eine Repräsentation von Gebrauch/Bedeutung eines Wortes und nutzt dann diese Repräsentation für das Retrieval, der abgeleitete feature space reflektiert diese Wechselbeziehungen

3 Wie funktioniert LSI?

- Dokumente werden im Hinblick auf Ähnlichkeiten bei kontextuellen Zusammenhängen analysiert
- Analyse der Dokumente mit Hilfe von singular value decomposition (SVD)
- Durch SVD werden assoziative Beziehungen zwischen Termen untersucht, der Gebrauch von externen Wörterbüchern, Thesauri oder knowledge bases ist dafür nicht nötig, Wort-Assoziationen werden abgeleitet durch numerische Analyse existierender Texte
- Entwicklung einer Repräsentation von Gebrauch und Bedeutung der Worte in einem mehrdimensionalen Raum

- Erstellung einer Correlation Matrix, ähnlich wie bei Boolschem Retrieval: Zeilen sind Wörter, Spalten sind Dokumente
- Zuordnung eines Werts zu einem Wort (z.B. „0“ oder „1“), je nachdem, ob es im Dokument vorkommt oder nicht
- Jede Reihe von Wörtern definiert eine rechtwinklige Dimension
- Während des LSI-Prozesses wird diese word x document Matrix, ein high-dimensional Raum, mit Hilfe von SVD in einen, in den Dimensionen reduzierten Raum umgewandelt, Vektoren werden mit in den reduzierten Raum übertragen und somit näher zusammen geschoben
- Leitet man vom reduced dimension space wieder die zugrunde liegende Matrix ab, so zeigt sich, dass sich einige Einträge verändert haben

[...]

Final del extracto de 15 páginas

Detalles

Título
Latent Semantic Indexing (LSI) - ein kurzer Überblick
Universidad
University of Hildesheim  (Angewandte Sprachwissenschaft)
Curso
Virtuelles Hauptseminar
Calificación
2,0
Autor
Año
2001
Páginas
15
No. de catálogo
V21633
ISBN (Ebook)
9783638252065
Tamaño de fichero
683 KB
Idioma
Alemán
Palabras clave
Latent, Semantic, Indexing, Virtuelles, Hauptseminar
Citar trabajo
Irene Götz (Autor), 2001, Latent Semantic Indexing (LSI) - ein kurzer Überblick, Múnich, GRIN Verlag, https://www.grin.com/document/21633

Comentarios

  • No hay comentarios todavía.
Leer eBook
Título: Latent Semantic Indexing (LSI) - ein kurzer Überblick



Cargar textos

Sus trabajos académicos / tesis:

- Publicación como eBook y libro impreso
- Honorarios altos para las ventas
- Totalmente gratuito y con ISBN
- Le llevará solo 5 minutos
- Cada trabajo encuentra lectores

Así es como funciona