1 Vektorraum-Modell und seine Verbesserung: LSI
Latent Semantic Indexing ist eine Variante des Vektorraum- Modells.
Das Vektorraum-Modell:
Bei dieser Retrieval-Methode werden in einem n -dimensionalen Raum A nfragen und Dokumente in Form von Vektoren repräsentiert, wobei jeder Suchbegriff eine Dimension darstellt. Die gefundenen Dokumente werden aufgrund ihrer Deskriptoren als Vektoren in den Raum eingeordnet, ihre Position im R aum bezeichnet ihre Relevanz. Messbar wird die Ähnlichkeit zwischen Anfrage und Dokument anhand des Cosinus- Winkels zwischen Anfrage- und Dokumentvektor: Je kleiner das Cosinus-Maß des Winkels zwischen Anfrage und Dokument, desto größer die Ähnlichkeit zwischen Dokument und Anfrage.
Mehr zum Thema Vektorraum-Modell unter:
http://www.informatik.hu-berlin.de/~schulzki/sm/sm2-2.html Verifizierungsdatum: 15.08.01
http://www.iud.fh-
Verifizierungsdatum: 15.08.01
Die Vektor-Retrieval-Methode ist weit verbreitet, hat jedoch den Nachteil, dass sie Terme als voneinander unabhängig betrachtet. Wie bei den anderen „klassischen“ Retrieval-Techniken (Boolsches Retrieval, probabilistisches Retrieval, vgl. http://www.iud.fhdarmstadt.de/iud/wwwmeth/LV/ss97/wpai/grpTexte/textgr2.htm#Heading26) werden exakte Übereinstimmungen zwischen in der Anfrage enthaltenen und in den Dokumenten verwendeten Termen, unabhängig vom Kontext, in dem sie gebraucht werden gesucht. Diese Technik ist in der Hinsicht problematisch, dass es z.B. für ein und dieselbe Sache oft verschiedene Bezeichnungen gibt, und somit relevante Dokumente oft nicht ausgegeben werden, weil im Dokument eine andere Bezeichnung als in der Anfrage verwendet wurde. Hier setzt Latent Semantic Indexing an: Dokumente werden aufgrund von Wort-Assoziationen und kontextue llen Zusammenhängen indexiert, sodass auch relevante Dokumente, die mit der Anfrage keine Wörter gemeinsam haben gefunden werden.
3
2 Was ist Latent Semantic Indexing?
• Variante der Vektor-Retrieval-Methode, bei der die Abhängigkeiten zwischen Termen zur Verbesserung des Retrievals genau und automatisch modelliert werden
• Abweichen von traditionellen Retrieval- Methoden, die auf dem Prinzip des exact match zwischen Termen in Anfrage und Dokument basieren, und die Wörter beha ndeln, als wären sie voneina nder unabhängig
• Methode zur Verbesserung des Document Retrieval die berücksichtigt, dass Wörter in Dokumenten nicht unabhängig voneinander und zufällig verwendet werden, sondern dass sie in impliziten Abhängigkeiten - „latent s emantics -, basierend auf ihrer Bedeutung, zueinander stehen
• LSI umgeht Probleme der traditionellen Retrieval-Methoden (z.B. verschiedene Ausdrücke für ein- und dieselbe Sache) durch eine Indexierung der Dokumente basierend auf sekundären und tertiären Wort-Assoziationen, den semantischen Relationen, welche man erhält, indem man Muster eruiert, n ach welchen Wörter gemeinsam verwendet werden
• LSI erleichtert die Konstruktion eines mehrdimensionalen Raumes, in dem Terme und Dokumente einander zugeordnet werden
• Diese Methode erstellt erst eine Repräsentation von Gebrauch/Bedeutung eines Wortes und nut zt dann diese Repräsentation für das Retrieval, der abgeleitete feature space reflektiert diese Wechselbeziehungen
4
3 Wie funktioniert LSI?
• Dokumente werden im Hinblick auf Ähnlichkeiten bei kontextuellen Zusammenhä ngen analysiert
• Analyse der Dokumente mit Hilfe von singular value decomposition (SVD)
• Durch SVD werden assoziative Beziehungen zwischen Termen untersucht, der Gebrauch von externen Wörterbüchern, Thesauri oder knowledge bases ist dafür nicht nötig, Wort-Assoziationen werden abgeleitet durch numerische Analyse existierender Texte
• Entwicklung einer Repräsentation von Gebrauch und Bedeutung der Worte in einem mehrdimensionalen Raum
o
Erstellung einer Correlation Matrix, ähnlich wie bei Boolschem Retrieval:
• Mehrdimensionaler Raum spiegelt Wechselbeziehungen zwischen Termen wider: räumliche Nähe im Vektorraum bedeutet inhaltliche Nähe auf semantischer Ebene
• Neue Dokumente oder Anfragen werden als Menge der Vektoren ihrer Wörter in den Vektorraum integriert
• Die beste Antwort auf eine Anfrage erhält man durch Berechnung des Abstands zwischen Fragevektor und anderen Punkten im Raum: diejenigen Punkte, die dem
5
Arbeit zitieren:
Irene Götz, 2001, Latent Semantic Indexing (LSI) - ein kurzer Überblick, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Das Briefträgerproblem: Konstruktionsverfahren und Nachbarschaftssuche
BWL - Unternehmensforschung, Operations Research
Seminararbeit, 65 Seiten
Formatvorlage (Microsoft Word) für eine Diplomarbeit, Masterarbeit, Ha...
Für MS Word 2003 - Update 2010
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Formatvorlage (OpenOffice) für eine Diplomarbeit, Masterarbeit, Hausar...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 35 Seiten
Formatvorlage / Vorlage zur Erstellung einer Diplomarbeit, Bachelorarb...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 15 Seiten
Formatvorlage / Vorlage für eine Diplomarbeit / Hausarbeit
Für MS Word 2007 - dotx
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 25 Seiten
Anleitung zum Erstellen schriftlicher Arbeiten: Der Aufbau einer wisse...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 20 Seiten
Erstellen einer schriftlichen Hausarbeit
Vorlagen, Muster, Formulare, Infobroschüren
Hausarbeit, 14 Seiten
Grundtechniken wissenschaftlichen Arbeitens
Bibliografieren - Reden - Schr...
Vorlagen, Muster, Formulare, Infobroschüren
Skript, 46 Seiten
Ratgeber zur Erstellung wissenschaftlicher Arbeiten. Diplomarbeiten - ...
Vorlagen, Muster, Formulare, Infobroschüren
Ausarbeitung, 39 Seiten
Irene Götz hat den Text Latent Semantic Indexing (LSI) - ein kurzer Überblick veröffentlicht
Irene Götz hat einen neuen Text hochgeladen
Handbook of Latent Semantic Analysis
Thomas K. Landauer, Danielle S. McNamara, Simon Dennis
Latent Variable and Latent Structure Models
Marcoulide, George A. Marcoulides, Irini Moustaki
Latent Class and Latent Transition Analysis: With Applications in the ...
Linda M. Collins, Stephanie T. Lanza
0 Kommentare