Eine Übersicht über die Verfahren der Erweiterten Suche (TF,IDF, Stemming, Indexing, Klang von Wörtern) sowie Textkorrektur, dazu deskriptorenbasierte Beschreibung von Dokumenten und Abstracts. Es erfolgt eine Evaluierung dieser Verfahren anhand von ausgewählten XML-Metadaten aus dem MONARCH. Den Abschluß bildet eine Analyse zum Ist-Zustand des MONARCH, bezogen auf Qualität der verwendeten Metadaten und deren Nutzbarkeit für die Erweiterte Suche.
Inhaltsverzeichnis
Motivation
1 Der Prozeß von der Eingabe bis zum Suchergebnis
1.1 Information Seeker
1.1.1 Beschreibung
1.1.2 Ziele
1.1.3 Probleme und Fragen des Information Seekers
1.1.4 Subjektive Auswahlkriterien für ein Dokument
1.2 Bestandteile des Suchprozesses
1.3 Kriterien zur Bewertung des Suchergebnisses
1.3.1 Kriterien
1.3.2 Anzahl der gefundenen Dokumente
1.3.3 Qualität der gefundenen Informationen
1.3.4 Antwortzeit des Systems
1.3.5 Betriebsaufwand
1.3.6 Nutzerfreundlichkeit
1.3.7 Gewichtung der Einzelkriterien
2 Erweiterte Suche
2.1 Begriff, Sinn und Zweck, Notwendigkeit
2.2 Statistische Verfahren
2.2.1 Term Frequency (TF)
2.2.2 Collection Frequency (CF) , Inverse Document Frequency(IDF)
2.3 Methoden aus der Sprachwissenschaft
2.3.1 Conflation
2.3.2 Stemming
2.4 Kombinierte Verfahren
2.4.1 Indexing / Cataloging
2.4.2 Ausweitung der Anfrage auf komplexe Terme
2.5 Algorithmen für ähnlich klingende Worte
2.5.1 Soundex
2.5.2 Metaphone
2.6 Textkorrektur
2.6.1 Rechtschreibung
2.6.2 Fremdwörter
2.6.3 Historische Schreibweisen
2.6.4 Spracherkennung
2.7 Verfahren, die auf Deskriptoren basieren
2.7.1 Term Weighting
2.7.2 Vector Retrieval
2.7.3 Bayessches Lernmodell
2.7.4 Exakte Suche mit booleschen Operatoren
2.7.5 Unscharfe Suche
2.7.6 Term Masking
2.7.7 Latent Semantic Indexing
3 Logische Dokumentstruktur
3.1 Ein Dokument und dessen Aufbau
3.2 Formale Beschreibung
3.3 Abstract
3.3.1 Zweck
3.3.2 Anordnung
3.3.3 Typen von Abstracts
3.3.4 Inhalt
3.3.5 Stil
3.4 Text des Dokuments
3.5 Referenzen
3.6 Standards
4 Betrachtungen zum Ist-Zustand des MONARCH
4.1 Testbedingungen
4.2 Betriebsaufwand
4.3 Nutzerfreundlichkeit
4.4 Qualität der Suchergebnisse
4.5 Antwortzeit
4.6 Format der Metadaten
4.6.1 Metadaten und XML
4.6.2 Volltextindex
4.6.3 Deskriptoren zur Beschreibung der Publikation
5 Analyse zur Qualität der Verfahren der Erweiterten Suche
5.1 Vorgehensweise
5.1.1 Verfahren zur Erzeugung von Deskriptoren
5.1.2 Verfahren, die auf Deskriptoren basieren
5.2 Prognose
5.3 Testumgebung
5.4 Testergebnisse
5.4.1 Erzeugen der Deskriptoren
5.4.2 Suche über Deskriptoren
5.5 Fazit
5.5.1 Erzeugung der Deskriptoren
5.5.2 Suche über Deskriptoren
5.5.3 Verbesserung der Resultatqualität
5.5.4 Optimierung des Suchprozeß
5.5.5 Speicherung zusätzlicher Informationen
A Ausgewählte Dokumente für die Testumgebung
В Suchanfragen
B.l Klassifikation der Dokumente
B.2 Deskriptoren
B.3 Suchanfragen
Abbildungsverzeichnis
1.1 Bestandteile des Suchprozesses
2.1 Klassifikation der Verfahren für Erweiterte Suche
2.2 Concept Classes
4.1 Erzeugung der Deskriptoren
5.1 Automatische Erzeugung von Deskriptoren
5.2 Suche nach Dokumenten
Tabellenverzeichnis
1.1 Gewichtung der Bewertungskriterien
2.1 Term Frequency
2.2 Term Frequency nach Ausfilterung mittels Stopliste
2.3 Synonyme für das Wort „Welle“
2.4 Wortstamm „leucht“
2.5 Successor Variety für „freundlich“
2.6 Ähnlichkeit zweier Worte
2.7 Komplexe Terme
2.8 Soundex-Code
2.9 Metaphone-Code
2.10 Binary Independence Model
2.11 Beispieldokumente und ihre Relevanz
5.1 Ergebnis der Suche - Teil 1
5.2 Ergebnis der Suche - Teil 2
5.3 Ergebnis der Suche - Teil 3
Motivation
Am Beispiel des Multimedia ONline ARCHivs (MONARCH) wird der Ist-Zustand festgestellt. Es wird eine Untersuchung bezüglich der Anzahl und der Qualität der Suchergebnisse vorgenommen. Weiterhin werden die Antwortzeiten und der Betriebsaufwand betrachtet. Ausgehend von diesen Ergebnissen werden mögliche Verbesserungen durch eine Erweiterte Suche analysiert.
Das Ziel der Untersuchungen besteht darin, folgende Fragen beantworten zu können:
1 Welches Verfahren bzw. welche Kombination von Verfahren ermöglicht eine Verbesserung der Resultatqualität, ohne die bisher verwendete Struktur zur Ablage der Daten verändern zu müssen?
2 An welcher Position im Suchprozeß kann eine Optimierung stattfinden: bei der Suchanfrage, bei der Datenspeicherung oder bei beidem?
3 Welche Informationen sollten zusätzlich abgelegt werden, um die Resultatqualität noch weiter verbessern zu können?
In diese Arbeit fließen Erkenntnisse zur Nutzungsfreundlichkeit mit ein.
Zunächst wird in Kapitel 1 der gesamte Prozeß von der Formulierung der Anfrage bis zur Ausgabe des Suchergebnisses näher analysiert. Dabei wird betrachtet, welche Schwierigkeiten für den Information Seeker bestehen und anhand welcher Kriterien das erzielte Suchergebnis bewertet werden kann. In Kapitel 2 wird ein Überblick über die existierenden Verfahren der Erweiterten Suche und ihre spezifische Anwendung gegeben. Desweiteren wird geprüft, welche Kombination von Verfahren sinnvoll ist und zu einem hochwertigen Ergebnis führen kann. Das Kapitel 3 behandelt die Strukturierung der Dokumente und in welcher Abfolge die einzelnen Informationen im Dokument abgelegt werden. In Kapitel 4 erfolgt eine Betrachtung des Ist-Zustands des MONARCH. Einen Überblick über die verwendete Umgebung zum Testen der einzelnen Verfahren der Erweiterten Suche gibt Kapitel 5. Im Anschluß daran werden die Ergebnisse beurteilt und mögliche Verbesserungen vorgestellt.
Kapitel 1 Der Prozeß von der Eingabe bis zum Suchergebnis
1.1 Information Seeker
1.1.1 Beschreibung
Der Information Seeker wird von César Carranza und Wolfgang Lenski in [9] beschrieben. Ein Information Seeker bezeichnet eine Person, welche eine Information oder Auskunft benötigt. Diese Person stellt eine Anfrage an ein Informationssystem, um diese Information (Auskunft) von dort zu erhalten. Die Begriffe Information Seeker und Nutzer werden in diesem Dokument gleichbedeutend verwendet.
Ein Informationssystem kann im weitesten Sinne bezeichnen:
- Information Retrieval System (1RS)
- Content Management System (CMS)
- Datenbank Management System (DBS)
- Suchmaschine
- Newsgroup • Mailingliste
- Handheld, PDA
- Pager
- Schwarzes Brett
- Lexikon, Buch, Enzyklopädie, Kompendium
- Hotline, Auskunft
- Ratgeber, Berater („Consultant“), Weisen, Gelehrte
- Orakel
Für den Information Seeker ist die Art des befragten Informationssystems nicht relevant. Entscheidend ist nur, daß er auf seine Anfrage eine möglichst exakte, umfangreiche und für ihn verständliche Antwort in möglichst kurzer Zeit erhält.
1.1.2 Ziele
Das Ziel des Information Seekers besteht darin, die richtigen Informationen zum richtigen Zeitpunkt zu finden [24]. Er erwartet, daß die erhaltenen Informationen so präzise wie nur möglich, gleichzeitig jedoch auch ausführlich genug sind. Weiterhin müssen die Informationen so verständlich sein, daß er diese auch aufnehmen und erfassen kann. Um die Informationen weiterverarbeiten zu können, müssen diese in einem für ihn nutzbaren Format vorliegen.
1.1.3 Probleme und Fragen des Information Seekers
Finden der Informationen
Das Auffinden der gewünschten Informationen ist nicht ganz einfach. Der Information Seeker steht als erstes vor der Frage, welche Informationsquelle für ihn geeignet ist, um seinen Informationsbedarf zu decken. Je nachdem, welche Informationsquelle er nutzt, findet er mehr oder weniger fachspezifische Informationen.
Um die Informationen zu erhalten, muß er eine Anfrage formulieren. Er muß Kenntnisse darüber haben, auf welche Art und Weise er seine Anfrage formulieren kann, damit das System diese Frage „versteht“ und ihm die Informationen liefern kann, nach denen er angefragt hat [9]. Falls er detailliertere Kenntnisse über die Funktionsweise des Informationssystems hat oder die Ablageform der Daten kennt, kann er daraus für sich einen Nutzen ziehen. Er kann die Anfrage so formulieren, daß das System optimale Ergebnisse liefert.
Erfüllt das Suchergebnis nicht die Erwartungen des Information Seekers, wird er die Anfrage umformulieren. Dazu ist es für ihn hilfreich zu wissen, ob das System für die erneute Suche nur die bisher gefundenen Dokumente berücksichtigt oder erneut alle verfügbaren Dokumente zugrundegelegt werden. Ersteres ermöglicht eine Verfeinerung in eine bestimmte Richtung, wohingegen im zweiten Fall ein Überblick ermöglicht wird.
Dokumentformat
Die Art und Weise, in der ein Dokument gespeichert wird, kann sich positiv auf das Suchergebnis auswirken. Zu klären ist, wie ein Dokument repräsentiert und organisiert werden soll und wie der Inhalt des Dokuments beschrieben werden soll, um das Dokument optimal verarbeiten zu können [25]. Auf diese Fragen wird in Kapitel 3 eingegangen.
Unsicherheit
Der Faktor Unsicherheit darf nicht vernachlässigt werden. Petr Kroha verweist auf mehrere Möglichkeiten. Zunächst existiert Unsicherheit in Bezug auf die Formulierung des Textes durch den Autor sowie auf die Interpretation des Textes durch das System [25]. Weiterhin ist die Formulierung der Anfrage seitens des Nutzers zu berücksichtigen. Dabei unterscheidet Petr Kroha zwischen einem gewöhnlichen Nutzer und einem Experten [30]. Ein gewöhnlicher Nutzer besitzt kein spezifisches Vokabular. Er kennt keine exakte Definition, was an Eingaben benötigt wird. Er formuliert seine Anfrage mit allgemeinen, nicht exakten, fehl- bzw. sehr weit gefaßten Begriffen, die er im Laufe der Suche schrittweise verfeinert. Im Gegensatz dazu steht der Experte. Er kennt nicht das Wissen des Autors und nutzt sein eigenes Vokabular für die Suche, welches jedoch nicht mit dem Vokabular des Autors identisch sein muß. Er verknüpft die Eingaben mittels Operatoren oder spezieller Syntax, beispielsweise um Ausschlußkriterien zu nutzen.[1] Nicht zu unterschätzen ist die Interpretation der Anfrage durch das System sowie die Ausgabe der gefundenen Informationen, insbesondere deren Anordnung und Wertung.
1.1.4 Subjektive Auswahlkriterien für ein Dokument
Die nachfolgend aufgeführten Kriterien sind sehr wichtig. Mit ihnen entscheidet der Information Seeker für sich selbst, ob das Dokument oder Buch für ihn potentiell relevant ist [46].
Viele Systeme sind nicht in der Lage, alle Aspekte eines Werkes abzulegen. Sie repräsentieren lediglich den Inhalt, jedoch nicht die Art und Weise, in der ein Werk veröffentlicht wurde. Bei der Auswahl eines gedruckten Werkes spielen mehrere Faktoren eine wesentliche Rolle. Dazu zählen nicht nur das verwendete Format und die Auswahl der benutzten Fonts, sondern auch die Abfolge von Text und geeigneten Visualisierungen zur Verdeutlichung von Zusammenhängen. Weiterhin bestimmen die Art des Druckes, die verwendete Papiersorte, der Geruch und die Einbandgestaltung, ob dem Interessenten das Werk gefällt. Möglicherweise hat er bereits eine andere Veröffentlichung des Autors gelesen und hat somit positive Erfahrungen mit dem Schreibstil des Autors gesammelt. Das kann ihn dazu bewegen, weiteren Veröffentlichungen des Autors aufgeschlossen gegenüberzustehen und neugierig darauf zu sein, was er ihm nun vermitteln möchte. Vielfach ist es nicht unerheblich, ob sich Autor und Leser persönlich kennen und schätzen, sei es als Fan oder Kritiker.
Es kann jedoch auch sein, daß sich inzwischen sein Anspruch („reading level“) verändert hat und er deswegen nach weitergehenden, fachspezifischeren Informationen sucht. Eine Einschätzung darüber, ob das Buch seinen Vorstellungen entspricht, ist von seinem bisherigen Wissen abhängig und von daher nicht ohne weiteres auf andere Information Seeker übertragbar.
1.2 Bestandteile des Suchprozesses
Ein Suchprozeß läßt sich im Allgemeinen mit 3 Schritten beschreiben [46]. Im ersten Schritt wird eine Anfrage („query“ oder „profile“ [53]) formuliert. Diese Anfrage enthält einen oder mehrere Suchbegriffe („search terms“ [53]) und wird im Schritt zwei ausgewertet und verarbeitet. Dabei werden die Suchbegriffe mit Deskriptoren verglichen. Deskriptoren bezeichnen wichtige Wörter oder ganze Wortgruppen aus dem gerade betrachteten Dokument [53]. Im dritten und letzten Schritt wird das Ergebnis dieser Anfrage ausgegeben („return“). Dabei werden die gefundenen Daten angezeigt, die eine Antwort auf die Anfrage darstellen. Die Wichtigkeit einer gefundenen Information wird dadurch sichtbar, ob das entsprechende Dokument mit in das Ergebnis aufgenommen wird und falls ja, wie relevant das gefundene Dokument zur Anfrage ist [53]. Je relevanter das Dokument ist, umso eher erscheint das Dokument in der Liste der Ergebnisse. César Carranza und Wolfgang Lenski haben diesen Suchprozeß in [9] detaillierter untersucht und in sieben Phasen gegliedert. Der Verfahrensablauf ist in Bild 1.1 etwas vereinfacht dargestellt [2]. Die einzelnen Phasen werden nachfolgend kurz wiedergegeben.
Abbildung 1.1: Bestandteile des Suchprozesses
- Query Formulation Phase
In dieser Phase formuliert der Information Seeker seine Suchanfrage. Welche Schwierigkeiten bei der korrekten Formulierung einer Anfrage bestehen, wurde bereits in Abschnitt 1.1.3 ausführlich gezeigt.
- Query Interpretation Phase
Nachdem die Anfrage formuliert wurde, wird diese Anfrage vom System geprüft, validiert und ggf. optimiert. Dabei wird eine Wortbestimmung durchgeführt.
- Problem Solving Methods Selection Phase
In Abhängigkeit der Anfrage wird eine geeignete Suchstrategie bzw. ein passendes Such verfahren ausgewählt. Daran schließt sich die Erstellung eines Retrieval Plan an, nachdem die Suche durchgeführt wird.
- Retrieval Phase
In dieser Phase wird der zuvor erstellte Retrieval Plan ausgeführt. Das Ziel besteht darin, mit Hilfe dieses Plans die Anfrage zu beantworten.
- Evaluation Phase
Die gefundenen Dokumente werden vom System beurteilt und entsprechend ihrer Übereinstimmung mit der Suchanfrage oder den Nutzervorgaben geordnet. Dieser Prozeß wird als Ranking bezeichnet.
- User-Relevance Judgement Phase
Zunächst wird das Suchergebnis auf dem Bildschirm präsentiert. Danach folgt eine Beurteilung des Gefundenen durch den Nutzer. Er prüft, inwieweit ein gefundenes Dokument für ihn relevant ist.
- Query Reformulation Phase
Nachdem der Nutzer die gefundenen Dokumente als für ihn nicht relevant eingeschätzt hat, findet eine Neuformulierung der Anfrage statt. Der Verarbeitungsprozeß startet erneut.
Expansion in eine bestimmte Richtung besagt, daß ausgehend vom momentanen Zustand ähnliche oder andere Deskriptoren für die nachfolgende Suche gewählt werden. Der Nutzer formuliert keine Anfrage explizit, sondern die Deskriptoren werden bestimmt, in dem der Nutzer eine Auswahl trifft. Das kann in Form des Anklickens einer Kategorie oder Ebene in einer Hierarchie geschehen, beispielsweise Welt/Land/Region/Stadt.
1.3 Kriterien zur Bewertung des Suchergebnisses
1.3.1 Kriterien
Um das Suchergebnis einschätzen zu können, lassen sich verschiedene Kriterien betrachten:
- Anzahl der gefundenen Dokumente
- Qualität der gefundenen Informationen
- Antwortzeit des Systems
- Betriebsaufwand
- Nutzerfreundlichkeit
Diese Kriterien werden nachfolgend genauer erläutert.
1.3.2 Anzahl der gefundenen Dokumente
Zunächst betrachtet man die Menge der Dokumente, die gefunden werden. Es handelt sich um eine rein quantitative Maßangabe. Diese Maßangabe wird als Recall bezeichnet.
Der Recall gibt an, wieviele relevante Dokumente gefunden worden sind. Er berechnet sich aus dem Verhältnis der Anzahl der gefundenen, relevanten Dokumente zur Anzahl der möglichen, relevanten Dokumente [29].
Petr Kroha schreibt in [29], daß Recall im Allgemeinen nicht korrekt berechenbar ist. Wenn das System alle möglichen relevanten Dokumente ermitteln könnte, hätte es diese auch angezeigt.
1.3.3 Qualität der gefundenen Informationen
Die Qualität eines Dokuments wird danach bewertet, wie umfassend und genau es die Anfrage beantwortet. Ich betrachte dazu Relevanz, Präzision und Fallout.
Relevanz
Bezogen auf die Suche, beschreibt Petr Kroha Relevanz in [25, 29] folgendermaßen:
- Wieviele relevante Dokumente wurden gefunden?
- Wieviele irrelevante Dokumente wurden gefunden?
- Wieviele relevante Dokumente wurden nicht gefunden?
- Wieviele irrelevante Dokumente wurden nicht gefunden?
Die Frage ist, welche Dokumente überhaupt relevant sind. Relevant sind die Dokumente, die Informationen enthalten, mit denen die gestellte Frage beantwortet werden kann. Dabei kann der Fall eintreten, daß ein relevantes Dokument gefunden wird, welches Informationen enthält, die dem Information Seeker zum Zeitpunkt der Suche bereits bekannt sind [29]. Dieser Fall kann nie ausgeschlossen werden.
Daß die Relevanz einer Information subjektiv ist, soll nachfolgend am Beispiel der Bibliothek verdeutlicht werden.
- Autor
Der Autor verfaßt ein Dokument mit einer bestimmten Intension. Er möchte dem Leser eine Menge von Informationen auf eine bestimmte Art und Weise vermitteln. Dabei hat er eine spezifische Leserschaft im Blick, für die er das Dokument verfaßt. Die Art und Weise, in der das Dokument geschrieben wird, richtet sich nach der Zielgruppe. Je nach Qualifikation der tatsächlichen Leser ist das Dokument mehr oder weniger für sie geeignet.
- Publizist
Der Publizist möchte ein Dokument in Form eines Buches verkaufen und damit Geld verdienen. Um diese Möglichkeit zu vergrößern, wird er Änderungen am Titel, am Layout und am Inhalt vorschlagen. Je größer die Menge der Interessenten für das Buch ist, umso wahrscheinlicher ist es, daß sich das Buch verkauft.
- Bibliothekar
Der Bibliothekar möchte ein Dokument (Buch) in eine bestehende Ordnung integrieren. Aus diesem Grund wird er das Buch nach einem bestimmten Schema klassihzieren. Die Klassihkation richtet sich nach spezi- hschen Schlüssel Worten, die zum Teil vom Verlag oder vom Autor vorgegeben werden.
- Leser
Der Leser hat ein bestimmtes Problem und sucht für dieses Problem eine Lösung. Es ist für ihn nicht wichtig, woher er die Informationen zur Lösung seines Problems bekommt, sondern daß er sie überhaupt bekommt. Die Schwierigkeit liegt für ihn darin, zu entscheiden, in welchem angebotenen Dokument er diese Informationen findet.
Jeder Betrachter hat eine andere Sichtweise bzw. Intension, dieses Dokument (Sammlung von Informationen) zu erstellen, zu bearbeiten, zu katalogisieren und zu verwerten. In diesem Prozeß ist nicht garantiert, daß die Intension des Autors erhalten bleibt und dem Leser zu Gute kommt.
Präzision
Die Präzision ergibt sich aus dem Verhältnis der Anzahl gefundener, relevanter Dokumente zur Anzahl der insgesamt gefundenen Dokumente. 85 Prozent Präzision bedeutet, daß der Nutzer zu 15 Prozent irrelevante Dokumente angezeigt bekommt. Die Informationen aus diesen Dokumenten nützen ihm nichts [29].
Fallout
Als Fallout wird das Verhältnis der Anzahl gefundener, nicht relevanter Dokumente zur Anzahl der insgesamt gefundenen Dokumente bezeichnet. 15 Prozent Fallout besagt, daß sich im Suchergebnis zu 15 Prozent irrelevante Dokumente befinden. Diese sind für den Nutzer wertlos.
1.3.4 Antwortzeit des Systems
Die Antwortzeit ist ein Maß dafür, innerhalb welcher Zeit ein Ergebnis der Anfrage zurückgeliefert wird. Je geringer die Zeitdauer ist, umso früher kann der Nutzer das Ergebnis auf für ihn relevante Information prüfen und ggf. die Anfrage modifizieren.
Die Antwortzeit hängt nicht nur von den zu durchsuchenden Daten ab, sondern auch von den verwendeten Suchalgorithmen und Auswertungsverfahren. Die Übertragungsleistung der beteiligten Systeme und Komponenten ist mit zu berücksichtigen (Netzwerkanbindung).
1.3.5 Betriebsaufwand
Hier wird betrachtet, wie hoch der personelle, technologische, finanzielle und zeitliche Aufwand zur Implementation und zur Wartung des Suchsystems ist. Je geringer dieser Aufwand, umso einfacher können Fehler beseitigt und flexible Anpassungen vorgenommen werden.
1.3.6 Nutzerfreundlichkeit
Die Nutzerfreundlichkeit hängt nicht nur von der Menge der bereitgestellten Funktionen ab, sondern auch von der Bedienbarkeit des Systems und von der Gestaltung der Nutzerschnittstelle sowie der Toleranz des Systems gegenüber Fehleingaben.
1.3.7 Gewichtung der Einzelkriterien
Um den unterschiedlichen Standpunkten gerecht werden zu können, erscheint es mir sinnvoll, die Einzelkriterien jeweils getrennt für Nutzer und Betreiber zu betrachten.
Der Nutzer möchte ein System verwenden können, welches ihm in möglichst kurzer Zeit ein qualitativ hochwertiges Ergebnis anzeigt. In wenigen gefundenen Dokumenten möchte er die Informationen finden, die er sucht. Je mehr Dokumente er zu prüfen hat, umso ungeduldiger wird er. Der Nutzer verwendet nur dann ein Programm bzw. Werkzeug, wenn er dieses auch bedienen kann
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 1.1: Gewichtung der Bewertungskriterien
und welches somit aus seiner Sicht für ihn nutzerfreundlich ist. Mit welchem Betriebsaufwand diese Wünsche erfüllbar sind, interessiert den Nutzer nicht.
Die Sichtweise des Betreibers unterscheidet sich zum Teil erheblich von der des Nutzers. Der Betreiber stellt das System zur Verfügung und ermöglicht eine Schnittstelle zwischen Nutzer und System. Die Antwortzeit des Systems liegt innerhalb festgelegter Grenzen, hängt jedoch davon ab, wie komplex das System ist, welche technischen Komponenten eingesetzt werden und wie stark das System von den Nutzern in Anspruch genommen wird. Das Kosten-NutzenVerhältnis steht zusammen mit der angestrebten Antwortqualität an erster Stelle. Je höher die Antwortqualität ist, umso besser ist die Qualität des angebotenen Dienstes und die Zufriedenheit der Nutzer. Die erreichbare Qualität wird durch den zur Verfügung stehenden Kostenrahmen bestimmt.
Kapitel 2 Erweiterte Suche
2.1 Begriff, Sinn und Zweck, Notwendigkeit
Die Aufgabe eines 1RS besteht darin, eine Menge von Anfragen auf eine Menge von Dokumenten durch eine „retrieval function“ abzubilden [26]. Mit Hilfe dieser „retrieval function“ werden alle Dokumente, die mindestens eine Teilantwort auf die Anfrage liefern [27], gefunden. Was genau eine Teilantwort ist, bestimmt die Relevanz der gefundenen Information.
Die einfachste Form einer „retrieval function“ ist die Volltextsuche. Hierbei wird in einem Dokument ein Muster durch buchstabenweises Vergleichen gesucht. Die Suche findet lediglich im Dokument selbst statt, es werden keine weiteren Datenstrukturen in die Suche einbezogen (Index, Hash etc.). Dieses Verfahren ist sehr aufwendig und bisher ist keine effektive Implementierung bekannt [26]. Alle Verfahren, die über das einfache Vergleichen und Aufsuchen von Worten in einem Text hinausgehen, gehören zur Erweiterten Suche.
Es ist von Vorteil, wenn eine Vorverarbeitung („Preprocessing Phase“) der Dokumente stattfindet, bspw. vor dem Hinzufügen des Dokuments zur Datenbasis. Die Anwendung von Verfahren aus den folgenden Abschnitten in der Preprocessing Phase ermöglicht es, daß zum Anfragezeitpunkt nicht das gesamte Dokument durchsucht werden muß, sondern bereits vorher abgelegte Informationen verwendet werden können. Die Möglichkeit der Volltextsuche besteht weiterhin und auf diese kann im Bedarfsfall zurückgegriffen werden.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2.1: Klassifikation der Verfahren für Erweiterte Suche
Der Einsatz einer Erweiterten Suche ermöglicht mindestens eine teilweise Kompensation von Sachverhalten, die sich aus der Verwendung der natürlichen Sprache ergeben. Darunter fällt insbesondere die vom Kontext abhängige Bedeutung eines einzelnen Wortes sowie der Interpretationsmöglichkeit ganzer Wortgruppen. Eine Aussage kann durch unterschiedliche Wortwahl inhaltlich gleich ausgedrückt werden. Daher werden bei einer Volltextsuche nur die Dokumente gefunden, in denen das exakte Muster vorkommt. Andere Dokumente werden als nicht relevant eingestuft, da an betreffender Stelle eine andere Formulierung gewählt wurde.
2.2 Statistische Verfahren
2.2.1 Term Frequency (TF)
Ein betrachtetes Dokument wird linear verarbeitet. In einer Liste wird gespeichert, wie häufig jedes einzelne Wort im Dokument vorkommt. Man nimmt an, daß, je häufiger ein Wort im Text enthaften ist, dieses Wort umso relevanter (im Sinne von bedeutungstragend) für den Inhalt des Textes ist. Diese Termgewichte („term weights“) werden in einem Vektor zusammengefaßt. Jede Position im Vektor repräsentiert einen Term. Der Wert an dieser Position enthält das spezifische Termgewicht eines Wortes für diesen Text oder dieses Dokument [20]. Die TF für den obigen, kurzen Abschnitt ist in Tabelle 2.1 dargestellt.
Es ist sinnvoll, Struktur- und Verbindungswörter mittels einer Stopliste auszufiltern. Die Wörter in der Stopliste haben keine Bedeutung für den Inhalt. Für jede Sprache wird eine spezifische Stopliste erstellt. Mit einem hinreichend großen Text läßt sich diese Stopliste statistisch ermitteln.
Nachdem mittels Stopliste die Worte herausgefiltert wurden, die nicht inhaltstragend sind, ergibt sich eine Restmenge, die in Tabelle 2.2 dargestellt ist. Diese Restmenge scheint durchaus geeignet zu sein, um einen Rückschluß auf den Textinhalt zu ziehen.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 2.1: Term Frequency
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 2.2: Term Frequency nach Ausfilterung mittels Stopliste
Jussi Karlgren schreibt in [20], daß die am häufigsten vorkommenden Worte selten signifikante Bedeutung für das Thema haben. Er schlägt eine automatische Ausfilterung aus der Wortliste vor. Demgegenüber steht die Tatsache, daß die am seltensten enthaltenen Worte auch nicht inhaltstragend sein müssen. Vielmehr erschließt sich dem Leser der Sinn eines ganzen Textabschnitts durch das Nacheinanderverarbeiten mehrerer Sätze. Die Häufigkeit, mit der ein einzelnes Wort in einem Textabschnitt vorkommt, ist nicht signifikant bedeutsam für den Inhalt des Abschnitts.
2.2.2 Collection Frequency (CF) , Inverse Document Frequency (IDF)
Jussi Karlgren stellt in [20] die Frage, wie spezifisch ein Wort in Bezug zu einem Dokument ist. Dazu beschreibt er die Methode der CF oder IDF, im folgenden als IDF bezeichnet.
Die IDF für einen Term t(i) berechnet sich nach
Abbildung in dieser Leseprobe nicht enthalten
wobei N die Gesamtanzahl der Dokumente bezeichnet und n die Anzahl der Dokumente, in denen das Wort t(i) enthalten ist [57]. Jeder Logarithmus zu einer geeigneten Basis kann verwendet werden. Dieser sichert, daß der errechnete Wert im Bereich -32K und +32K liegt und mittels Integers dargestellt werden kann [57].
Obiger Quotient ergibt einen hohen Wert für Worte, die lediglich in einigen Dokumenten auftauchen [20, 46, 57]. An zwei Beispielen soll das verdeutlicht werden. Nehmen wir an, daß das Wort das in 999 von 1000 Dokumenten enthalten ist und das Wort Qualifikation in nur 2 von 1000 Dokumenten. Die IDF für das ist Zn(1000/999) = 0.001, gegenüber Zn(1000/2) = 6.21 für Qualifikation. Für ein selteneres Wort wird ein höherer IDF-Wert ermittelt als für ein häufiger auftretendes Wort.
Die Genauigkeit des berechneten IDF-Wertes steigt und fällt mit den beiden Größen N und n. Die Frage ist, welche Dokumente für die Berechnung des Quotienten in Betracht kommen. Werden alle Dokumente der zugrundeliegenden Datenbasis mit einbezogen - also auch diese, die nicht zum Thema passen - wird die Aussage der IDF ungenauer. Eine Beschränkung auf relevante Dokumente setzt voraus, daß bekannt ist, welche Dokumente relevant sind.
IDF hat seine Berechtigung für die Erstellung des Index. Das IDF-Gewicht ist höher für seltene Terme, als für weiter verbreitete („more common terms“) [46]. Relativ rare und seltene Terme werden weniger häufig in einen Index aufgenommen, da zu selten nach ihnen gesucht wird.
2.3 Methoden aus der Sprachwissenschaft
2.3.1 Conflation
Morphologische Conflation
Morphologische Conflation bezeichnet die Analyse von Wortformen bezüglich ihrer Schreibweise (morphologische Analyse[3] ). Alle Varianten eines Lexems[4] werden als solche identifiziert und auf die entsprechende Grundform zurückgeführt [21].
Dabei werden Präfixe und Suffixe sowie Pluralendungen und grammatikalische Anpassungen entfernt, beispielsweise auf Basis einer Liste aller Varianten. Weitaus verbreiteter ist die Lösung dieses Problems mittels Stemming- oder Suffix Stripping Algorithmen, die in Abschnitt 2.3.2 vorgestellt werden.
Synonyme oder semantische Conflation
Semantische Conflation bezeichnet die Analyse von Wortformen bezüglich ihrer Bedeutung und ihres Inhalts. Es werden Lexeme gesucht, die miteinander sinnverwandt sind.
Üblich ist die Verwendung einer Wortliste auf Grundlage lexikalischen Wissens - eines Thesaurus [21]. Zu einem Lexem werden alle möglichen Alternativen aufgeführt sowie der Kontext, indem die Alternative verwendet werden kann (siehe Tabelle 2.3).
Synonyme lassen sich auch in Form von Klassifikationen oder Ebenen finden. Die Worte werden entsprechend ihrer Bedeutung in einer Baumstruktur angeordnet („Concept Tree“). In der Wurzel steht das zu expandierende Lexem. Die Baumknoten repräsentieren potentielle Konzepte oder Begriffe, die in Bezug zum Lexem in der Wurzel stehen („Concept Classes“, [33]) (siehe Bild 2.2).
Unabhängig vom verwendeten Verfahren wird für einen Suchterm eine Expansion in alle relevanten Richtungen vorgenommen. Je nach Verfahren werden
[...]
[1] Recht umfangreiche Zusatzoptionen bietet die Suchmaschine Google, die unter [15] abruf
bar sind.
[2] Gegenüber dem Original wurde von mir eine Erweiterung dahingehend vorgenommen, daß in Phase 7 sowohl eine neue Anfrage formuliert werden kann, als auch eine Expansion der Suche in eine bestimmte Richtung (Verfeinerung) möglich ist. Diese Expansion ist Bestandteil des Bayesschen Lernmodells (siehe Abschnitt 2.7.3) und wird auch bei Clustering-Verfahren verwendet.
[1] Morphologie ist ein Teilgebiet der Sprachwissenschaft, welches die Art und Weise, in der Worte in der Sprache geformt werden, beurteilt und beschreibt. Das beinhaltet die Infiektion, Ableitung und Verbundbildung. Infiektion beschreibt die Veränderung bezüglich der Form eines Wortes, bspw. Fälle, Geschlecht, Aufzählung, Zeitformen, Singular und Plural, Stimmung oder Ausdruck [17].
[2] lexikalische Einheit, sprachliche Bedeutungseinheit, Wortschatzeinheit im Wörterbuch [10]
-
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X. -
Téléchargez vos propres textes! Gagnez de l'argent et un iPhone X.