Eine Übersicht über die Verfahren der Erweiterten Suche (TF,IDF, Stemming, Indexing, Klang von Wörtern) sowie Textkorrektur, dazu deskriptorenbasierte Beschreibung von Dokumenten und Abstracts. Es erfolgt eine Evaluierung dieser Verfahren anhand von ausgewählten XML-Metadaten aus dem MONARCH. Den Abschluß bildet eine Analyse zum Ist-Zustand des MONARCH, bezogen auf Qualität der verwendeten Metadaten und deren Nutzbarkeit für die Erweiterte Suche.
Inhaltsverzeichnis
1 Der Prozeß von der Eingabe bis zum Suchergebnis
1.1 Information Seeker
1.1.1 Beschreibung
1.1.2 Ziele
1.1.3 Probleme und Fragen des Information Seekers
1.1.4 Subjektive Auswahlkriterien für ein Dokument
1.2 Bestandteile des Suchprozesses
1.3 Kriterien zur Bewertung des Suchergebnisses
1.3.1 Kriterien
1.3.2 Anzahl der gefundenen Dokumente
1.3.3 Qualität der gefundenen Informationen
1.3.4 Antwortzeit des Systems
1.3.5 Betriebsaufwand
1.3.6 Nutzerfreundlichkeit
1.3.7 Gewichtung der Einzelkriterien
2 Erweiterte Suche
2.1 Begriff, Sinn und Zweck, Notwendigkeit
2.2 Statistische Verfahren
2.2.1 Term Frequency (TF)
2.2.2 Collection Frequency (CF) , Inverse Document Frequency (IDF)
2.3 Methoden aus der Sprachwissenschaft
2.3.1 Conflation
2.3.2 Stemming
2.4 Kombinierte Verfahren
2.4.1 Indexing / Cataloging
2.4.2 Ausweitung der Anfrage auf komplexe Terme
2.5 Algorithmen für ähnlich klingende Worte
2.5.1 Soundex
2.5.2 Metaphone
2.6 Textkorrektur
2.6.1 Rechtschreibung
2.6.2 Fremdwörter
2.6.3 Historische Schreibweisen
2.6.4 Spracherkennung
2.7 Verfahren, auf Deskriptoren basieren
2.7.1 Term Weighting
2.7.2 Vector Retrieval
2.7.3 Bayessches Lernmodell
2.7.4 Exakte Suche mit booleschen Operatoren
2.7.5 Unscharfe Suche
2.7.6 Term Masking
2.7.7 Latent Semantic Indexing
3 Logische Dokumentstruktur
3.1 Ein Dokument und dessen Aufbau
3.2 Formale Beschreibung
3.3 Abstract
3.3.1 Zweck
3.3.2 Anordnung
3.3.3 Typen von Abstracts
3.3.4 Inhalt
3.3.5 Stil
3.4 Text des Dokuments
3.5 Referenzen
3.6 Standards
4 Betrachtungen zum Ist-Zustand des MONARCH
4.1 Testbedingungen
4.2 Betriebsaufwand
4.3 Nutzerfreundlichkeit
4.4 Qualität der Suchergebnisse
4.5 Antwortzeit
4.6 Format der Metadaten
4.6.1 Metadaten und XML
4.6.2 Volltextindex
4.6.3 Deskriptoren zur Beschreibung der Publikation
5 Analyse zur Qualität der Verfahren der Erweiterten Suche
5.1 Vorgehensweise
5.1.1 Verfahren zur Erzeugung von Deskriptoren
5.1.2 Verfahren, auf Deskriptoren basieren
5.2 Prognose
5.3 Testumgebung
5.4 Testergebnisse
5.4.1 Erzeugen der Deskriptoren
5.4.2 Suche über Deskriptoren
5.5 Fazit
5.5.1 Erzeugung der Deskriptoren
5.5.2 Suche über Deskriptoren
5.5.3 Verbesserung der Resultatqualität
5.5.4 Optimierung des Suchprozeß
5.5.5 Speicherung zusätzlicher Informationen
A Ausgewählte Dokumente für die Testumgebung
B Suchanfragen
B.1 Klassifikation der Dokumente
B.2 Deskriptoren
B.3 Suchanfragen
Zielsetzung und Themen
Die Arbeit befasst sich mit der Optimierung der Suchqualität innerhalb des Multimedia ONline ARCHivs (MONARCH). Das Hauptziel ist die Untersuchung bestehender Suchverfahren und die Beantwortung der Frage, welche Modifikationen oder Kombinationen von Verfahren die Resultatqualität verbessern können, ohne die bestehende Datenstruktur grundlegend ändern zu müssen.
- Analyse der Suchprozesse von der Anfrage bis zur Ergebnisausgabe.
- Evaluation verschiedener Verfahren der erweiterten Suche (statistisch und sprachwissenschaftlich).
- Untersuchung der logischen Dokumentstruktur und Metadaten-Formate.
- Testung und Bewertung der Verfahren in der Testumgebung des MONARCH.
- Entwicklung von Optimierungsvorschlägen für den Suchprozess und die Indexierung.
Auszug aus dem Buch
1.1.2 Ziele
Das Ziel des Information Seekers besteht darin, die richtigen Informationen zum richtigen Zeitpunkt zu finden [24]. Er erwartet, dass die erhaltenen Informationen so präzise wie nur möglich, gleichzeitig jedoch auch ausführlich genug sind. Weiterhin müssen die Informationen so verständlich sein, dass er diese auch aufnehmen und erfassen kann. Um die Informationen weiterverarbeiten zu können, müssen diese in einem für ihn nutzbaren Format vorliegen.
Zusammenfassung der Kapitel
1 Der Prozeß von der Eingabe bis zum Suchergebnis: Dieses Kapitel erläutert die Grundlagen des Suchprozesses, definiert die Rolle des Information Seekers und stellt Kriterien zur Bewertung von Suchergebnissen vor.
2 Erweiterte Suche: Hier werden verschiedene statistische Verfahren und Methoden aus der Sprachwissenschaft vorgestellt, um die Qualität von Suchergebnissen durch Techniken wie Stemming und Indexierung zu steigern.
3 Logische Dokumentstruktur: Dieses Kapitel beschreibt den Aufbau von Dokumenten und die Bedeutung formaler Beschreibungen sowie Abstracts für die effiziente Auffindbarkeit von Informationen.
4 Betrachtungen zum Ist-Zustand des MONARCH: Es erfolgt eine Bestandsaufnahme der bestehenden Umgebung und der verwendeten Metadatenformate innerhalb des Multimedia ONline ARCHivs.
5 Analyse zur Qualität der Verfahren der Erweiterten Suche: Das letzte Kapitel bewertet die Testläufe der erweiterten Suchverfahren und leitet aus den Ergebnissen konkrete Optimierungsmöglichkeiten für das Archivsystem ab.
Schlüsselwörter
Suchprozess, Information Seeker, Information Retrieval, Resultatqualität, Stemming, Deskriptoren, Metadaten, MONARCH, Volltextsuche, Indexierung, Suchanfragen, Ranking, Relevanz, Suchalgorithmen, Wissensmanagement.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit untersucht, wie die Qualität der Suchergebnisse im Archivsystem MONARCH durch verschiedene Verfahren der erweiterten Suche verbessert werden kann.
Was sind die zentralen Themenfelder?
Die zentralen Themen sind Information Retrieval, Suchprozessanalyse, automatische Indexierung, Metadatenmanagement sowie linguistische Verfahren wie Stemming und Soundex.
Was ist das primäre Ziel der Arbeit?
Das Ziel ist es, Methoden zu identifizieren, die eine höhere Suchpräzision und Relevanz erzielen, ohne die zugrunde liegende Datenstruktur des Archivs verändern zu müssen.
Welche wissenschaftliche Methode wurde verwendet?
Es wurde eine praxisorientierte Analyse durchgeführt, die auf der Untersuchung der Ist-Situation im MONARCH und der anschließenden experimentellen Erprobung und Auswertung von Suchalgorithmen in einer Testumgebung basiert.
Was wird im Hauptteil behandelt?
Der Hauptteil analysiert den Suchprozess, theoretische Ansätze zur Suchverbesserung, die Dokumentstruktur und schließlich die praktische Evaluation der verschiedenen Verfahren in der MONARCH-Testumgebung.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit wird maßgeblich durch Begriffe wie Information Retrieval, Suchprozess, Indexierung, Metadaten und Resultatqualität charakterisiert.
Warum ist die Unterscheidung zwischen "Recall" und "Präzision" in dieser Arbeit so wichtig?
Diese Kennzahlen sind entscheidend, um den Erfolg der Suchverfahren objektiv zu bewerten, da sie das Verhältnis zwischen gefundenen relevanten Dokumenten und der gesamten Menge der Suchergebnisse quantifizieren.
Welche Rolle spielen "Deskriptoren" für das Suchergebnis im MONARCH?
Deskriptoren dienen als Schlüsselbegriffe zur Repräsentation des Inhalts, die es ermöglichen, gezielter als bei einer reinen Volltextsuche nach relevanten Dokumenten zu suchen.
- Quote paper
- Frank Hofmann (Author), 2002, Untersuchungen zur Verbesserung der Resultatqualität bei Suchverfahren über Web-Archive, Munich, GRIN Verlag, https://www.grin.com/document/27867