Eine Übersicht über die Verfahren der Erweiterten Suche (TF,IDF, Stemming, Indexing, Klang von Wörtern) sowie Textkorrektur, dazu deskriptorenbasierte Beschreibung von Dokumenten und Abstracts. Es erfolgt eine Evaluierung dieser Verfahren anhand von ausgewählten XML-Metadaten aus dem MONARCH. Den Abschluß bildet eine Analyse zum Ist-Zustand des MONARCH, bezogen auf Qualität der verwendeten Metadaten und deren Nutzbarkeit für die Erweiterte Suche.
Inhaltsverzeichnis
- Motivation
- Der Prozeß von der Eingabe bis zum Suchergebnis
- Information Seeker
- Beschreibung
- Ziele
- Probleme und Fragen des Information Seekers
- Subjektive Auswahlkriterien für ein Dokument
- Bestandteile des Suchprozesses
- Kriterien zur Bewertung des Suchergebnisses
- Kriterien
- Anzahl der gefundenen Dokument e
- Qualität der gefundenen Informationen
- Antwortzeit des Systems.
- Betriebsaufwand
- Nutzerfreundlichkeit
- Gewichtung der Einzelkriterien
- Information Seeker
- Erweiterte Suche
- Begriff, Sinn und Zweck, Notwendigkeit
- Statistische Verfahren
- Term Frequency (TF)
- Collection Frequency (CF), Inverse Document Frequency (IDF)
- Methoden aus der Sprachwissenschaft
- Conflation.
- Stemming
- Kombinierte Verfahren
- Indexing Cataloging
- Ausweitung der Anfrage auf komplexe Terme
- Algorithmen für ähnlich klingende Worte
- Soundex
- Metaphone
- Text korrektur .
- Rechtschreibung
- Fremdwörter
- Historische Schreibweisen
- Spracherkennung
- Verfahren, die auf Deskriptoren basieren
- Term Weighting
- Vector Retrieval
- Bayessches Lernmodell
- Exakte Suche mit booleschen Operatoren
- Unscharfe Suche
- Term Masking
- Latent Semantic Indexing
- Logische Dokumentstruktur
- Ein Dokument und dessen Aufbau
- Formale Beschreibung
- Abstract
- Zweck
- Anordnung
- Typen von Abstracts.
- Inhalt
- Stil..
- Text des Dokuments
- Referenzen
- Standards
- Betrachtungen zum Ist-Zustand des MONARCH
- Test bedingungen
- Betriebsaufwand
- Nutzerfreundlichkeit
- Qualität der Suchergebnisse.
- Antwort zeit
- Format der Metadaten
- Metadaten und XML
- Volltextindex
- Deskriptoren zur Beschreibung der Publikation
- Analyse zur Qualität der Verfahren der Erweiterten Suche
- Vorgehensweise
- Verfahren zur Erzeugung von Deskriptoren
- Verfahren, die auf Deskriptoren basieren
- Prognose.
- Testumgebung
- Testergebnisse.
- Erzeugen der Deskriptoren
- Suche über Deskriptoren.
- Fazit
- Erzeugung der Deskriptoren
- Suche über Deskriptoren.
- Optimierung des Suchprozeß
- Verbesserung der Resultatqualität
- Speicherung zusätzlicher Informationen
- Vorgehensweise
Zielsetzung und Themenschwerpunkte
Die vorliegende Studienarbeit befasst sich mit der Verbesserung der Resultatqualität bei Suchverfahren über Web-Archive. Sie analysiert die verschiedenen Verfahren der Erweiterten Suche, insbesondere im Kontext von Deskriptoren, und evaluiert deren Einfluss auf die Effizienz und Genauigkeit von Suchergebnissen. Das Ziel ist es, die bestehenden Methoden zu optimieren und neue Ansätze zur Steigerung der Treffergenauigkeit und zur Verbesserung des gesamten Suchprozesses zu entwickeln.
- Analyse der Herausforderungen des Information Seekers und des Suchprozesses
- Bewertung von Kriterien zur Qualitätssicherung von Suchergebnissen
- Untersuchung von Verfahren der Erweiterten Suche, insbesondere statistischer und sprachwissenschaftlicher Methoden
- Evaluierung von Verfahren, die auf Deskriptoren basieren
- Entwicklung von Lösungsansätzen zur Optimierung des Suchprozesses und zur Verbesserung der Resultatqualität
Zusammenfassung der Kapitel
- Kapitel 1: Der Prozeß von der Eingabe bis zum Suchergebnis Dieses Kapitel beschreibt den Prozess der Informationssuche und die Herausforderungen, denen sich Information Seeker gegenübersehen. Es identifiziert die verschiedenen Bestandteile des Suchprozesses und definiert Kriterien zur Bewertung der Qualität von Suchergebnissen.
- Kapitel 2: Erweiterte Suche Dieses Kapitel stellt verschiedene Verfahren der Erweiterten Suche vor, einschließlich statistischer, sprachwissenschaftlicher und kombinierter Methoden. Es beleuchtet die Bedeutung von Algorithmen für ähnlich klingende Worte und die Rolle der Textkorrektur.
- Kapitel 3: Logische Dokumentstruktur Dieses Kapitel untersucht die Struktur von Dokumenten und die Bedeutung des Abstracts. Es behandelt die verschiedenen Arten von Abstracts und ihre Rolle im Information Retrieval.
- Kapitel 4: Betrachtungen zum Ist-Zustand des MONARCH Dieses Kapitel analysiert den aktuellen Stand des MONARCH-Systems und untersucht dessen Stärken und Schwächen hinsichtlich Betriebsaufwand, Nutzerfreundlichkeit und Qualität der Suchergebnisse.
- Kapitel 5: Analyse zur Qualität der Verfahren der Erweiterten Suche Dieses Kapitel beschreibt die Vorgehensweise bei der Analyse und Evaluierung von Verfahren der Erweiterten Suche. Es stellt die Testumgebung vor und diskutiert die Testergebnisse.
Schlüsselwörter
Die Arbeit konzentriert sich auf die Verbesserung der Resultatqualität bei Suchverfahren über Web-Archive. Die wichtigsten Schlüsselwörter sind: Erweiterte Suche, Deskriptoren, Information Retrieval, Suchprozess, Resultatqualität, Web-Archive, MONARCH-System, statistische Verfahren, sprachwissenschaftliche Methoden, Textkorrektur, Term Weighting, Vector Retrieval, Bayessches Lernmodell.
- Arbeit zitieren
- Frank Hofmann (Autor:in), 2002, Untersuchungen zur Verbesserung der Resultatqualität bei Suchverfahren über Web-Archive, München, GRIN Verlag, https://www.grin.com/document/27867