In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.
Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.

Excerpt

Inhaltsverzeichnis

Einführung
Grundlagen Information Retrieval
- Mengentheoretische Modelle
- Algebraische Modelle
- Probabilistische Modelle
- Hybridmodelle
Web Information Retrieval
- Crawling
  - Das Web
  - Reguläre Ausdrücke
- Indexing
Tools für Webretrieval
[Anhang]
Quellenverzeichnis
Fazit

Zielsetzung und Themenschwerpunkte

Diese Ausarbeitung bietet einen einführenden Überblick in das Web Retrieval, eine Technik, die zur Suche und Analyse von Datenbeständen im Internet eingesetzt wird. Die Arbeit erläutert die Grundlagen des Information Retrieval und stellt verschiedene Modelle zur Relevanzbewertung von Dokumenten vor. Besonderes Augenmerk liegt auf dem Webcrawling, einem Prozess zur automatischen Erfassung von Webinhalten, sowie auf der Indexierung, die eine effiziente Suche in großen Datenmengen ermöglicht.

Grundlagen des Information Retrieval
Verschiedene Modelle zur Relevanzbewertung von Dokumenten
Der Prozess des Webcrawling
Die Indexierung von Webinhalten
Tools für Webretrieval

Zusammenfassung der Kapitel

Die Einleitung stellt den Leser in das Thema Web Retrieval ein und erläutert dessen Bedeutung für die Suche und Analyse von Daten im Internet.

Der Abschnitt "Grundlagen Information Retrieval" beleuchtet die verschiedenen Modelle des Information Retrieval, die zur Extraktion relevanter Informationen aus Dokumenten dienen. Hier werden verschiedene Ansätze wie Mengentheoretische Modelle, Algebraische Modelle, Probabilistische Modelle und Hybridmodelle vorgestellt.

Der Abschnitt "Web Information Retrieval" befasst sich mit dem Prozess des Webcrawling, der die Grundlage für die Suche im Internet bildet. Hier werden die wichtigsten Bestandteile eines Webcrawlers erläutert, wie z.B. die Seed, die Frontier, der Downloader, das Repository und der Parser. Der Abschnitt beleuchtet auch die Herausforderungen, die mit dem Crawling des Deep Web verbunden sind, sowie die Probleme, die durch Bad Server und Bad Crawling entstehen können.

Der Abschnitt "Indexing" erklärt, wie ein Index für Webinhalte erstellt wird, um eine effiziente Suche in großen Datenmengen zu ermöglichen. Die vier Phasen der Indexierung, die Text-Extraktion, die Tokenisierung, die Normalisierung und die Erstellung der Indexliste, werden detailliert beschrieben.

Im Abschnitt "Tools für Webretrieval" werden zwei wichtige Tools für das Web Retrieval vorgestellt: Lucene und Nutch. Lucene ist eine Bibliothek, die Funktionen zur Erstellung von Suchmaschinen bietet, während Nutch eine Open-Source-Suchmaschine ist, die auf Lucene basiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Web Retrieval, Information Retrieval, IR-Modelle, Webcrawling, Indexierung, Lucene, Nutch, Deep Web, Bad Server, Bad Crawling, reguläre Ausdrücke, Tokenisierung, Normalisierung, Lemmatisierung, Stemming, invertierte Liste.

Excerpt out of 7 pages - scroll top

Details

Title: Web Retrieval
Subtitle: Web Crawling & Indexing mit Lucene
College: Otto-von-Guericke-University Magdeburg (Institut für Technische und Betriebliche Informationssysteme (ITI))
Course: Data & Knowledge Engineering
Authors: Florian Uhde (Author), Marco Hinz (Author)
Publication Year: 2010
Pages: 7
Catalog Number: V178610
ISBN (eBook): 9783656008095
ISBN (Book): 9783656927471
Language: German
Tags: DKE Web Retrieval Crawler
Product Safety: GRIN Publishing GmbH

Quote paper: Florian Uhde (Author), Marco Hinz (Author), 2010, Web Retrieval, Munich, GRIN Verlag, https://www.grin.com/document/178610

Web Retrieval

Web Crawling & Indexing mit Lucene