Web Retrieval

Web Crawling & Indexing mit Lucene


Seminararbeit, 2010

7 Seiten


Leseprobe

Einführung

In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.

Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.

Grundlagen Information Retrieval

Information-Retrieval Modelle (IR-Modelle) sind Ansätze um aus den Abstrakten Dokumenten die relevanten Informationen zu gewinnen. Dadurch können die Dokumente gemäß ihrer Relevanz gefiltert werden, welche sie aus den entsprechend gemachten Anfragen ergibt. Dabei liefert ein IR-Modell aus einer Menge von Dokumenten und einer Anfrage eine neue Menge mit relevanten Dokumenten die nach ihrer Relevanz sortiert sind. Charakteristika von IR-Modellen sind z.B. die Repräsentation der Dokumente und Anfragen, die Strategie mit der die Relevanz ermittelt wird, die Sortierung-Methode die zum Einsatz kommt und ein Mechanismus zum Ermitteln eines Benutzer Feedbacks.

Generell lassen sich IR-Modelle in 4 Kategorien unterteilen. In Mengentheoretische Modelle, Algebraische Modelle wie das Vektorraummodell, Probabilistische Modelle oder Hybridmodelle.

Eines dieser Modelle für die Mengentheoretischen Modelle ist das Boolsches Modell.

Im booleschen Modell wird ein Dokument als eine Menge von Termen repräsentiert, wobei ein Term entweder „true“ oder „false“ sein kann. Die Terme an sich werden nicht gewichtet und das Modell unterstützt die Operatoren AND, OR, NOT und mitunter auch XOR. Anfragen an dieses System werden als boolesche Ausdrücke formuliert. ((„Haus“ AND „Dach“) AND ( NOT „Fenster)). Die Relevanz des Dokumentes leitet sich aus dem booleschen Ausdruck ab: 1 (relevant) wenn A wahr wird, 0 (nicht relevant) wenn A nicht erfüllt wird. Also lässt dieses Modell nur exakte Treffer zu. Dies führt dazu das Modell einfach aufzubauen und daher weit verbreitet ist. Anfragen sind leicht zu Konstruieren und nahezu endlos erweiterbar. Allerdings werden aufgrund des „exact match“ eigentlich Relevante Dokumente nicht gefunden, komplexere Anfragen werden schnell sehr lang und es gibt vor allen Dingen kein Ranking der relevanten Dokumente.

Ein weiteres Modell ist das Vektorraummodell.

Im Vektorraummodell werden die Dokumente und Anfragen als n dimensionaler Vektoren dargestellt, der namensgebende Vektorraum ist dann die Menge aller Vektoren. Die einzelnen Komponenten der Vektoren geben hierbei die Gewichtungen der einzelnen Terme an. Die Relevanz einzelner Dokumente wird in dem Vektorraummodell durch die elementare Vektorrechnung (Kreuz-Produkt, Winkel zwischen Vektoren) bestimmt. Dies ermöglicht es im Gegensatz zum booleschen Modell die relevanten Dokumente zu sortieren und auch teilweise relevante Dokumente zu finden.

Ein weiterer Vorteil ist die Anfragen Form, die als Vektor auch bei längeren Anfragen überschaubar bleibt. Durch die Vektor basierte Form fallen allerdings auch die Operatoren wie OR oder NOT weg, was dazu führt das große Suchräume durch viele Anfragen beschränkt werden müssen.

Web Information Retrieval erfolgt mit Hilfe eines Web Retrieval System. Die wichtigsten Bestandteile werden im Folgen erläutert.

Crawling

Ein Bestandteil ist das „Crawling“. Um diesen Teil besser zuverstehen ist es notwendig sich vorher einige Grundlagen anzuschauen:

Das Web

Um die Datenmenge des Internets durchsuchbar zu machen wird das Internet als gerichteter, unverbundener Graph abstrahiert. Hierbei stellen die HTML Dokumente, also die Seiten an sich die Knoten des Graphen da, und die Verweise oder Hyperlinks auf andere Seiten sind die verbindenden Kanten. Der eben genannte Webcrawler ist in diesem Modell nichts weiter als ein Programm, welches einen Algorithmus zur Graphtraversierung abarbeitet.

Reguläre Ausdrücke

Ein regulärer Ausdruck ist eine Zeichenkette, welche eine Menge von Zeichenketten, mit Hilfe Syntaktischer Regeln beschreibt. Reguläre Ausdrücke werden beim Webcrawling genutzt um die Hyperlinks und Daten aus den HTML Code zu extrahieren. Im Anhang finden sich einige der einfacheren Regeln zum Aufbau regulärer Ausdrücke.

[...]

Ende der Leseprobe aus 7 Seiten

Details

Titel
Web Retrieval
Untertitel
Web Crawling & Indexing mit Lucene
Hochschule
Otto-von-Guericke-Universität Magdeburg  (Institut für Technische und Betriebliche Informationssysteme (ITI))
Veranstaltung
Data & Knowledge Engineering
Autoren
Jahr
2010
Seiten
7
Katalognummer
V178610
ISBN (eBook)
9783656008095
Dateigröße
518 KB
Sprache
Deutsch
Schlagworte
DKE, Web Retrieval, Crawler
Arbeit zitieren
Florian Uhde (Autor)Marco Hinz (Autor), 2010, Web Retrieval, München, GRIN Verlag, https://www.grin.com/document/178610

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Web Retrieval



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden