In dieser Ausarbeitung wird ein kleiner Überblick über das Web Retrieval gegeben.
Das Web Retrieval dient dem Sichten von abstrakten Datenbeständen wie sie im Internet vorliegen. Damit wird unter anderem das schnelle Durchsuchen dieser, teilweise doch sehr großen Datenmengen ermöglicht. Die Ergebnisse des Retrievals werden auch zur Analyse des Internets und zu statistischen Zwecken verwendet.
Inhaltsverzeichnis
1. Einführung
2. Grundlagen Information Retrieval
3. Crawling
3.1 Das Web
3.2 Reguläre Ausdrücke
4. Indexing
5. Tools für Webretrieval
Zielsetzung und Themen
Die vorliegende Arbeit gibt einen strukturierten Überblick über die Funktionsweise moderner Web-Retrieval-Systeme, indem sie die grundlegenden Prozesse des Crawlings und der Indizierung beleuchtet sowie relevante Softwarewerkzeuge vorstellt.
- Grundlagen von Information-Retrieval-Modellen
- Prozesse und Herausforderungen beim Webcrawling
- Methodik der Datenindizierung
- Bedeutung und Struktur des Deep Web
- Anwendung der Tools Lucene und Nutch
Auszug aus dem Buch
Crawling
Ein Bestandteil ist das „Crawling“. Um diesen Teil besser zuverstehen ist es notwendig sich vorher einige Grundlagen anzuschauen: Das Web. Um die Datenmenge des Internets durchsuchbar zu machen wird das Internet als gerichteter, unverbundener Graph abstrahiert. Hierbei stellen die HTML Dokumente, also die Seiten an sich die Knoten des Graphen da, und die Verweise oder Hyperlinks auf andere Seiten sind die verbindenden Kanten. Der eben genannte Webcrawler ist in diesem Modell nichts weiter als ein Programm, welches einen Algorithmus zur Graphtraversierung abarbeitet.
Reguläre Ausdrücke. Ein regulärer Ausdruck ist eine Zeichenkette, welche eine Menge von Zeichenketten, mit Hilfe Syntaktischer Regeln beschreibt. Reguläre Ausdrücke werden beim Webcrawling genutzt um die Hyperlinks und Daten aus den HTML Code zu extrahieren. Im Anhang finden sich einige der einfacheren Regeln zum Aufbau regulärer Ausdrücke.
Zusammenfassung der Kapitel
Einführung: Die Einleitung skizziert den Zweck des Web Retrievals zur Sichtung und Analyse großer Datenmengen im Internet.
Grundlagen Information Retrieval: Dieses Kapitel erläutert die verschiedenen IR-Modelle wie das boolesche Modell und das Vektorraummodell zur Filterung und Sortierung von Dokumenten.
Crawling: Der Abschnitt beschreibt den technischen Prozess der Graphtraversierung durch Webcrawler sowie die Relevanz von regulären Ausdrücken und die Problematik des Deep Webs.
Indexing: Hier werden die vier Phasen der Indexerstellung beschrieben, die von der Textextraktion bis zur Nutzung invertierter Listen für eine effiziente Suche reichen.
Tools für Webretrieval: Dieses Kapitel stellt die Softwarewerkzeuge Lucene und Nutch vor und beschreibt deren Funktionalitäten für den Aufbau von Suchmaschinen.
Schlüsselwörter
Web Retrieval, Information Retrieval, Webcrawler, Crawling, Indexing, boolesches Modell, Vektorraummodell, Deep Web, Invertierte Liste, Lucene, Nutch, Reguläre Ausdrücke, Graphtraversierung, Suchmaschine, Datenindizierung
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt die technischen Grundlagen, die hinter modernen Suchmaschinen stehen, insbesondere die Methoden zur Erfassung und Organisation von Web-Inhalten.
Was sind die zentralen Themenfelder der Publikation?
Die Schwerpunkte liegen auf den IR-Modellen, der Funktionsweise von Crawlern, den Phasen der Indizierung sowie den Open-Source-Tools Lucene und Nutch.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist es, einen verständlichen Überblick über die Teilschritte eines Web-Retrieval-Systems zu geben, von der Datenbeschaffung bis zur Bereitstellung für Suchanfragen.
Welche wissenschaftliche Methode wird primär verwendet?
Die Arbeit nutzt eine deskriptive Methodik, um die bestehenden theoretischen Konzepte des Information Retrievals und der Web-Technologien zusammenzufassen und einzuordnen.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretischen Grundlagen des Retrievals, die technischen Aspekte des Crawlings (inkl. Deep Web), das Indexing und die Vorstellung praktischer Software-Lösungen.
Welche Schlüsselwörter charakterisieren die Arbeit am besten?
Zu den prägenden Begriffen gehören Web-Retrieval, Webcrawler, Indizierung, Vektorraummodell und die Open-Source-Frameworks Lucene und Nutch.
Warum ist das Deep Web für Webcrawler eine besondere Herausforderung?
Da Daten im Deep Web nicht durch einfache HTML-Strukturen repräsentiert werden, sondern oft hinter Webformularen oder in Datenbanken liegen, sind sie für herkömmliche Crawler schwer zugänglich.
Was unterscheidet das boolesche Modell vom Vektorraummodell?
Während das boolesche Modell auf exakten Treffern („exact match“) basiert, erlaubt das Vektorraummodell durch die mathematische Gewichtung von Termen eine Sortierung der Ergebnisse nach Relevanz.
Warum ist die „robots.txt“ wichtig für das Crawling?
Sie dient als Kontrollmechanismus, mit dem Betreiber festlegen können, welche Bereiche ihrer Website für Crawler zugänglich sind und welche explizit gesperrt werden sollen.
- Citar trabajo
- Florian Uhde (Autor), Marco Hinz (Autor), 2010, Web Retrieval, Múnich, GRIN Verlag, https://www.grin.com/document/178610