Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt.
Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.
In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.
Inhaltsverzeichnis
1 Einführung und Zielbeschreibung
2 Informationsextraktion – Genese, Ziele und Probleme
2.1 Geschichte der Informationsextraktion
2.2 Ziele der Informationsextraktion
2.3 Probleme bei der Informationsextraktion
2.4 Verfahren der Informationsextraction
3 Informationsextraktion mit RoadRunner
3.1 Allgemeines
3.2 Ablauf der Extraktion bei RoadRunner
3.2.1 Eingabe
3.2.2 Verarbeitung
3.2.3 Ausgabe
4 Fazit
Zielsetzung und thematische Schwerpunkte
Die vorliegende Arbeit zielt darauf ab, die Grundlagen der Informationsextraktion zu erläutern und die Funktionsweise des spezialisierten Tools RoadRunner anhand praktischer Anwendungsbeispiele detailliert zu demonstrieren.
- Grundlegende Definitionen und Geschichte der Informationsextraktion
- Herausforderungen bei der Extraktion aus semi-strukturierten Webdokumenten
- Überblick über verschiedene methodische Ansätze (HTML-basiert, NLP-basiert etc.)
- Detaillierte Analyse des RoadRunner-Extraktionsprozesses
- Praktische Erprobung der Extraktion am Beispiel von Spielplänen der Bayerischen Staatsoper
Auszug aus dem Buch
2.3 Probleme bei der Informationsextraktion
Das Finden der Webseiten durch das Verfolgen von Hyperlinks ist nur theoretisch ganz banal. Dieses Problem bezieht sich eigentlich auf die Suche von Dokumenten, aus denen die gewünschten Informationen wiedergewonnen werden sollen. Oft sind die gewünschten Informationen auf mehreren Seiten verteilt. Häufig steht auf einer Seite ein Link, der zur weiteren Seite mit Detailinformationen führt (z.B. in einem Online-Shop). Das Informationsextraktionssystem muss also in der Lage sein, solchen relevanten Hyperlinks zu folgen und nicht relevante Verweise zu ignorieren. Dabei unterscheidet man zwischen mehreren Webpage-Klassen: one-level (eine einzelne Seite beinhaltet alle Informationen die man braucht), one-level-multipage (mehrere Links müssen verfolgt werden), two-level (für jedes Item im ersten Level muss einem Link gefolgt werden, der dorthin führt, wo sich alle Informationen zu besagtem Item befinden).
Das weitere Problem stellt die unsaubere HTML-Struktur dar. Die im Internet vorhandenen Webseiten sind oft nicht mit HTML-Standard konform. Auch ihre Struktur ist nicht immer eindeutig. Die Browser akzeptieren in den meisten Fällen auch fehlende HTML-Tags und zeigen die Seiten trotzdem korrekt an. Bei der Informationsextraktion müssen solche Fehler berücksichtigt werden. Eine bewahrte Lösung des Problems ist, noch vor der Analyse ein fehlerhaftes HTML-Dokument in ein XML-konformes HTML (XHTML), das keine Fehler toleriert, zu überführen. Einige Verfahren transformieren das HTML der Zielseite in eine eigene, individuelle Struktur.
Zusammenfassung der Kapitel
1 Einführung und Zielbeschreibung: Die Einleitung beleuchtet den wachsenden Datenbestand im Web und definiert den Fokus der Arbeit auf das Tool RoadRunner zur Informationsextraktion.
2 Informationsextraktion – Genese, Ziele und Probleme: Dieses Kapitel behandelt die theoretischen Grundlagen, Ziele sowie die verschiedenen Problemklassen und Verfahren im Bereich der Informationsextraktion.
3 Informationsextraktion mit RoadRunner: Das Hauptkapitel beschreibt die technische Funktionsweise von RoadRunner, insbesondere den Ablauf von Eingabe, Verarbeitung und Ausgabe anhand von Praxisbeispielen.
4 Fazit: Das Fazit fasst die Ergebnisse zusammen und bewertet die Vor- und Nachteile von RoadRunner als spezialisiertes Extraktionstool.
Schlüsselwörter
Informationsextraktion, RoadRunner, Web Scraping, HTML-Struktur, Wrapper, Data Mining, Deep Web, XML, Information Retrieval, Syntaxanalyse, Mustererkennung, Parser, Automatisierung, Datenaufbereitung, Semistrukturierte Daten.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit den theoretischen Grundlagen der Informationsextraktion aus Webseiten und untersucht das automatische Extraktionstool RoadRunner.
Was sind die zentralen Themenfelder?
Die Themen umfassen die Geschichte der Extraktion, spezifische Herausforderungen wie unsaubere HTML-Strukturen und die methodische Vorgehensweise bei der Nutzung von Wrapper-Tools.
Was ist das primäre Ziel der Arbeit?
Das Ziel ist die Darstellung der Arbeitsweise von RoadRunner und die Veranschaulichung dessen Anwendung in der Praxis anhand von konkreten Beispielen.
Welche wissenschaftlichen Methoden werden verwendet?
Es wird eine Analyse bestehender Informationsextraktions-Verfahren durchgeführt, kombiniert mit einer praktischen Implementierung des Tools RoadRunner zur automatisierten Datenextraktion.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretische Herleitung der verschiedenen Extraktionsmethoden und die detaillierte Beschreibung des RoadRunner-Prozesses (Eingabe, Verarbeitung, Ausgabe).
Welche Schlüsselwörter charakterisieren die Arbeit?
Zentrale Begriffe sind Informationsextraktion, Wrapper-Technologien, HTML-Struktur, semistrukturierte Daten und Automatisierung.
Wie unterscheidet RoadRunner zwischen verschiedenen Inhalten auf einer Webseite?
RoadRunner erzeugt lokale Grammatiken und identifiziert "Tag Mismatches" sowie "String Mismatches", um veränderliche Inhalte von sich wiederholenden Struktur-Elementen zu trennen.
Warum ist das Tool RoadRunner in der Anwendung laut Arbeit eingeschränkt?
Das Tool erfordert für jede Extraktion eine neue Generierung der Grammatik und funktioniert nicht bei Webseiten, die auf unterschiedlichen Templates basieren.
- Quote paper
- M.A. Pawel Broda (Author), 2009, Informationsextraktion von Webseiten via RoadRunner, Munich, GRIN Verlag, https://www.grin.com/document/141716