Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt.
Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.
In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Excerpt

Inhaltsverzeichnis

Einführung und Zielbeschreibung
Informationsextraktion - Genese, Ziele und Probleme
- Geschichte der Informationsextraktion
- Ziele der Informationsextraktion
- Probleme bei der Informationsextraktion
- Verfahren der Informationsextraction
Informationsextraktion mit RoadRunner
- Allgemeines
- Ablauf der Extraktion bei RoadRunner
  - Eingabe
  - Verarbeitung
  - Ausgabe
Fazit
Literaturverzeichnis

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit der Informationsextraktion von Webseiten mithilfe des Tools RoadRunner. Ziel ist es, die Funktionsweise von RoadRunner anhand konkreter Beispiele zu erläutern und die Ergebnisse zu diskutieren.

Genese, Ziele und Probleme der Informationsextraktion
Funktionsweise von RoadRunner
Anwendungen und Einsatzbereiche der Informationsextraktion
Herausforderungen und zukünftige Entwicklungen

Zusammenfassung der Kapitel

Das erste Kapitel führt in die Thematik der Informationsextraktion ein und beleuchtet die historische Entwicklung, die Ziele und die Herausforderungen dieses Bereichs. Es werden verschiedene Verfahren der Informationsextraktion vorgestellt und die Bedeutung der Web Informationsextraktion im Kontext des wachsenden Datenvolumens im Internet hervorgehoben.

Das zweite Kapitel konzentriert sich auf das Tool RoadRunner und beschreibt dessen Funktionsweise im Detail. Es werden die einzelnen Schritte des Extraktionsprozesses, von der Eingabe bis zur Ausgabe, erläutert und anhand von Beispielen veranschaulicht. Die Vorteile und Grenzen von RoadRunner werden ebenfalls diskutiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Informationsextraktion, Web Informationsextraktion, RoadRunner, Datenextraktion, HTML-Dokumente, semi-strukturierte Daten, Natural Language Processing (NLP), Information Retrieval, Precision, Recall.

Häufig gestellte Fragen

Was ist Informationsextraktion (IE)?

Informationsextraktion ist ein Verfahren, um relevante Daten automatisch aus unstrukturierten oder semi-strukturierten Dokumenten (wie Webseiten) zu gewinnen und in strukturierte Formate zu überführen.

Was ist RoadRunner?

RoadRunner ist ein Tool zur automatischen Informationsextraktion, das durch den Vergleich von zwei oder mehr Webseiten derselben Quelle ein Extraktionsschema (Wrapper) erstellt, ohne dass manuelle Regeln nötig sind.

Warum ist die Extraktion von dynamischen Webseiten schwierig?

Da dynamische Seiten erst bei einer Anfrage aus Datenbanken generiert werden, sind sie für herkömmliche Suchmaschinen-Crawler oft schwerer zugänglich und weisen komplexe Strukturen auf.

Was versteht man unter semi-strukturierten Daten?

Das sind Daten, die keinem starren Datenbankschema folgen, aber Markierungen (wie HTML-Tags) enthalten, die zur Trennung von Inhalten und zur Strukturierung genutzt werden können.

Was bedeuten Precision und Recall in diesem Kontext?

Es sind Qualitätsmaße: Precision gibt an, wie viele der extrahierten Daten korrekt sind, während Recall angibt, wie viele der tatsächlich relevanten Daten gefunden wurden.

Excerpt out of 21 pages - scroll top

Details

Title: Informationsextraktion von Webseiten via RoadRunner
College: LMU Munich (Centrum für Informations- und Sprachverarbeitung)
Course: Web Data Mining
Grade: 1
Author: M.A. Pawel Broda (Author)
Publication Year: 2009
Pages: 21
Catalog Number: V141716
ISBN (eBook): 9783640518449
ISBN (Book): 9783640518647
Language: German
Tags: informationsextraktion wrapper information retrieval web data mining roadrunner webseiten internet extraktion von webseiten information extraktion
Product Safety: GRIN Publishing GmbH

Quote paper: M.A. Pawel Broda (Author), 2009, Informationsextraktion von Webseiten via RoadRunner, Munich, GRIN Verlag, https://www.grin.com/document/141716

Informationsextraktion von Webseiten via RoadRunner