Informationsextraktion von Webseiten via RoadRunner


Research Paper (postgraduate), 2009

21 Pages, Grade: 1


Excerpt


Inhaltsverzeichnis

1 Einführung und Zielbeschreibung

2 Informationsextraktion - Genese, Ziele und Probleme
2.1 Geschichte der Informationsextraktion
2.2 Ziele der Informationsextraktion
2.3 Probleme bei der Informationsextraktion
2.4 Verfahren der Informationsextraction

3 Informationsextraktion mit RoadRunner
3.1 Allgemeines
3.2 Ablauf der Extraktion bei RoadRunner
3.2.1 Eingabe
3.2.2 Verarbeitung
3.2.3 Ausgabe

4 Fazit

5 Literaturverzeichnis

1 Einführung und Zielbeschreibung

Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt. Das wundert es kaum, wenn man die Anzahl der registrierten Domänen in Betracht zieht. Im Jahre 2007 gab es ca. 118 Mio. registrierte Domänen und davon ca. 54 Mio. aktiv.1 Zwei Jahre später hat die Zahl der registrierten Domänen schon 240 Mio. überschritten. Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.2 In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Im ersten Kapitel der vorliegenden Arbeit werden Genese, Ziele, Probleme und Verfahren der Informationsextraktion dargestellt.

Der Hauptfokus dieser Arbeit besteht darin, das ausgewählte Tool zur Informationsextraktion von Webseiten (RoadRunner) darzustellen und an konkreten Beispielen seine Arbeitsweise in einzelnen Schritten zu erläutern. Zum Schluss werden die Ergebnisse der Arbeit im Fazit diskutiert.

Die vorliegende Arbeit besteht aus fünf aufeinander folgenden Kapiteln: Einführung und Zielsetzung, Informationsextraktion- Genese, Ziele und Probleme, Informationsextraktion mit RoadRunner, Fazit und Literaturverzeichnis.

2 Informationsextraktion - Genese, Ziele und Probleme

Bei der Web Informationsextraktion sollen relevante Daten aus beliebigen Quellen (Dokumenten) extrahiert und zum Zweck der Weiterverarbeitung in einem strukturierten Format abgespeichert werden. Wichtig ist es dabei nicht, dass die Informationsextraktion Tools die Quellen bzw. die Input-Daten verstehen, sondern, dass sie anhand erkannter Strukturen und Regelmäßigkeiten die Teilbereiche jedes Dokumentes analysieren, das relevante Informationen enthält.3 Im Web macht man sich genau diese Tatsache zu Nutze, da bei den HTML-Dokumenten eine bestimmte Teilstruktur bereits vorgegeben ist.4

2.1 Geschichte der Informationsextraktion

Die Genese der Informationsextraktion geht auf die Analyse der natürlichsprachlichen Texte zurück und kann somit als ein Unterbereich des Natural Language Processing (NLP) angesehen werden. Der Gegenstand der IE bezog sich einerseits auf natürlichsprachliche Texte ohne erkennbare Struktur und andererseits auf stark strukturierte Dokumente. Mit der Entwicklung des Webs entstand der Bedarf auf die Extraktion von Informationen aus semi-strukturierten Texten.

Bevor Informationen aus den Dokumenten extrahiert werden, müssen sie zuerst gefunden werden. Das Suchen und Finden von Dokumenten ist eine Aufgabe von Information Retrieval. Obwohl beide Disziplinen eng miteinander verbunden sind, basieren sie auf verschiedenen Grundsätzen. Während Information Retrieval durch Statistik sowie Informations- und Wahrscheinlichkeitstheorie geprägt wurde, bezieht sich Informationsextraktion auf die Forschung rund um regelbasierte Systeme in der Computerlinguistik und Natural Language Processing.

2.2 Ziele der Informationsextraktion

Mit der Informationsextraktion werden folgende Ziele angestrebt:

- Automatisches Verfahren für das Extrahieren von Informationen
- Extraktion von beliebigen Informationen aus verschiedenen Quellen
- Erreichen einer möglichst hohen Qualität der extrahierten Informationen

Die Verfahren der Informationsextraktion zielen darauf ab, eine möglichst hohe Qualität der extrahierten Daten zu erreichen. Unterwegs dorthin sollen aber oft verschiedene Kompromisse geschlossen und Probleme gelöst werden. Bei einem erhöhten Automatisierungsgrad wird die Qualität verschlechtert und die Wahrscheinlichkeit erhöht, dass auch Datenmüll extrahiert wird. Wird dagegen auf die Automatisierung verzichtet und der User muss zu viel Eigenarbeit leisten, ist das unter jeder Hinsicht zu aufwendig. Sehr wichtig ist auch der Einsatzbereich des jeweiligen Verfahrens. Manche Systeme beziehen sich nur auf einen engen Bereich, wie z.B. die Web News Extraktion, was natürlich einfacher umzusetzen ist. Das Ziel sollte es jedoch sein, ein Verfahren bereit zu stellen, das möglichst beliebige Daten aus verschiedensten Webseiten extrahieren kann.5

Die Qualität der Ergebnisse ist ein Maßstab für die Effektivität der Data Extraktion Technologien. Hierzu werden zunächst zwei wesentliche Merkmale eingesetzt, nämlich Precision und Recall. Letzteres ist ein Informationsmaß, wie viele Teile der Information korrekt extrahiert wurden, und Precision beschreibt ob die extrahierten Teile korrekt sind (Zuverlässigkeit der Information). Graphisch kann dies wie folgt abgebildet werden:6

2.3 Probleme bei der Informationsextraktion

Bei der Informationsextraktion wurden folgende Problemklassen lokalisiert:7

- Finden der Webseiten durch das Verfolgen von Hyperlinks
- Unsaubere HTML-Struktur
- Statisch vs. Dynamisch, Surface vs. Hidden Web
- Das Hyperlink Dilemma
- Struktur Synthese Problem
- Data Mapping und Data Integration Problem

Das Finden der Webseiten durch das Verfolgen von Hyperlinks ist nur theoretisch ganz banal. Dieses Problem bezieht sich eigentlich auf die Suche von Dokumenten, aus denen die gewünschten Informationen wiedergewonnen werden sollen. Oft sind die gewünschten Informationen auf mehreren Seiten verteilt. Häufig steht auf einer Seite ein Link, der zur weiteren Seite mit Detailinformationen führt (z.B. in einem Online-Shop). Das Informationsextraktionssystem muss also in der Lage sein, solchen relevanten Hyperlinks zu folgen und nicht relevante Verweise zu ignorieren. Dabei unterscheidet man zwischen mehreren Webpage-Klassen:8 one-level (eine einzelne Seite beinhaltet alle Informationen die man braucht), one-level-multipage (mehrere Links müssen verfolgt werden), two-level (für jedes Item im ersten Level muss einem Link gefolgt werden, der dorthin führt, wo sich alle Informationen zu besagtem Item befinden).

Das weitere Problem stellt die unsaubere HTML-Struktur dar. Die im Internet vorhandenen Webseiten sind oft nicht mit HTML-Standard konform. Auch ihre Struktur ist nicht immer eindeutig. Die Browser akzeptieren in den meisten Fällen auch fehlende HTML-Tags und zeigen die Seiten trotzdem korrekt an. Bei der Informationsextraktion müssen solche Fehler berücksichtigt werden. Eine bewahrte Lösung des Problems ist, noch vor der Analyse ein fehlerhaftes HTML-Dokument in ein XML-konformes HTML (XHTML), das keine Fehler toleriert, zu überführen. Einige Verfahren transformieren das HTML der Zielseite in eine eigene, individuelle Struktur.9

[...]


1 Vgl.: http://news.netcraft.com (12.10.2009)

2 Vgl. :Jung,Weisse (2003), S.:1

3 Vgl. Eikvil (1999)

4 Vgl. Aigner (2006), S.: 1

5 Vgl. Aigner (2006), S.: 2

6 Vgl. ebenda, S.: 3

7 Vgl. Aigner (2006), S. 2

8 Vgl. ebenda, S.:3

9 Vgl. ebenda

Excerpt out of 21 pages

Details

Title
Informationsextraktion von Webseiten via RoadRunner
College
LMU Munich  (Centrum für Informations- und Sprachverarbeitung)
Course
Web Data Mining
Grade
1
Author
Year
2009
Pages
21
Catalog Number
V141716
ISBN (eBook)
9783640518449
ISBN (Book)
9783640518647
File size
913 KB
Language
German
Keywords
informationsextraktion, wrapper, information retrieval, web data mining, roadrunner, webseiten, internet, extraktion von webseiten, information extraktion
Quote paper
M.A. Pawel Broda (Author), 2009, Informationsextraktion von Webseiten via RoadRunner, Munich, GRIN Verlag, https://www.grin.com/document/141716

Comments

  • No comments yet.
Look inside the ebook
Title: Informationsextraktion von Webseiten via RoadRunner



Upload papers

Your term paper / thesis:

- Publication as eBook and book
- High royalties for the sales
- Completely free - with ISBN
- It only takes five minutes
- Every paper finds readers

Publish now - it's free