Grin logo
en de es fr
Shop
GRIN Website
Publicación mundial de textos académicos
Go to shop › Didáctica - Ciencias de la computación

Informationsextraktion von Webseiten via RoadRunner

Título: Informationsextraktion von Webseiten via RoadRunner

Trabajo de Investigación , 2009 , 21 Páginas , Calificación: 1

Autor:in: M.A. Pawel Broda (Autor)

Didáctica - Ciencias de la computación
Extracto de texto & Detalles   Leer eBook
Resumen Extracto de texto Detalles

Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt.
Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.
In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Extracto


Inhaltsverzeichnis

  • Einführung und Zielbeschreibung
  • Informationsextraktion - Genese, Ziele und Probleme
    • Geschichte der Informationsextraktion
    • Ziele der Informationsextraktion
    • Probleme bei der Informationsextraktion
    • Verfahren der Informationsextraction
  • Informationsextraktion mit RoadRunner
    • Allgemeines
    • Ablauf der Extraktion bei RoadRunner
      • Eingabe
      • Verarbeitung
      • Ausgabe
  • Fazit
  • Literaturverzeichnis

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit der Informationsextraktion von Webseiten mithilfe des Tools RoadRunner. Ziel ist es, die Funktionsweise von RoadRunner anhand konkreter Beispiele zu erläutern und die Ergebnisse zu diskutieren.

  • Genese, Ziele und Probleme der Informationsextraktion
  • Funktionsweise von RoadRunner
  • Anwendungen und Einsatzbereiche der Informationsextraktion
  • Herausforderungen und zukünftige Entwicklungen

Zusammenfassung der Kapitel

Das erste Kapitel führt in die Thematik der Informationsextraktion ein und beleuchtet die historische Entwicklung, die Ziele und die Herausforderungen dieses Bereichs. Es werden verschiedene Verfahren der Informationsextraktion vorgestellt und die Bedeutung der Web Informationsextraktion im Kontext des wachsenden Datenvolumens im Internet hervorgehoben.

Das zweite Kapitel konzentriert sich auf das Tool RoadRunner und beschreibt dessen Funktionsweise im Detail. Es werden die einzelnen Schritte des Extraktionsprozesses, von der Eingabe bis zur Ausgabe, erläutert und anhand von Beispielen veranschaulicht. Die Vorteile und Grenzen von RoadRunner werden ebenfalls diskutiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Informationsextraktion, Web Informationsextraktion, RoadRunner, Datenextraktion, HTML-Dokumente, semi-strukturierte Daten, Natural Language Processing (NLP), Information Retrieval, Precision, Recall.

Final del extracto de 21 páginas  - subir

Detalles

Título
Informationsextraktion von Webseiten via RoadRunner
Universidad
LMU Munich  (Centrum für Informations- und Sprachverarbeitung)
Curso
Web Data Mining
Calificación
1
Autor
M.A. Pawel Broda (Autor)
Año de publicación
2009
Páginas
21
No. de catálogo
V141716
ISBN (Ebook)
9783640518449
ISBN (Libro)
9783640518647
Idioma
Alemán
Etiqueta
informationsextraktion wrapper information retrieval web data mining roadrunner webseiten internet extraktion von webseiten information extraktion
Seguridad del producto
GRIN Publishing Ltd.
Citar trabajo
M.A. Pawel Broda (Autor), 2009, Informationsextraktion von Webseiten via RoadRunner, Múnich, GRIN Verlag, https://www.grin.com/document/141716
Leer eBook
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
Extracto de  21  Páginas
Grin logo
  • Grin.com
  • Page::Footer::PaymentAndShipping
  • Contacto
  • Privacidad
  • Aviso legal
  • Imprint