Grin logo
en de es fr
Shop
GRIN Website
Publier des textes, profitez du service complet
Go to shop › Didactique - Informatique

Informationsextraktion von Webseiten via RoadRunner

Titre: Informationsextraktion von Webseiten via RoadRunner

Travail de Recherche , 2009 , 21 Pages , Note: 1

Autor:in: M.A. Pawel Broda (Auteur)

Didactique - Informatique
Extrait & Résumé des informations   Lire l'ebook
Résumé Extrait Résumé des informations

Das Web hat sich in den letzten Jahren zum größten existierenden und frei verfügbaren Daten- und Informationsbestand entwickelt.
Im Netz, wo es ein absoluter Datenüberfluss und Informationenchaos herrscht, ist beinahe alles zu finden. Auf der Suche nach benötigten Informationen wird durch unzählige Dokumente gestöbert, die von unterschiedlicher Struktur und unterschiedlicher Relevanz sind. Während die Suchmaschinen einen gewissen Teil des Webs crawlen und somit auch indexiert können, bleibt ein sehr großer Teil des Webs verschlossen. Dieser Umstand wird auf die stets wachsende Anzahl von dynamisch generierten Webseiten zurückgeführt. Die gesuchten Informationen sind nicht mehr statisch verfügbar sondern werden aufgrund von benutzerspezifischen Anfragen aus den relationalen Datenbanken dynamisch erzeugt.
In diesem riesigen Dokumentenbestand, in den statischen und dynamisch generierten Webseiten, werden mit Information Retrieval Verfahren relevante Daten gesucht und nach dem Finden so abgespeichert, dass sie bequem weiterverarbeitet werden können. Im nächsten Schritt wird es versucht, aus den semi-strukturierten Dokumenten relevante Informationen zu gewinnen.

Extrait


Inhaltsverzeichnis

  • Einführung und Zielbeschreibung
  • Informationsextraktion - Genese, Ziele und Probleme
    • Geschichte der Informationsextraktion
    • Ziele der Informationsextraktion
    • Probleme bei der Informationsextraktion
    • Verfahren der Informationsextraction
  • Informationsextraktion mit RoadRunner
    • Allgemeines
    • Ablauf der Extraktion bei RoadRunner
      • Eingabe
      • Verarbeitung
      • Ausgabe
  • Fazit
  • Literaturverzeichnis

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit der Informationsextraktion von Webseiten mithilfe des Tools RoadRunner. Ziel ist es, die Funktionsweise von RoadRunner anhand konkreter Beispiele zu erläutern und die Ergebnisse zu diskutieren.

  • Genese, Ziele und Probleme der Informationsextraktion
  • Funktionsweise von RoadRunner
  • Anwendungen und Einsatzbereiche der Informationsextraktion
  • Herausforderungen und zukünftige Entwicklungen

Zusammenfassung der Kapitel

Das erste Kapitel führt in die Thematik der Informationsextraktion ein und beleuchtet die historische Entwicklung, die Ziele und die Herausforderungen dieses Bereichs. Es werden verschiedene Verfahren der Informationsextraktion vorgestellt und die Bedeutung der Web Informationsextraktion im Kontext des wachsenden Datenvolumens im Internet hervorgehoben.

Das zweite Kapitel konzentriert sich auf das Tool RoadRunner und beschreibt dessen Funktionsweise im Detail. Es werden die einzelnen Schritte des Extraktionsprozesses, von der Eingabe bis zur Ausgabe, erläutert und anhand von Beispielen veranschaulicht. Die Vorteile und Grenzen von RoadRunner werden ebenfalls diskutiert.

Schlüsselwörter

Die Schlüsselwörter und Schwerpunktthemen des Textes umfassen Informationsextraktion, Web Informationsextraktion, RoadRunner, Datenextraktion, HTML-Dokumente, semi-strukturierte Daten, Natural Language Processing (NLP), Information Retrieval, Precision, Recall.

Fin de l'extrait de 21 pages  - haut de page

Résumé des informations

Titre
Informationsextraktion von Webseiten via RoadRunner
Université
LMU Munich  (Centrum für Informations- und Sprachverarbeitung)
Cours
Web Data Mining
Note
1
Auteur
M.A. Pawel Broda (Auteur)
Année de publication
2009
Pages
21
N° de catalogue
V141716
ISBN (ebook)
9783640518449
ISBN (Livre)
9783640518647
Langue
allemand
mots-clé
informationsextraktion wrapper information retrieval web data mining roadrunner webseiten internet extraktion von webseiten information extraktion
Sécurité des produits
GRIN Publishing GmbH
Citation du texte
M.A. Pawel Broda (Auteur), 2009, Informationsextraktion von Webseiten via RoadRunner, Munich, GRIN Verlag, https://www.grin.com/document/141716
Lire l'ebook
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
  • Si vous voyez ce message, l'image n'a pas pu être chargée et affichée.
Extrait de  21  pages
Grin logo
  • Grin.com
  • Page::Footer::PaymentAndShipping
  • Contact
  • Prot. des données
  • CGV
  • Imprint