In Unternehmen fallen heute ständig große Datenmengen an. Das Ziel ist es diese Daten gewinnbringend einzusetzen. Viele Unternehmen setzen auf das Konzept des Data Warehouse. Das primäre Ziel ist das Zusammenführen von Daten aus den unterschiedlichsten Quellen und Systemen. In Unternehmen herrscht eine Vielzahl unterschiedlicher Anwendungen die Daten hervorbringen. Es ist eine Tatsache, dass viele Systeme hohe Kosten verursachen und dabei die Weiterentwicklung der Systeme behindern. Des Weiteren können die aggregierten Daten oftmals nicht effektiv genutzt werden, da sie in unterschiedlichen Formaten vorliegen. Die Daten befinden sich an unterschiedlichen Orten und in unterschiedlicher Form. Um das Auftreten solcher Probleme zu verhindern, stellt SAP White Paper zum Thema mySAP Business Intelligence zwei Konzepte in den Mittelpunkt, die zur Vermeidung von Problemen bei Data Warehouse Projekten beitragen. Zum einen zielt das Data Warehouse darauf ab, Daten zu integrieren. Um diesen Prozess umfassend zu gestalten, sollte er übergreifend im ganzen Data Warehouse stattfinden. Des Weiteren ist der Fokus ausschließlich auf die betriebswirtschaftlichen Prozesse auszurichten, d.h. nur die für den einzelnen Mitarbeiter relevanten Daten sollten bereitgestellt werden. Die betriebswirtschaftliche Grundlage jedes Unternehmens ist die Informationsbereitstellung. Sie verfolgt das Ziel, dass die gewonnenen Daten und Informationen als adäquate Grundlage für das erfolgreiche Abwickeln von Geschäftsprozessen dienen. Der Data Warehouse Prozess besteht aus den Schritten der Datenbeschaffung, die das Speichern der Daten und deren Analyse beinhalten. Damit diese Prozesse nicht ins Unendlich anwachsen führen die zentralen Komponenten eines Data Warehouse Systems die Zusammenführung, die Bereinigung und die Standardisierung durch. Diesen Vorgang beschreiben die ETL-Komponenten und sind Ausgangspunkt dieses Kapitels. Die Führungspersonen eines Unternehmens sind die Anwender eines Data Warehouse Systems, die daraus führungsrelevante Informationen für Analysen und strategische Planungen erhalten.

Excerpt

Inhaltsverzeichnis

Der Data Warehouse Prozess
- Einführung
- Der ETL-Prozess
- Die technische Seite
Externe Daten aus dem Web
Intelligente Wrapper für Web Information Extraction am Beispiel von Lixto
- Einführung
- Allgemein: Der Wrapper
- Der BI Prozess
- Lixto Software Architektur
ETL-Prozess mit XML-Files am Beispiel SAP BW
- Einführung
- Das SAP BW Konzept
- Gesamtdarstellung
- Datenextraktion und Transformation mit Lixto
- Upload von XML in SAP BW
Ausblick

Zielsetzung und Themenschwerpunkte

Die vorliegende Arbeit befasst sich mit dem Thema Web Information Integration und untersucht, wie externe Daten aus dem Web in ein Data Warehouse integriert werden können. Der Fokus liegt dabei auf dem Einsatz intelligenter Wrapper, die eine effiziente Extraktion und Transformation von Daten aus unstrukturierten Webquellen ermöglichen.

Data Warehouse Prozesse und das ETL-Konzept
Integration von externen Webdaten in Data Warehouses
Intelligente Wrapper als Werkzeug zur Web Information Extraction
Anwendung des Lixto-Systems im Kontext der Webdatenintegration
Praktische Umsetzung im SAP BW-Umfeld

Zusammenfassung der Kapitel

Das erste Kapitel widmet sich dem Data Warehouse Prozess und erläutert die grundlegenden Konzepte sowie den ETL-Prozess. Es werden die Herausforderungen bei der Integration von Daten aus verschiedenen Quellen aufgezeigt, wobei der Schwerpunkt auf der Bedeutung der Datenqualität und -konsistenz liegt.

Kapitel zwei befasst sich mit der Integration von externen Daten aus dem Web. Es werden verschiedene Anwendungsbeispiele, darunter Competitive Intelligence, vorgestellt. Der Fokus liegt auf der Unterscheidung zwischen strukturierten, semi-strukturierten und unstrukturierten Daten und den damit verbundenen Herausforderungen bei der Datenextraktion.

Kapitel drei stellt den Einsatz von intelligenten Wrappern zur Web Information Extraction vor. Am Beispiel von Lixto werden die Architektur und Funktionsweise dieser Wrapper erläutert. Es werden die Vorteile der Verwendung von Wrappern für die automatisierte Datenextraktion und -transformation aus Webquellen hervorgehoben.

Kapitel vier fokussiert auf die konkrete Umsetzung des ETL-Prozesses mit XML-Files im SAP BW-Umfeld. Es wird das SAP BW Konzept detailliert erklärt und die Integration von Daten aus Webquellen mithilfe von Lixto gezeigt.

Schlüsselwörter

Data Warehouse, Web Information Integration, ETL-Prozess, Wrapper, Lixto, XML, SAP BW, Competitive Intelligence, Datenextraktion, Datenintegration, strukturierte Daten, unstrukturierte Daten.

Excerpt out of 38 pages - scroll top

Details

Title: Web Information Integration
College: Stuttgart Media University
Grade: 1,0
Author: Simone Gebel (Author)
Publication Year: 2005
Pages: 38
Catalog Number: V58855
ISBN (eBook): 9783638529419
ISBN (Book): 9783656776048
Language: German
Tags: Information Integration
Product Safety: GRIN Publishing GmbH

Quote paper: Simone Gebel (Author), 2005, Web Information Integration, Munich, GRIN Verlag, https://www.grin.com/document/58855