In Unternehmen fallen heute ständig große Datenmengen an. Das Ziel ist es diese Daten gewinnbringend einzusetzen. Viele Unternehmen setzen auf das Konzept des Data Warehouse. Das primäre Ziel ist das Zusammenführen von Daten aus den unterschiedlichsten Quellen und Systemen. In Unternehmen herrscht eine Vielzahl unterschiedlicher Anwendungen die Daten hervorbringen. Es ist eine Tatsache, dass viele Systeme hohe Kosten verursachen und dabei die Weiterentwicklung der Systeme behindern. Des Weiteren können die aggregierten Daten oftmals nicht effektiv genutzt werden, da sie in unterschiedlichen Formaten vorliegen. Die Daten befinden sich an unterschiedlichen Orten und in unterschiedlicher Form. Um das Auftreten solcher Probleme zu verhindern, stellt SAP White Paper zum Thema mySAP Business Intelligence zwei Konzepte in den Mittelpunkt, die zur Vermeidung von Problemen bei Data Warehouse Projekten beitragen. Zum einen zielt das Data Warehouse darauf ab, Daten zu integrieren. Um diesen Prozess umfassend zu gestalten, sollte er übergreifend im ganzen Data Warehouse stattfinden. Des Weiteren ist der Fokus ausschließlich auf die betriebswirtschaftlichen Prozesse auszurichten, d.h. nur die für den einzelnen Mitarbeiter relevanten Daten sollten bereitgestellt werden. Die betriebswirtschaftliche Grundlage jedes Unternehmens ist die Informationsbereitstellung. Sie verfolgt das Ziel, dass die gewonnenen Daten und Informationen als adäquate Grundlage für das erfolgreiche Abwickeln von Geschäftsprozessen dienen. Der Data Warehouse Prozess besteht aus den Schritten der Datenbeschaffung, die das Speichern der Daten und deren Analyse beinhalten. Damit diese Prozesse nicht ins Unendlich anwachsen führen die zentralen Komponenten eines Data Warehouse Systems die Zusammenführung, die Bereinigung und die Standardisierung durch. Diesen Vorgang beschreiben die ETL-Komponenten und sind Ausgangspunkt dieses Kapitels. Die Führungspersonen eines Unternehmens sind die Anwender eines Data Warehouse Systems, die daraus führungsrelevante Informationen für Analysen und strategische Planungen erhalten.
Inhaltsverzeichnis
- Der Data Warehouse Prozess
- Einführung
- Der ETL-Prozess
- Die technische Seite
- Externe Daten aus dem Web
- Intelligente Wrapper für Web Information Extraction am Beispiel von Lixto
- Einführung
- Allgemein: Der Wrapper
- Der BI Prozess
- Lixto Software Architektur
- ETL-Prozess mit XML-Files am Beispiel SAP BW
- Einführung
- Das SAP BW Konzept
- Gesamtdarstellung
- Datenextraktion und Transformation mit Lixto
- Upload von XML in SAP BW
- Ausblick
Zielsetzung und Themenschwerpunkte
Die vorliegende Arbeit befasst sich mit dem Thema Web Information Integration und untersucht, wie externe Daten aus dem Web in ein Data Warehouse integriert werden können. Der Fokus liegt dabei auf dem Einsatz intelligenter Wrapper, die eine effiziente Extraktion und Transformation von Daten aus unstrukturierten Webquellen ermöglichen.
- Data Warehouse Prozesse und das ETL-Konzept
- Integration von externen Webdaten in Data Warehouses
- Intelligente Wrapper als Werkzeug zur Web Information Extraction
- Anwendung des Lixto-Systems im Kontext der Webdatenintegration
- Praktische Umsetzung im SAP BW-Umfeld
Zusammenfassung der Kapitel
Das erste Kapitel widmet sich dem Data Warehouse Prozess und erläutert die grundlegenden Konzepte sowie den ETL-Prozess. Es werden die Herausforderungen bei der Integration von Daten aus verschiedenen Quellen aufgezeigt, wobei der Schwerpunkt auf der Bedeutung der Datenqualität und -konsistenz liegt.
Kapitel zwei befasst sich mit der Integration von externen Daten aus dem Web. Es werden verschiedene Anwendungsbeispiele, darunter Competitive Intelligence, vorgestellt. Der Fokus liegt auf der Unterscheidung zwischen strukturierten, semi-strukturierten und unstrukturierten Daten und den damit verbundenen Herausforderungen bei der Datenextraktion.
Kapitel drei stellt den Einsatz von intelligenten Wrappern zur Web Information Extraction vor. Am Beispiel von Lixto werden die Architektur und Funktionsweise dieser Wrapper erläutert. Es werden die Vorteile der Verwendung von Wrappern für die automatisierte Datenextraktion und -transformation aus Webquellen hervorgehoben.
Kapitel vier fokussiert auf die konkrete Umsetzung des ETL-Prozesses mit XML-Files im SAP BW-Umfeld. Es wird das SAP BW Konzept detailliert erklärt und die Integration von Daten aus Webquellen mithilfe von Lixto gezeigt.
Schlüsselwörter
Data Warehouse, Web Information Integration, ETL-Prozess, Wrapper, Lixto, XML, SAP BW, Competitive Intelligence, Datenextraktion, Datenintegration, strukturierte Daten, unstrukturierte Daten.
- Citar trabajo
- Simone Gebel (Autor), 2005, Web Information Integration, Múnich, GRIN Verlag, https://www.grin.com/document/58855