In Unternehmen fallen heute ständig große Datenmengen an. Das Ziel ist es diese Daten gewinnbringend einzusetzen. Viele Unternehmen setzen auf das Konzept des Data Warehouse. Das primäre Ziel ist das Zusammenführen von Daten aus den unterschiedlichsten Quellen und Systemen. In Unternehmen herrscht eine Vielzahl unterschiedlicher Anwendungen die Daten hervorbringen. Es ist eine Tatsache, dass viele Systeme hohe Kosten verursachen und dabei die Weiterentwicklung der Systeme behindern. Des Weiteren können die aggregierten Daten oftmals nicht effektiv genutzt werden, da sie in unterschiedlichen Formaten vorliegen. Die Daten befinden sich an unterschiedlichen Orten und in unterschiedlicher Form. Um das Auftreten solcher Probleme zu verhindern, stellt SAP White Paper zum Thema mySAP Business Intelligence zwei Konzepte in den Mittelpunkt, die zur Vermeidung von Problemen bei Data Warehouse Projekten beitragen. Zum einen zielt das Data Warehouse darauf ab, Daten zu integrieren. Um diesen Prozess umfassend zu gestalten, sollte er übergreifend im ganzen Data Warehouse stattfinden. Des Weiteren ist der Fokus ausschließlich auf die betriebswirtschaftlichen Prozesse auszurichten, d.h. nur die für den einzelnen Mitarbeiter relevanten Daten sollten bereitgestellt werden. Die betriebswirtschaftliche Grundlage jedes Unternehmens ist die Informationsbereitstellung. Sie verfolgt das Ziel, dass die gewonnenen Daten und Informationen als adäquate Grundlage für das erfolgreiche Abwickeln von Geschäftsprozessen dienen. Der Data Warehouse Prozess besteht aus den Schritten der Datenbeschaffung, die das Speichern der Daten und deren Analyse beinhalten. Damit diese Prozesse nicht ins Unendlich anwachsen führen die zentralen Komponenten eines Data Warehouse Systems die Zusammenführung, die Bereinigung und die Standardisierung durch. Diesen Vorgang beschreiben die ETL-Komponenten und sind Ausgangspunkt dieses Kapitels. Die Führungspersonen eines Unternehmens sind die Anwender eines Data Warehouse Systems, die daraus führungsrelevante Informationen für Analysen und strategische Planungen erhalten.
Inhaltsverzeichnis
1 Der Data Warehouse Prozess
1.1 Einführung
1.2 Definitorische Abgrenzung
1.3 Der ETL-Prozess
1.3.1 Die Extraktion
1.3.2 Die Transformation
1.3.3 Das Laden
1.3.4 Die technische Seite
2 Externe Daten aus dem Web
2.1 Einführung
2.2 Anwendungsfall: Competitive Intelligence
2.3 Die Ziele
2.4 Strukturierte, semi-strukturierte und unstrukturierte Daten
2.5 Exkurs: Das Internet
3 Intelligente Wrapper für Web Information Extraction am Beispiel von Lixto
3.1 Einführung
3.2 Allgemein: Der Wrapper
3.3 Der BI Prozess
3.4 Lixto Software Architektur
4 ETL-Prozess mit XML-Files am Beispiel SAP BW
4.1 Einführung
4.2 Das SAP BW Konzept
4.3 Gesamtdarstellung
4.4 Datenextraktion und Transformation mit Lixto
4.5 Upload von XML in SAP BW
5 Ausblick
Zielsetzung & Themen
Diese Arbeit untersucht die Integration von externen Webinformationen in Business-Intelligence-Systeme mittels intelligenter Wrapper-Technologien. Das Hauptziel besteht darin, aufzuzeigen, wie unstrukturierte Webdaten effizient extrahiert, transformiert und in eine SAP-BW-Infrastruktur überführt werden können, um strategische Entscheidungsprozesse zu unterstützen.
- Grundlagen des Data-Warehouse-Prozesses und der ETL-Methodik
- Wettbewerbsanalyse und Competitive Intelligence als Anwendungsfelder
- Technologische Lösungsansätze durch die Lixto-Software-Suite
- Integration von Web-Daten in SAP Business Information Warehouse (SAP BW)
Auszug aus dem Buch
3.2 Allgemein: Der Wrapper
Mit dem Aufschwung des Internets zur drittgrößten Informationsquelle stellt das Semantik Web die Schlüsselfunktion für den „intelligenten Web-Service“ dar. Während das Semantik Web rechnergestützte Informationsprozesse ermöglicht, unterstützt der Web-Service das verteilte Arbeiten im Netz. Dadurch wird der Zugang zu wichtigen und geschäftsrelevanten Informationen im Internet gewährleistet. Wie bereits schon im zweiten Kapitel dieser Studienarbeit herausgestellt wurde, besteht das Internet aus dynamischen Web-Sites die in HTML dargestellt werden. Durch vordefinierte Tags wird dem Browser das jeweilige Verhalten der Sites mitgeteilt. Dabei taucht das große Problem auf, dass Maschinen kein HTML interpretieren können. In Anlehnung an die Masterarbeit von Akkina gibt es keine direkte Verbindung zwischen Tags und Seiteninhalt gibt. Web-Sites können in Folge dessen nicht sinnvoll interpretiert werden, da sie durch automatische Tools aufgebaut sind. Abhilfe schaffen hier spezielle Computerprogramme, die auch Wrapper genannt werden. Das Grundverständnis der „web extraction“ ist, dass Wrapper einfache Übersetzter sind, die Daten eines bestimmten Formats in ein anderes Format übersetzen.
Zusammenfassung der Kapitel
1 Der Data Warehouse Prozess: Erläutert die Grundlagen der Datenintegration, Bereinigung und Standardisierung innerhalb von Data-Warehouse-Systemen unter Betrachtung des ETL-Prozesses.
2 Externe Daten aus dem Web: Behandelt die Bedeutung qualitativer, externer Informationen für die strategische Wettbewerbsanalyse und führt in das Konzept der Competitive Intelligence ein.
3 Intelligente Wrapper für Web Information Extraction am Beispiel von Lixto: Stellt Wrapper-Technologien als Lösung für das Problem der Extraktion von Daten aus dynamischen HTML-Websites vor und erläutert die Lixto-Architektur.
4 ETL-Prozess mit XML-Files am Beispiel SAP BW: Zeigt den konkreten Prozess der Datenextraktion via Lixto und den anschließenden Transfer der XML-Daten in das SAP Business Information Warehouse.
5 Ausblick: Fasst das Potenzial automatisierter Web-Extraktion zusammen und weist auf die Relevanz für zukünftige Entwicklungen im Bereich der künstlichen Intelligenz hin.
Schlüsselwörter
Web Information Integration, Data Warehouse, ETL-Prozess, Competitive Intelligence, Wrapper, Lixto, XML, SAP BW, Datenextraktion, Datentransformation, Web Extraction, Business Intelligence, Semantik Web, Informationsmanagement, Strukturierte Daten.
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit beschäftigt sich mit der Herausforderung, wertvolle Informationen aus externen Webquellen zu extrahieren und in unternehmensinterne Business-Intelligence-Systeme zu integrieren.
Welche zentralen Themenfelder werden behandelt?
Die zentralen Felder umfassen Data-Warehouse-Architekturen, Methoden der Web-Extraktion (Wrapper) sowie die technische Umsetzung der Datenintegration in SAP-Umgebungen.
Was ist das primäre Ziel der Untersuchung?
Das Ziel ist es, aufzuzeigen, wie automatisierte Tools wie die Lixto-Suite genutzt werden können, um unstrukturierte Webdaten für strategische Unternehmensentscheidungen nutzbar zu machen.
Welche wissenschaftliche Methode kommt zum Einsatz?
Die Arbeit basiert auf einer theoretischen Fundierung der Data-Warehouse-Konzepte und einer fallbasierten Analyse der Software-Integration (Lixto an SAP BW).
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil gliedert sich in die theoretische Einführung des ETL-Prozesses, die Relevanz von Competitive Intelligence und die detaillierte Beschreibung der Lixto-Wrapper-Architektur samt ihrer Anbindung an SAP BW.
Welche Schlüsselbegriffe prägen die Arbeit?
Die Arbeit wird maßgeblich durch Begriffe wie Web Information Integration, ETL-Prozess, Wrapper, XML und SAP BW definiert.
Wie unterscheidet sich die Extraktion von strukturierten zu unstrukturierten Daten?
Während strukturierte Daten festen Schemata folgen, erfordern unstrukturierte HTML-Daten spezialisierte Programme („Wrapper“), die mittels heuristischer Muster erkennen, welche Inhalte für die weitere Verarbeitung relevant sind.
Welche Rolle spielt XML in der beschriebenen Architektur?
XML fungiert als universelles Austauschformat, das durch den Transformation-Server generiert wird, um die extrahierten Webinformationen in einem definierten Format an das SAP-BW-System zu übergeben.
- Quote paper
- Simone Gebel (Author), 2005, Web Information Integration, Munich, GRIN Verlag, https://www.grin.com/document/58855