Web Information Integration


Studienarbeit, 2005

38 Seiten, Note: 1,0


Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1 Der Data Warehouse Prozess
1.1 Einführung
1.2 Definitorische Abgrenzung
1.3 Der ETL-Prozess
1.3.1 Die Extraktion
1.3.2 Die Transformation
1.3.3 Das Laden
1.3.4 Die technische Seite

2 Externe Daten aus dem Web
2.1 Einführung
2.2 Anwendungsfall: Competitive Intelligence
2.3 Die Ziele
2.4 Strukturierte, semi-strukturierte und unstrukturierte Daten
2.5 Exkurs: Das Internet

3 Intelligente Wrapper für Web Information Extraction am Beispiel von Lixto
3.1 Einführung
3.2 Allgemein: Der Wrapper
3.3 Der BI Prozess
3.4 Lixto Software Architektur

4 ETL-Prozess mit XML-Files am Beispiel SAP BW
4.1 Einführung
4.2 Das SAP BW Konzept
4.3 Gesamtdarstellung
4.4 Datenextraktion und Transformation mit Lixto
4.5 Upload von XML in SAP BW

5 Ausblick

Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Competitive Intelligence Herausforderungen. Intelligence Cycle

Abbildung 2: Überblick über die UniCats-Architektur

Abbildung 3: Wrapper als Schnittstelle der Datentransformation

Abbildung 4: The Business Intelligence reference process

Abbildung 5: Das Lixto Modell: aus unstrukturierten HTML wird strukturiertes XML

Abbildung 6: Architektur des Lixto Transformation-Server: Grenzenlose Kommunikation über alle Plattformen hinweg

Abbildung 7: Wrapper robustness

Abbildung 8: Der „Kühlschrank“

Abbildung 9: Konzeptionelle Struktur von SAP BW

Abbildung 10: Konzeptionelle Struktur von SAP BW

Abbildung 11: Business Information Warehouse

Abbildung 12: Extraction of all article data

Abbildung 13: Messaging Framework

Abbildung 14: The data extraction and the BI integration process

Abbildung 15: Lixto Einsatzgebiete

Tabellenverzeichnis

Tabelle 1: Auswahl von Merkmalen wettbewerbsrelevanter Daten

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1 Der Data Warehouse Prozess

1.1 Einführung

In Unternehmen fallen heute ständig große Datenmengen an. Das Ziel ist es diese Daten gewinnbringend einzusetzen. Viele Unternehmen setzen auf das Konzept des Data Warehouse. Das primäre Ziel ist das Zusammenführen von Daten aus den unterschiedlichsten Quellen und Systemen. In Unternehmen herrscht eine Vielzahl unterschiedlicher Anwendungen die Daten hervorbringen. Es ist eine Tatsache, dass viele Systeme hohe Kosten verursachen und dabei die Weiterentwicklung der Systeme behindern. Des Weiteren können die aggregierten Daten oftmals nicht effektiv genutzt werden, da sie in unterschiedlichen Formaten vorliegen. Die Daten befinden sich an unterschiedlichen Orten und in unterschiedlicher Form. Um das Auftreten solcher Probleme zu verhindern, stellt SAP White Paper zum Thema mySAP Business Intelligence zwei Konzepte in den Mittelpunkt, die zur Vermeidung von Problemen bei Data Warehouse Projekten beitragen. Zum einen zielt das Data Warehouse darauf ab, Daten zu integrieren. Um diesen Prozess umfassend zu gestalten, sollte er übergreifend im ganzen Data Warehouse stattfinden. Des Weiteren ist der Fokus ausschließlich auf die betriebswirtschaftlichen Prozesse auszurichten, d.h. nur die für den einzelnen Mitarbeiter relevanten Daten sollten bereitgestellt werden.[1]

Die betriebswirtschaftliche Grundlage jedes Unternehmens ist die Informationsbereitstellung. Sie verfolgt das Ziel, dass die gewonnenen Daten und Informationen als adäquate Grundlage für das erfolgreiche Abwickeln von Geschäftsprozessen dienen. Der Data Warehouse Prozess besteht aus den Schritten der Datenbeschaffung, die das Speichern der Daten und deren Analyse beinhalten. Damit diese Prozesse nicht ins Unendlich anwachsen führen die zentralen Komponenten eines Data Warehouse Systems die Zusammenführung, die Bereinigung und die Standardisierung durch. Diesen Vorgang beschreiben die ETL-Komponenten und sind Ausgangspunkt dieses Kapitels.

Die Führungspersonen eines Unternehmens sind die Anwender eines Data Warehouse Systems, die daraus führungsrelevante Informationen für Analysen und strategische Planungen erhalten.[2]

1.2 Definitorische Abgrenzung

Es gibt keine allgemein gültige offizielle Standard-Definition des Data Warehouse Begriffs.[3] Die wohl beliebteste Definition stammt von W. H. Inmon, aus dem Jahr 1996.

“A data warehouse is an subject-oriented, integrated, non-volatile, and time-variant collection of data in support of managements decisions.“[4]

Die Definition von Inmon charakterisiert im Einzelnen die Fachorientierung, so dass der Zweck des Systems nicht der Erfüllung einer Aufgabe unterliegt, sondern ein spezielles Anwendungsziel verfolgt. Die integrierte Datenbasis gewährleistet die Verarbeitung von Daten aus verschiedenen Datenquellen, intern wie extern. Die nicht-flüchtige Datenbasis steht für eine stabile und persistente Datenbasis, die die Daten nicht entfernt und nicht ändert. Die historischen Daten ermöglichen einen Zeitvergleich sowie eine Speicherung über einen langen Zeitraum.

Die Autoren A. Bauer und H. Günzel vertreten die Meinung, dass die Definition von W.H. Inmon nicht aussagekräftig genug ist und sie daher in der Praxis keine Verwendung finden kann. Die folgende Definition der Autoren ist auf den speziellen Aspekt der Analysefunktion ausgerichtet.

„Ein Data-Warehouse ist eine physische Datenbank, die eine integrierte Sicht auf beliebige Daten darstellt, um Analysen zu ermöglichen.“[5]

Daraus ergeben sich wie folgt die Anforderungen an das Data Warehousing, bzw. den Prozess des Data Warehouse.

- die Unabhängigkeit zwischen Datenquellen und Analysesystemen (bzgl. Verfügbarkeit, Belastung, laufender Änderungen)
- die dauerhafte Bereitstellung integrierter und abgeleiteter Daten (Persistenz)
- Mehrfachverwendbarkeit der bereitgestellten Daten
- Die Möglichkeit der Durchführung prinzipiell beliebiger Auswertungen
- Die Unterstützung individueller Sichten (bzgl. Zeithorizont und Struktur)
- Erweiterbarkeit (z.B. Integration neuer Quellen)
- Automatisierung der Abläufe
- Eindeutigkeit über Datenstrukturen, Zugriffsberechtigungen und Prozesse
- Ausrichtung am Zweck: Analyse der Daten.[6]

Die zentrale Komponente eines Data Warehouse ist der Data-Warehouse-Manager. Dieser ist für die Initiierung, die Steuerung und die Überwachung der Prozesse zuständig. Interne und externe Datenquellen finden so ihren Weg in das Data Warehouse, ebenso die Anfrage und die Darstellung der Daten. Die einzelnen Komponenten des Data Warehouse Managers sind:

- Monitore – Entdecken und melden Änderungen in den Datenquellen, die relevante Informationen für das Data Warehouse beinhalten.
- Extraktoren – Selektieren und transportieren Daten aus Datenquellen.
- Transformatoren – Vereinheitlichen, bereinigen, integrieren, konsolidieren, aggregieren und ergänzen extrahierte Daten.
- Ladekomponenten – Daten werden nach Abschluss des Datenbeschaffungsprozesses in die Basis-DB und in das Data Warehouse geladen.
- Analysekomponenten – Analyse und Präsentation der Daten.[7]

Die Verwaltung und Auswertung eines Data Warehouse umfasst die Datenbeschaffung und dessen Weiterverarbeitung, den so genannten ETL-Prozess. Im nächsten Schritt wird auf diesen zentralen Prozess beim Betrieb eines Data Warehouse eingegangen. Er setzt sich aus den drei Phasen – Extrahieren, Transformieren, Laden – zusammen.[8]

1.3 Der ETL-Prozess

Die Phasen der Extraktion und der Transformation gewährleisten die Übernahme von unternehmensinternen und –externen Daten in das Data Warehouse System. Die aufgelisteten Funktionen sind für einen geregelten Betrieb eines Data Warehouse notwendig. Im weiteren Verlauf soll nun auf jede der Komponenten eingegangen werden.

1.3.1 Die Extraktion

Gemäß den Autoren Bauer / Günzel ist der Vorgang der Extraktion für die Übertragung der Daten aus den Datenquellen in den Arbeitsbereich verantwortlich. Bevor die Extraktionsphase stattfinden kann, ist die grundlegende Überlegung die Entscheidung welche Datenquellen oder welcher Ausschnitt in einem Data Warehouse System als relevant erscheint. Die Auswahl ist nach der Relevanz der Datenquellen und den daraus resultierenden Auswertungen zu treffen. Das Wissen welche Daten für welche Auswertungen und Rückschlüsse ist entscheidend. Die Daten unterliegen, für jeden Unternehmensbereich verschieden, speziellen Anforderungen an die Relevanz und Beschaffenheit.[9]

Bange, von BARC, teilt die Extraktion in drei Phasen ein. Zuerst findet eine Selektion der relevanten Tabellen und Datensätze statt, die aus den Datenquellen geladen werden. Die technische Anbindung der Vorsysteme wird über die Schnittstellen und andere Datenaustauschmechanismen realisiert. Darauf folgt die Überführung der selektierten und bereinigten Daten ins Staging Area, den Zwischenspeicher. Dort finden die nachfolgenden Transformationsaufgaben statt.[10]

1.3.2 Die Transformation

Die Transformation bereitet die Daten auf, vereinheitlicht und bereinigt die Daten. Durch diesen Vorgang werden die Daten in den Zustand gebracht, aus dem sie unmittelbar in der Basisdatenbank abgelegt werden können. Die Autoren Bauer / Günzel schreiben hier über die Anpassung struktureller Aspekte, wie der Schemaintegration, als auch der inhaltlichen Schwerpunkte, wie der Datenintegration und der Datenbereinigung.

Die Datenintegration zielt darauf ab, dass die Daten, die aus heterogenen Quellen stammen, zuerst in ein einheitliches internes Format überführt werden. Damit wird die Vergleichbarkeit gewährleistet. Folgende Transformationsaspekte können dazu erforderlich sein:

- Anpassung von Datentypen
- Konvertierung von Kodierungen
- Vereinheitlichung von Zeichenketten und Datumsangaben
- Umrechnung von Maßeinheiten
- Kombination bzw. Separierung von Attributwerten[11]

Der Transformationsprozess verändert die Daten dahin gehend, dass „sowohl logisch/inhaltlich als auch physikalisch/technisch eine Entscheidungsunterstützung […]“ ermöglicht wird.[12] Dabei zählt Bange folgende Aufgabenschwerpunkte auf:

- Filterung der Daten, d.h. die Auswahl, die Validierung, sowie eine Identifizierung von falschen Daten
- Harmonisierung auf vorliegende inhaltliche und technische Standards
- Verdichtung von Detaildaten
- Anreicherung der Daten durch Bildung betriebswirtschaftlicher Kenngrößen

Die Funktion des Transformierens ist der Mittelpunkt der Datenübernahme aus den operativen Systemen in die Struktur des Data Warehouse. Die Datensätze entsprechen nach diesem Vorgang bereits denen des Ausgangssystems, müssen aber dennoch erst in dieses geladen werden.[13]

1.3.3 Das Laden

Die gewonnenen Daten werden im nächsten Schritt in der Basisdatenbank hinterlegt und in das Data Warehouse geladen. Das Einlesen geschieht entweder auf direktem Weg oder aus der Staging Area heraus. Die Datensätze entsprechen denen der Zielstruktur und werden als komplette Datensätze in das Data Warehouse geladen. Die Autoren Bauer / Günzel unterscheiden weiterhin die Ladephasen, die in einem ersten komplexen Vorgang die Initialisierung der Basisdatenbank und dem Data Warehouse vornehmen, bei dem alle Daten aus den Quellsystemen übertragen werden. Im späteren Verlauf werden bei dem Vorgang der regelmäßig stattfindenden Aktualisierungen nur die geänderten Daten geladen. Die Problematik besteht darin, dass bei dem Transformationsprozess jedes Feld, jedes Datum einer anderen Regel unterliegen kann. So können Grafiken und Tabellen nicht gleich behandelt werden. So ist z.B. eine Tabelle ausgehend von unterschiedlichen Quellen, über unterschiedliche Prozesse, bis zu unterschiedlichen Zeitpunkten erfasst worden. Damit umschreibt Wieken das Problem, dass zwischen den zu ladenden Datensätzen sowie in Bezug bzw. zwischen den neu zu ladenden oder bereits vorhandenen Datensätzen Konflikte auftreten können.[14]

Bange stellt die Abspeicherung in seinem Fachartikel „Business Intelligence: Systeme und Anwendungen. Werkzeuge und Technologien für die Unternehmenssteuerung“ wie folgt dar: Die Abspeicherung erfolgt im Data Warehouse, es vereint als umfassender Datenpool eine themenorientierte, integrierte, zeitbezogene und dauerhafte Sammlung von Daten. In dieses fließen anschließend sämtliche entscheidungsrelevanten internen und externen Quelldaten ein. Damit führt es viele kleine Datenbestände aus verschiedenen Orten zusammen und ist als logische Konsequenz, die Verbindung der Inhalte.[15]

1.3.4 Die technische Seite

Die Versorgung der Data Warehouse Datenbank erfolgt wie in den vorangegangen Abschnitten erläutert mittels der ETL-Werkzeuge. Dabei übernimmt die Extraktion das Anreichern der Daten aus relationalen Datenquellen, ASCII Quellen, PC Datenbanken, Excel Tabellen. Die Transformation geht Schritt für Schritt und Feld für Feld vor und wendet die einheitlichen Strukturen für das Data Warehouse an. Anschließend findet einen Historisierung statt, um den Zeitbezug der Daten zu gewährleisten und um auch noch in Zukunft aktuelle Daten mit denen der Vergangenheit vergleichen zu können.[16]

[...]


[1] Vgl. Benton, A. / Düsterhaus, S. (2002)

[2] Vgl. Saake, G. (2000)

[3] Zeh, T. (2003)

[4] Bauer, A. / Günzel, H. (2004)

[5] Bauer, A. / Günzel, H. (2004)

[6] Vgl. Saake, G. (2000)

[7] Vgl. Bauer, A. / Günzel, H. (2004)

[8] Vgl. Bauer, A. / Günzel, H. (2004)

[9] Vgl. Bauer, A. / Günzel, H. (2004)

[10] Bange, C. (2003)

[11] Vgl. Bauer, A. / Günzel, H. (2004)

[12] Bange, C. (2003)

[13] Vgl. Bange, C. (2003)

[14] Vgl. Bauer, A. / Günzel, H. (2004)

[15] Vgl. Bange, C. (2003)

[16] Vgl. Wieken, J. H. (1999)

Ende der Leseprobe aus 38 Seiten

Details

Titel
Web Information Integration
Hochschule
Hochschule der Medien Stuttgart
Note
1,0
Autor
Jahr
2005
Seiten
38
Katalognummer
V58855
ISBN (eBook)
9783638529419
Dateigröße
1444 KB
Sprache
Deutsch
Schlagworte
Information, Integration
Arbeit zitieren
Simone Gebel (Autor), 2005, Web Information Integration, München, GRIN Verlag, https://www.grin.com/document/58855

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Web Information Integration



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden