Verteilte Data Warehouses Thomas Wetzlmaier
Inhaltsverzeichnis
1 Einleitung und Motivation. 1
1.1 Data Warehouses. 1
1.2 Verteilte Data Warehouses. 2
2 Data Warehouse Topologien 3
2.1 Abgrenzung von Data Warehouses und Data Marts 3
2.2 Topologien. 3
2.2.1 Zentrales Data Warehouse. 3
2.2.2 Data Warehouse und Data Marts. 3
2.2.3 Verteiltes oder föderiertes Data Warehouse 4
2.2.4 Hierarchisch verteiltes Data Warehouse 4
2.3 Gegenüberstellung der Topologien. 4
3 Entwurf des Data Warehouses 6
3.1 Dimensional Fact Model. 6
3.2 Beispielszenario 6
4 Komplexe OLAP Abfragen. 7
4.1 MD-Join Operator. 8
4.2 Verteilte Auswertung des MD-Joins. 12
4.3 MD-Joins und Selektionen. 13
4.4 Verschachtelung von MD-Joins. 14
4.4.1 Distributivität des MD-Joins 15
4.4.2 MD-Join und Equi-Join 15
4.5 Allgemeiner MD-Join 16
4.6 Verteilte GMD-Join Auswertung. 17
4.6.1 Skalla 17
4.7 Kosten für die Übertragung. 21
5 Optimierung verteilter OLAP-Abfragen. 22
5.1 Reduktion unter Berücksichtigung der Fragmentierung. 22
5.2 Von der Fragmentierung unabhängige Reduktion. 23
5.3 Reduktion des Aufwands für die Synchronisation. 24
5.4 Performanzgewinn durch Reduktion 25
6 Abfragesprachen für OLAP 26
6.1 Transformation von GMD-Joins in Standard SQL. 26
6.2 Extended Multi-Feature SQL. 27
7 Zusammenfassung 29
8 Anhang. 30
8.1 Literatur und Quellen 30
Verteilte Data Warehouses Thomas Wetzlmaier
8.2 Abbildungen. 31
8.3 Beispiele. 31
8.4 Definitionen 31
8.5 Sätze 31
8.6 Tabellen 32
Verteilte Data Warehouses Thomas Wetzlmaier
1 Einleitung und Motivation
1.1 Data Warehouses
Um langfristige Entscheidungen treffen zu können, muss das Management einer Organisation große Mengen an Daten verarbeiten, die üblicherweise in relationalen Datenbanken (RDBMS) gespeichert sind und SQL als Abfragesprache benutzen. Operative Datenbanken unterstützen diesen Prozess der Entscheidungsfindung allerdings nur ungenügend.
Ein Data Warehouse soll diese Unzulänglichkeiten der operativen Datenhaltung beheben. Es wird daher auch als Decision Support System (DSS) bezeichnet. Die Eigenschaften eines Data Warehouses sind 2 :
• Die Daten sind von der operativen Datenhaltung getrennt
• Das Data Warehouse kann eigene Datenstrukturen aufweisen
• Ein Data Warehouse ist kein Produkt sondern ein Informationssystem
• Ein Data Warehouse ist keine Schnittstelle zwischen operativen Datenbanken
• Ein Data Warehouse ist kein Replikat einer operativen Datenbank
Tabelle 1 zeigt die Unterschiede zwischen einem Data Warehouses und einer operativen Datenbank.
Tabelle 1: Vergleich Data Warehouse mit einer operativen Datenbank 3
Zur Findung von strategischen Entscheidungen werden die Daten aus herkömmlichen Datenquellen herausgeholt, transformiert, bereinigt, aggregiert und schließlich redundant im Data Warehouse abgelegt. Abbildung 1 verdeutlicht diesen Prozess, der in regelmäßigen Abständen durchgeführt wird, um die Aktualität der Daten zu gewährleisten.
1 PR03, Einführung, Folie 6
2 JO98, Seite 42f
3 IBM98, Seite 40
1
Verteilte Data Warehouses Thomas Wetzlmaier
Nach einer Übersicht über die existierenden Data Warehouse Topologien in Abschnitt 2 folgt eine kurze Einführung in den Entwurf multidimensionaler Datenstrukturen (Abschnitt 3). In Abschnitt 4 behandelt komplexe OLAP Abfragen anhand des MD-Join Operators. Weiters werden verschiedene relationale Operatoren in Verbindung mit dem MD-Join und die verteilte Auswertung von MD-Joins erläutert. Anschließend werden einige Reduktionsalgorithmen zur Optimierung verteilter OLAP Abfragen erklärt (Abschnitt 5). In Abschnitt 6 folgt die Realisierung des MD-Joins durch Abfragesprachen auf Basis von Standard SQL und EMF-SQL (Extended Multi-Feature SQL). Letzteres bietet einige Vorteile in der Formulierung von Verschachtelten Aggregaten. Eine Zusammenfassung dieser Arbeit enthält Abschnitt 7.
1.2 Verteilte Data Warehouses
Da die Unternehmensdaten nicht zentral an einem bestimmten Standort vorliegen bzw. nicht zentral gesammelt werden können, sind verteilte Architekturen erforderlich. Für Data Warehouses ist es zweckmäßig die Daten am Ort der Entstehung aus z.B. unterschiedlichen, teilweise heterogenen Informationsquellen zu integrieren. Die entsprechenden Architekturen erläutert der folgende Abschnitt.
4 IBM98, Seite 41
2
Verteilte Data Warehouses Thomas Wetzlmaier
2 Data Warehouse Topologien 5
2.1 Abgrenzung von Data Warehouses und Data Marts
Ein Data Mart ist jener Teil eines Data Warehouses, der die Daten zu einem bestimmten Gegenstand bzw. Thema enthält. Meist handelt es sich dabei um einen speziellen Problembereich (wie z.B. Marketinganalysen) den ein Data Mart abdeckt. Die Daten kommen hierfür aus verschiedenen Datenquellen. 6
2.2 Topologien
2.2.1 Zentrales Data Warehouse
Die Daten werden an zentraler Stelle in einer Datenbank gespeichert. Es gibt nur ein Datenmodell, das für das ganze Unternehmen gilt. Vorteile dieser Art der Datenhaltung sind die zentrale Verwaltung und die hohe Skalierbarkeit des Data Warehouses.
2.2.2 Data Warehouse und Data Marts
Data Marts erlauben im Gegensatz zum Data Warehouse eine engere Sicht auf die Daten. Meist handelt es sich dabei um einen bestimmten Themenbereich, eine Unternehmensfunktion oder eine einzelnes Anwendungsprogramm, den ein Data Mart abdeckt. Das Data Warehouse vereinigt dabei die Data Marts zu einer logischen Einheit. Den genauen Sachverhalt erläutert Abbildung 2. Mit Online Analytical Processing (OLAP) unterstützen Data Warehouses sowie Data Marts erweiterte Analysefunktionen, welche eine logische, mehrdimensionale, hierarchische Sicht auf Daten (z.B. Datenwürfel) zulässt. Anwendungsgebiete sind z.B. das Erstellen von Vorhersagen, Erkennen von Trends und weitere komplexe Analysen. 7
5 IBM98, Seite 41
6 BCCFP01, Seite 453
7 JO98, Seite 47
8 ZZTH00, Seite 2
3
Verteilte Data Warehouses Thomas Wetzlmaier
2.2.3 Verteiltes oder föderiertes Data Warehouse
Kennzeichnend für Verteilte Data Warehouses ist, dass sie über Netzwerke verbunden sind, welche die verteilte Verarbeitung von Anfragen bzw. Analysen ermöglichen. Dabei spielt es keine Rolle, ob mehrere einzelne Data Warehouses im Bottom- Up Ansatz zu einem logischen Data Warehouse integriert werden (wenn z.B. zwei Unternehmen fusionieren), oder ob ein Data Warehouse aus physisch verteilten Data Warehouse bzw. Data Marts besteht (Top-Down Ansatz). Letzterer ist zweckmäßig, wenn die Verteilung des Data Warehouses auf mehrere Unternehmensstandorte erfolgen soll. Hier steht also die Integration von Abteilungs-Data-Marts zu einem globalen Schema im Vordergrund. Weitere Gründe für die Verteilung Data Warehouses können Lastverteilung, höhere Skalierbarkeit und höhere Verfügbarkeit der Daten sein. 9 Beim physischen Entwurf eines solchen Data Warehouses sind die Kosten und der Durchsatz des Netzwerkes sowie die Verteilung bzw. Fragmentierung der Daten auf die einzelnen Rechnersysteme von besonderer Bedeutung. Die Fragme ntierung von Relationen behandelt z.B. [DATE00] ausführlich. Speziell auf verteilte Data Warehouses geht [NB99] ein.
2.2.4 Hierarchisch verteiltes Data Warehouse 10
Im Gegensatz zum Föderierten Data Warehouse ist diese Topologie hierarchisch organisiert. Dieser A nsatz ist vor allem für landesweite Unternehmen oder Länder übergreifende Konzerne gedacht. Hierbei kann die Analyse der Daten auf verschiedenen Hierarchiestufen angefangen von einer Abteilung bis zum gesamten Konzern erfolgen. Da der Schwerpunkt der Analyse auf den Daten in unmittelbarer Umgebung zum Standort liegt, d.h. die Bezirksleitung greift auf die Bezirksdaten - die Konzernleitung auf die Daten der höchsten Hierarchiestufe usw. zu, ist dieser Ansatz gegenüber den bisher gezeigten am zweckmäßigsten. Ausgehend von den Data-Marts in den Filialen über die Data Warehouses in den Zwischenschichten bis zum konzernweiten Data Warehouse entsteht diese Topologie im Bottom-Up Ansatz. Ziel ist es, die jeweils darunter liegenden Data Warehouses in eine globale Sicht bzw. ein globales Schema zu integrieren.
2.3 Gegenüberstellung der Topologien
Tabelle 2 zeigt in einer Gegenüberstellung der vorgestellten Data Warehouses Topologien die jeweiligen Vor- bzw. Nachteile in den einzelnen Merkmalen.
9 CD97
10 ZZTH00, Seite 2 f
4
Arbeit zitieren:
Thomas Wetzlmaier, 2003, Verteilte Data Warehouses, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Entwicklung eines Managementinformationssystems in einem zentralgesteu...
BWL - Unternehmensführung, Management, Organisation
Diplomarbeit, 59 Seiten
Management Informationssysteme - Geschichte und Einführung von MIS
BWL - Unternehmensführung, Management, Organisation
Seminararbeit, 30 Seiten
Kennzahlen und Kennzahlensysteme - Kennzahlen im Absatz
Seminararbeit, 20 Seiten
Die Balanced Scorecard als Instrument zur strategischen Unternehmensfü...
BWL - Unternehmensführung, Management, Organisation
Studienarbeit, 27 Seiten
Informationssysteme - eine Notwendigkeit für ein effizientes Controlli...
Studienarbeit, 28 Seiten
Prozesscontrolling im Auftragsabwicklungsprozess eines Kfz-Reparaturbe...
Hausarbeit, 25 Seiten
Unternehmensinterne Informationssysteme
BWL - Unternehmensführung, Management, Organisation
Seminararbeit, 18 Seiten
Thomas Wetzlmaier's Text Verteilte Data Warehouses ist nun auf dem Buchmarkt erhältlich
Thomas Wetzlmaier hat den Text Verteilte Data Warehouses veröffentlicht
Thomas Wetzlmaier hat einen neuen Text hochgeladen
Vom Data Warehouse zum Corporate Knowledge Center
Proceedings der Data Warehousi...
Robert Winter, Eitel von Maur
Fundamentals of Data Warehouses
Data Warehouse Managementhandbuch
Konzepte, Software, Erfahrunge...
Reinhard Schütte, Thomas Rotthowe, Roland Holten
0 Kommentare