Um langfristige Entscheidungen treffen zu können, muss das Management einer Organisation große Mengen an Daten verarbeiten, die üblicherweise in relationalen Datenbanken (RDBMS) gespeichert sind und SQL als Abfragesprache benutzen. Operative Datenbanken unterstützen diesen Prozess der Entscheidungsfindung allerdings nur ungenügend.
Ein Data Warehouse soll diese Unzulänglichkeiten der operativen Datenhaltung beheben. Es wird daher auch als Decision Support System (DSS) bezeichnet. Zur Findung von strategischen Entscheidungen werden die Daten aus herkömmlichen Datenquellen herausgeholt, transformiert, bereinigt, aggregiert und schließlich redundant im Data Warehouse abgelegt. Dieser Prozess wird in regelmäßigen Abständen durchgeführt, um die Aktualität der Daten zu gewährleisten.
Nach einer Übersicht über die existierenden Data Warehouse Topologien folgt eine kurze Einführung in den Entwurf multidimensionaler Datenstrukturen. Der darauffolgende Abschnitt behandelt komplexe OLAP Abfragen anhand des MD-Join Operators. Weiters werden verschiedene relationale Operatoren in Verbindung mit dem MD-Join und die verteilte Auswertung von MD-Joins erläutert. Anschließend werden einige Reduktionsalgorithmen zur Optimierung verteilter OLAP Abfragen erklärt. Im darauffolgenden Abschnitt folgt die Realisierung des MD-Joins durch Abfragesprachen auf Basis von Standard SQL und EMF-SQL (Extended Multi-Feature SQL). Letzteres bietet einige Vorteile in der Formulierung von Verschachtelten Aggregaten.
Inhaltsverzeichnis
1 Einleitung und Motivation
1.1 Data Warehouses
1.2 Verteilte Data Warehouses
2 Data Warehouse Topologien
2.1 Abgrenzung von Data Warehouses und Data Marts
2.2 Topologien
2.2.1 Zentrales Data Warehouse
2.2.2 Data Warehouse und Data Marts
2.2.3 Verteiltes oder föderiertes Data Warehouse
2.2.4 Hierarchisch verteiltes Data Warehouse
2.3 Gegenüberstellung der Topologien
3 Entwurf des Data Warehouses
3.1 Dimensional Fact Model
3.2 Beispielszenario
4 Komplexe OLAP Abfragen
4.1 MD-Join Operator
4.2 Verteilte Auswertung des MD-Joins
4.3 MD-Joins und Selektionen
4.4 Verschachtelung von MD-Joins
4.4.1 Distributivität des MD-Joins
4.4.2 MD-Join und Equi-Join
4.5 Allgemeiner MD-Join
4.6 Verteilte GMD-Join Auswertung
4.6.1 Skalla
4.7 Kosten für die Übertragung
5 Optimierung verteilter OLAP-Abfragen
5.1 Reduktion unter Berücksichtigung der Fragmentierung
5.2 Von der Fragmentierung unabhängige Reduktion
5.3 Reduktion des Aufwands für die Synchronisation
5.4 Performanzgewinn durch Reduktion
6 Abfragesprachen für OLAP
6.1 Transformation von GMD-Joins in Standard SQL
6.2 Extended Multi-Feature SQL
7 Zusammenfassung
Zielsetzung & Themen
Die Arbeit untersucht die Herausforderungen und Architekturen von verteilten Data Warehouses. Das primäre Ziel besteht darin, effiziente Algorithmen für komplexe OLAP-Abfragen in verteilten Umgebungen zu entwickeln, insbesondere durch die Anwendung des MD-Join Operators, um die Datenverarbeitung zu optimieren.
- Analyse von Data Warehouse Topologien und Entwurfsmodellen
- Einführung und Anwendung des MD-Join Operators für komplexe OLAP-Abfragen
- Verteilte Auswertung von MD-Joins und Synchronisationsmechanismen
- Methoden zur Optimierung verteilter OLAP-Abfragen und Reduktion der Datenübertragungskosten
- Realisierung von OLAP-Abfragen mittels Standard SQL und Extended Multi-Feature SQL
Auszug aus dem Buch
4.1 MD-Join Operator
Durch die strikte Trennung von Gruppen und Aggregaten ermöglicht der MD-Join eine sehr feine Abstimmung von beiden bei der Formulierung von Abfragen. Dieser Vorteil kommt besonders gut zum Tragen, wenn nur ganz bestimmte Kombinationen von Gruppen (z.B. nur Filiale 1 und 3) oder benutzerdefinierte Aggregate (z.B. das Produkt, welches in den 10 vorhergehenden Tagen am häufigsten pro Filiale verkauft wurde) berechnet werden sollen.
Der MD-Join geht von zwei Relationen, der Bezugswerte-Relation (base values relation) und der Detailrelation (detail relation), aus. Die Bezugswerte (= Gruppen) bestimmen die Anzahl der Tupel in der Ergebnistabelle. Aus der Detailrelation werden die Aggregate berechnet.
Seien B(B) und R(R) Relationen, θ eine Bedingung, die sich auf Attribute in B und R bezieht, und l eine Liste von Aggregatfunktionen (f1, f2, …, fn) über die Attribute c1, c2, …, cn in R. Der MD-Join, MD((, R, B, ,), l, θ ), entspricht einer Relation mit dem Schema (B, f1_R_c1, …, fn_R_cn). Jedes Tupel b∈B gehört zu einem Ergebnistupel e, sodass gilt
• e[A] = b[A], für jedes Attribute A ∈ B
• für jedes Tupel b in Relation B sei RNG(b, R, θ ) = def{r r ∈ R ∧θ (b,r)} erfüllt, was bedeutet, dass für die Menge von Tupeln in R die Bedingung θ in Bezug auf b erfüllt ist (z.B. RNG(b, R, b.A = R.B) bedeutet, dass jene Tupel in R zum Ergebnis gehören, bei denen der B-Wert dem A-Wert von b entsprechen). Der Wert des Attributs fi_R_ci von Tupel e ist gegeben durch e[fi_R_ci] = f {{t [c ] t RNG(b, R,θ )}} i i ∈ , wobei { { ... }} eine mehrdimensionale Menge andeutet.
• B wird als Bezugswerte-Relation und R als Detailrelation bezeichnet
Zusammenfassung der Kapitel
1 Einleitung und Motivation: Einführung in die Grundlagen von Data Warehouses, deren Abgrenzung zu operativen Datenbanken sowie die Motivation für verteilte Architekturen.
2 Data Warehouse Topologien: Klassifizierung verschiedener Architekturen wie zentrale, verteilte, föderierte und hierarchische Data Warehouses samt deren Vor- und Nachteilen.
3 Entwurf des Data Warehouses: Erläuterung des Dimensional Fact Models und Vorstellung eines Beispielszenarios, das für nachfolgende Algorithmen genutzt wird.
4 Komplexe OLAP Abfragen: Detaillierte Vorstellung des MD-Join Operators, seiner formalen Definition, Auswertungsmethoden sowie der Verschachtelung von Abfragen.
5 Optimierung verteilter OLAP-Abfragen: Darstellung verschiedener Optimierungsansätze, wie die Reduktion basierend auf Fragmentierung und die Minimierung des Synchronisationsaufwands.
6 Abfragesprachen für OLAP: Untersuchung der Transformation von MD-Joins in Standard SQL sowie die Einführung von EMF-SQL als intuitive Erweiterung für komplexe OLAP-Abfragen.
7 Zusammenfassung: Resümee über den aktuellen Stand von Data-Warehouse-Lösungen und Identifikation zukünftiger Entwicklungsbedarfe.
Schlüsselwörter
Data Warehouse, Verteilte Systeme, OLAP, MD-Join, GMD-Join, SQL, Extended Multi-Feature SQL, Datenfragmentierung, Optimierung, Aggregation, Synchronisation, Entscheidungsunterstützung, Skalla, Dimensionale Modellierung, Performance
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt die effiziente Verarbeitung komplexer OLAP-Abfragen in verteilten Data-Warehouse-Umgebungen.
Was sind die zentralen Themenfelder?
Die Schwerpunkte liegen auf Data-Warehouse-Architekturen, dem Entwurf multidimensionaler Datenstrukturen, speziellen Join-Operatoren (MD-Join) und der Optimierung verteilter Abfragen.
Was ist das primäre Ziel oder die Forschungsfrage?
Ziel ist es, Algorithmen zur effizienten Auswertung und Optimierung von OLAP-Abfragen in verteilten Systemen vorzustellen und deren praktische Umsetzung in Abfragesprachen zu demonstrieren.
Welche wissenschaftliche Methode wird verwendet?
Es werden formale Methoden der relationalen Algebra sowie algorithmische Ansätze für verteilte Datenverarbeitung und -synchronisation angewendet.
Was wird im Hauptteil behandelt?
Der Hauptteil widmet sich dem MD-Join Operator, dessen verteilter Auswertung, der Optimierung von Abfragen mittels Reduktionsalgorithmen sowie der Transformation in SQL und EMF-SQL.
Welche Schlüsselwörter charakterisieren die Arbeit?
Zu den zentralen Begriffen zählen Data Warehouse, OLAP, MD-Join, GMD-Join, Datenfragmentierung und Abfrageoptimierung.
Wie unterscheidet sich die Skalla-Architektur von anderen Modellen?
Skalla ist eine Client/Server-Architektur, bei der lokale Data Warehouses (Sites) Teilergebnisse berechnen, die von einem zentralen Koordinator zu einem globalen Gesamtergebnis synchronisiert werden.
Warum ist die Reduktion des Synchronisationsaufwands wichtig?
Die Reduktion ist essenziell, da die Synchronisation bei großen Datenmengen in verteilten Systemen einen erheblichen Zeitaufwand verursachen kann und die Performanz der Gesamtabfrage maßgeblich beeinflusst.
- Citation du texte
- Thomas Wetzlmaier (Auteur), 2003, Verteilte Data Warehouses, Munich, GRIN Verlag, https://www.grin.com/document/42069