Um langfristige Entscheidungen treffen zu können, muss das Management einer Organisation große Mengen an Daten verarbeiten, die üblicherweise in relationalen Datenbanken (RDBMS) gespeichert sind und SQL als Abfragesprache benutzen. Operative Datenbanken unterstützen diesen Prozess der Entscheidungsfindung allerdings nur ungenügend.
Ein Data Warehouse soll diese Unzulänglichkeiten der operativen Datenhaltung beheben. Es wird daher auch als Decision Support System (DSS) bezeichnet. Zur Findung von strategischen Entscheidungen werden die Daten aus herkömmlichen Datenquellen herausgeholt, transformiert, bereinigt, aggregiert und schließlich redundant im Data Warehouse abgelegt. Dieser Prozess wird in regelmäßigen Abständen durchgeführt, um die Aktualität der Daten zu gewährleisten.
Nach einer Übersicht über die existierenden Data Warehouse Topologien folgt eine kurze Einführung in den Entwurf multidimensionaler Datenstrukturen. Der darauffolgende Abschnitt behandelt komplexe OLAP Abfragen anhand des MD-Join Operators. Weiters werden verschiedene relationale Operatoren in Verbindung mit dem MD-Join und die verteilte Auswertung von MD-Joins erläutert. Anschließend werden einige Reduktionsalgorithmen zur Optimierung verteilter OLAP Abfragen erklärt. Im darauffolgenden Abschnitt folgt die Realisierung des MD-Joins durch Abfragesprachen auf Basis von Standard SQL und EMF-SQL (Extended Multi-Feature SQL). Letzteres bietet einige Vorteile in der Formulierung von Verschachtelten Aggregaten.
Inhaltsverzeichnis
- Einleitung und Motivation
- Data Warehouses
- Verteilte Data Warehouses
- Verteilte Data Warehouses
- Data Warehouse Topologien
- Abgrenzung von Data Warehouses und Data Marts
- Topologien
- Zentrales Data Warehouse
- Data Warehouse und Data Marts
- Verteiltes oder föderiertes Data Warehouse
- Hierarchisch verteiltes Data Warehouse
- Gegenüberstellung der Topologien
- Entwurf des Data Warehouses
- Dimensional Fact Model
- Beispielszenario
- Komplexe OLAP Abfragen
- MD-Join Operator
- Verteilte Auswertung des MD-Joins
- MD-Joins und Selektionen
- Verschachtelung von MD-Joins
- Distributivität des MD-Joins
- MD-Join und Equi-Join
- Allgemeiner MD-Join
- Verteilte GMD-Join Auswertung
- Skalla
- Kosten für die Übertragung
- Optimierung verteilter OLAP-Abfragen
- Reduktion unter Berücksichtigung der Fragmentierung
- Von der Fragmentierung unabhängige Reduktion
- Reduktion des Aufwands für die Synchronisation
- Performanzgewinn durch Reduktion
- Abfragesprachen für OLAP
- Transformation von GMD-Joins in Standard SQL
- Extended Multi-Feature SQL
- Zusammenfassung
Zielsetzung und Themenschwerpunkte
Diese Arbeit befasst sich mit der Konzeption und Optimierung von verteilten Data Warehouses. Ziel ist es, die Herausforderungen der Datenintegration und -verarbeitung in verteilten Umgebungen zu untersuchen und effiziente Abfragemechanismen für komplexe OLAP-Anwendungen zu entwickeln.
- Analyse verschiedener Data Warehouse Topologien und ihrer Vor- und Nachteile
- Untersuchung der Optimierungsmöglichkeiten für OLAP-Abfragen im Kontext von verteilten Daten
- Entwicklung und Evaluation von Reduktionsalgorithmen zur Verbesserung der Performanz
- Einführung des MD-Join Operators und seiner Anwendung in verteilten Umgebungen
- Diskussion von Abfragesprachen für OLAP, insbesondere die Transformation von GMD-Joins in Standard SQL
Zusammenfassung der Kapitel
Die Arbeit beginnt mit einer Einleitung und einer Einführung in das Konzept von Data Warehouses. Im zweiten Kapitel werden verschiedene Topologien für verteilte Data Warehouses vorgestellt und verglichen. Im dritten Kapitel wird der Entwurf von Data Warehouses mit Fokus auf das Dimensional Fact Model behandelt. Kapitel 4 widmet sich der Analyse von komplexen OLAP-Abfragen, insbesondere dem MD-Join Operator, seiner verteilten Auswertung und Optimierung. Kapitel 5 befasst sich mit verschiedenen Reduktionsalgorithmen zur Verbesserung der Performanz von verteilten OLAP-Abfragen. Im sechsten Kapitel wird die Transformation von GMD-Joins in Standard SQL sowie die Verwendung von Extended Multi-Feature SQL diskutiert.
Schlüsselwörter
Verteilte Data Warehouses, Data Warehouse Topologien, OLAP-Abfragen, MD-Join Operator, Reduktionsalgorithmen, Abfragesprachen für OLAP, Standard SQL, EMF-SQL, Data Integration, Performance Optimierung, Entscheidungsfindung.
- Data Warehouse Topologien
- Arbeit zitieren
- Thomas Wetzlmaier (Autor:in), 2003, Verteilte Data Warehouses, München, GRIN Verlag, https://www.grin.com/document/42069