Data Warehouse-Konzept und multidimensionale Datenmodellierung 1
Inhaltsverzeichnis
1 EINLEITUNG 3
2 DEFINITION DES BEGRIFF „DATA WAREHOUSE“ 4
3 FOKUS DER ANWENDUNG 6
3.1 OPERATIVE SYSTEME 6
3.2 ANALYSE SYSTEME 7
3.3 VERGLEICH DER SYSTEMTYPEN UND EINORDNUNG DES DATA WAREHOUSE 9
4 AUFBAU EINES DATA WAREHOUSE 11
4.1 DATEN 11
4.1.1 Metadaten. 11
4.1.2 Nutzdaten 13
4.2 ARCHITEKTUR 14
4.2.1 Datenimporttool 15
4.2.2 Datenspeicher 16
4.2.3 Managementsystem 17
4.2.4 Datenexporttools 17
4.3 PROZESSE 17
4.3.1 Datenimport 18
4.3.2 Datentransformation 19
4.3.3 Sicherung Archivierung 24
4.3.4 Datenexport. 25
5 DATENMODELLIERUNG 27
5.1 DAS RELATIONALE DATENMODELL 28
5.1.1 Struktur. 29
5.1.2 Vorteile. 31
5.1.3 Nachteile 31
5.2 DAS MULTIDIMENSIONALE DATENMODELL 32
5.2.1 Struktur. 32
6 DATENANALYSE 35
6.1 OLAP 35
6.1.1 Was ist OLAP? 36
6.1.2 Die Regeln von Codd. 37
6.1.3 Varianten der Realisierung 39
6.2 DATA MINING. 41
6.2.1 Was ist Data Mining? 42
6.2.2 Methoden des Data Mining 43
Data Warehouse-Konzept und multidimensionale Datenmodellierung 2
7 GEFAHREN UND MISSERFOLGSFAKTOREN BEI DEM AUFBAU EINES DATA
WAREHOUSES 47
7.1 MOTTO DER FACHABTEILUNG: BUY PLAY 48
7.2 MOTTO DER IT-ABTEILUNG: „WIR STELLEN NUR DIE DATEN BEREIT“ 48
LITERATURVERZEICHNIS 50
ABBILDUNGSVERZEICHNIS 51
GRAPHIKEN. 51
TABELLEN. 51
MINDMAPS 51
Data Warehouse-Konzept und multidimensionale Datenmodellierung 3 Einleitung
1 Einleitung
Die immer kürzeren Veränderungszyklen unterworfenen Märkte stellen alle Marktteilnehmer vor neue Herausforderung. Die Fähigkeit eines Unternehmens, schnelle und richtige Entscheidungen treffen zu können, wird zu einem immer stärkeren Kriterium für seine Wettbewerbsfähigkeit. Der Prozess der Entscheidungsfindung muss daher durch fundierte, umfassende und aktuelle Marktinformation sowie die problemadäquate Aufbereitung dieser Daten unterstützt werden. Eine Aufgabe, die nur mit Hilfe von Informationssystemenbestehend aus modernster Hard- und Software - bewältigt werden kann. Frühere Versuche, dem Management Unternehmenskennziffern zeitnah zur Verfügung zu stellen, scheiterten nicht zuletzt an technischen Hürden. Der Fortschritt der letzten Jahre in der Informationstechnik (IT) ließ jedoch viele der technologischen Barrieren verschwinden. Neue Hardware- und Datenbankarchitekturen sprengten die bis dahin existierenden Skalierbarkeits-und Performancegrenzen.
Data Warehouses liefern heute geschäftsrelevante Informationen über Unternehmen, Kunden, Märkte, Lieferanten und anderes mehr. Im Data Warehouse werden Daten aus allen Unternehmensbereichen sowie externen Quellen in einer einzigen Datenbank zusammengetragen, bereinigt und zu Informationen verdichtet - der Manager erhält keine "nackten" Einzeldaten, sondern aussagekräftige Informationen, z.B. Markt- und Betriebskennziffern, die er als Entscheidungsgrundlage heranziehen kann. In der Praxis liegen die Schwierigkeiten in der Erstellung eines optimalen Datenmodell, das auf einer leistungsfähigen Datenbank realisiert werden muss.
Data Warehouse-Konzept und multidimensionale Datenmodellierung 4
Definition des Begriffs „Data Warehouse“
2 Definition des Begriff „Data Warehouse“
Mindmap 1 : Was ist ein Data Warehouse?
Bereits im Jahr 1988 wurde das Konzept des unternehmensweiten Datenpools von der Firma IBM im Rahmen der EBSI-Architektur ( European Business Information Systems) vorgestellt Mit diesem Konzept sollte der Zugang zu unterschiedlichen Systemen über eine einheitliche Schnittstelle möglich sein. Der zu diesem Konzept gehörende Begriff des Data Warehouse wurde einigen Zeit später insbesondere von dem amerikanischen Berater William Immon geprägt. Das Konzept eines Data Warehouses wird häufig als eine analytische Datenbank für ausschließlich lesenden Zugriff dargestellt, die als Grundlage eines Entscheidungssystems genutzt wird [POE und REEVES (1997)].
Neben dieser recht engen Begriffsbildung lassen sich in der Literatur auch weiter gefasste Definitionen eines Data Warehouses finden:
“Ein Data Warehouse (unübliche deutsche Übersetzung: Daten-Lagerhaus) ist ein umfassendes Konzept zur Entscheidungsunterstützung von Mitarbeitern aller Bereiche und Ebenen. Kern ist eine integrierte Datenbank mit entscheidungsrelevanter Information über die Geschäftsfelder, die aus den operativen Datenbanken und externen Quellen bedarfsgerecht destilliert wird. Der direkte Zugriff wird den Endbenutzern durch einen Informationskatalog (Metadatenbank) erleichtert, der über die Inhalte, Formate und Auswertemöglichkeiten des Data Warehouse Auskunft gibt. Eine dritte wesentliche Komponente sind die
Data Warehouse-Konzept und multidimensionale Datenmodellierung 5
Definition des Begriffs „Data Warehouse“
Softwarewerkzeuge und Anwendungsprogramme, mit denen die Daten des Warehouse angefragt, transformiert, analysiert und präsentiert werden können.“ [HANSEN (1996)] Das Ziel, welches mit dem Einsatz eines Data Warehouses erreicht werden soll, ist, die schnelle Verarbeitung von Massendaten zur Entscheidungsunterstützung. Um dieses Ziel erreichen zu können, ist das Zusammentragen und Aufarbeiten von Daten alleine nicht ausreichend. Die Daten müssen - sowohl bezüglich des Inhalts als auch von dem Bereitstellungszeitpunkt und der Art der Präsentation - bedarfsgerecht den Entscheidungsträgern zur Verfügung gestellt werden und für eine erneute oder variierte Analyse über eine längere Zeit vorgehalten werden.
Im folgenden wird unter dem Begriff „Data Warehouse“ ein System verstanden, über welches aus unterschiedlichen Datenquellen extrahierte, konsistente und entscheidungsrelevante Daten in einer für den Benutzer leicht zugänglichen Art und Weise abfragbar sind. Zur Datenabfrage, -Präsentation und Weiterleitung werden von dem Anwender keine detaillierten Kenntnisse über den Aufbau des Systems sowie der zugrunde liegenden Datenquellen oder das Datenmodell des Warehouse benötigt.
Da Entscheidungssituationen häufig nicht im voraus planbar sind, muss ein Data Warehouse kurze Antwortzeiten aufweisen - die Dauer der Abfragen darf in Abhängigkeit von Menge und Art der abgefragten Daten nur gering schwanken.
Ein Data Warehouse ist ein System, welches dem Anwender erlaubt, sich auf seine Kernaufgaben zu konzentrieren, ohne sich zusätzliches IT-Know-How aneignen zu müssen. Der Name ist Programm: Genauso wie ein Käufer eines Kleidungsstückes in einem Kaufhaus nicht wissen muss, aus welchem Material das Kleidungsstück besteht, wie das Schnittmuster beschaffen ist oder wie es genäht wurde, benötigt ein Anwender eines Data Warehouses lediglich eine genaue Vorstellung von den von ihm benötigten Daten, um diese aus dem Angebot entnehmen zu können.
Data Warehouse-Konzept und multidimensionale Datenmodellierung 6 Fokus der Anwendung
3 Fokus der Anwendung
Mindmap 2: Fokus der Anwendung eines Data Warehouses
Nachdem im Kapitel 2 erklärt wurde, was unter dem Begriff „Data Warehouse“ zu verstehen ist, soll das Data Warehouse nun in dem Umfeld „Informationssysteme“ im weitesten Sinne eingeordnet werden. Dazu werden in einem ersten Schritt die Begriffe „operationales System“ und „Analyse System“ bestimmt und von einander abgegrenzt, um in einem weiteren Schritt das Data Warehouse zu einem der beiden Systemtypen zuordnen zu können.
3.1 Operative Systeme
Bei operativen Systemen handelt es sich um Systeme, die zur Abwicklung und Unterstützung der Kernprozesse eines Unternehmens genutzt werden. Oft handelt es sich um Online-Dialogsysteme, die kontinuierlich aktualisiert werden. Beispiele für operative Systeme sind die Systeme der Materialwirtschaft, des Vertriebes oder der Finanzbuchhaltung. Die in den operativen Systemen gehaltenen Daten sind stark anwendungsbezogen. Es werden nur Daten bestimmter Geschäftsprozesse oder bestimmter Geschäftsvorgänge gespeichert. Die einzelnen Geschäftsvorgänge bewirken eine kontinuierliche Änderung des Datenbestandes der Systeme - die von ihnen vorgehaltenen Daten stellen jeweils die aktuelle Situation dar. Solche Informationen werden auch als Datenschnappschuss bezeichnet. Durch
Data Warehouse-Konzept und multidimensionale Datenmodellierung 7 Fokus der Anwendung
kontinuierliche Aktualisierung der zugrundeliegenden Datenbank liefert die selbe Abfrage, wird sie zu verschiedenen Zeitpunkten gestellt, u.U. vollständig unterschiedliche Ergebnisse.
Mindmap 3: Operative Systeme
Die an operative System gestellten Abfragen sind quantitativer Art wie z.B.:
• Wie hoch ist der aktuelle Lagerbestand für das Ersatzteil X?
• Wie viele Teile des Produktes Y sind bestellt und noch nicht ausgeliefert? Die Datenbankstruktur der operativen Systeme ist so ausgelegt, dass vorher bekannten Anwendungsfälle wie Abfragen und Updates schnell durchgeführt werden können.
3.2 Analyse Systeme
Die Fragestellungen, die mit Hilfe von Analyse Systemen beantwortet werden können, sind von qualitativer Art wie:
• Welcher Zusammenhang besteht zwischen dem Umsatz und der Dauer der Geschäftsbeziehung eines Kunden?
• Bei welchem Produkt liegt der Umsatz unter der Prognose? Die Daten, die zur Beantwortung dieser Fragen genutzt werden müssen, stammen in der Regel nicht nur aus einem operativen System. Vielmehr müssen zur Beantwortung solcher Fragen meist Daten aus mehreren operativen Systemen zusammengefasst und verarbeitet werden.
Die analytische Datenverarbeitung geschieht zunächst durch Vergleiche oder durch die Analyse von Mustern und Tendenzen. Für diese Analysen ist es nicht zwingend notwendig, dass zu jedem Zeitpunkt der aktuelle Status - also online-Daten - in die Analyse einbezogen
Data Warehouse-Konzept und multidimensionale Datenmodellierung 8 Fokus der Anwendung
wird. Sie basiert vielmehr über einen bestimmten Zeitraum aggregierten Daten, die einen festen Zeitbezug besitzen.
Mindmap 4: Analyse Systeme
Je größer der Datenbestand, auf der eine Analyse basiert, desto geringer ist die statistische Unsicherheit des Ergebnisses. Aus diesem Grund werden in Analysesystemen große Datenbestände gespeichert, die oft - jedoch nicht zwingend - als Zeitreihen vorliegen. Analysesysteme müssen daher in der Lage sein, Abfragen auf großen Datenbeständen mit einer anwenderfreundlichen Wartezeit im Minutenbereich durchzuführen. Die Datenkonsistenz muss innerhalb des Analysesystems gewährleistet werden. Aus diesem Grund werden manuelle Änderungen der Datenbasis eines Analysesystems nicht zugelassen. Könnten die Daten von den Anwendern geändert werden, kann die Konsistenz der Daten und die Reproduzierbarkeit von Analyseergebnissen nicht mehr gewährleistet werden. Gerade die Reproduzierbarkeit von Analyseergebnissen ist ein wichtiges Kriterium für die Akzeptanz eines Analysesystems. Würden die von dem System gelieferten Ergebnisse unter Nutzung der
Data Warehouse-Konzept und multidimensionale Datenmodellierung 9 Fokus der Anwendung
selben Datenbasis ohne für den Anwender erkennbaren Grund variieren, hätten die Analyseergebnisse keine Aussagekraft mehr.
3.3 Vergleich der Systemtypen und Einordnung des Data Warehouse
Mindmap 5: Vergleich von operativen Systemen und Analyse Systemen
Vergleicht man die Charakteristika der operativen Systeme sowie der Analyse Systeme mit der in Kapitel 2 in dieser Arbeit genutzten Definition des Data Warehouses, stellt man fest, dass diese bereits die meisten Merkmale eines Analyse Systems trägt.
Tabelle 1: Vergleich operative Systeme und Analyse Systeme
Data Warehouse-Konzept und multidimensionale Datenmodellierung 10 Fokus der Anwendung
Entscheidungsrelevante Daten enthalten Analysen der Vergangenheitsdaten, um aus gesammelten Erfahrungen Schlüsse für das Handeln in der Zukunft ziehen zu können. Der Zeithorizont der Daten in einem Data Warehouses erstreckt sich oft über mehrere Jahre. Entscheidungssituationen sind ereignisgesteuert; die Menge und Art der
entscheidungsrelevanten Daten sind von der Situation abhängig. Damit für jede Situation die passende Datenbasis aus dem Data Warehouse extrahiert werden kann, muss es den Entscheidungsträgern möglich sein, selbstständig Abfragen zu formulieren und diese ad hoc abzusetzen.
Da es sich bei den Entscheidungssituationen in der Regel nicht um Entscheidungen des aktuellen Tagesgeschäftes handelt - diese werden durch die operativen Systeme unterstütztkann davon ausgegangen werden, dass es sich um Entscheidungen handelt, deren Umsetzung und Konsequenzen mittel- oder langfristig zu sehen ist. Es ist daher nicht nötig, dass in dem Data Warehouse online-Daten vorgehalten werden. Der Grundgedanke von flüchtigen Daten in einem operativen System und der Nichtflüchtigkeit von Daten in einem Analyse System steht in direkter Verbindung mit der unterschiedlichen Funktion von operativen und analytischen Systemen. Da zudem die Struktur der Datenbank eines Data Warehouses nichtwie bei den operativen Systemen - für permanente Updates optimiert ist, werden die Daten zyklisch in das Data Warehouse eingeladen. Einem Data Warehouse kann daher nur direkt nach dem Update der aktuelle Status entnommen werden. Die Datenbank einem operativen Systems wird in der Regel so gestaltet, dass es Daten aufnehmen, existierende Daten verändern, Daten abgleichen, Transaktionen verfolgen, Berichte erzeugen, Datenintegrität bewahren und Abfragen so schnell wie möglich bewältigen kann. Somit unterscheidet sich die Gestaltung einer analytischen Datenbank erheblich von der Gestaltung einer operativen Datenbank [POE und REEVES (1997, S. 20-23)], so dass die Funktionalität eines Data Warehouses nur durch ein zyklisches Update und nicht durch permanente Aktualisierung gewährleistet werden kann.
Damit trägt das Data Warehouse alle in Tabelle 1 aufgeführten Merkmale eines Analyse Systems. Nichts desto werden in ihm die Daten der operativen Systeme genutzt. Sie werden von den operativen Systemen abgezogen, mit einem zeitlichen Bezug versehen, validiert, zusammengeführt und aggregiert - und bleiben in den entscheidungsrelevanten Auszügen in dem Data Warehouse für längere Zeit zugreifbar.
Arbeit zitieren:
Ute Nast-Linke, 2003, Das Data warehouse-Konzept und mulitdimensionale Datenmodellierung, München, GRIN Verlag GmbH
Dieser Text kann über folgende URL aufgerufen und zitiert werden:
Einbetten
DOI
Entwicklung von Kennzahlensystemen für die Logistik
BWL - Beschaffung, Produktion, Logistik
Seminararbeit, 17 Seiten
Mobile Computing im Straßengüterverkehr
BWL - Beschaffung, Produktion, Logistik
Seminararbeit, 43 Seiten
Zugriffsmöglichkeiten auf das Data Warehouse durch das Analysekonzept ...
Informatik - Wirtschaftsinformatik
Seminararbeit, 32 Seiten
Customer Relationship Management - Das theoretische Gerüst und die Pro...
BWL - Marketing, Unternehmenskommunikation, CRM, Marktforschung
Studienarbeit, 28 Seiten
Ursache-Wirkungs-Diagramm als Instrument des Qualitätsmanagements im U...
Ingenieurwissenschaften - Wirtschaftsingenieurwesen
Seminararbeit, 24 Seiten
Data Warehouse - Anforderungen an ein Unternehmen
Definition, Aufbau und Vorteil...
Informatik - Wirtschaftsinformatik
Hausarbeit, 28 Seiten
Data Warehouse Systeme - Das multidimensionale Datenmodell
Informatik - Wirtschaftsinformatik
Seminararbeit, 47 Seiten
Beschreibung des Lebenslagenprinzips und Bewertung der Internetseite M...
BWL - Unternehmensführung, Management, Organisation
Hausarbeit, 16 Seiten
Ute Nast-Linke's Text Das Data warehouse-Konzept und mulitdimensionale Datenmodellierung ist nun auf dem Buchmarkt erhältlich
Ute Nast-Linke hat den Text Das Data warehouse-Konzept und mulitdimensionale Datenmodellierung veröffentlicht
Ute Nast-Linke hat einen neuen Text hochgeladen
Data Warehouse Design: Modern Principles and Methodologies
Modern Principles and Methodol...
Matteo Golfarelli, Stefano Rizzi, Claudio Pagliarani
Vom Data Warehouse zum Corporate Knowledge Center
Proceedings der Data Warehousi...
Robert Winter, Eitel von Maur
0 Kommentare