Die immer kürzeren Veränderungszyklen unterworfenen Märkte stellen alle Marktteilnehmer vor neue Herausforderung. Die Fähigkeit eines Unternehmens, schnelle und richtige Entscheidungen treffen zu können, wird zu einem immer stärkeren Kriterium für seine Wettbewerbsfähigkeit. Der Prozess der Entscheidungsfindung muss daher durch fundierte, umfassende und aktuelle Marktinformation sowie die problemadäquate Aufbereitung dieser Daten unterstützt werden. Eine Aufgabe, die nur mit Hilfe von Informationssystemen – bestehend aus modernster Hard- und Software – bewältigt werden kann. Data Warehouses liefern heute geschäftsrelevante Informationen über Unternehmen, Kunden, Märkte, Lieferanten und anderes mehr. Im Data Warehouse werden Daten aus allen Unternehmensbereichen sowie externen Quellen in einer einzigen Datenbank zusammengetragen, bereinigt und zu Informationen verdichtet.
In diesem Buch gibt einen Überblick über den Aufbau, den Fokus der Anwendungen, die zugrunde liegende Datenmodellierung – aber auch die Gefahren, mit denen der geplante Einsatz eines Data Warehouses verbunden sein kann.
Inhaltsverzeichnis
1 Einleitung
2 Definition des Begriff „Data Warehouse“
3 Fokus der Anwendung
3.1 Operative Systeme
3.2 Analyse Systeme
3.3 Vergleich der Systemtypen und Einordnung des Data Warehouse
4 Aufbau eines Data Warehouse
4.1 Daten
4.1.1 Metadaten
4.1.2 Nutzdaten
4.2 Architektur
4.2.1 Datenimporttool
4.2.2 Datenspeicher
4.2.3 Managementsystem
4.2.4 Datenexporttools
4.3 Prozesse
4.3.1 Datenimport
4.3.2 Datentransformation
4.3.3 Sicherung & Archivierung
4.3.4 Datenexport
5 Datenmodellierung
5.1 Das relationale Datenmodell
5.1.1 Struktur
5.1.2 Vorteile
5.1.3 Nachteile
5.2 Das multidimensionale Datenmodell
5.2.1 Struktur
6 Datenanalyse
6.1 OLAP
6.1.1 Was ist OLAP?
6.1.2 Die Regeln von Codd
6.1.3 Varianten der Realisierung
6.2 Data Mining
6.2.1 Was ist Data Mining?
6.2.2 Methoden des Data Mining
7 Gefahren und Misserfolgsfaktoren bei dem Aufbau eines Data Warehouses
7.1 Motto der Fachabteilung: Buy & Play
7.2 Motto der IT-Abteilung: „Wir stellen nur die Daten bereit“
Literaturverzeichnis
Abbildungsverzeichnis
Graphiken
Tabellen
Mindmaps
1 Einleitung
Die immer kürzeren Veränderungszyklen unterworfenen Märkte stellen alle Marktteilnehmer vor neue Herausforderung. Die Fähigkeit eines Unternehmens, schnelle und richtige Entscheidungen treffen zu können, wird zu einem immer stärkeren Kriterium für seine Wettbewerbsfähigkeit. Der Prozess der Entscheidungsfindung muss daher durch fundierte, umfassende und aktuelle Marktinformation sowie die problemadäquate Aufbereitung dieser Daten unterstützt werden. Eine Aufgabe, die nur mit Hilfe von Informationssystemen – bestehend aus modernster Hard- und Software – bewältigt werden kann.
Frühere Versuche, dem Management Unternehmenskennziffern zeitnah zur Verfügung zu stellen, scheiterten nicht zuletzt an technischen Hürden. Der Fortschritt der letzten Jahre in der Informationstechnik (IT) ließ jedoch viele der technologischen Barrieren verschwinden. Neue Hardware- und Datenbankarchitekturen sprengten die bis dahin existierenden Skalierbarkeits- und Performancegrenzen.
Data Warehouses liefern heute geschäftsrelevante Informationen über Unternehmen, Kunden, Märkte, Lieferanten und anderes mehr. Im Data Warehouse werden Daten aus allen Unternehmensbereichen sowie externen Quellen in einer einzigen Datenbank zusammengetragen, bereinigt und zu Informationen verdichtet – der Manager erhält keine "nackten" Einzeldaten, sondern aussagekräftige Informationen, z.B. Markt- und Betriebskennziffern, die er als Entscheidungsgrundlage heranziehen kann. In der Praxis liegen die Schwierigkeiten in der Erstellung eines optimalen Datenmodell, das auf einer leistungsfähigen Datenbank realisiert werden muss.
2 Definition des Begriff „Data Warehouse“
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 1 : Was ist ein Data Warehouse?
Bereits im Jahr 1988 wurde das Konzept des unternehmensweiten Datenpools von der Firma IBM im Rahmen der EBSI-Architektur ( European Business Information Systems) vorgestellt Mit diesem Konzept sollte der Zugang zu unterschiedlichen Systemen über eine einheitliche Schnittstelle möglich sein. Der zu diesem Konzept gehörende Begriff des Data Warehouse wurde einigen Zeit später insbesondere von dem amerikanischen Berater William Immon geprägt. Das Konzept eines Data Warehouses wird häufig als eine analytische Datenbank für ausschließlich lesenden Zugriff dargestellt, die als Grundlage eines Entscheidungssystems genutzt wird [Poe und Reeves (1997)].
Neben dieser recht engen Begriffsbildung lassen sich in der Literatur auch weiter gefasste Definitionen eines Data Warehouses finden:
“Ein Data Warehouse (unübliche deutsche Übersetzung: Daten-Lagerhaus) ist ein umfassendes Konzept zur Entscheidungsunterstützung von Mitarbeitern aller Bereiche und Ebenen. Kern ist eine integrierte Datenbank mit entscheidungsrelevanter Information über die Geschäftsfelder, die aus den operativen Datenbanken und externen Quellen bedarfsgerecht destilliert wird. Der direkte Zugriff wird den Endbenutzern durch einen Informationskatalog (Metadatenbank) erleichtert, der über die Inhalte, Formate und Auswertemöglichkeiten des Data Warehouse Auskunft gibt. Eine dritte wesentliche Komponente sind die Softwarewerkzeuge und Anwendungsprogramme, mit denen die Daten des Warehouse angefragt, transformiert, analysiert und präsentiert werden können.“ [Hansen (1996)]
Das Ziel, welches mit dem Einsatz eines Data Warehouses erreicht werden soll, ist, die schnelle Verarbeitung von Massendaten zur Entscheidungsunterstützung. Um dieses Ziel erreichen zu können, ist das Zusammentragen und Aufarbeiten von Daten alleine nicht ausreichend. Die Daten müssen - sowohl bezüglich des Inhalts als auch von dem Bereitstellungszeitpunkt und der Art der Präsentation – bedarfsgerecht den Entscheidungsträgern zur Verfügung gestellt werden und für eine erneute oder variierte Analyse über eine längere Zeit vorgehalten werden.
Im folgenden wird unter dem Begriff „Data Warehouse“ ein System verstanden, über welches aus unterschiedlichen Datenquellen extrahierte, konsistente und entscheidungsrelevante Daten in einer für den Benutzer leicht zugänglichen Art und Weise abfragbar sind. Zur Datenabfrage, -Präsentation und Weiterleitung werden von dem Anwender keine detaillierten Kenntnisse über den Aufbau des Systems sowie der zugrunde liegenden Datenquellen oder das Datenmodell des Warehouse benötigt.
Da Entscheidungssituationen häufig nicht im voraus planbar sind, muss ein Data Warehouse kurze Antwortzeiten aufweisen – die Dauer der Abfragen darf in Abhängigkeit von Menge und Art der abgefragten Daten nur gering schwanken.
Ein Data Warehouse ist ein System, welches dem Anwender erlaubt, sich auf seine Kernaufgaben zu konzentrieren, ohne sich zusätzliches IT-Know-How aneignen zu müssen. Der Name ist Programm: Genauso wie ein Käufer eines Kleidungsstückes in einem Kaufhaus nicht wissen muss, aus welchem Material das Kleidungsstück besteht, wie das Schnittmuster beschaffen ist oder wie es genäht wurde, benötigt ein Anwender eines Data Warehouses lediglich eine genaue Vorstellung von den von ihm benötigten Daten, um diese aus dem Angebot entnehmen zu können.
3 Fokus der Anwendung
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 2: Fokus der Anwendung eines Data Warehouses
Nachdem im Kapitel 2 erklärt wurde, was unter dem Begriff „Data Warehouse“ zu verstehen ist, soll das Data Warehouse nun in dem Umfeld „Informationssysteme“ im weitesten Sinne eingeordnet werden. Dazu werden in einem ersten Schritt die Begriffe „operationales System“ und „Analyse System“ bestimmt und von einander abgegrenzt, um in einem weiteren Schritt das Data Warehouse zu einem der beiden Systemtypen zuordnen zu können.
3.1 Operative Systeme
Bei operativen Systemen handelt es sich um Systeme, die zur Abwicklung und Unterstützung der Kernprozesse eines Unternehmens genutzt werden. Oft handelt es sich um Online-Dialogsysteme, die kontinuierlich aktualisiert werden. Beispiele für operative Systeme sind die Systeme der Materialwirtschaft, des Vertriebes oder der Finanzbuchhaltung. Die in den operativen Systemen gehaltenen Daten sind stark anwendungsbezogen. Es werden nur Daten bestimmter Geschäftsprozesse oder bestimmter Geschäftsvorgänge gespeichert.
Die einzelnen Geschäftsvorgänge bewirken eine kontinuierliche Änderung des Datenbestandes der Systeme – die von ihnen vorgehaltenen Daten stellen jeweils die aktuelle Situation dar. Solche Informationen werden auch als Datenschnappschuss bezeichnet. Durch kontinuierliche Aktualisierung der zugrundeliegenden Datenbank liefert die selbe Abfrage, wird sie zu verschiedenen Zeitpunkten gestellt, u.U. vollständig unterschiedliche Ergebnisse.
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 3: Operative Systeme
Die an operative System gestellten Abfragen sind quantitativer Art wie z.B.:
- Wie hoch ist der aktuelle Lagerbestand für das Ersatzteil X?
- Wie viele Teile des Produktes Y sind bestellt und noch nicht ausgeliefert?
Die Datenbankstruktur der operativen Systeme ist so ausgelegt, dass vorher bekannten Anwendungsfälle wie Abfragen und Updates schnell durchgeführt werden können.
3.2 Analyse Systeme
Die Fragestellungen, die mit Hilfe von Analyse Systemen beantwortet werden können, sind von qualitativer Art wie:
- Welcher Zusammenhang besteht zwischen dem Umsatz und der Dauer der Geschäftsbeziehung eines Kunden?
- Bei welchem Produkt liegt der Umsatz unter der Prognose?
Die Daten, die zur Beantwortung dieser Fragen genutzt werden müssen, stammen in der Regel nicht nur aus einem operativen System. Vielmehr müssen zur Beantwortung solcher Fragen meist Daten aus mehreren operativen Systemen zusammengefasst und verarbeitet werden.
Die analytische Datenverarbeitung geschieht zunächst durch Vergleiche oder durch die Analyse von Mustern und Tendenzen. Für diese Analysen ist es nicht zwingend notwendig, dass zu jedem Zeitpunkt der aktuelle Status – also online-Daten - in die Analyse einbezogen wird. Sie basiert vielmehr über einen bestimmten Zeitraum aggregierten Daten, die einen festen Zeitbezug besitzen.
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 4: Analyse Systeme
Je größer der Datenbestand, auf der eine Analyse basiert, desto geringer ist die statistische Unsicherheit des Ergebnisses. Aus diesem Grund werden in Analysesystemen große Datenbestände gespeichert, die oft – jedoch nicht zwingend – als Zeitreihen vorliegen. Analysesysteme müssen daher in der Lage sein, Abfragen auf großen Datenbeständen mit einer anwenderfreundlichen Wartezeit im Minutenbereich durchzuführen.
Die Datenkonsistenz muss innerhalb des Analysesystems gewährleistet werden. Aus diesem Grund werden manuelle Änderungen der Datenbasis eines Analysesystems nicht zugelassen. Könnten die Daten von den Anwendern geändert werden, kann die Konsistenz der Daten und die Reproduzierbarkeit von Analyseergebnissen nicht mehr gewährleistet werden. Gerade die Reproduzierbarkeit von Analyseergebnissen ist ein wichtiges Kriterium für die Akzeptanz eines Analysesystems. Würden die von dem System gelieferten Ergebnisse unter Nutzung der selben Datenbasis ohne für den Anwender erkennbaren Grund variieren, hätten die Analyseergebnisse keine Aussagekraft mehr.
3.3 Vergleich der Systemtypen und Einordnung des Data Warehouse
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 5: Vergleich von operativen Systemen und Analyse Systemen
Vergleicht man die Charakteristika der operativen Systeme sowie der Analyse Systeme mit der in Kapitel 2 in dieser Arbeit genutzten Definition des Data Warehouses, stellt man fest, dass diese bereits die meisten Merkmale eines Analyse Systems trägt.
Abbildung in dieser Leseprobe nicht enthalten
Tabelle 1: Vergleich operative Systeme und Analyse Systeme
Entscheidungsrelevante Daten enthalten Analysen der Vergangenheitsdaten, um aus gesammelten Erfahrungen Schlüsse für das Handeln in der Zukunft ziehen zu können. Der Zeithorizont der Daten in einem Data Warehouses erstreckt sich oft über mehrere Jahre. Entscheidungssituationen sind ereignisgesteuert; die Menge und Art der entscheidungsrelevanten Daten sind von der Situation abhängig. Damit für jede Situation die passende Datenbasis aus dem Data Warehouse extrahiert werden kann, muss es den Entscheidungsträgern möglich sein, selbstständig Abfragen zu formulieren und diese ad hoc abzusetzen.
Da es sich bei den Entscheidungssituationen in der Regel nicht um Entscheidungen des aktuellen Tagesgeschäftes handelt – diese werden durch die operativen Systeme unterstützt – kann davon ausgegangen werden, dass es sich um Entscheidungen handelt, deren Umsetzung und Konsequenzen mittel- oder langfristig zu sehen ist. Es ist daher nicht nötig, dass in dem Data Warehouse online-Daten vorgehalten werden. Der Grundgedanke von flüchtigen Daten in einem operativen System und der Nichtflüchtigkeit von Daten in einem Analyse System steht in direkter Verbindung mit der unterschiedlichen Funktion von operativen und analytischen Systemen. Da zudem die Struktur der Datenbank eines Data Warehouses nicht – wie bei den operativen Systemen - für permanente Updates optimiert ist, werden die Daten zyklisch in das Data Warehouse eingeladen. Einem Data Warehouse kann daher nur direkt nach dem Update der aktuelle Status entnommen werden. Die Datenbank einem operativen Systems wird in der Regel so gestaltet, dass es Daten aufnehmen, existierende Daten verändern, Daten abgleichen, Transaktionen verfolgen, Berichte erzeugen, Datenintegrität bewahren und Abfragen so schnell wie möglich bewältigen kann. Somit unterscheidet sich die Gestaltung einer analytischen Datenbank erheblich von der Gestaltung einer operativen Datenbank [Poe und Reeves (1997, S. 20-23)], so dass die Funktionalität eines Data Warehouses nur durch ein zyklisches Update und nicht durch permanente Aktualisierung gewährleistet werden kann.
Damit trägt das Data Warehouse alle in Tabelle 1 aufgeführten Merkmale eines Analyse Systems. Nichts desto werden in ihm die Daten der operativen Systeme genutzt. Sie werden von den operativen Systemen abgezogen, mit einem zeitlichen Bezug versehen, validiert, zusammengeführt und aggregiert – und bleiben in den entscheidungsrelevanten Auszügen in dem Data Warehouse für längere Zeit zugreifbar.
4 Aufbau eines Data Warehouse
In den vorangegangenen Kapiteln wurde der Begriff Data Warehouse definiert und die Aufgaben eines Data Warehouse identifiziert. In diesem Kapitel wird der Aufbau eines Data Warehouses beschreiben – wobei der Aufbau durch seine Architektur, seinen Daten und Prozessen bestimmt wird.
4.1 Daten
Die in einem Data Warehouse gespeicherten Daten sind recht heterogen. Im ersten Schritt kann zwischen den Nutzdaten und den Metadaten unterschieden werden.
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 6: Datenstruktur eines Data Warehouse
4.1.1 Metadaten
Bei den Metadaten handelt es sich um Daten über Daten, die in unterschiedlichen Bereichen des Data Warehouse Anwendung finden. Bedingt durch die variablen Nutzungsmöglichkeiten wird dieser Begriff in den unterschiedlichsten Bedeutungen genutzt. Es handelt sich hier um einen Oberbegriff – für eine präzise Bezeichnung der gemeinten Daten muss die Nutzung der Metadaten weiter eingegrenzt werden.
In dem Data Warehouse werden „Daten über Daten“
- für den Datenimport und –Transformation,
- für die Datenverwaltung und
- zur Kapselung der Datenbank und gleichzeitigen Bereitstellung einer Anwendersicht
genutzt.
Bei dem Datenimport und –Transformation werden Daten darüber benötigt, welche Daten aus welcher Datenquelle stammen, in welchem Format sie vorliegen, wie sie importiert werden, wie sie verändert und mit den restlichen Daten aus anderen Quellen zu verknüpfen. Für die Datenverwaltung wird eine Beschreibung des Datenmodells und der Datenbankstruktur benötigt. Darüber hinaus wird über die Metadaten festgelegt, wann welche Aggregationen durchzuführen und welche Daten wann zu archivieren oder auch zu löschen sind.
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 7: Metadaten
Metadaten können den Analysetools zur Verfügung gestellt werden, um dem Anwender die Sicht auf die in dem Data Warehouse vorgehaltenen Daten erleichtert. Diese Metadaten müssen nicht notwendigerweise in dem Data Warehouse vorgehalten werden. Es besteht auch die Möglichkeit, diese Daten direkt in dem Analysetool zu speichern – die Speicherung in dem Data Warehouse hat jedoch einige Vorteile: Häufig werden innerhalb eines Unternehmens Qualitätskennwerte mit der selben Bezeichnung genutzt – allerdings können die Methoden, mit der die Kenngrößen ermittelt werden, zwischen den einzelnen Abteilungen oder Bereichen stark variieren. Z.B. ist der Begriff „Auslastung“ einer Abteilung oder eines Bereiches ein sehr dehnbarer Begriff, für den diverse Möglichkeiten zur Ermittlung existieren. Die Folge ist, dass Werte miteinander verglichen werden, die nicht vergleichbar sind oder viel Zeit und Mühe für Nachforschungen verwendet wird, welche Berechungsmethode genutzt wurde. Wird innerhalb des Data Warehouses eine „Formelsammlung“ in Form der Metadaten zur Verfügung gestellt, die von einer zentralen Stellen gepflegt wird, können hier Inkonsitenzen und Mehrdeutigkeiten weitgehend verhindert werden.
4.1.2 Nutzdaten
Bei den Nutzdaten wird zwischen den Daten aus internen und Daten aus externen Datenquellen unterschieden. Bei den internen Datenquellen handelt es sich um die operativen Systeme. Aus den operativen Systemen werden Datenschnappschüsse abgezogen, mit einem zeitlichen Bezug – einem Zeitstempel mit dem Datum und der Uhrzeit, an dem die Daten aus den operativen Systemen abgezogen wurden – versehen und in dem Data Warehouse weiter verarbeitet.
Abbildung in dieser Leseprobe nicht enthalten
Mindmap 8: Nutzdaten
Aber auch externe Daten sind entscheidungsrelevant – unter Umständen sogar in einem noch größeren Maß als dies für die Daten der internen Datenquellen zutrifft. Auch für externe Daten sind die unterschiedlichsten Typen denkbar. Die Variation reicht von Daten der Konkurrenzunternehmen über aktuelle Börsendaten bis hin zu branchenbezogenen Zeitungsartikeln. Die externen Daten können über Online-Datenbanken oder Informationsbroker bezogen werden. Mit der Menge der Bezugsquellen variieren auch die Medien, auf denen die externen Daten gespeichert sind: Hier ist sowohl der Zugang über Internet als auch CD als Speichermedium denkbar.
[...]
- Arbeit zitieren
- Ute Nast-Linke (Autor:in), 2003, Das Data Warehouse-Konzept und mulitdimensionale Datenmodellierung, München, GRIN Verlag, https://www.grin.com/document/14459
-
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen. -
Laden Sie Ihre eigenen Arbeiten hoch! Geld verdienen und iPhone X gewinnen.