Die Arbeit stellt sich die Frage, wie wichtig Data-Warehouse-Systeme für das Informationsmanagement in Unternehmen sind. Dabei werden die Grundbegriffe geklärt und, ausgehend von einer Referenzarchitektur, die verschiedenen Formen und die Grenzbereiche betrachtet.
Der Autor befindet sich während der Ausarbeitung dieser Arbeit in einem Projekt zur Schaffung eines integrierten Datenmodells, resultierend aus der Analyse eines bestehenden ERP-Systems, das eine selbst entwickelte Lösung ist und einem neu einzuführenden ERP-System, welches diese Eigenentwicklung ablösen soll.
Diese Integration ist nötig, da der Datenbestand des neuen Systems nur wenige Jahre zurückreichen wird. Marketing- und Controlling-Analysen arbeiten aber mit Daten, die weiter zurückreichen. Diese werden aus dem abzulösenden ERP-System stammen. Die Datenstrukturen der beiden Systeme unterscheiden sich sehr, da das alte System eine Eigenentwicklung ist und das neue System eine anpassbare Standardlösung eines Herstellers von ERP-Lösungen.
Das Ziel des Projektes ist die Schaffung einer Datenbank, in der die historischen und aktuellen Daten in ein integriertes Datenmodell zyklisch importiert werden sollen, um sie weiterführenden Marketing- und Controlling-Analysen zuführen zu können. Bisher wurden Management-Entscheidungen der beiden Unternehmensbereiche mit Hilfe mehrerer Data-Warehouse-Systeme durchgeführt. Dies soll auch weiterhin der Fall sein, die ERP-Quelldaten sollen aber zukünftig aus einem neu zu schaffenden Operational Data Store (ODS) bezogen werden, in dem die Detaildaten des abzulösenden und neuen ERP-Systems einheitlich zusammengefasst werden.
Inhalt
1. Einleitung
2. Die Grundlagen: Informationsmanagement, Information, Data-Warehouse-Systeme und Big Data
3. Von der Referenzarchitektur über Datamart, Virtual-, Real-Time-Data-Warehouse zu Big Data
3.1 Data Mart und virtuelles Data Warehouse
3.2 Real-Time Data-Warehouse
3.3 Heterogene, ganzheitliche BI-Architektur als Rahmen
4 Schluss
Literaturquellen
1. Einleitung
Der Autor befindet sich während der Ausarbeitung dieser Arbeit in einem Projekt zur Schaffung eines integrierten Datenmodells, resultierend aus der Analyse eines bestehenden ERP1 -Systems, das eine selbst entwickelte Lösung ist und einem neu einzuführenden ERP-System, welches diese Eigenentwicklung ablösen soll.
Diese Integration ist nötig, da der Datenbestand des neuen Systems nur wenige Jahre zurückreichen wird. Marketing- und Controlling-Analysen arbeiten aber mit Daten, die weiter zurückreichen. Diese werden aus dem abzulösenden ERP-System stammen. Die Datenstrukturen der beiden Systeme unterscheiden sich sehr, da das alte System eine Eigenentwicklung ist und das neue System eine anpassbare Standardlösung eines Herstellers von ERP-Lösungen. Das Ziel des Projektes ist die Schaffung einer Datenbank, in der die historischen und aktuellen Daten in ein integriertes Datenmodell zyklisch importiert werden sollen, um sie weiterführenden Marketing- und Controlling-Analysen zuführen zu können. Bisher wurden Management-Entscheidungen der beiden Unternehmensbereiche mit Hilfe mehrerer Data-Warehouse-Systeme durchgeführt. Dies soll auch weiterhin der Fall sein, die ERP-Quelldaten sollen aber zukünftig aus einem neu zu schaffenden Operational Data Store (ODS)2 bezogen werden, in dem die Detaildaten des abzulösenden und neuen ERP-Systems einheitlich zusammengefasst werden.
Im Projekt geht es darum, das integrierte Datenmodell aus den Datenstrukturen abzuleiten, die in den beteiligten Data-Warehouse-Bereichen benötigt werden. Das so entstehende Teilmodell der bestehenden ERP-Lösung, soll mit dem Datenmodell des einzuführenden ERP-Systems so abgeglichen werden, dass eine gemeinsame Datenbasis entsteht, die von den Data-Warehouse-Bereichen genutzt werden kann, um weiterhin Entscheidungsprozesse vorbereiten zu können. Dabei zeigt sich die Notwendigkeit der Dokumentation der bestehenden Datenmodelle und zugehörigen Prozesse. Diese Dokumentation wurde in der Vergangenheit vernachlässigt, sodass eine detaillierte Analyse notwendig wird, um aus der Dokumentation zuerst die Datenmodelle der beteiligten Data Warehouse Umgebungen in ein Verhältnis setzen zu können. Anschließend soll das daraus entstehende Ist-Modell mit dem Datenmodell des einzuführenden ERP-Systems abgeglichen werden, so dass ein integriertes Datenmodell entsteht.
Erst, wenn der ODS die beteiligten Data-Warehouse-Bereiche mit sinnvollen Daten versorgen kann, ist ein Betrieb des neuen ERP-Systems denkbar, denn ohne diese Daten werden unternehmerische Entscheidungsprozesse zu einem großen Teil nicht mehr möglich sein. Die Einführung des neuen ERP-Systems hängt kritisch von der Implementierung des ODS ab.
Das Beispiel zeigt, wie wichtig es für Unternehmen ist, Entscheidungsprozesse mit Hilfe passender Informationen zu unterstützen. Diese Informationen müssen alle Geschäftsprozesse eines Unternehmens abdecken. Für diese Unterstützung werden häufig Data- Warehouse-Systeme eingesetzt.
Es stellt sich die Frage, wie wichtig Data-Warehouse-Systeme für das Informationsmanagement in Unternehmen sind. Diese Arbeit geht der Frage im folgenden Text nach. Dabei werden im nächsten Abschnitt die Grundbegriffe geklärt. Im darauffolgenden Hauptteil werden ausgehend von der Referenzarchitektur von Data-Warehouse-Systemen, verschiedene Formen und die Grenzbereiche von Data-Warehouse-Systemen betrachtet.
2. Die Grundlagen: Informationsmanagement, Information, Data- Warehouse-Systeme und Big Data
In dieser Arbeit wird der Beitrag von Data-Warehouse-Systemen zum Informationsmanagement diskutieren und das auch im Hinblick auf die verschiedenen Formen von Data- Warehouse-Systemen. Hierfür werden zuerst die zu Grunde liegenden Begriffe geklärt. Diese sind Informationsmanagement, Information und Data-Warehouse-System . Anschließend soll eine Abgrenzung zu „Big Data“ vorgenommen werden, da dieses Schlagwort für verschiedene Herausforderungen steht, die Data-Warehouse-Systeme vor schwerwiegende Probleme stellt.
„Informationsmanagement (IM) ist ein Teilbereich der Unternehmensführung, der die Aufgabe hat, den für die Unternehmensziele bestmöglichen Einsatz der Ressource Information zu gewährleisten“ (Krcmar, 2015, S. VIII). Es geht also um das Management der Informationsflüsse im Sinne der Unternehmensziele und die Versorgung aller Mitarbeiter und sonstiger berechtigter Informationsempfänger mit relevanten Informationen. Da das Informationsmanagement ein Teilbereich der Unternehmensführung ist, geht es um Führungsaufgaben im Bereich Informationsmanagement. „Diese sind die Gestaltung der Governance des IM, die Bestimmung der Strategie, der damit verbundenen Festlegung der Bedeutung des IM für das Unternehmen, das Management der IT-Prozesse, das Management des IT-Personals, der IT-Sicherheit und das IT-Controlling im weiteren Sinne als Steuerung des IM“ (Krcmar, 2015, S. 11).
Ein zentraler Begriff ist hierbei die Information. Sie soll so bereitgestellt werden, dass sie Führungsaufgaben unterstützt, und zwar abgeleitet von der Unternehmensstrategie auf allen Management-Ebenen. „Es geht um Entscheidungen über den Informationsbedarf und das Informationsangebot, und somit um den Informationseinsatz“ (Krcmar, 2015, S. 10). Informationen sind Daten, die dazu dienen, zielgerichtet Entscheidungen bzw. Handlungen vorzubereiten. Sie sind vom Wissen abzugrenzen, welches die Informationen der zielgerichteten Vorbereitung von Entscheidung und Handlung anreichert. Diese Anreicherung umfasst zusätzliches vernetztes und prozessuales Wissen, um eine Handlung innerhalb eines bestimmten Kontextes ausführen zu können (vgl. Bodendorf, 2006, S. 12).
Die Basis von Informationen sind Daten. Das sind Strukturen von Zeichen, die definiert und nachvollziehbar strukturiert sind. Sie sind maschinell speicherbar und deren Struktur und Inhalt sind mehr oder weniger maschinell zielgerichtet und kontextbezogen differenzierbar und verarbeitbar. Je näher man der Ebene des Wissens kommt, desto größer ist der Anteil der unstrukturierten Informationen an der Wissensbasis und desto schwieriger wird die maschinelle Verarbeitung der basierenden Daten, da die Strukturen und die Inhalte immer schlechter kontextbezogen durch maschinelle Funktionen verarbeitet werden können, aufgrund der steigenden Komplexität.
Data-Warehouse-Systeme dienen der nicht flüchtigen, themenorientierten, integrierten und zeitbezogenen Unterstützung von Management Entscheidungen (vgl. Immon, 1996, S. 33). Hier zeigt sich der Bezug zu Führungsaufgaben und die Ausrichtung auf einen themenbezogenen Nutzen. „Integriert“ deutet auf den Import von Daten aus verschiedensten Datenquellen hin. Der nicht flüchtige Zeitbezug wird hergestellt durch zyklische Prozesse des Imports der Daten und die Beibehaltung historischer Daten. Data- Warehouse-Systeme können im engeren Sinne als eine oder mehrere Datenbanken angesehen werden, die ein integriertes, analyseorientiertes Datenmodell realisieren (vgl. Bauer/Günzel, 2013, S. 8). Diese Datenbanken werden aus verschiedenen Quellen be- füllt (vgl. Farkisch, 2011, S. 7-8). Im weiteren Sinne bieten sie Möglichkeiten, über Reporting und Dashboards, Informationen bedarfsgerecht bereitzustellen. Hinzu kommen Analyse-Werkzeuge, mit deren Hilfe Analysen aus verschiedensten Perspektiven, durchgeführt werden können. Für diese Analysen aus verschiedensten Perspektiven , bietet sich ein multidimensionales Datenmodell an, da es standardisiert ist, weit verbreitet und sich bewährt hat als Basis für entsprechende Datenbanken (vgl. Farkisch, 2011, S. 12). Es führt zu Modellen, die in der technischen Umsetzung dazu dienen, strukturierte Informationen auf eine explorative Art und Weise nutzen zu können, um komplexe Analysen zu ermöglichen.
Damit muss die Unterscheidung zwischen strukturierten und unstrukturierten Daten besondere Aufmerksamkeit geschenkt werden, denn die Modelle erfordern strukturierte Daten. Bei strukturierten Daten kann der Inhalt der Daten maschinell verarbeitet werden, da die Struktur des Inhaltes vor der Verarbeitung definiert ist und durch maschinelle Prozesse genutzt werden kann. Bei schwach strukturierten Daten ist zwar bekannt, dass bestimmte Daten vorhanden sind, aber die Struktur der Daten ist unbekannt. Auf einem Rechnungsdokument sind zwar Daten, wie die Rechnungsnummer oder der Rechnungsbetrag vorhanden, doch ist die Position dieser Daten von Rechnungssteller zu Rechnungssteller unterschiedlich. Wird beispielsweise der Electronic data Interchange (EDI)3 verwendet, werden die schwach strukturierten Daten auf dem Rechnungsdokument so weit strukturiert, dass sowohl Inhalt und Struktur des Inhaltes maschinell erwartbar sind. Unstrukturierte Daten sind Daten, bei denen sowohl der Inhalt, die Struktur und auch das Format der Daten unbekannt sind. Je unstrukturierter Daten sind, desto schwieriger wird deren Weiterverarbeitung auf eine Art und Weise, die einem bestimmten Nutzen dienen kann (vgl. Bitcom, 2012).
Gerade in den letzten Jahren entsteht das Bedürfnisses, vielfältige externe Quellen zu unternehmerischen Zwecken zu erschließen. Soziale Netzwerke sind ein Beispiel für solche Datenquellen. Es stehen auch immer mehr interne Informationsquellen zur Verfügung, beispielsweise aufgrund des gesteigerten Einsatzes von Sensoren (vgl. Seufert, 2016). Immer mehr unstrukturierte Informationen, wie Bilder oder Texte, sollen der maschinellen Verarbeitung zugeführt werden. Die steigende Datenmenge und die sich steigernde Heterogenität, spiegeln sich im Begriff „Big Data“ wider. Dabei spielen die sogenannten 5 Vs eine entscheidende Rolle. Diese sind Volume, Velocity, Variety, Veracity und Value. Volume bedeutet dabei, dass Datenvolumen verarbeitet werden müssen, die besondere technologische Konzepte erfordern, beispielsweise eine horizontale Skalierung der Daten. Diese erfordert wiederum eine entsprechend angepasste Datenhaltung, vor allem wenn Velocity ins Spiel kommt, was bedeutet, dass die Daten in akzeptabler Zeit verarbeitet und bereitgestellt werden müssen. Variety betrifft die Vielfältigkeit von Daten und umfasst damit Daten, die strukturiert bis unstrukturiert sein können, also verschiedene Grade der nutzenorientierten, maschinellen Verarbeitbarkeit aufweisen. Veracity behandelt die Richtigkeit, Vollständigkeit und Verlässlichkeit von Daten. Value betrifft den Wert, den Informationen besitzen. In diesem V kommt der Nutzen zur Geltung. Die Informationen sollen einem bestimmten Nutzen dienen und damit zielgerichtet ausgewertet werden (vgl. Wierse/Riedel, 2017, S. 26 ff.). Es entsteht ein Spannungsfeld zwischen Exaktheit und Vieldeutigkeit, Geschwindigkeit und Gründlichkeit (vgl. Dorschel, 2015, S. 7-8). In Bezug auf Data-Warehouse-Systeme bedeutet dies, dass die geforderte Vollständigkeit und Korrektheit nicht mehr das Maß aller Dinge sein kann und erweitert gedacht werden muss.
Ein Data-Warehouse-System dient der Analyse des Zustandes aber auch einer möglichen Entwicklung von Unternehmen, und zwar auf verschiedenen Management-Ebenen. Zur Beurteilung, welche Bedeutung und Grenzen Data-Warehouse-Systeme haben, bietet sich die Einteilung verschiedener Analyseformen an.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 1: Wissensbereiche, Denkweisen und Technologie
Dabei können den verschiedenen Analysebereichen, verschiedene technologische Bereiche zugeordnet werden. Reporting und Dashboards können der Frage, was passiert ist bzw. was gerade passiert zugeordnet werden. Der Frage, warum etwas passiert ist, können OLAP4 und Visualisierungstools zugeordnet werden. Den Fragen, was passieren könnte und was getan werden sollte, können Data Mining und künstliche Intelligenz zugeordnet werden (vgl. Eckerson, 2007, Internetquellen). Ein Data-Warehouse-System findet sich auf der Ebene der Gründe wieder, in Abbildung 1 in Form des Begriffs „OLAP“.
3. Von der Referenzarchitektur über Datamart, Virtual-, Real-Time- Data-Warehouse zu Big Data
Ein Data-Warehouse-System besteht aus verschiedenen Komponenten. Zur Einordnung und Abgrenzung soll eine Referenzarchitektur als Ausgangsbasis dienen, der Data-Warehouse-Systeme mehr oder weniger streng folgen.
Abbildung in dieser Leseprobe nicht enthalten
Abbildung 2. Referenzarchitektur, angelehnt an Abb. 2-1 (vgl. Bauer/Günzel, 2013, S. 42)
Auf der untersten Ebene befinden sich die Datenquellen, die durch Monitore überwacht werden. Dabei kann ein Monitor zyklisch arbeiten, aber auch beispielsweise bei Änderungen der Quelldaten eine Extraktion der zu überwachenden Daten auslösen. Der Monitor nutzt dabei Daten aus dem Repositorium für Metadaten, welches beispielsweise die Verbindungsinformationen zur jeweiligen Datenquelle enthält oder die Datenbeschrei- bung, welche Daten extrahiert werden sollen. Ein Monitor erhält diese Daten über den Metadaten-Manager.
Im Arbeitsbereich werden die Daten dann in der Form abgelegt, wie sie aus den Datenquellen ausgelesen werden. Sie sind nicht in Rohform, da hier bereits eine Auswahl der Daten vorgenommen wurde. Anschließend werden die Daten transformiert. Es werden beispielsweise Datumsformate angeglichen oder Null-Werte gefüllt, um Vollständigkeit zu erreichen. Das Ergebnis wird in die Basisdatenbank geladen. Von dort aus werden die Daten in einen Auswertungsbereich geladen, in dem dann beispielsweise noch historisiert wird. Dort werden die Daten dann in die multidimensionale Datenbank geladen, wobei sie dabei ebenfalls wieder transformiert werden, um sie in das multidimensionale Datenmodell zu bringen. Die multidimensionale Analysedatenbank dient dann als Quelle für die Analysen, die nun flexibel durchgeführt werden können, da die verdichteten Kennzahlen anhand von Dimensionen aus verschiedenstem Blickwinkel betrachtet werden können. So können Absatzzahlen beispielsweise anhand von Produkten oder Regionen in unterschiedlichen Zeitbezügen betrachtet werden. Die Komponente Data-WarehouseManager steuert und kontrolliert den gesamten Prozess. Nicht alle dieser Komponenten müssen dabei in der Praxis zum Einsatz kommen. Zentral sind die Integration von Daten aus verschiedenen Datenquellen und die multidimensionale Analysedatenbank, die für explorative Analysen entscheidend ist.
Um eine bessere Abgrenzung eines Date-Warehouse-Systems vornehmen zu können, bietet es sich an, Architekturen zu betrachten, die nicht der Referenzarchitektur entsprechen, bis hin zu Möglichkeiten der Integration von Big Data Aspekten.
3.1 Data Mart und virtuelles Data Warehouse
Date-Warehouse-Systeme können eingeteilt werden in drei verschiedene Architektur-Varianten (vgl. Bâra et.al, 2008). Da ist zum einen das zentrale Data-Warehouse, welches der Referenzarchitektur mehr oder wenige stark entspricht. Entscheidend ist hierbei die Integration von Datenquellen verschiedener Organisationsbereiche und der Betrieb einer zugehörigen Datenbank, die ein bereichsübergreifendes multidimensionales Datenmodell realisiert. Daneben gibt es die Variante mit sogenannten Data Marts. Das sind Teilbereiche des Datenbestandes eines zentralen Data Warehouse für bestimmte Zwecke, die eine Auslagerung erfordern. Hier kommt ebenfalls ein multidimensionales Modell zum Einsatz, aber der bereichsübergreifende Charakter geht mehr oder weniger verloren, je nach Variante der Data Marts. Die dritte Variante ist das virtuelle Data Warehouse. Hier wird das multidimensionale Model aufgegeben und auch der bereichsübergreifende Charakter fehlt. Die Daten werden direkt aus den Datenquellen ausgelesen, beispielsweise in Form von Views, die in den Datenquellen-Datenbanken gespeichert werden. Die zentralen Aspekte der Referenzarchitektur werden hierbei immer stärker vernachlässigt.
Die Gründe dafür sind besonders interessant für das Thema dieser Arbeit, da sie den Grenzbereich von Data-Warehouse-Systemen in Bezug auf den Aspekt der Integration abstecken. Diese Gründe können Eigenständigkeit, Datenschutzaspekte, Performance- oder Lastverteilungsgründe sein. In Bezug auf Eigenständigkeit, kommen Aspekte wie Vermeidung von Komplexität, beispielsweise durch die Eingrenzung des Projektumfangs, aus Kostengründen oder durch Zeitdruck ins Spiel (vgl. Golfarelli/Rizzi 2009, S. 8f.).
3.2 Real-Time Data-Warehouse
Bei einem Real-Time Data-Warehouse nähern sich die Aktualisierungszyklen eines Data Warehouse dem Zeitpunkt der Änderung der Daten in einer Datenquelle so weit an, dass operative Änderungen und zugehörige Management-Entscheidungen nahezu zusammenfallen. Das Aktualisierungsintervall bewegt sich dabei maximal im Minutenbereich.
Dadurch ergeben sich Probleme in Bezug auf die Verfügbarkeit des Date-WarehouseSystems und der Konsistenz, da das System während des Ladens evtl. nicht verfügbar ist oder während der Aktualisierung Abfragen erfolgen können und so inkonsistente oder unvollständige Daten betrachtet werden. Hierfür werden zusätzliche Komponenten notwendig, wie eine Komponente, die Echtzeitdaten gepuffert vorhält. Es wird eine Komponente benötigt, die als Schnittstelle zum Anwender fungiert. Sie entscheidet bei einer Abfrage, ob die Abfrage direkt an den Echtzeitspeicher geht oder an das Data-Warehouse-System. Es gibt auch Ansätze, bei denen die Datenquellen oder Komponenten, die nahe an den Datenquellen angesiedelt sind, geänderte Daten aus dem Echtzeitspeicher an das Data-Warehouse-System schicken für die Historisierung. Hierzu werden ebenfalls weitere Komponenten benötigt, wie Queue-Komponenten, die die korrekte Reihenfolge bei der Integration der Daten ermöglichen (vgl. Bouaziz et.al, 2017).
Real-Time Konzepte erweitern die Referenzarchitektur um zusätzlich Komponenten und führen dazu, dass Zugriffe auf Daten teilweise außerhalb des eigentliche Data-Wa- rehouse-Systems stattfinden. Der integrative Charakter von Data-Warehouse-Systemen wird flexibler gestaltet.
3.3 Heterogene, ganzheitliche BI-Architektur als Rahmen
Herausforderungen, die sich aus den 5 V des Big Data ergeben, also Volume, Velocity, Variety, Veracity und Value, führen dazu, dass zentrale Anforderungen eines Data-Warehouse-System erweitert gedacht werden müssen. So führt Variety und Veracity zu Datenstrukturen, bei denen schwach- bzw. unstrukturierte mit strukturierten Informationen in einen Bezug gesetzt werden müssen. Hier spielt Smart Data Analytics, also die datengetriebene und mit Hilfe von künstlicher Intelligenz unterstützte automatisierte Erkennung von Mustern, eine entscheidende Rolle, diese Entwicklung voranzutreiben, beispielsweise bei der Bild- und Texterkennung. Hinzu kommen Self-Service-BI Lösungen, die es ermöglichen, ein „on the fly“-ETL zu implementieren, bei dem sowohl die Wahl der Datenquellen, die Transformation der Daten als auch die Bestimmung des Ladezeitpunkts in den Händen von Nutzern liegen (vgl. Imhoff/White, 2011, Internetquelle).
Für die angedeutete Notwendigkeit der Einbettung eines Data-Warehouse-Systems in einen Gesamtprozess und eine übergeordnete Gesamtstruktur der maschinell unterstützten Verarbeitung von Daten zur Entscheidungsfindung bzw. Wissensgewinnung, bieten sich Cloud-Lösungen an. Auf den Seiten von microsoft.com finden sich verschiedene Architekturvarianten, die die Integration in eine übergeordnete BI-Architektur beschreiben (vgl. microsoft.com, o.J., Internetquellen). Dabei geht es darum, Echtzeitquellen, unstrukturierte, schwach strukturierte und strukturierte Daten in verschiedenen Verarbeitungsstufen der integrierten Analyse zuzuführen. Dazu sind zusätzliche Komponenten in die Architektur integriert, wie Komponenten, die die Lambda- bzw. Kappa-Architekturen realisieren. Sie ermöglichen es, Streaming-Informationen auf verschiedenen Ebenen systematisch zu verarbeiten (vgl. Wierse/Riedel, 2017, S.301 f.). Die Notwendigkeit der Integration von unstrukturierten Daten, wie Texte, Bilder, Videos und Audioinhalte, führt zu neuen Datenspeicherarchitekturen, die es ermöglichen, Daten in ihrer Rohform abzuspeichern und für weitere maschinellen Verarbeitungen zur Verfügung zu stellen. Dies ermöglichen sogenannte Data Lakes (vgl Wierse/Riedel, 2017, S. 38).
Aufgrund der Erweiterungen kann man nicht mehr von ETL-Strecken sprechen, da dieser Begriff zu kurz greift, vor allem, wenn es um unstrukturierte oder Echtzeitdaten geht, die verarbeitet werden sollen. Besser ist es, hierbei von einer ganzheitlichen Datenintegration zu sprechen, einer sogenannten Data Fabric (vgl. talend.com, o.J., Internetquellen). Die heterogene Kombination von Technologien und Mechanismen, wird begleitet von einer Tendenz zum Self-Service BI, bei dem Anwender die Datenquellen in der BI-Anwen- dung wählen und dort eigene multidimensionale Modelle aufbauen können, die sie dann für Analysen nutzen. Hierbei können sie auch Quellen wählen, die außerhalb des DataWarehouse liegen, wie die Ergebnisse der Verarbeitung von Mechanismen der künstlichen Intelligenz. Cloud-Architekturen bieten hierfür einen möglichen Ansatzpunkt, da sie neben der nahezu grenzenlosen Skalierbarkeit der Ressourcen, des umfassenden Angebots an vorgefertigten Komponenten, umfassenden Schnittstellen, eine einheitliche Oberfläche und integrative Verwaltungs-Architekturen anbieten, die die Implementierung, Nutzung und Administration solch heterogener Strukturen stark vereinfacht (vgl. Wierse/Riedel, 2017, S. 383-384).
Als Brücke zwischen der Referenzarchitektur eines Data-Warehouse-Systems und den notwendigen Erweiterungen, die die Unterstützung der 5 V ermöglichen, bieten sich Semantic-Web oder ontologische Lösungen für die Verwaltung der Metadaten an (vgl. Long- bing et.al, 2006). Sie arbeiten auf einer semantischen Ebene und lassen sich als eine Art maschinelle verarbeitbare Verbindung-Schicht zwischen der strukturierten und unstrukturierten Seite bzw. zwischen den Komponenten der Referenzarchitektur und den notwendigen Erweiterungen einsetzen (vgl. Isele/Arndt, 2016). Mit diesen Lösungen wird es möglich, Beziehungen zwischen scheinbar streng zu trennenden Sichtweisen herzustellen. Dies kann über die Verwaltung von Metadaten hinaus gehen. Mit solchen Ansätzen wird exploratives Modellieren möglich, da im Modell Aspekte integriert werden können, die außerhalb der Erwartung liegen und in ein Verhältnis zu den Aspekten gesetzt werden können, die innerhalb der Erwartung an das Modell liegen. Information nähert sich damit maschinell verarbeitbarem Wissen an. Mit Hilfe ontologischer Lösungen, wird es möglich, neue multidimensionale Architekturen zu entwickeln, bei denen Kennzahlen nicht mehr im Mittelpunkt stehen müssen, sondern nur noch eine Art weitere Dimension zur Entwicklung verschiedener analytischer Blickwinkel sind. Dadurch können die Einsatzmöglichkeiten von multidimensionalen Architekturen stak erweitert werden (vgl. Weller, 2022, Internetquelle).
4 Schluss
Für Management-Entscheidungen sind Data-Warehouse-Systeme weiterhin von großer Bedeutung, da sie Daten aus verschiedenen Unternehmensbereichen in einem nutzenorientierten, einheitlichen und vergleichbaren Kontext verfügbar machen und es dadurch ermöglichen, korrekte und konsistente Zustandsberichte und Analysen über einzelne Fachbereiche hinaus zu gewährleisten. Auf der Seite der Analyse bieten sie mit Hilfe des multidimensionalen Datenmodells die Möglichkeit an, verschiedene Blickwinkel auf die Kennzahlen einzunehmen und zwischen den Blickwinkeln zu navigieren. Damit erlauben sie eine explorative Analyse betriebswirtschaftlicher Zustände. Doch zeigen sich die Grenzen dieser Systeme vor allem, wenn Echtzeit-, schwach oder unstrukturierte Daten betrachtet werden sollen. Für Anwendungen der künstlichen Intelligenz, sind diese Daten von besonderer Bedeutung, beispielsweise bei der Bild- oder Texterkennung. Hierfür werden auch große, heterogene Datenmengen erforderlich. Es entsteht eine große Herausforderung bei der Herstellung übergeordneter Blickwinkel für unternehmerische Entscheidungsprozesse, die in der Zukunft gelöst werden müssen, vor allem in Form der nutzenorientierten und maschinell verarbeitbaren Bezüge zwischen strukturierten und unstrukturierten Informationen. Hierzu könnten semantische Technologien ein Ansatzpunkt sein.
Die vorliegende Arbeit hat den Blick hauptsächlich auf die technologische Seite des DataWarehouse Begriffes gerichtet und bleibt dadurch zum Teil unvollständig, da gerade aufgrund der Hinwendung zu Self-Service-BI die anwendungsorientierte Seite immer mehr an Bedeutung gewinnt. Eine zusätzliche tiefergehende Betrachtung dieser Seite, hätte aber den Umfang der Arbeit gesprengt.
Literaturquellen
Bâra, A./Lungu, I./Valicanu, M./Diaconita, V./Botha, I. (2008): Improving query performance in virtual data warehouses, in: WSEAS Transactions on Information
Science and Applications, Volume 5, Issue 5, May 2008, S. 632-641
Bauer A./ Günzel H. (Hrsg.) (2013): Data Warehouse Systeme: Architektur,
Entwicklung, Anwendung, 4. Auflage, dpunkt.verlag, Heidelberg
BITKOM e.V. (2012): Leitfaden ECM - Überblick und Begriffserläuterungen - Archiv,
DMS, ECM und Co. Überblick und Begriffserläuterungen, Berlin
Bodendorf, F. (2006): Daten- und Wissensmanagement, Springer, Berlin/Heidelberg, DOI 10.1007/3-540-28682-9_1
Bouaziz, S./ Nabli, A./ Gargouri, F. (2017): From Traditional Data Warehouse To Real Time Data Warehouse, in: Advances in Intelligent Systems and Computing - Februar 2017, DOI 10.1007/978-3-319-53480-0_46
Dorschel, J. (Hrsg.) (2015): Praxishandbuch Big Data: Wirtschaft - Recht - Technik, Springer Gabler, Wiesbaden
Eckerson, W (2007): Predictive Analytics, https://tdwi.org/articles/2007/05/1 0/predictive- analytics.aspx, Zugriff am 09.11.2022
Farkisch, K (2011): Data-Warehouse-Systeme Kompakt - Aufbau, Architektur, Grundfunktionen, Springer, Heidelberg, DOI 10.1007/978-3-642-21533-9
Fischer, P.,/ Hofer, P. (2011): Lexikon der Informatik, 15. überarb. Aufl, Springer, Berlin/Heidelberg
Golfarelli, M./ Rizzi, S. (2009): Data Warehouse Desing - Modern Principles and
Methodologies, Tata McGraw-Hill, New Delhi
Imhoff, C./ White, C. (2011): Self-Service Business Intelligence, https://cdnlarge.tableausoftware.com/sites/default/files/whitepapers/ssbi-jul12-1 1 .pdf,
Zugriff am 24.11.2022
Immon W.H. (1996): Building the Data Warehouse (2nd ed.). John Wiley & Sons, Inc.
Isele, R./ Arndt, N. (2016): Mit semantischer Datenverwaltung Big Data in den Griff bekommen, in: Wirtsch Inform Manag 8, S. 56-63, DOI 10.1007/s35764-016-0065-z
Krcmar, H. (2015): Einführung in das Informationsmanagement, 2. überarbeitete
Auflage, Springer Gabler, Berlin/Heidelberg, DOI 10.1007/978-3-662-44329-3
Longbing, C./Zhang, C./Liu, J. (2006): Ontology-based integration of business intelligence, in: Web Intelligence & Agent Systems, Sep. 2006, Vol. 4 Issue 3, S. 313325
microsoft.com (o.J.): Enterprise Business Intelligence, https://learn.microsoft.com/de- de/azure/architecture/example-scenario/analytics/enterprise-bi-synapse, Zugriff am 25.11.2022
Seufert, A./ Oehler, K. (2016): Controlling und Big Data: Anforderungen an die Methodenkompetenz, in Control Manag Rev 60 (Suppl 1), S. 74-82, DOI 10.1007/s12176-016-0005-z
talend.com (o.J): Data Fabric: Definition, Funktionen und Vorteile, https://www.talend.com/de/resources/data-fabric/, Zugriff am 25.11.2022
Weller, T. (2022): Exploratives Modellieren und ein ontologisch-multidimensionales Datenmodell für Analysezwecke mit Hilfe eines Semantischen Anwendungssystems, http://www.omodules.de/ReiseGehtWeiter//Ressources/2a/87/2a87e34d7987411b9e17 0624bb0b58be.pdf, Zugriff am 26.11.2022
Wierse, A./ Riedel, T. (2017): Smart Data Analytics, de Gruyter GmbH, Berlin/Boston.
[...]
1 „Enterprise Resource Planning; Planung betrieblicher Ressourcen und Prozesse wie Personal, Kundinnen, Kapital, Maschinen, Materialien, Bestellungen, Transporte, Zeit usw.“ (Fischer/Hofer, 2011, S. 301)
2 „Bestand von meist heterogenen und für geschäftskritische Berichte bzw. Entscheidungen sehr häufig konsolidierten Daten“ (Fischer/Hofer, 2011, S. 638)
3 „Electronic Data Interchange; elektronischer Datenaustausch; Oberbegriff für Normen und Einrichtungen rund um den Verkehr mit elektronischen Dokumenten über Systemgrenzen hinweg“ (Fischer/Hofer, 2011, S. 281)
Häufig gestellte Fragen
Was ist der Zweck dieses Dokuments?
Dieses Dokument bietet eine umfassende Sprachvorschau, einschließlich Titel, Inhaltsverzeichnis, Ziele und Schlüsselthemen, Kapitelzusammenfassungen und Schlüsselwörter.
Was sind die Hauptthemen, die in diesem Dokument behandelt werden?
Die Hauptthemen umfassen Informationsmanagement, Data-Warehouse-Systeme, Big Data, Referenzarchitekturen für Data-Warehouse-Systeme, Data Marts, virtuelle Data Warehouses, Real-Time Data Warehouses und heterogene, ganzheitliche BI-Architekturen.
Was ist Informationsmanagement (IM)?
Informationsmanagement ist ein Teilbereich der Unternehmensführung, der die Aufgabe hat, den für die Unternehmensziele bestmöglichen Einsatz der Ressource Information zu gewährleisten.
Was ist eine Information im Kontext dieses Dokuments?
Informationen sind Daten, die dazu dienen, zielgerichtet Entscheidungen bzw. Handlungen vorzubereiten. Sie sind vom Wissen abzugrenzen, welches die Informationen der zielgerichteten Vorbereitung von Entscheidung und Handlung anreichert.
Was sind Data-Warehouse-Systeme?
Data-Warehouse-Systeme dienen der nicht flüchtigen, themenorientierten, integrierten und zeitbezogenen Unterstützung von Management Entscheidungen.
Was ist Big Data?
Big Data bezieht sich auf steigende Datenmengen und die sich steigernde Heterogenität von Daten, gekennzeichnet durch die 5 Vs: Volume, Velocity, Variety, Veracity und Value.
Was sind Data Marts?
Data Marts sind Teilbereiche des Datenbestandes eines zentralen Data Warehouse für bestimmte Zwecke, die eine Auslagerung erfordern.
Was ist ein virtuelles Data Warehouse?
Bei einem virtuellen Data Warehouse wird das multidimensionale Modell aufgegeben und die Daten werden direkt aus den Datenquellen ausgelesen, beispielsweise in Form von Views.
Was ist ein Real-Time Data Warehouse?
Bei einem Real-Time Data Warehouse nähern sich die Aktualisierungszyklen eines Data Warehouse dem Zeitpunkt der Änderung der Daten in einer Datenquelle so weit an, dass operative Änderungen und zugehörige Management-Entscheidungen nahezu zusammenfallen.
Was ist eine heterogene, ganzheitliche BI-Architektur?
Eine heterogene, ganzheitliche BI-Architektur ist ein Rahmen, der die Integration verschiedener Datentypen (strukturiert, unstrukturiert, Echtzeit) und Analysetools ermöglicht, um umfassende Einblicke und Entscheidungsfindung zu unterstützen.
Was ist eine Data Fabric?
Data Fabric ist ein Ansatz zur ganzheitlichen Datenintegration, der die heterogene Kombination von Technologien und Mechanismen umfasst, um Daten aus verschiedenen Quellen zu integrieren und zu verwalten.
Welche Rolle spielen Semantic-Web- oder ontologische Lösungen?
Semantic-Web- oder ontologische Lösungen können als eine Art maschinell verarbeitbare Verbindung-Schicht zwischen der strukturierten und unstrukturierten Seite eingesetzt werden, um Beziehungen zwischen verschiedenen Datensichten herzustellen.
- Citar trabajo
- Tassilo Weller (Autor), 2022, Die Bedeutung von Data-Warehouse-Systemen für das Informationsmanagement, Múnich, GRIN Verlag, https://www.grin.com/document/1315344