Konzeption eines Projektverwaltungssystems für betriebswirtschaftliche Datenanalyseprozesse in einem offenen Business-Intelligence-System


Diplomarbeit, 2002
162 Seiten, Note: 2.3

Leseprobe

Thema:
Konzeption eines Projektverwaltungssystems für
betriebswirtschaftliche Datenanalyseprozesse in
einem offenen Business-Intelligence-System
Diplomarbeit
im Studiengang Wirtschaftsinformatik
in der Fakultät Wirtschaftsinformatik und Angewandte Informatik
der Otto-Friedrich-Universität Bamberg
Verfasser:
Frank Riesner
Referent:
Prof. Dr. Elmar J. Sinz
Lehrstuhl
für
Wirtschaftsinformatik,
insb. Systementwicklung und Datenbankanwendung,
Otto-Friedrich-Universität
Bamberg

Abstract Seite
II
Abstract
Die Komplexität der Unternehmensumwelt ist in den vergangenen Jahren zuneh-
mend durch Diskontinuitäten und dynamische Veränderungen gekennzeichnet; be-
triebliche Entscheidungsträger müssen dieser Entwicklung mit verkürzten Analyse-
und Entscheidungsprozessen begegnen. In diesem Zusammenhang bietet das Busi-
ness-Intelligence-Konzept eine vielversprechende Lösung. Man versteht darunter die
analytische Aufgabe, welche fragmentierte Unternehmens- und Umweltdaten in
handlungsgerichtetes Wissen für unternehmerische Entscheidungen transformiert.
Business-Intelligence-Systeme (BIS) beinhalten dabei seitens der Informationstechno-
logie ein enormes Potential, das weite Spektrum der betriebswirtschaftlichen Daten-
analyse möglichst komplett abzudecken und verschiedenen Anwendergruppen zu er-
schließen.
Ziel dieser Arbeit ist die Entwicklung einer Konzeption für solche Systeme. Nach ei-
ner theoretischen Fundierung der zur Verfügung stehenden Analyseverfahren sowie
der Untersuchungsvorgehensweisen und -abläufe wird aufbauend auf den Schwächen
früherer Management-Unterstützungssysteme ein umfangreicher Anforderungskata-
log für idealtypische BIS definiert. Teil dieser Arbeit ist außerdem die praktische
Umsetzung von Auszügen dieser Anforderungen in Form eines prototypischen An-
wendungssystems. Dieses implementiert schwerpunktmäßig ein generisches Projekt-
verwaltungssystem für betriebswirtschaftliche Datenanalyseprozesse. Dabei können
Analyseprojekte und zugehörige Analysephasen problemspezifisch verwaltet und
durch eine Ablaufsteuerung zielgerichtet ausgeführt werden. Ein simulierter Analy-
seprozeß veranschaulicht dabei die Funktionalität der Applikation.
Neben Ausführungen über die allgemeine zukünftige Fortentwicklung innerhalb die-
ses wissenschaftlichen Gebiets zeigen abschließend einige beispielhafte Ansätze
Möglichkeiten zur Erweiterung und Anpassung des prototypischen Business-
Intelligence-Systems auf.

Inhaltsverzeichnis Seite
III
Inhaltsverzeichnis
Abstract II
Inhaltsverzeichnis III
Abkürzungsverzeichnis VI
Abbildungsverzeichnis IX
Tabellenverzeichnis X
1 Einleitung 1
1.1
Information als Unternehmensressource
1
1.2
Problemstellung und Zielsetzung
2
1.3
Aufbau und methodische Behandlung
3
1.4
Allgemeine Konventionen
5
2 Betriebswirtschaftliche Datenanalyse
6
2.1
Konzept der Untersuchungssituation
6
2.2
Grundtypen von Datenanalyseproblemen
8
2.2.1
Data-Warehouse-Systeme 10
2.2.2
Verfahren hypothesengetriebener Ansätze
12
2.2.3
Verfahren datengetriebener Ansätze
18
2.3
Phasen und Aufgaben der betriebswirtschaftlichen Datenanalyse
31
2.3.1
Identifikation des Untersuchungsproblems
33
2.3.2
Durchführung der Datenanalyse
34
2.3.3
Umsetzung der Untersuchungserkenntnisse
34
2.3.4
Evaluierung der Untersuchungssituation
35
2.3.5
Einbettung in das Regelkreismodell
36
2.4
Business Intelligence (BI)
38
2.5
Typische Untersuchungssituationen
44
3 Knowledge Discovery in Databases (KDD)
50
3.1
Begriff und Zielsetzung
50
3.2
Phasen und Aufgaben
52
3.2.1
Selektion 54
3.2.2
Exploration 55
3.2.3
Manipulation 55

Inhaltsverzeichnis Seite
IV
3.2.4
Datenanalyse 59
3.2.5
Interpretation 60
3.3
Herausforderungen und Einordnung
61
4 Unterstützung von Datenanalysen durch Management-
Unterstützungssysteme 64
4.1
Management-Informationssysteme (MIS)
65
4.2
Entscheidungsunterstützungssysteme (EUS)
66
4.3
Führungsinformationssysteme (FIS)
67
4.4
Analytische Informationssysteme (AIS)
68
4.5
Business-Intelligence-Systeme (BIS)
72
5 Anforderungen an Business-Intelligence-Systeme
73
5.1
Fachliche Anforderungen an die Verfahrensintegration
74
5.1.1
Integration von Verarbeitungsfunktionen
74
5.1.2
Kopplung von Untersuchungssituationen
78
5.1.3
Unterstützung des gesamten KDD-Prozesses
81
5.2
Fachliche Anforderungen an die Verfahrensdurchführung
84
5.2.1
Projektverwaltung 85
5.2.2
Problemspezifische Ablaufsteuerung und Dokumentation
87
5.2.3
Ergonomische Benutzerschnittstelle
89
5.2.4
Knowledge-Management-Dienste 92
5.2.5
Bereinigte und konsolidierte Datenbasis
94
5.3
Technische Anforderungen
96
5.3.1
Offenheit und Flexibilität
96
5.3.2
Abstraktion von Heterogenität
101
5.3.3
Datenintegrierte Prozeßabwicklung
103
5.3.4
Performanz und Skalierbarkeit
104
5.4
Integrationsgrad von Business-Intelligence-Systemen
108
6 Prototyp für ein Projektverwaltungssystem eines BIS
112
6.1
Zielsetzung 112
6.2
Fachliche Architektur
115
6.2.1
Kommunikation 115
6.2.2
Datenverwaltung 116
6.2.3
Anwendung 117
6.3
Softwaretechnische Architektur
122
6.3.1
Kommunikation 123
6.3.2
Datenverwaltung 124
6.3.3
Anwendung 124

Inhaltsverzeichnis Seite
V
6.4
Ansätze zur Weiterentwicklung
126
7 Fazit und Ausblick
129
Anhang A: Konzeptionelles Datenmodell der BI-Datenbank
133
Anhang B: Fachliches Datenbankschema der BI-Datenbank
134
Anhang C: Inhalt beigefügter CD-ROM
139
Anhang D: Installationshinweise für den Prototyp
141
Literaturverzeichnis 143
Erklärung gemäß Prüfungsordnung
152

Abkürzungsverzeichnis Seite
VI
Abkürzungsverzeichnis
AIS Analytische
Informationssysteme
API
Application Program Interface
BI Business
Intelligence
BIDB Business-Intelligence-Datenbank
BIS Business-Intelligence-System
BIT Business-Intelligence-Tool
CD-ROM
Compact Disc - Read Only Memory
CSCW
Computer supported cooperative work
CRM Customer
Relationship
Management
DaBIS Diplomarbeit
Business-Intelligence-System
DBVS Datenbankverwaltungssystem
DIN Deutsche
Industrienorm
DM Direkte
Manipulation
DSS
Decision Support System
DV Datenverarbeitung
DWH Data
Warehouse
EIP
Enterprise Information Portal
EIS
Executive Information System
ERP
Enterprise Ressource Planning
EUS Entscheidungsunterstützungssysteme

Abkürzungsverzeichnis Seite
VII
FASMI
Fast Analysis of Shared Mulitdimensional Information
FIS Führungsinformationssysteme
GUI
Graphical User Interface
HOLAP
Hybrid Online Analytical Processing
HTML Hypertext
Markup
Language
HTTP
Hypertext Transport Protocol
IP Internet
Protocol
ISO
International Organization for Standardization
IT Informationstechnologie
JDBC
Java Database Connectivity
KDD
Knowledge Discovery in Databases
MCI Mensch-Computer-Interaktion
MDX Multidimensional
Expression
Language
MIS Management-Informationssystem
MOLAP
Multidimensional Online Analytical Processing
MSS
Management Support System
MUS Management-Unterstützungssystem
ODBC
Open Database Connectivity
OLAP Online
Analytical
Processing

Abkürzungsverzeichnis Seite
VIII
OLTP
Online Transaction Processing
OMG
Object Management Group
PDF
Adobe Portable Document File
PIM
Personal Information Management
POS
Point of Sale
QbE
Query by Example
RISQL
Red Brick Intelligent Structures Query Language
RMI
Java Remote Method Invocation
RoI
Return on Investment
ROLAP
Relational Online Analytical Processing
SERM Strukturiertes
Entity-Relationship-Modell
SQL Structured
Query
Language
TCP/IP
Transmission Control Protocol / Internet Protocol
TPC
Transaction Processing Performance Council
W3C
World Wide Web Consortium
WWW World
Wide
Web
XLS Microsoft
Excel
XML
Extensible Markup Language

Abbildungsverzeichnis Seite
IX
Abbildungsverzeichnis
Abbildung 1-1: Schaffung von Informationskongruenz, in Anlehnung an [Bert75, 30] ...2
Abbildung 2-1: Konzept der Untersuchungssituation, in Anlehnung an [Fers79, 43]...7
Abbildung 2-2: Klassifizierung von Untersuchungsproblemen, in Anlehnung an [Gent00, 3]...10
Abbildung 2-3: Architektur von Data-Warehouse-Systemen, in Anlehnung an [BöUl00, 17] ...11
Abbildung 2-4: Ausprägungsformen des Web Mining, eigene Darstellung...29
Abbildung 2-5: Handlungsschema betriebswirtschaftlicher Datenanalyseprozesse, in Anlehnung an
[Knob00, 44], [BeLi97, 22f.] ...32
Abbildung 2-6: Datenanalyseprozesse im unternehmerischen Kontext, in Anlehnung an [Knob00, 45]...37
Abbildung 2-7: Business-Intelligence-Technologien, in Anlehnung an [CHS+98, 22] ...40
Abbildung 2-8: Verbreitung von Data-Mining-Anwendungen nach betrieblichen Funktionsbereichen
(a) bzw. nach Branchen (b), in Anlehnung an [Roch01, 14f.] ...45
Abbildung 2-9: Kategorisierung betriebswirtschaftlicher Untersuchungssituationen, in Anlehnung an
[Roch01, 11] ...46
Abbildung 3-1: Aufwandsschätzungen für das Preprocessing, eigene Darstellung...52
Abbildung 3-2: Aufgaben im Rahmen des KDD-Prozesses, in Anlehnung an [Knob00, 27f.]...53
Abbildung 3-3: Datenqualitätsprobleme und zugehörige Manipulationsmaßnahmen, [Knob00,32] ...56
Abbildung 3-4: Einordnung des KDD in die betriebswirtschaftliche Datenanalyse, in Anlehnung an
[Knob01c, 22] ...63
Abbildung 4-1: Evolution von Management-Unterstützungssystemen, in Anlehnung an [Knob01c, 8]...65
Abbildung 5-1: Funktionen und Komponenten eines idealtypischen BIS, [Knob01c, 9]...75
Abbildung 5-2: Beispiel für die Kopplung von Untersuchungssituationen, eigene Darstellung ...81
Abbildung 5-3: Trade-off zwischen Vielseitigkeit und Autonomie, in Anlehnung an [MaCP93, 906] ...84
Abbildung 5-4: Verwendung von Bildsymbolen am Beispiel der ,,Chernoff-Faces", [Cher73, 363f.] ...92
Abbildung 5-5: Drei-Schichten-Architektur eines BIS, eigene Darstellung...106
Abbildung 6-1: Einordnung des Prototyps in ein idealtypisches BIS, in Anlehnung an Abb. 5-1 ...113
Abbildung 6-2: Durch den Prototyp realisierte KDD-Analyse, eigene Darstellung...114
Abbildung 6-3: Fachliche Architektur strukturiert nach dem ADK-Modell, eigene Darstellung...115
Abbildung 6-4: DaBIS-Benutzerverwaltung, eigene Darstellung ...116
Abbildung 6-5: SERM-Diagramm der Projektverwaltung (Auszug), eigene Darstellung ...117
Abbildung 6-6: DaBIS-Maschinenverwaltung, eigene Darstellung ...118
Abbildung 6-7: DaBIS-Datenquellenverwaltung, eigene Darstellung...119
Abbildung 6-8: DaBIS-Ablaufsteuerung, eigene Darstellung ...121
Abbildung 6-9: Softwaretechnische Architektur strukturiert nach dem ADK- bzw. Nutzer- und
Basismaschinenmodell, in Anlehnung an [Plah00, 41]...123
Abbildung A-1: SERM-Diagramm der Business-Intelligence-Datenbank, eigene Darstellung ...133
Abbildung C-1: Verzeichnisstruktur beigefügter CD-ROM...139
Abbildung D-1: DaBIS-Login, eigene Darstellung ...142

Tabellenverzeichnis Seite
X
Tabellenverzeichnis
Tabelle 2-1: Entwicklungsschritte des Data Mining, in Anlehnung an [KrWZ98, 24f.] ...20
Tabelle 2-2: Verbreitete Definitionsansätze für ,,Data Mining", eigene Darstellung ...22
Tabelle 2-3: Data-Mining-Aufgabentypen in der Literatur, eigene Darstellung ...25
Tabelle 2-4: Verbreitete Definitionsansätze für "Business Intelligence", eigene Darstellung ...39
Tabelle 5-1: Einordnung von Metadaten, in Anlehnung an [BaMK01, 19] ...100
Tabelle 5-2: Integrationsgrad eines idealtypischen BIS, in Anlehnung an [FeSi98, 214] ...108
Tabelle 7-1: Fachliche Eigenschaften eines Business-Intelligence-Systems, eigene Darstellung ...129
Tabelle 7-2: Technische Eigenschaften eines Business-Intelligence-Systems, eigene Darstellung ...130
Tabelle B-1: Fachliches Datenbankschema der Business-Intelligence-Datenbank, eigene Darstellung ..138

1 Einleitung
Seite 1
1 Einleitung
,,We are confronted with the new paradox of the growth of data, that more data
means less information." [AdZa97, 2].
1.1 Information als Unternehmensressource
In der Betriebswirtschaftslehre versteht man Ressourcen als die Fähigkeit einer Un-
ternehmung, Güter hervorzubringen. Ursprünglich geht es dabei um die drei Produk-
tionsfaktoren Arbeit, Boden und Kapital.
Die Bedeutung von Information
1
im Sinne von zweckorientiertem Wissen wurde da-
bei lange vernachlässigt. Allerdings ermöglicht erst diese eine sinnvolle und damit
ergebnissteigernde Kombination der erstgenannten Produktionsfaktoren und weist
damit große Entscheidungs- und Handlungsrelevanz auf [PiFr88, 544]. Informati-
onsvorsprung ist somit die Grundlage für unternehmerischen Erfolg gegenüber Mit-
bewerbern. Dieser Zusammenhang begründet die heutige Sichtweise, Information als
wertvollen Produktionsfaktor mit strategischer Relevanz zu betrachten.
Die Komplexität der Unternehmensumwelt ist in den vergangenen Jahren nicht nur
rapide gewachsen, sondern zunehmend durch Diskontinuitäten und dynamische Ver-
änderungen gekennzeichnet. Verkürzte Innovations- und Produktlebenszyklen sowie
die forschreitende Öffnung der Märkte sind beispielhafte Trends, die den verschärf-
ten Wettbewerb charakterisieren. Betriebliche Entscheidungsträger müssen dieser
Entwicklung mit zeitlich reduzierten Analyse- und Entscheidungsprozessen begeg-
nen.
Nur durch eine ausgereifte Informationslogistik kann dabei sichergestellt werden,
daß die benötigen Informationen zeitgerecht in der erforderlichen Qualität am richti-
gen Ort vorliegen [ChGl98, 4].
1
Zum Begriff ,,Information" siehe [FeSi98, 126f.].

1 Einleitung
Seite 2
1.2 Problemstellung
und
Zielsetzung
Der technische Fortschritt ermöglicht es heutzutage, Daten in großem Umfang zu er-
zeugen und zu speichern, was eine immense Datenflut in Organisationen ausgelöst
hat
2
. Die Schaffung und Erhaltung einer Kongruenz aus Informationsangebot und
-nachfrage sowie dem aus den Unternehmenszielen abgeleitetem Informationsbedarf
unter Berücksichtigung von Wirtschaftlichkeitsaspekten muß daher von Entschei-
dungsträgern zunehmend als Herausforderung empfunden werden. Eine Begründung
dafür liegt in dem Dilemma, daß Informationsdefizite relevante Fakten für fundierte
Entscheidungen vorenthalten, während eine Überflutung zeitaufwendiges Herausfil-
tern dieser notwendig macht. Im Extremfall kann man letzteres durch die Metapher
der Suche nach der Nadel in einem kontinuierlich wachsenden Heuhaufen darstellen
[AdZa97, 5].
Abbildung 1-1: Schaffung von Informationskongruenz, in Anlehnung an [Bert75, 30]
Eine manuelle Analyse von Datenmengen diesen Ausmaßes ist kaum möglich. Aus
diesem Grund birgt der Einsatz von Informationstechnologie ein enormes Potential
zur Erweiterung der Analysekompetenzen, damit Organisationen schnellen und ef-
fektiven Zugriff auf entscheidungsrelevante Informationen realisieren können.
Anwendungssysteme, die diese Aufgabe erfüllen können, werden unter dem Begriff
,,Business Intelligence" (BI) subsumiert. Es existiert bereits ein junger, aufstrebender
Markt für Business-Intelligence-Tools (BIT) mit vielen namhaften Anbietern, wel-
cher große Wachstumsperspektiven aufweist. Aufgrund fehlender Standards und Er-
2
Die weltweit verfügbare Datenmenge verdoppelt sich etwa alle 20 Monate [BrHe96, 17].
Informations-
nachfrage
Informations-
angebot
Informations-
bedarf
Informations-
kongruenz

1 Einleitung
Seite 3
fahrungen ist dieser jedoch sehr uneinheitlich und die Produkte erfordern oft ein ho-
hes Maß an Expertise von den Anwendern.
Es ist daher Ziel von sog. Business-Intelligence-Systemen (BIS), das weite Spektrum
der betriebswirtschaftlichen Datenanalyse möglichst komplett abzudecken und ver-
schiedensten Anwendergruppen zu erschließen. Insbesondere unerfahrenen Benut-
zern sollen die komplexen Analyseprozesse durch eine ergonomische, also einfache
und intuitiv zu bedienende Benutzeroberfläche zugänglich gemacht werden.
Im Rahmen dieser Diplomarbeit soll ein Konzept für entsprechende Anwendungssy-
steme mit den relevanten Eigenschaften und Funktionen entwickelt werden. Diese
werden in Form von relevanten Anforderungen, welche an ein solches System zu
stellen sind, beschrieben und festgelegt.
Teil dieser Diplomarbeit ist auch die ausschnittsweise praktische Umsetzung der
entwickelten Konzeption: Ein Prototyp implementiert schwerpunktmäßig ein Pro-
jektverwaltungssystem, welches Analyseprojekte und zugehörige Analysephasen
verwalten und den Ablauf von Untersuchungen problemspezifisch steuern wird. Der
einzelne Benutzer hat dabei die Möglichkeit, Erfahrungswissen in Form von Metada-
ten
3
zu dokumentieren und anzuwenden. Diese und weitere Systemeigenschaften sol-
len zur Komplexitätsbewältigung von Datenanalysen führen.
1.3 Aufbau und methodische Behandlung
Die vorliegende Arbeit gliedert sich in sieben Kapitel. Das zweite Kapitel legt durch
die Beschreibung der betriebswirtschaftlichen Datenanalyse die Grundlagen für die
folgenden Ausführungen. Ausgehend von dem Konzept der Untersuchungssituation
werden zunächst Datenanalyseprobleme klassifiziert und entsprechende Lösungsver-
fahren erläutert. Daran knüpft die Darstellung des prozessualen Ablaufes solcher
Analysen im betriebswirtschaftlichen Umfeld an. Darauf aufbauend wird auf den
Begriff und die Bedeutung von Business Intelligence (BI) eingegangen, wobei u. a.
typische Anwendungsgebiete aufgezeigt werden.
3
Metadaten werden in Kapitel 5.3.1 im Detail erläutert.

1 Einleitung
Seite 4
Das dritte Kapitel behandelt Knowledge Discovery in Databases (KDD), ein aner-
kanntes Lösungsverfahren für die Durchführungsphase der betriebswirtschaftlichen
Datenanalyse. Auch hier gilt wiederum dem phasenweisen Ablauf dieser Aufgabe
besonderes Augenmerk.
Den inhaltlichen Schwerpunkt der Bearbeitung stellt Kapitel fünf dar. Ausgehend
von der historischen Entwicklung von Management-Unterstützungssystemen (MUS),
welche Gegenstand von Kapitel vier ist, werden Anforderungen definiert, die an Sy-
steme zur Unterstützung von Datenanalysen zu stellen sind. Neben technischen
Aspekten werden vor allem fachliche Anforderungen an die Verfahrensintegration
und an die Verfahrensdurchführung beleuchtet. Abschließend wird ein idealtypisches
MUS hinsichtlich seines Integrationsgrades evaluiert.
Inhalt des sechsten Kapitels ist die Implementierung von Bestandteilen der vorge-
stellten Konzeption. Nach der Erläuterung von Zielsetzung und Funktionsumfanges
des Prototyps geht es um dessen fachliche Architektur. Es folgen Ausführungen über
die softwaretechnische Umsetzung, während Ansatzpunkte für die Weiterentwick-
lung der Applikation diesen Teil schließlich abrunden.
Den Abschluß dieser Arbeit bildet Kapitel sieben, in welchem die Ergebnisse dieser
Arbeit zusammengefaßt und Gebiete mit weiterem Forschungsbedarf aufgezeigt
werden.
Die Anhänge A bis D enthalten weiterführende Informationen über das im Rahmen
dieser Arbeit entwickelte Anwendungssystem.

1 Einleitung
Seite 5
1.4 Allgemeine
Konventionen
Als allgemeine Konvention gilt, daß Querverweise zu Kapiteln oder Abbildungen
bzw. Tabellen sowie Abkürzungen durch ein kursives Schriftbild gekennzeichnet
sind. Des weiteren sind die Auszüge aus dem Quellcode des Kapitels sechs durch ei-
ne
nicht proportionale
Schriftart
gekennzeichnet.
Die Quellenangabe erfolgt in dieser Arbeit nach der sog. Harvard-Zitierweise, bei der
auf die Verwendung von Fußnoten verzichtet wird. Der Verweis auf die Literatur er-
folgt dabei im laufenden Text durch Angabe einer Literatur-Identifikation und der
Seitenzahl der verwendeten Quelle in eckigen Klammern. Jede Literaturquelle ist im
Literaturverzeichnis vollständig beschrieben.
Fußnoten enthalten nicht unmittelbar zum Thema gehörende ergänzende Anmerkun-
gen und Hinweise des Verfassers.
Dieser Arbeit liegt die alte deutsche Rechtschreibung zugrunde.

2 Betriebswirtschaftliche Datenanalyse
Seite 6
2 Betriebswirtschaftliche Datenanalyse
Betriebswirtschaftliche Datenanalysen nehmen sich der Aufgabe an, in einer Organi-
sation Informationskongruenz herzustellen (vgl. 1.1).
In diesem Abschnitt werden schwerpunktmäßig die wichtigsten Verfahren, die bei
der Datenanalyse Anwendung finden, erläutert. Anschließend wird die Datenanalyse
in einen prozessualen betriebswirtschaftlichen Rahmen eingeordnet, bevor einige ty-
pische Anwendungsdomänen zur Sprache kommen. Als Grundlage für alle diese
Ausführungen kann das Konzept der Untersuchungssituation angesehen werden.
2.1 Konzept der Untersuchungssituation
Das Konzept der Untersuchungssituation wurde 1979 von O.K. Ferstl vorgeschlagen
[Fers79, 43f.]. Es eignet sich zur Darstellung besonderer Eigenschaften von Daten-
analyseproblemen und soll als Beschreibungsrahmen für die folgenden Ausführun-
gen dienen. Demnach wird die Untersuchung von Objekten als Abfolge von vier Ak-
tivitäten angesehen:
(1) Spezifikation bekannter Charakteristika des relevanten Untersuchungsobjekts O,
(2) Festlegung des Untersuchungsziels Z, welches auf bisher unbekannte Eigen-
schaften von O abzielt.
Durch das Tupel (O, Z) wird ein Untersuchungsproblem definiert.
(3) Ermittlung von geeigneten und verwendbaren Untersuchungsverfahren V
i
zur
Erreichung des Untersuchungsziels,
(4) Durchführung mindestens eines dieser Untersuchungsverfahren.
Die Elemente des Tupel (O, Z, V
i
) legen die Untersuchungssituation fest. Diese ist
eine Problemlösung, wenn zumindest eines der Untersuchungsverfahren zur Verfü-
gung steht, ansonsten gilt sie als unlösbar.

2 Betriebswirtschaftliche Datenanalyse
Seite 7
Abbildung 2-1: Konzept der Untersuchungssituation, in Anlehnung an [Fers79, 43]
Untersuchungsziele betrachten vornehmlich neue Erkenntnisse über Verhaltens- und
Struktureigenschaften des Objektes. Daraus lassen sich grundsätzlich zwei Arten von
Problemtypen klassifizieren. Zum einen handelt es sich um Konstruktionsprobleme,
welche aufgrund eines geforderten Verhaltens Strukturen für neu zu schaffende Sy-
steme suchen. Demgegenüber stehen Analyseprobleme: Sie versuchen, Fragen über
des Verhaltens von realen oder formalen Systemen zu beantworten. Dieses Verhalten
wird maßgeblich durch Interaktionen mit externen Systemen und internen Teilsyste-
men determiniert.
Datenanalysen verfolgen das Ziel, einen Datenbestand systematisch auf bestimmte
Eigenschaften hin zu untersuchen [Hein98, 137]. Aus der Fülle erhobener und aufbe-
reiteter Daten werden dabei sinnvolle und entscheidungsrelevante Informationen
über im gegebenen Zusammenhang relevante Verhaltensgrößen und -merkmale so-
wie über Datenbeziehungen erarbeitet.
Untersuchungsobjekte betriebswirtschaftlich geprägter Untersuchungen sind dabei in
der Regel die im Unternehmen verfügbaren Datenbestände, welche durch die elek-
tronische Steuerung und Erfassung der Geschäftsprozesse durch Online-Transaction-
Processing (OLTP)-Systeme generiert werden. Diese Daten repräsentieren reale Sy-
steme wie beispielsweise Konkurrenten, Kunden oder Geschäftsprozesse und sind
daher als Modell
4
der realen Systeme zu interpretieren [Knob00, 7].
4
Zum Begriff ,,Modell" siehe [FeSi98, 18f.].
Untersuchungs-
objekt O
Untersuchungs-
ziel Z
Untersuchungs-
problem (O, Z)
Analyse Konstruktion
Untersuchungs-
verfahren V
i
Untersuchungs-
situation (O, Z, V
i
)

2 Betriebswirtschaftliche Datenanalyse
Seite 8
Die betriebswirtschaftliche Datenanalyse untersucht somit grundsätzlich Verhaltens-
aspekte existierender Objekte und ist folglich zum Typus der Analyseprobleme zu-
zuordnen.
2.2 Grundtypen von Datenanalyseproblemen
Die bisherige Abgrenzung der Analyseprobleme reicht nicht aus, um das weite Feld
der Datenanalyse ausreichend zu systematisieren. Daher wird diese betriebwirtschaft-
liche Aufgabe nach zwei Kriterien klassifiziert, anhand derer geeignete Verfahren für
die Lösung ausgewählt werden können.
In Anlehnung an das eben vorgestellte Konzept der Untersuchungssituation (vgl. 2.1)
wird zum einen eine Einordnung hinsichtlich der Eigenschaften von Untersuchungs-
objekten angestrebt; andererseits wird die Vorgehensweise, welche das Untersu-
chungsziel ausmacht, als zweites Klassifikationsmerkmal angesehen.
Datenquellen und ihre Eigenschaften spielen für Analysen eine zentrale Rolle. In Be-
zug auf Datenanalysen gelten sie als Untersuchungsobjekte, welche Realweltobjekte
modellhaft durch die Datenwerte abbilden. Es wird dabei ein umfassendes Verständ-
nis über Daten zugrunde gelegt, welches neben numerisch-, nominal- oder ordi-
nalskalierten Daten auch alle Formen von Textzeichen, Grafikinhalten etc. umfaßt.
Insbesondere die Beschaffenheit dieser Daten bestimmt die Qualität von Analyseer-
gebnissen. Die Aufbereitung der Datenquellen erfordert daher oft den bei weitem
größten zeitlichen Aufwand (vgl. 3.2).
Im Unternehmen erfolgt ein beträchtlicher Teil der Datenhaltung in Form von Da-
tenbanksystemen. Diese Daten sind in der Regel nach einem bestimmten Organisati-
onsprinzip abgelegt, bei welchem ein eindeutig definiertes Architekturprinzip die lo-
gische und physische Datenhaltung festlegt.
Da diese Datenorganisation bestimmte Strukturanforderungen an die zu speichernden
Inhalte hat, können nicht alle Arten von Inhalten auf diese Weise abgelegt werden.
Unstrukturierte Daten zum Beispiel in Form von Briefen, e-Mails, Webseiten, Grafi-
ken oder informellem Wissen enthalten jedoch oft qualitativ hochwertige Informa-
tionen für betriebliche Entscheidungen, die nicht vernachlässigt werden dürfen.
Fachleute schätzen, daß knapp 80 Prozent der unternehmensweiten Informationen in

2 Betriebswirtschaftliche Datenanalyse
Seite 9
unstrukturiertem Format vorliegen. Systeme für semi- bzw. unstrukturierte Daten ha-
ben weniger restriktive Anforderungen an die Struktur der abzubildenden Objekte
und Wissensbestände [GrGe00, 77f.]. Allerdings stellen sie andere Anforderungen an
die Verfahren und den Ablauf von Datenanalysen.
Die Strukturiertheit der Datenquellen ist daher ein erstes geeignetes Kriterium für die
Kategorisierung von Untersuchungsproblemen.
Hinsichtlich des Untersuchungsziels hat die Relevanz von Hypothesen als Aus-
gangspunkt für eine Datenanalyse eine große Bedeutung. Eine Hypothese ist eine
begründete Annahme oder Erklärung, deren Gültigkeit überprüft werden kann [Be-
Li97, 65]. Dazu eignen sich insbesondere Datenanalysen. Nachdem relevante Daten-
bestände bestimmt und lokalisiert worden sind, werden sie für die Durchführung ei-
nes geeigneten Analyseverfahrens aufbereitet. Die Ergebnisse können dann die
Hypothese verifizieren oder widerlegen. Eine solche Technik wird als hypothesenge-
triebene Vorgehensweise bezeichnet. Da es darum geht, vorgefaßte Ideen zu bewei-
sen oder zu entkräften, spricht man auch von einem sog. ,,Top-Down-Ansatz"
[Knob00, 10f.].
Andererseits lassen sich als ,,Bottom-Up-Vorgehensweisen" datengetriebene Ansätze
identifizieren. Ihnen liegen zunächst keine Annahmen zugrunde, weshalb sie als
hypothesenfrei angesehen werden können. Den Ausgangspunkt der Analyse stellen
allein Datenbestände dar, in denen neue Erkenntnisse vermutet werden. M.J. Berry
und G. Linoff sprechen dabei von ,,Knowledge Discovery" mit dem Ziel ,, (...) to tell
us something we didn´t already know."[BeLi97, 64]. Besonderes Augenmerk ver-
dient hierbei die Auswertung der Analyseergebnisse, denn erst die sinnvolle Interpre-
tation dieser ermöglicht es, die neuen Erkenntnisse wahrzunehmen und in Wettbe-
werbsvorteile umzusetzen.
Allerdings bleibt anzumerken, daß in der Praxis völlig hypothesenfreie Fragestellun-
gen nicht existieren, da eine völlig ungerichtete freie Suche nach neuem Wissen in
Datenbeständen irrational und unrealistisch ist [Knob00, 10]. Daher muß die ideali-
sierte scharfe Trennung zu Gunsten einer realistischeren Einordnung aufgegeben
werden. Es scheint folglich angebracht, in dieser Systematik unter datengetriebenen

2 Betriebswirtschaftliche Datenanalyse
Seite 10
Ansätzen eine tendenziell hypothesenfreie Herangehensweise zu verstehen
[KrWZ98, 30]. Die Relevanz von Hypothesen zur Erreichung der Untersuchungszie-
le ist somit das zweite Kriterium zur Klassifizierung von Datenanalyseproblemen für
die Einordnung möglicher Lösungsverfahren.
Abbildung 2-2 veranschaulicht die erarbeitete Systematik anhand einer Matrix und
gibt beispielhafte Analyseverfahren für unterschiedliche Untersuchungsprobleme an,
die anschließend angesprochen werden.
Abbildung 2-2: Klassifizierung von Untersuchungsproblemen, in Anlehnung an [Gent00, 3]
2.2.1 Data-Warehouse-Systeme
Das Vorhandensein und die Qualität relevanter Daten als Untersuchungsobjekt haben
für betriebswirtschaftliche Datenanalysen herausragende Bedeutung. Daher wird hier
kurz das Konzept des Data Warehouse (DWH) vorgestellt, bevor die einzelnen Ver-
fahren aus Abbildung 2-2 erläutert werden.
In Unternehmen werden laufende Geschäftsvorfälle in der Regel in Form von Trans-
aktionen in Datenbanken bearbeitet. Diese operativen Systeme, welche die Basis für
Online Transaction Processing (OLTP) bilden, sind jedoch aufgrund ihrer Struktur
und Zielorientierung nur sehr eingeschränkt dazu geeignet, dem Management ent-
scheidungsrelevante Informationen zur Verfügung zu stellen [BöUl00, 2f.]. Im Hin-
blick auf die Verbesserung der Abfrage- bzw. Analyseeffizienz und -effektivität fin-
Vorgehensweise
(Untersuchungsziel)
Strukturierungsgrad
der Datenquellen
(Untersuchungsobjekt)
unstrukturiert
strukturiert
hy
pot
hes
enge
tr
ieben
(
to
p-
do
w
n
)
dat
enget
rieben
(
bot
to
m-u
p
)
Volltextsuche
Abfragen
Standardberichte
OLAP
Data Mining
Text Mining
Web Content
Mining
Web Usage
Mining
Attributbasierte
Suche
Web Structure
Mining

2 Betriebswirtschaftliche Datenanalyse
Seite 11
det durch ein Data Warehouse eine entscheidende Erweiterung statt. Dieser Begriff
wurde erstmals 1992 von W.H. Inmon geprägt:
,,A data warehouse is a subject oriented, integrated, time variant, and nonvolatile col-
lection of data in support of management's decisions." [Inmo92, 29]
Dieses allgemein anerkannte Verständnis sieht dieses System als einen integrierten
Datenbestand aus subjektorientierten, vereinheitlichten Detaildaten, die langfristig
abgelegt sind, um Zeitreihenbetrachtungen zu ermöglichen und nicht verändert wer-
den können. Gespeist wird dieses in regelmäßigen Abständen aus verschiedenen ope-
rativen OLTP-Systemen und sonstigen externen Quellen der Datenerfassungsebene
(siehe Abb. 2-3). Dabei werden die operativen Datenbestände entscheidungsorientiert
aufbereitet, wozu u. a. Umrechnungen, Aggregationen und Kategorisierungen sowie
das Anlegen von Zeitreihen zählen [Gent00, 1]. Das eigentliche Data Warehouse ist
in der Datenhaltungsebene anzusiedeln; es stellt Inhalte für die Verarbeitungsverfah-
ren der Datenbereitstellungsebene bereit. Darunter lassen sich alle unter 2.2.2 und
2.2.3 erläuterten Verfahren sehen. Eine detaillierte Erläuterung der hier angedeuteten
Komponenten findet sich anhand des Funktionsmodells in Kapitel 5.1.1.
Abbildung 2-3: Architektur von Data-Warehouse-Systemen, in Anlehnung an [BöUl00, 17]
Diese Art der Datenhaltung zielt somit speziell auf Analyseerfordernisse ab und ist
funktional betrachtet ein Datenbestand zur Entscheidungsunterstützung und Planung
im Unternehmen. Ein Data Warehouse gilt daher allgemein als ideale Infrastruktur
für die Durchführung von Datenanalysen in einer Unternehmung (vgl. 5.2.5).
Datenbereitstellungsebene
Datenhaltungsebene
Datenerfassungsebene
OLTP-Systeme
externe Quellen
Data Warehouse
Navigieren &
Signalisieren
Anwenden
Prognostizieren
Entdecken
Berichten

2 Betriebswirtschaftliche Datenanalyse
Seite 12
2.2.2 Verfahren hypothesengetriebener Ansätze
Aufbauend auf die Systematisierung aus Abbildung 2-2 werden zunächst die her-
kömmlichen, d. h. hypothesengetriebenen Analyseverfahren näher erläutert.
2.2.2.1 Volltextsuche
Volltextsuche ist die trivialste Zugriffsmöglichkeit auf unstrukturierte Datenbestän-
de, unter denen man hauptsächlich digitale Dokumente verstehen kann. Alle Elemen-
te im Suchraum werden auf einen gesuchten Ausdruck hin durchsucht und syntak-
tisch identische Ergebnisse zurückgegeben. Eine Kombination von mehreren Such-
begriffen durch logische Operatoren (wie beispielsweise ,,AND" bzw. ,,OR") und das
Verwenden von Platzhaltern für beliebige Zeichen ist dabei möglich.
Weitere Verarbeitungsschritte wie Sortierungen oder Gruppierungen sind nicht reali-
sierbar. Der Hauptnachteil besteht allerdings vor allem darin, daß Suchanfragen aus-
schließlich syntaktisch, jedoch nicht kontextabhängig interpretiert werden können,
wodurch die Qualität der Ergebnisse leidet.
Ein Konzept zur Verbesserung dieser Situation bietet sich mit Hilfe des attributba-
sierten Suchens.
2.2.2.2 Attributbasierte Suche
Im Gegensatz zur Volltextsuche offeriert attributbasiertes Suchen eine semantische
Vorgehensweise. Diese Erweiterung setzt jedoch voraus, daß Dokumenteninhalte
durch Attribute im Sinne von Metainformationen beschrieben werden [GrGe00,
100]. Metainformationen strukturieren Textinhalte durch zusätzliche Daten über ihre
Eigenschaften wie beispielsweise Autor oder Dokumententyp. Denkbar sind auch
Aussagen über die Qualität in Form von Attributen hinsichtlich Relevanz oder Aus-
sagekraft. Die semantische Anreicherung ist allerdings erst vollständig, wenn der
Dokumenteninhalt durch beschreibende Schlagworte erfaßt worden ist.
Im Bereich Internet/Intranet lassen sich diese Anforderungen durch die Extensible
Markup Language (XML) realisieren. XML wurde seit 1996 vom World Wide Web

2 Betriebswirtschaftliche Datenanalyse
Seite 13
Consortium
5
(W3C) entwickelt und ist eine Metasprache zur Dokumentenbeschrei-
bung. Ihre Flexibilität erlaubt, daß jeder Nutzer seine eigene formale Auszeich-
nungsprache definieren kann, wobei die Dokumentenstruktur streng von der Forma-
tierung getrennt ist. Neben dem eigentlichen Fokus eines vereinfachten Datenaustau-
sches eignet sich XML somit auch gut zur semantischen Klassifizierung von Doku-
menten, um verbessertes Auffinden gesuchter Inhalte zu ermöglichen.
Es bleibt abschließend festzustellen, daß die erhöhte Suchsemantik, welche attribut-
basierte Suchansätze charakterisiert, durch einen erhöhten redaktionellen Bearbei-
tungsaufwand erkauft werden muß [GrGe00, 100].
2.2.2.3 Abfragen
Abfragen stellen ein sprachliches Mittel zur Formulierung eines Anwenderwunsches
nach Information, welche in Datenbanken gespeichert ist, dar [MBBK97, 1]. Sie er-
möglichen somit Zugriff auf Datenbankinhalte.
Structured Query Language (SQL) ist die am weitesten verbreitete Datenbanksprache
für relationale Datenbankmanagementsysteme. Sie beinhaltet sowohl Operatoren zur
Schemadefinition (Data Description Language z. B. für das Anlegen von Tabellen)
als auch zur Datenmanipulation (Data Manipulation Language z. B. zum Einfügen
von Tupeln). Es handelt sich um eine relativ einfache deskriptive Sprache, welche in
den 1980er Jahren durch die International Organization for Standardization
6
(ISO)
normiert wurde. P. Adriaans und D. Zantinge argumentieren, daß in der Regel bis zu
80 Prozent der interessanten Informationen aus einer Datenbank mit Hilfe von SQL
extrahiert werden können [AdZa97, 48]. Beim verbleibenden Anteil handelt es sich
um noch wettbewerbsrelevantere, versteckte Informationen, die besondere Verfahren
erfordern (vgl. 2.2.3).
Einige Anwendungen abstrahieren zusätzlich von dieser Abfragesprache und stellen
grafische Oberflächen zur Datenabfrage bereit (z. B.: QbE oder ROLAP), was eine
intuitivere Bedienung und das Erstellen komplexerer Abfragen ermöglicht.
5
Das W3C wurde 1994 gegründet und vertritt die Interessen von etwa 500 Mitgliedsorganisationen.
Es verfolgt das Ziel, die Potentiale des Internet konsequent weiterzuentwickeln, www.w3c.org .
6
ISO ist die weltweite Vereinigung nationaler Standisierungsgremien aus 140 Ländern, www.iso.org .

2 Betriebswirtschaftliche Datenanalyse
Seite 14
In der Datenbankgeneration der 1990er Jahre und darüber hinaus, zusammengefaßt
unter dem Begriff ,,postrelational", spielen vor allem objektorientierte bzw. multidi-
mensionale Konzepte zunehmend eine Rolle. Daher wird verstärkt versucht, die er-
folgreichen Konzepte von SQL in neue Abfragesprachen zu übernehmen (z. B. MDX
von Microsoft oder RISQL der Firma IBM).
2.2.2.4 Standardberichte
Betriebliche Berichtssysteme sind heute in fast jeder Unternehmung im Einsatz. Die
Geschäftsführung aber auch externe Berichtsempfänger wie staatliche Regulations-
organe verlangen oft eine periodische ex-post orientierte Übersicht und Aufstellung
verschiedenster Geschäftsinformationen.
Bereits in den 1960er Jahren versuchten Management-Informationssysteme (MIS,
vgl. 4.1) das Standardberichtswesen zu automatisieren. Diese Berichte basieren auf
Abfragesprachen und sind allzu oft umfangreiche Ausdrucke, aus denen man sich re-
levante Information mühsam heraussuchen muß [ChGl98, 7]. Sie enthalten oftmals
relative Abweichungen, die aus Vergangenheits-, Soll-, Plan- oder anderen Ver-
gleichsdaten resultieren. Während Berichtssysteme durch eine eher passive Erwar-
tungshaltung der Adressaten gekennzeichnet sind, spricht man im Falle von aktiven
Benutzern von Abfrage- oder Auskunftssystemen [ChGl98, 182]. Sie erlauben Ad-
hoc-Auswertungen, welche im Bedarfsfall durch Benutzeraktionen Antworten auf
außergewöhnliche, einmalige Geschäftssituationen geben.
Obwohl die Benutzerfreundlichkeit und der Funktionsumfang schon enorme Fort-
schritte gemacht haben, zeigen sich in Berichtssystemen neben der reinen Fokussie-
rung auf die Datenversorgung weitere Kritikpunkte auf. Da betriebliche Berichtssy-
steme in der Regel auf proprietären Datenstrukturen aufbauen, sind sie zu unflexibel
und starr, um dem mittleren Management und den Fachbereichen einen Zugang zu
erlauben. Des weiteren sind Interaktivität und Dialogfähigkeit nicht ausreichend, um
den Anforderungen, die durch die zunehmende Komplexität der betrieblichen Wert-
schöpfung zwangsweise entstehen, gerecht zu werden [ChGl98, 7].
Das Konzept des ,,Online Analytical Processing" setzt hier an und stellt eine vielver-
sprechende Lösung dar.

2 Betriebswirtschaftliche Datenanalyse
Seite 15
2.2.2.5 Online Analytical Processing (OLAP)
Das OLAP-Konzept ermöglicht, transaktionsorientierte Rohdaten in wertvolles Wis-
sen bezüglich der Geschäftsprozesse im Unternehmen umzuwandeln. OLAP versetzt
dabei unternehmerische Entscheidungsträger in die Lage, sich durch schnellen, kon-
sistenten Zugriff auf ein großes Spektrum möglicher Sichten auf den Datenbestand
Einblicke über die Inhalte zu verschaffen.
Der Begriff wurde 1993 in bewußter Abgrenzung von OLTP von E.F. Codd wie folgt
geprägt: ,,(...) the name given to the dynamic enterprise analysis required to create,
manipulate, animate and synthesize information from ,Enterprise Data Models'. This
includes the ability to discern new or unanticipated relationships between variables,
the ability to identify the parameters necessary to handle large amounts of data (...)."
[CoCS93, 7].
Implizit enthält E.F. Codds Definition einen Anforderungskatalog verschiedener
Aspekte. Zum einen sollen dynamische Analysen auf Daten aus einem Unterneh-
mensdatenbestand realisierbar sein. Diese sollten Abhängigkeiten zwischen Varia-
blen aufdecken und sichtbar machen. Zum anderen ist angestrebt, daß Operatoren
Zugriffs- und Speicherkonzepte anbieten, um auch auf umfassende multidimensiona-
le Datenbestände effizient zugreifen zu können. Somit legt OLAP dem Anwender ei-
nen Gestaltungsrahmen für den Aufbau von analytischen Informationssystemen (AIS)
nahe. Der Benutzer soll mit möglichst geringem Aufwand komplexe betriebswirt-
schaftliche Analysen sowie individuelle Ad-hoc-Auswertungen ausführen können
[Cham01, 544].
Zur Bewertung von OLAP-Systemen stellte E.F. Codd zunächst 12, später 18 Krite-
rien auf, die allerdings seitdem in Fachkreisen wie beispielsweise im OLAP-Council
7
oder durch die Gartner Group
8
kontrovers diskutiert worden sind. Sie umfassen Ba-
siseigenschaften, spezielle Eigenschaften, sowie Berichts- und
Dimensionseigenschaften [Cham01, 545-548].
7
Das OLAP-Council wurde im Januar 1995 gegründet und dient als Informationsforum und Interes-
sensvertreter für OLAP-Anwender weltweit, www.olapcouncil.org .
8
Ein renommiertes IT-Beratungs- und Marktforschungsunternehmen, www.gartnergroup.com .

2 Betriebswirtschaftliche Datenanalyse
Seite 16
Eine eingängigere Einordnung legten N. Pendse et al. 1995 fest. Sie nehmen in ihrem
Konzept FASMI (Fast Analysis of Shared Multidimensional Information) eine her-
stellerunabhängige pragmatischere Sichtweise ein [PeCr95, 1f.]:
· Fast
Dieser Begriff bezieht sich auf die Antwortzeit eines OLAP-Systems, welche im Be-
reich von wenigen Sekunden liegen sollte. Aufgrund der Komplexität sind Erwartun-
gen in Form von ,,Echtzeitverhalten" als übertrieben anzusehen, allerdings darf der
Benutzer nicht in seiner Arbeit gehemmt werden. Das Anwortzeitverhalten ist vor al-
lem bei webbasierten Systemen als problematisch zu sehen.
· Analysis
Es müssen Analyseverfahren und -techniken angeboten werden, welche erlauben,
sämtliche Analysefunktionen ohne zusätzlichen Programmieraufwand zu realisieren.
· Shared
OLAP-Systeme sollten mehrbenutzerfähig sein. Dies meint, daß Schutzmechanismen
existieren, welche einen konkurrierenden Zugriff auf die Analysedatenbank verhin-
dern. Da allerdings hauptsächlich lesend zugegriffen wird, sind diese vor allem bei
dynamischen Analysemodellen von Bedeutung [Kurz99, 319].
· Multidimensional
Essentiell für Analytische Informationssysteme ist die multidimensionale semantische
Sicht auf Informationsobjekte. Ohne Spezifikation der Datenbanktechnologie ist da-
bei sicherzustellen, daß sich der Anwender ,,frei" durch das gesamte Schema bewe-
gen kann.
· Information
Zur Analyse müssen alle Datenquellen zu Verfügung stehen, d. h. das OLAP-
Konzept sollte keine Beschränkungen begründen, welche Analysen hinsichtlich des
Datenvolumens beeinflussen. Der Nutzen eines Systems steigt mit der Anzahl der
Datenelemente, welche bei gleichbleibender Bearbeitungszeit analysiert werden kön-
nen [ChGl98, 237].

2 Betriebswirtschaftliche Datenanalyse
Seite 17
Auch diese Zusammenstellung ist als unvollständig kritisiert und von anderen Auto-
ren mehrmals erweitert worden. Nach A. Kurz ist diese Betrachtungsweise noch um
zwei Punkte zu erweitern. Zum einen sieht er den Sicherheitsaspekt vernachlässigt.
Dabei soll es möglich sein, Anwender in Gruppen einzuteilen und diesen einschrän-
kende Sichten (sog. ,,Views") zur Verfügung zu stellen. Des weiteren sei ein zentra-
les durchgängiges Metadaten-Management als siebentes Bewertungskriterium zu se-
hen, welches gleichsam die Basis für Sicherheitskonzepte darstellen müsse [Kurz99,
320].
Die Ansätze des OLAP und Data Warehouse (vgl. 2.2.1) sind sehr eng miteinander
verknüpft, da sich beide ergänzen. Ein DWH vereinheitlicht, speichert und verwaltet
Inhalte aus verschiedensten Datenquellen und schafft somit eine Infrastruktur für
Analysen. OLAP wiederum stellt ein Zugriffs- und Nutzungskonzept auf der Daten-
bereitstellungsebene für diese Datenbasis dar und ermöglicht erst die sinnvolle Um-
wandlung der Einzeldaten in bedeutsame Informationen bzw. Wissen. Aus diesem
Grund versteht man unter dem Begriff ,,OLAP-System" eine umfassende Sichtweise,
welche beide Konzepte vereint. Der weitere Verlauf dieser Arbeit wird diesen As-
pekt wiederholt aufgreifen (vgl. 5.2.5).
Im Gegensatz zum DWH, welches in der Regel auf relationaler Technologie basiert,
arbeitet OLAP auf einer mehrdimensionalen Sicht von zusammengefaßten Daten und
ermöglicht dadurch erst schnellen Zugriff auf entscheidungsrelevante und strategisch
bedeutsame Informationen. Hinsichtlich der Datenbanktechnologie für OLAP-
Analysen existieren grundsätzlich zwei Varianten, die jeweils hinsichtlich der Be-
wertungskriterien wie FASMI Vor- und Nachteile aufweisen.
· Relationales OLAP (ROLAP)
Aufgrund der Verbreitung des relationalen Ansatzes, u. a. durch das Data-
Warehouse-Konzept, wird versucht, diese Technologie für OLAP-Anwendungen zu-
gänglich zu machen. Dabei werden virtuell multidimensionale Datenbankkonzepte
verfolgt, welche auf die Vorzüge relationaler Datenhaltung abzielen und die mehr-
dimensionale Datenstruktur in zweidimensionalen Tabellen ablegen. Mit Hilfe von
SQL wird auf diese zur Durchführung der OLAP-Abfragen und Datentransformation

2 Betriebswirtschaftliche Datenanalyse
Seite 18
zugegriffen. Grundsätzlich eignet sich ROLAP eher bei kleineren Datenmengen und
weniger statischen Strukturen in einer komplexeren Domäne.
· Multidimensionales OLAP (MOLAP)
Im MOLAP-Ansatz werden die Daten physisch in Form einer meist proprietären mul-
tidimensionalen Datenstruktur bereitgestellt. Dies erscheint sinnvoll, da die Anforde-
rungen an OLAP von den Eigenschaften relationaler Datenbanken relativ stark ab-
weichen [BeLi98, 405]. Multidimensionale Datenbanksysteme führen OLAP-
Abfragen schneller und ohne Effizienzverluste aus, da die Transformation in ein rela-
tionales Schema und zeitaufwendige Aggregatbildungen entfallen. Daher eignet sich
dieses Vorgehen besonders bei großen Datenmengen und weitgehend statischen
Strukturen in einer eng abgegrenzten Domäne.
Es bleibt abschließend festzuhalten, daß die Wahl der Technologie maßgeblich durch
die Wahl des Produktanbieters und der existierenden Systemumgebung determiniert
wird. Sehr wichtige Einflußfaktoren sind dabei vor allem Funktionsumfang, Lei-
stungsverhalten und Kostenaspekte [BeLi98, 404].
Außerdem ist mittel- bis langfristig zu erwarten, daß sich die oben beschriebenen
Unterschiede auflösen werden. Es existieren bereits Ansätze wie das sog. "Hybride
OLAP" (HOLAP), die eine Vereinigung beiderseitiger Vorteile anstreben. Dabei
werden die historischen Detaildaten relational abgelegt, während höher verdichtete
Datenwürfel ein multidimensionales Datenbanksystem zur effizienteren Speicherung
nutzen [Kurz99, 331]. Auf diese Weise kann die Antwortzeit zusätzlich optimiert
werden.
2.2.3 Verfahren datengetriebener Ansätze
,,Our goal is to challenge the data to ask questions, rather than asking questions to the
data." [KeKS94, 305]. Vorstehende Aussage stellt den Unterschied zwischen den
eben dargestellten hypothesengetriebenen und nun folgenden datengetriebenen Ana-
lyseansätzen, worunter man alle Arten von Mining-Verfahren versteht, plakativ dar.

2 Betriebswirtschaftliche Datenanalyse
Seite 19
Im Gegensatz zu den traditionellen, vom Benutzer gesteuerten Analysen, wird bei
Mining-Ansätzen datengetrieben nach interessanten Strukturen gesucht. Letztere
kann man als zusammenfassende Aussagen über eine Untermenge von Daten anse-
hen. Solche Muster sollen eine Einsicht vermitteln, welche über die reine Aufzählung
der Untermengenelemente hinausgeht. Damit umfassen sie alle Arten von Beziehun-
gen zwischen Datensätzen, zwischen einzelnen Feldern der Sätze, den Daten inner-
halb eines Satzes sowie bestimmte Regelmäßigkeiten [HaBM97, 601].
Motiv und Zielsetzung sind bei den verschiedenen Mining-Verfahren identisch. Sie
beabsichtigen, automatisiert und selbständig nach bisher unbekannten, aber entschei-
dungsrelevanten Mustern zu suchen. Der wesentliche Unterschied zwischen den Va-
rianten der Mining-Ansätze besteht in den zugrunde liegenden Datenquellen und da-
bei vor allem im Strukturierungsgrad der darin enthaltenen Informationstypen
[GrGe00, 177]. Da man davon ausgeht, daß etwa ein Viertel der geschäftsentschei-
denden Informationen versteckt und daher für hypothesengetriebene Verfahren un-
zugänglich sind, haben Bottom-Up-Vorgehensweisen insbesondere im betriebswirt-
schaftlichen Umfeld ihre Berechtigung [AdZa97, 128].
2.2.3.1 Data Mining
In der Literatur sowie in der Praxis erfreut sich das Schlagwort ,,Data Mining" in
Diskussionen derzeit besonderer Popularität. Namhafte Institutionen unterstreichen
durch Prognosen und Marktanalysen die zunehmende Bedeutung dieser Technologi-
en, wonach im Vergleich zu anderen Bereichen der Informationstechnologie (IT) mit
einem weit überdurchschnittlichen Wachstum in den 2000er Jahren zu rechnen ist.
Dabei ist Data Mining keine plötzliche Neuerscheinung. Das Konzept entstammt aus
vielen anderen Wissenschaftsbereichen und hat sich erst langsam zu einer eigenstän-
digen Disziplin entwickelt. Diese Entwicklung läßt sich in vier Phasen gliedern und
wird in folgender Tabelle 2-1 stichpunktartig umrissen.

2 Betriebswirtschaftliche Datenanalyse
Seite 20
Entwicklungsschritt:
Verfügbare Technologien
und Konzepte:
Eigenschaften:
1960er Jahre:
Data Access
Großrechnersysteme, Bän-
der und Speicherplatten
vergangenheitsorientierte, sta-
tische Datenbeschaffung.
1980er Jahre
Data Collection
Relationale Datenbanken,
SQL und ODBC
9
vergangenheitsorientierte, dy-
namische Datenbeschaffung
auf Record-Basis
1990er Jahre:
Data Navigation
Multidimensionale Daten-
banken, Data Warehouse,
OLAP
vergangenheitsorientierte, dy-
namische Datenbeschaffung
auf flexibleren Grundlagen
2000er Jahre:
Data Mining
Erweiterte Algorithmen,
parallele und verteilte Da-
tenbanken, Mehrprozessor-
Rechner
vergangenheitsorientierte aber
auch ex-ante-gerichtete, pro-
aktive Informationsbeschaf-
fung
Tabelle 2-1: Entwicklungsschritte des Data Mining, in Anlehnung an [KrWZ98, 24f.]
Die Bedeutung von Data Mining läßt sicht größtenteils auf zwei Einflußgrößen zu-
rückführen [CHS+98, 3-11]: Zum einen der stark angestiegene betriebswirtschaftli-
che Bedarf, der sich in Veränderungen des unternehmerischen Umfeldes begründet.
Dazu zählen u. a. die Wandlung von Verkäufer- zu Käufermärkten, intensiverer
Wettbewerb und ein neues Verständnis über die Bedeutung von Information als
Unternehmensressource (vgl. 1.1).
Andererseits sind die neuen Möglichkeiten einer Nutzung solcher Ansätze zu be-
trachten, welche sich neben wissenschaftlichen vor allem durch technische Fort-
schritte erklären lassen (vgl. [BeLi98, 6-10]). Die umfangreiche Generierung von
elektronischen Daten durch OLTP-Systeme und die Vereinheitlichung dieser in ei-
nem Data Warehouse bilden wichtige Grundlagen für ihre Nutzung und Verwertung
durch Data-Mining-Algorithmen. Wichtige Faktoren sind zudem enorme Verbesse-
rungen in der Hardwareleistung und das darauf aufbauende Aufkommen von Soft-
warelösungen in diesem Bereich.
9
Open Database Connectivity (ODBC) ist eine standardisierte Schnittstelle für den Zugriff auf rela-
tionale Datenbanken mit Hilfe von SQL.

2 Betriebswirtschaftliche Datenanalyse
Seite 21
In einem solchen Umfeld existieren viele unterschiedliche Auffassungen über den
Begriff ,,Data Mining". Neben verschiedenen Ansichten in der Wissenschaft und in
der Fachliteratur tragen insbesondere Softwareanbieter, welche ihre Produkte in dem
jungen Markt zu plazieren versuchen, durch irreführende Produktbeschreibungen zu
dieser Heterogenität bei. Bis sich überhaupt eine einheitliche Bezeichnung etablierte,
äußerte sich dies in verschiedenartigen Benennungen, welche von ,,data harvesting",
,,data archeology" bis zu ,,data fishing" reichten [Fayy96, 21]. Im deutschsprachigen
Raum hat sich mittlerweile die Übersetzung ,,Datenmustererkennung" nach N. Bis-
santz und J. Hagedorn [BiHa93, 1] etabliert.
Grundsätzlich lassen sich mehrere Hauptrichtungen für eine Definition dieses Be-
griffs in Theorie und Praxis feststellen. In den Anfängen wurde von Vertretern oft-
mals eine prozeßorientierte Perspektive vertreten; aufgrund der großen Bedeutung
der Integration der Data-Mining-Aufgabe in einen zielgerichteten Prozeßablauf hat
sich jedoch in Form des Knowledge Discovery in Databases (KDD, vgl. Kapitel
drei), welches Prozeßmodelle für die Lösung von Data-Mining-Problemen bereit-
stellt, ein eigener Wissenschaftsbereich hierfür herauskristallisiert.
Methodenorientierte Ansätze wiederum charakterisieren Data Mining anhand der zur
Verfügung stehenden Verfahren und Methoden zur Problemlösung. Dieses Ver-
ständnis herrscht oft bei Softwareherstellern vor, welche entsprechende Werkzeuge
vermarkten wollen. Des weiteren besteht wohl auch seitens von Wissenschaftlern ei-
ne gewisse Neigung, die eigenen Ansätze im Umfeld des aktuellen Schlagworts zu
positionieren [Knob00, 3]. Grundsätzlich ist ein methodenorientiertes Vorgehen je-
doch als problematisch zu beurteilen: Die Fülle der verwandten Wissenschaftsgebiete
(vgl. S. 26) macht deutlich, daß es auch hier an einem einheitlichen Rahmen und ei-
ner klaren Methodenabgrenzung mangelt. Aus diesen Gründen ist auch dieser Defini-
tionsansatz in Produktbeschreibungen sowie vor allem in der Literatur kaum noch
vorzufinden.
Heutzutage herrschen problemorientierte Ansätze zur Begriffsbestimmung vor. Diese
fokussieren sich recht allgemein auf die Problemstellung, die darauf gerichtet ist,
durch eine zielgerichtete Analyse von Datenbeständen Anhaltspunkte für eine Lö-
sung zu finden. Darunter sind interessante Datenmuster und -beziehungen zu verste-

2 Betriebswirtschaftliche Datenanalyse
Seite 22
hen. Folgender Überblick in Tabelle 2-2 stellt einige problemorientierte Definitions-
beispiele gegenüber:
Problemorientierte Definitionsansätze des Data Mining:
,,Data mining is the process of discovering interesting knowledge, such as patterns,
associations, changes, anomalies and significant structures from large amounts of da-
ta stored in databases, data warehouses, or other information repositories."
[Han97a,1]
,,Data Mining is the process of extracting previously unknown, valid, and actionable
information from large databases and then using the information to make crucial bu-
siness decisions." [CHS+98, 12]
,,Data Mining is the process of sifting through large amounts of data to produce data
content relationships. (...) This is also known as data surfing." [FlSa97, 45]
,,Der Begriff Data Mining beschreibt die Extraktion implizit vorhandenen, nicht tri-
vialen und nützlichen Wissens aus großen, dynamischen, relativ komplexen struktu-
rierten Datenbeständen." [BiHa93, 481]
,,Data Mining ist die nicht-triviale Entdeckung gültiger, neuer, potentiell nützlicher
und verständlicher Muster in Datenbeständen." [Knob00, 14]
Tabelle 2-2: Verbreitete Definitionsansätze für ,,Data Mining", eigene Darstellung
Aufgrund der Vielzahl von Ausprägungen in der Literatur und mangels einer eindeu-
tigen allgemeinen Definition wird für diese Arbeit ein Data-Mining-Verständnis, wie
es von N. Bissantz und J. Hagedorn [BiHa93, 481] bzw. B. Knobloch [Knob00, 14]
vertreten wird, zugrunde gelegt. Es stellt einen allgemeinen Rahmen zur Verfügung,
welcher sich problemlos in die Theorie des KDD-Prozesses (vgl. Kapitel drei) ein-
ordnen läßt.
Das Konzept des Data Mining ist in seiner ursprünglichen Form relativ visionär. Ent-
sprechend hochgesteckt sind daher auch die Anforderungen für seine Anwendung:
· Anforderungen an die Ergebnisse
Besonders wichtig erscheint, daß die Ergebnisse der Datenmustererkennung für den
Anwender interessant sind. Interessantheit abstrahiert von den Teilaspekten Gültig-
keit, Neuartigkeit, Nützlichkeit und Verständlichkeit [Knob01b, 7], welche grundle-

2 Betriebswirtschaftliche Datenanalyse
Seite 23
gend für das problemorientierte Data-Mining-Verständnis sind. Ein Mangel daran
äußert sich in Redundanz, Bedeutungslosigkeit, Bekanntheit und Trivialität der Er-
gebnisse, welchen man durch das Anlegen von Filtern begegnen kann [Knob00, 40-
42].
· Anforderungen an den Datenbestand
Die Datenaufbereitung ist als wesentliche Voraussetzung für die Anwendung ent-
sprechender Algorithmen anzusehen. Neben technischen Problemen bereitet dabei
hauptsächlich die Unvollkommenheit der Daten Schwierigkeiten. Diese findet man
in Form von sog. ,,Datenschmutz" durch falsche oder irrelevante Inhalte, Datenun-
vollständigkeit sowie Dynamik der Daten vor [Säub00, 12-15]. Auf die Datenvor-
verarbeitung wird ausführlich in Kapitel 3.2 eingegangen.
Außerdem sollten ausreichend Daten zur Verfügung stehen, in denen interessante
Muster vermutet werden. M.J. Berry und G. Linoff heben die Bedeutung einer gro-
ßen Datenmenge hervor
10
. Grundsätzlich steigt auch die Qualität und Signifikanz der
Ergebnisse, je mehr Daten analysiert werden [KrWZ98, 40f.].
· Anforderungen an die Algorithmen
Algorithmen können einen wichtigen Beitrag zur Lösung der Datenproblematik lei-
sten, wenn sie robust genug sind, um selbständig mit unvollständigen Daten umzu-
gehen. Oftmals verursacht Datenschmutz besonders auffällige Muster, was durch ei-
ne Art Plausibilitätsprüfung abgefangen werden sollte [BiHa93, 485].
Auch die Rechenzeit stellt einen kritischen Faktor für effiziente Analysendurchfüh-
rungen dar. Trotz steigender Verarbeitungsleistungen der Hardware geht man davon
aus, daß Algorithmen, deren Verarbeitungszeit stärker als die quadratische Abhän-
gigkeit von der Anzahl der untersuchten Datensätze wächst, kaum für die Anwen-
dung auf große Datenbestände geeignet sind (vgl. [Biss96]).
10
,,In data mining, more (data, Anm. d. Verf.) is better." [BeLi97, 77].
Ende der Leseprobe aus 162 Seiten

Details

Titel
Konzeption eines Projektverwaltungssystems für betriebswirtschaftliche Datenanalyseprozesse in einem offenen Business-Intelligence-System
Hochschule
Otto-Friedrich-Universität Bamberg
Note
2.3
Autor
Jahr
2002
Seiten
162
Katalognummer
V185794
ISBN (eBook)
9783656990710
ISBN (Buch)
9783867466776
Dateigröße
1489 KB
Sprache
Deutsch
Schlagworte
konzeption, projektverwaltungssystems, datenanalyseprozesse, business-intelligence-system
Arbeit zitieren
Frank Riesner (Autor), 2002, Konzeption eines Projektverwaltungssystems für betriebswirtschaftliche Datenanalyseprozesse in einem offenen Business-Intelligence-System, München, GRIN Verlag, https://www.grin.com/document/185794

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Konzeption eines Projektverwaltungssystems für betriebswirtschaftliche Datenanalyseprozesse in einem offenen Business-Intelligence-System


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden