Datenqualität im Kontext von Big Data. Ansätze zur Messung der Datenqualität sowie Auswirkungen auf Funktionalität und Nutzen


Seminararbeit, 2019

29 Seiten, Note: 1,3


Leseprobe

Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1. Einleitung
1.1. Motivation der Arbeit
1.2. Ziel der Arbeit und Forschungsfragen
1.3. Überblick zum Aufbau der Arbeit

2. Datenqualität
2.1. Grundlagen und Definition
2.2. Abgrenzung der Dimensionen
2.3. Bedeutung und Probleme im Kontext von Big Data

3. Ansätze zur Messung der Datenqualität
3.1. Total Data Quality Management
3.2. Anwendung von Datenqualitätskriterien und -metriken
3.3. Ansatz des Data Cleaning

4. Best Practices
4.1. Data Quality Scorecard
4.2. Oracle Product Data Quality Solutions
4.3. Data Cleansing Tool

5. Kritische Betrachtung der Verwendung von Big Data unter Datenqualitätsaspekten
5.1. Potenzial durch Optimierung und Individualisierung des Kundenmarketings
5.2. Fehlendes Unternehmensbudget als Problem
5.3. Grenzen der systematischen Informationsgewinnung

6. Zusammenfassung

Literaturverzeichnis

Abbildungsverzeichnis

Abbildung 1: Begriffshierarchie

Abbildung 2: Aspekte der Datenqualität

Abbildung 3: Bedeutung von DQ-management im Zusammenhang von Big Data

Abbildung 4: TDQM Kreislauf

Abbildung 5: Beispielhafte Darstellung einer Data Quality Scorecard

Abbildung 6: Ablaufschritte des „Data Cleansing“

Tabellenverzeichnis

Tabelle 1: Kategorien der Datenqualität

Abkürzungsverzeichnis

CeBIT Centrum für Büroautomation, Informationstechnologie und Telekommunikation

CDU Christlich Demokratische Union Deutschlands

DGIQ Deutsche Gesellschaft für Informations- und Datenqualität

DSGVO Datenschutz-Grundverordnung

DQ Datenqualität

IBM International Business Machines Corporation

IFRS International Financial Reporting Standard

IP Informationsprodukt

IT Informationstechnologie

TDQM Total Data Quality Management

TQM Total Data Management

z.B. zum Beispiel

1. Einleitung

1.1. Motivation der Arbeit

„Daten sind die Rohstoffe des 21. Jahrhunderts“1, so lautete die Aussage von CDU-Politikerin Angela Merkel beim Besuch der IT-Messe CeBIT zum Thema Fortschritt der Digitalisierung in Deutschland. Daten sind ein wichtiges Kapital für Unternehmen, da diese Grundlage für beinahe alle Geschäftsprozesse sind, sei es die Optimierung der Transportwege oder eine simple Preisauszeichnung eines Produkts. Im gegenwärtigen Informationszeitalter ist es besonders wichtig und entscheidend für den langfristigen Unternehmenserfolg Daten zur Verfügung zu haben. Es ist kein Problem in der globalisierten Welt von heute Unmengen an Daten zu sammeln und auszuwerten. Zusammengefasst unter dem Begriff Big Data versuchen Firmen über die Digital Analytics, dem Sammeln, Messen und Interpretieren von digitalen Daten, eine Differenzierung vom Wettbewerb zu erlangen. Doch ist vorrangig nicht die übermäßige Menge an Daten wichtig, sondern vor allem die Qualität und Verlässlichkeit. Die Qualität der Daten kann maßgeblich sein für den Erfolg oder Misserfolg von Kampagnen, nicht zuletzt einer der Kernaspekte vieler Projekte beispielsweise von Marketingvorhaben. Einer Umfrage mit 421 Unternehmen unterschiedlichster Branchen zu Folge ist aber vor allem mangelnde Datenqualität und -validität einer der Schwachpunkte vieler Unternehmen. Ebenso steht eine hohe Datenqualität an der Spitze der Herausforderungen im Rahmen von Digital Analytics.2 Folglich besteht die Notwendigkeit über entsprechende Ansätze die Datenqualität zu messen und zu prüfen, um den Datenbestand stets aktuell zu halten und damit im Konkurrenzwettbewerb stark zu bleiben.

1.2. Ziel der Arbeit und Forschungsfragen

In diesem Zusammenhang wird innerhalb der Arbeit die Frage behandelt, welche Ansätze zur Messung der Datenqualität identifiziert werden können. Des Weiteren ist von Interesse welchen Einfluss die Datenqualität auf die Funktionalität und den Nutzen von Big Data hat. Darüber hinaus wird erörtert, welches Potenzial und welche Risiken sich aus der Verwendung und Auswertung von großen Datenmengen ergeben. In diesem Kontext wird insbesondere betrachtet, ob ein unzureichendes Datenqualitätsmanagement einen Einfluss auf die genannten Chancen und Herausforderungen hat.

1.3. Überblick zum Aufbau der Arbeit

Die Seminararbeit befasst sich zunächst mit einem fachlichen Überblick über den Begriff Datenqualität. In diesem Rahmen werden die Dimensionen sowie die Bedeutung im Kontext von Big Data konkretisiert. Ebenso wird dabei auf Problemstellungen eingegangen. Im Anschluss widmet sich die Arbeit den Ansätzen zur Messung der Datenqualität, die im Folgenden unter dem Punkt Best Practices in der Praxis beleuchtet werden. Im Weiteren werden konkrete Ansätze kritisch betrachtet und innerhalb einer Diskussion deren Praxistauglichkeit entwickelt. Abschließend wird ein Zukunftsausblick der Entwicklungen gegeben sowie potenzielle Gebiete mit offenem Forschungsbedarf benannt.

2. Datenqualität

Die Effektivität und der Grad der Dienlichkeit von Informationssystemen hängt stark von der Güte der genutzten Daten ab. Um eine valide Grundlage für eine umfassende Datenanalyse zu schaffen, gilt es für Unternehmen eine hohe Qualität der Daten zu gewährleisten. Im Folgenden werden zunächst einige Grundlagen sowie die unterschiedlichen Definitionen dargestellt. Im Anschluss daran thematisiert die Arbeit aufkommende Problemstellungen und beleuchtet diese im Kontext von Big Data.

2.1. Grundlagen und Definition

Um eine einheitliche Definition des Ausdrucks Datenqualität zu erhalten, müssen zunächst die grundlegenden Begriffe Daten und Qualität charakterisiert werden.

Daten werden oftmals im Kontext von Informationen und Wissen interpretiert. Dabei lässt sich eine Begriffshierarchie aufstellen (siehe Abbildung 1).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 1: Begriffshierarchie3

Das unterste Glied bilden Zeichen, die aus einem Zeichenvorrat stammen und Basis für alle weiteren Ebenen sind. Mithilfe bestimmter Syntaxregeln zur Kombination der Zeichen werden Daten gebildet. Im nächsten Schritt entstehen Informationen aus Daten, denen eine Bedeutung zugeordnet wurde. Über Informationen wird es möglich Sachverhalte zu bewerten und einen Kontext herzustellen. Auf der obersten pragmatischen Ebene steht das Wissen, das aus der Verbindung von Informationen erwächst und der Realität am Nächsten kommt, indem sich hier im Unterschied zur reinen Information auch mit der jeweiligen Absicht und dem Zusammenhang von Zuständen befasst wird.4 Diese Begriffshierarchie gibt einen ersten Aufschluss darüber, wie sich Daten grundlegend abgrenzen lassen.

Der Begriff Qualität kann als Eigenschaft oder Beschaffenheit definiert werden. Hierbei wird eine gute Qualität dadurch charakterisiert, dass möglichst alle Anforderungen – in diesem Fall an die Daten – erfüllt werden. Eine etwas präzisere Erklärung bietet die DIN-Norm 55350, die Qualität als „Beschaffenheit einer Einheit bezüglich ihrer Eignung, festgelegte und vorausgesetzte Erfordernisse zu erfüllen“ bezeichnet. Im Zusammenhang mit Daten bestehen hier die Erfordernisse darin, dass Daten informieren und dass so anhand der gewonnenen Informationen Entscheidungen verbessert werden können.5

Somit kann Datenqualität aus der Ableitung beider Begriffsdefinitionen als „die Gesamtheit der Ausprägungen von Qualitätsmerkmalen eines Datenbestands bezüglich dessen Eignung, festgelegte und vorausgesetzte Erfordernisse zu erfüllen“6, bezeichnet werden. Sie gibt also an wie und in welcher Form festgelegte Bedingungen an den Datensatz erfüllt sind. Trotz alledem sind diese Bezeichnungen oftmals sehr subjektiv geprägt und werden in unterschiedlichen Unternehmenskontexten verschieden verwendet. Um dennoch eine einheitliche Vorstellung von Datenqualität zu erzielen, lässt sich der Begriff in Dimensionen aufteilen, welche im folgenden Abschnitt der Arbeit thematisiert werden.

2.2. Abgrenzung der Dimensionen

Zunächst kann man Datenqualität anhand verschiedener Merkmale strukturieren, um die Höhe der Qualität einzuschätzen und damit messbar machen zu können. Das in diesem Zusammenhang am häufigsten in der Literatur aufgeführte Modell geht auf Richard Wang zurück. In seinem Modell beschreibt er vier verschiedene Datenqualitätskategorien, die Einfluss auf die Güte der Qualität haben.

Ansatzpunkt7 Kriterium

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1: Kategorien der Datenqualität8

Überdies existieren weitere Qualitätsmodelle. Ein alternativer Ansatz ist es die Aspekte der Datenqualität gemäß der Taxonomie nach Hinrichs aufzuspalten (siehe Abbildung 2).

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 2: Aspekte der Datenqualität9

Neben diesen Dimensionen kann man Datenqualität individuell weiter spezifizieren. Im Rahmen dieser Arbeit lassen sich diese Differenzierungen allerdings nur in beschränkter Form wiederspiegeln. Im Folgenden wird daher nur auf einige Kriterien aus der obigen Abbildung näher eingegangen.

An erster Stelle des Aspekts der Glaubwürdigkeit steht die Korrektheit. Angaben sind dann korrekt, wenn sie der Faktenlage der Realität entsprechen. Inkorrekte Daten entstehen beispielweise durch falsche Setzung einer Kommastelle oder durch falsches Abschreiben von Namen oder Adressen. Weiter kann ein Datensatz auf Konsistenz geprüft werden. Unter Konsistenz versteht man die Tatsache, dass innerhalb der Werte keine logischen Widersprüche existieren. Auch hier können Eingabefehler, zum Beispiel bei Kundennamen zu inkonsistenten Daten führen, da in unterschiedlichen Datensätzen unterschiedliche Schreibweisen vorliegen. Somit ist es nicht mehr möglich, eine Verbindung herzustellen, auch wenn ursprünglich derselbe Kunde gemeint ist.10 Ein weiterer Gesichtspunkt ist die Nützlichkeit. Dieser Aspekt beinhaltet unter anderem die Redundanzfreiheit. Unter Redundanzen fallen im Allgemeinen Duplikate wie beispielweise Mehrfachnennung von Telefonnummern zu einem Kunden. Als Drittes fällt die Betrachtung auf die Interpretierbarkeit der Daten. Wesentlicher Faktor ist hierbei, dass der Datensatz verständlich ist. Generell ist dies der Fall, wenn Terminologie und Struktur der Daten mit den Vorgaben der im Unternehmen mit der Thematik beauftragten Spezialisten übereinstimmen.11

Es wird ersichtlich, dass die Sichtweise auf Daten und deren Qualität sowie die Kriterien zur Messung der verschiedenen Aspekte unterschiedlich spezifisch ausfallen können. Vor allem im Rahmen von Big Data stellen die Definition von Daten und deren Instandhaltung eine Herausforderung dar. In diesem Abschnitt wurde die grundlegende theoretische Basis gelegt, auf Grund derer im folgenden Teil der Arbeit die Frage nach der Bedeutung im Kontext von Big Data sowie Ansätze zur Messung erörtert werden.

2.3. Bedeutung und Probleme im Kontext von Big Data

Der Begriff Big Data umschreibt allgemein die in der Wirtschaftswelt existierende riesige Menge an Daten.12 Täglich werden weltweit rund 33 Zettabytes an Daten generiert, bis 2025 soll die Zahl sogar auf 175 steigen.13 Zur Verdeutlichung lässt sich ein Zettabyte als die Menge an gespeicherten Musikdateien darstellen, die ausreichen um zwei Milliarden Jahre Musik abzuspielen.14 Doch beschränkt sich der Ausdruck nicht nur auf die reine Begriffsdefinition. Eine tiefergehende Betrachtung des Ganzen liefert Doug Laney, der mit der Bezeichnung Big Data die drei Dimensionen „Volume“, „Velocity“ und „Variety“ verknüpft. Die erste Dimension umfasst die Masse an Daten, die täglich durch sämtliche Aktivitäten und Interaktionen entsteht. Daneben ist auch die Geschwindigkeit, zum einen in Bezug auf die Verarbeitung der Daten, zum anderen auf das Tempo, mit dem sich Fakten ändern und neue Daten hinzukommen, nicht zu vernachlässigen. Der dritte erschwerende Faktor ist die Vielfalt an Datenstrukturen und -klassen, die es in einem Informationssystem zur Verarbeitung der Daten zu vereinen gilt.15 Das US-amerikanische IT- und Beratungsunternehmen IBM ergänzte hierzu noch eine vierte Dimension „Veracity“ – die Unsicherheit über die Richtigkeit der Daten. Innerhalb einer Studie gaben 27 Prozent der Befragten an nicht zu wissen wie genau oder ungenau ihre Daten seien.16 Zudem ist eine riesige Datenmenge wertlos ohne die Technik, das Datenwirrwarr zu entschlüsseln und die gewonnenen Informationen zu interpretieren. „Datensammlungen sind erst dann sinnvoll, wenn sie zeitnah analysiert und komplexe Zusammenhänge aus ihnen herausgelesen werden“, so die Aussage des IBM Director of Information Management Bodo Körber.17 Entsprechend einer Studie der Omikron Data Quality GmbH aus dem Jahr 2012 mit mehr als 140 Unternehmen sahen weit mehr als ein Drittel der befragten eine hohe Datenqualität als Basis von Big Data.

Abbildung in dieser Leseprobe nicht enthalten

Abbildung 3: Bedeutung von Datenqualitätsmanagement im Zusammenhang von Big Data18

Und auch einer aktuellen Umfrage des Informationsdienstleisters Experian zufolge sehen 60 Prozent der Unternehmen als Ursache für die größten internen Probleme eine mangelnde und unzureichende Datenqualität.19 Vor allem wenn Unternehmensdaten mit den Informationen aus Big Data erweitert werden sollen, spielt die Qualität der Daten eine zentrale Rolle. Bei einer Befragung von 75 Führungskräften, die über die Aussagekraft der im Unternehmen verarbeiteten Daten Auskunft gaben, hatten nur 3 Prozent der Informationen akzeptable Abweichungen. Dagegen lagen rund 50 Prozent im kritischen Fehlerbereich. Dabei kann gerade eine schlechte Datenqualität zu Umsatz- und Imageverlusten von bis zu 25 Prozent führen. Ferner fallen etwa 20 Prozent der Einkünfte auf die Bearbeitung von Datenqualitätsangelegenheiten ab.20 Erst ein umfassendes Datenqualitätsmanagement ebnet den Weg für Big Data und damit die Möglichkeit, Wettbewerbsvorteile zu erzielen. Schätzungen zu Folge sind Steigerungen der Einkünfte um 29 Prozent möglich, wenn die genutzten Daten vollständig korrekt und qualitativ sehr hochwertig sind.21 Gerade eine umfassende Quantität und gleichzeitig Qualität erhobener Daten stellt die am häufigsten genannte Stärke und damit einen Pluspunkt von Unternehmen dar.22 Mit einem gezielten und vor allem automatisierten Datenmanagement könnten Firmen genau diese Stärke nutzen, um effizient und kundenorientiert zu agieren und die Chancen von Big Data in Zeiten der Digitalisierung zu nutzen. Im Folgenden werden in diesem Zusammenhang Ansätze zur Messung und Analyse betrachtet.

[...]


1 Vgl. Frankfurter Allgemeine, 2016.

2 Vgl. Aden, T., Vial, F., 2018, Seite 21.

3 Vgl. Bodendorf, F., 2003, Seite 1.

4 Vgl. Ebd.

5 Vgl. Loeffelholz, F. Frhr. V., 1991, Seite 7.

6 Milke, M. et. al, 2011, Seite 89.

7 Vgl. Baumöl, U., Meschke, M., 2009, Seite 62 f.

8 Eigene Darstellung in Anlehnung an Treiblmaier, H., 2006, Seite 35 f.

9 Vgl. Gómez, J. M., Rautenstrauch, C., Cissek, P., Grahlher, B., 2006, Seite 28.

10 Vgl. Ebd.

11 Vgl. Ebd., Seite 29.

12 Vgl. Bendel, O., 2018.

13 Vgl. Statista, 2019.

14 Vgl. LBBW, 2019.

15 Vgl. Laney, D., 2001.

16 Vgl. IBM, 2018.

17 Vgl. Meyer, J.-B., 2013.

18 Eigene Darstellung in Anlehnung an Monitor, 2012.

19 Vgl. Geuer, M., 2019.

20 Vgl. Redman, T. C., 2017.

21 Vgl. Geuer, M., 2019.

22 Vgl. Aden, T., Vial, F., 2018.

Ende der Leseprobe aus 29 Seiten

Details

Titel
Datenqualität im Kontext von Big Data. Ansätze zur Messung der Datenqualität sowie Auswirkungen auf Funktionalität und Nutzen
Hochschule
Universität Ulm  (Technologie- und Prozessmanagement)
Veranstaltung
Customer Relationship Management und Social Media
Note
1,3
Autor
Jahr
2019
Seiten
29
Katalognummer
V540123
ISBN (eBook)
9783346192400
ISBN (Buch)
9783346192417
Sprache
Deutsch
Schlagworte
ansätze, auswirkungen, data, datenqualität, funktionalität, kontext, messung, nutzen
Arbeit zitieren
Lisa Meyer (Autor), 2019, Datenqualität im Kontext von Big Data. Ansätze zur Messung der Datenqualität sowie Auswirkungen auf Funktionalität und Nutzen, München, GRIN Verlag, https://www.grin.com/document/540123

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Datenqualität im Kontext von Big Data. Ansätze zur Messung der Datenqualität sowie Auswirkungen auf Funktionalität und Nutzen



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden