Das Ziel der Arbeit ist es, einen Überblick über die Bereiche Datenbanken, Data Warehouse, APIs, Datentransformation sowie Ausreißererkennung zu schaffen und deren Konzepte zu erläutern. Anschließend soll das erworbene Wissen auf einen Open Source Datensatz angewandt und mit Hilfe der Programmiersprache Python eine Ausreißererkennung durchgeführt werden.
In der Arbeit wird der Weg der Rohdaten aus einer Datenbank über die Datentransformation bis zur Ausreißererkennung erläutert, untersucht und an einem Datensatz angewandt. Als Erstes wird der Begriff der (Roh-)Daten nahegebracht und der Datensatz vorgestellt. Im darauf folgenden Kapitel wird das Konzept der Datenbanken, insbesondere des RDBMS, erläutert.
Anschließend wird der vorgestellte Datensatz in eine Datenbank eingespeist. Im Anschluss wird die Anbindung der Datenbank an ein Data Warehouse erläutert. Dieses Konzept wird vorgestellt und in der Praxis angewandt. In dem folgendem Kapitel wird auf das Data Warehouse zugegriffen. Nach dem Zugriff wird schließlich Ausreißererkennung mit Python durchgeführt.
Inhaltsverzeichnis
1 Motivation und Zielsetzung
1.1 Motivation zur Bearbeitung der Projektarbeit
1.2 Schwerpunkte und Zielsetzung
2 Untersuchung des Datensatzes
2.1 Begriff der Rohdaten
2.2 Art der Datenverfügbarkeit
2.3 Anwendungsbeispiel: Vorstellung der Rohdaten
3 Transformation und Datenbanken
3.1 Datenbanksysteme
3.2 Datenbanktypen
3.3 SQL – Datenbanken
3.3.1 Das Globale ER – Modell
3.3.2 Aufbau einer relationalen Datenbank
3.3.3 RDBMS und SQL
3.4 Normalisierung
3.4.1 1. Normalform
3.4.2 2. Normalform
3.4.3 3. Normalform
3.4.4 Boyce – Codd – Normalform
3.5 Anwendungsbeispiel: Transformation der Rohdaten und Einspeisung in eine Datenbank
4 Data Warehouse
4.1 Definition Data Warehouse
4.2 DWH - Architektur
4.2.1 ETL – Prozesse
4.2.2 Erste Ebene – Datenanbindung
4.2.3 Zweite Ebene – Datenverwaltung und -distribution
4.2.4 Dritte Ebene – Datenauswertung und -nutzung
4.3 Datenschemata
4.3.1 OLAP
4.3.2 Sternschema
4.3.3 Schneeflockenschema
4.4 Anwendungsbeispiel: APIs und Einspeisen aus der Datenbank in das Data Warehouse
4.4.1 APIs
4.4.2 Laden der Daten in ein DWH
5 Anwendungsbeispiel: Ausreißererkennung
6 Fazit
Zielsetzung & Themen
Diese Arbeit hat zum Ziel, den Prozess der Datenverarbeitung von der initialen Rohdatengewinnung bis hin zur Identifikation von Anomalien in Kreditkartentransaktionen zu erläutern. Die zentrale Forschungsfrage befasst sich damit, wie Rohdaten systematisch in ein Data Warehouse integriert werden können, um darauf aufbauend wirkungsvolle Analysen zur Betrugserkennung mittels Python durchzuführen.
- Grundlagen von Datenbanksystemen und Normalisierung
- Architektur und Konzepte von Data Warehouses
- Einsatz von Schnittstellen (APIs) im Daten-Engineering
- Methoden der statistischen Ausreißererkennung
- Praktische Umsetzung mittels Python und SQL
Auszug aus dem Buch
3.1 Datenbanksysteme
Daten können in Unternehmen als Produktionsfaktor eingesetzt werden, um durch dessen Analyse Informationen zu gewinnen. Dafür müssen Daten gespeichert und verwaltet werden. Das geschieht im Datenbanksystem, oder kurz DBS. Es ist eine Software, die aus Datenbanken und einem Datenbankmanagementsystem, auch DBMS genannt, besteht, und den Zugriff, die Verwaltung und Erstellung von den Datenbanken realisiert. Dabei übernehmen die Datenbanken die Rolle des Speichers und das DBMS die funktionale Rolle. Aufgaben von dem DBMS sind Datenverwaltung, Bearbeitung der Datenbankabfragen, Zugriffgewährung und -verwaltung, Datenbankerstellung und Daten- und Datenbanksicherheit. DBMS sind z. Bsp. MySQL, PostgreSQL und MongoDB.
Es gibt zwei Arten von DBS: Fileserver – System und Client – Server – System. Bei dem Fileserver – System befinden sich die Datenbanken an einer zentralen Stelle und das DBMS auf dem Computer des Anwenders. Bei dem Client – Server – System dagegen, liegen beide Komponenten auf einem Server.
Zusammenfassung der Kapitel
1 Motivation und Zielsetzung: Einführung in die Bedeutung von Daten für Unternehmen und Definition des Fokus auf Data Science und Analyse.
2 Untersuchung des Datensatzes: Erläuterung des Begriffs Rohdaten und Vorstellung des für die Praxis genutzten Kreditkarten-Transaktionsdatensatzes.
3 Transformation und Datenbanken: Detaillierte Betrachtung von Datenbanksystemen, SQL, Normalisierung und der praktischen Datenaufbereitung.
4 Data Warehouse: Beschreibung der Data Warehouse-Architektur, ETL-Prozesse, Datenschemata und der Anbindung mittels APIs.
5 Anwendungsbeispiel: Ausreißererkennung: Anwendung von statistischen Verfahren und Kastendiagrammen zur Identifikation betrügerischer Transaktionen.
6 Fazit: Zusammenfassende Rückschau auf die behandelten Konzepte der Datenbanken und Data Warehouses sowie die erfolgreiche praktische Umsetzung des Projekts.
Schlüsselwörter
Data Science, Datenbanken, Data Warehouse, SQL, Python, Normalisierung, ETL-Prozesse, Ausreißererkennung, Snowflake, Transaktionen, RDBMS, Datentransformation, Open Data, Data Engineering, MySQL
Häufig gestellte Fragen
Worum geht es in dieser Arbeit grundsätzlich?
Die Arbeit behandelt den gesamten Lebenszyklus der Datenverarbeitung, ausgehend von der Bereinigung und Transformation von Rohdaten über deren Speicherung in SQL-Datenbanken bis hin zur Überführung in ein Data Warehouse und der abschließenden Datenanalyse.
Was sind die zentralen Themenfelder?
Zu den zentralen Themen gehören das Datenbankdesign und die Normalisierung, die Architektur von Data Warehouses sowie Methoden der statistischen Analyse zur Betrugserkennung.
Was ist das primäre Ziel der Arbeit?
Das primäre Ziel ist es, ein Verständnis für die Konzepte der Datenhaltung und -transformation bei einem Data Science-Projekt zu schaffen und dieses Wissen praktisch auf einen Datensatz anzuwenden.
Welche wissenschaftliche Methode wird verwendet?
Die Arbeit nutzt eine anwendungsorientierte Vorgehensweise, bei der theoretische Grundlagen wie die Normalisierung durch eine praktische Implementierung in Python und SQL validiert werden.
Was wird im Hauptteil behandelt?
Der Hauptteil gliedert sich in die Untersuchung von Rohdaten, die Transformation in relationale Datenbanken, den Aufbau von Data Warehouses sowie die praktische Durchführung einer Ausreißererkennung.
Welche Schlüsselwörter charakterisieren die Arbeit?
Die Arbeit ist maßgeblich charakterisiert durch Schlüsselwörter wie SQL, Data Warehouse, ETL-Prozesse, Normalisierung und Ausreißererkennung.
Warum wird Snowflake als Datenplattform verwendet?
Snowflake wird als cloudbasierte SaaS-Lösung eingesetzt, da sie als Service bereitgestellt wird und es dem Anwender ermöglicht, sich auf die eigentliche Arbeit mit den Daten zu konzentrieren, statt auf die komplexe Cloud-Infrastruktur.
Wie werden Ausreißer konkret identifiziert?
Die Arbeit nutzt Kastendiagramme und berechnet auf Basis des Interquartilsbereichs (IQR) eine Obergrenze, oberhalb derer Transaktionen als potenzielle Ausreißer markiert werden.
- Quote paper
- Georgy Khromov (Author), 2022, Datenspeicherung und -transformation. Der Weg der Rohdaten von der Datenbank bis zur Ausreißererkennung, Munich, GRIN Verlag, https://www.grin.com/document/1234529