In dieser Studie wurde die Implementierung eines neuen Softwaresystems innerhalb der Hubert Burda Media Holding untersucht, das darauf abzielt, umfangreiche Datensätze effizient zu kombinieren, zu aktualisieren und zu validieren. Die Notwendigkeit einer lokalen Ausführung der Software wird betont, um die Sicherheit interner Daten zu gewährleisten. Es werden spezifische Anforderungen und Kriterien für das System festgelegt, einschließlich Funktionen für Datenbereinigung und Analyse, die transparente und nachvollziehbare Ergebnisse liefern. Eine umfassende Bewertung von über 50 Produkten wurde durchgeführt, wobei wissenschaftliche Forschungsergebnisse den Auswahlprozess unterstützten. Die Entscheidung fiel auf KNIME, ein Tool, das für seine leistungsstarken Datenverarbeitungsfunktionen bekannt ist. Die Integration von KNIME in die bestehende IT-Infrastruktur wird detailliert beschrieben, mit besonderem Fokus auf die Anforderungen an Schnittstellen und die Leistungsfähigkeit der Software. Es wurden fünf potenzielle Schnittstellen identifiziert und mit dem SAP-System abgeglichen. Die Studie beleuchtet auch die anfänglichen Hypothesen über die geeignete Lösung und deren Umsetzung. Während des Projekts traten technische und organisatorische Herausforderungen auf, insbesondere bei der Evaluierung der Schnittstellen, die von der IT-Abteilung abhängig sind. Eine vorgeschlagene Lösung beinhaltete den unidirektionalen Export von Daten aus dem SAP R/3-System auf einen Microsoft SQL Server, was Änderungen an den SAP-Daten verhindert und einen etablierten Dienst nutzt. Diese Studie bietet einen umfassenden Überblick über den Prozess der Auswahl und Implementierung eines Softwaresystems, das die spezifischen Anforderungen eines großen Medienkonzerns erfüllt.

Excerpt

Inhaltsverzeichnis

1. Einleitung

1.1. Vorgehensweise

1.2. Zielsetzung

1.3. Anforderungen

2. Forschungsstand und theoretische Grundlage

3. Forschungskonzept

3.1. Methodik

4. Daten

4.1. Datenanalyse

4.2. Große Datensätze

4.3. Datenaufbereitung

4.3.1. On-Premise-Software

4.3.2. Cloud Computing

4.4. Datenqualität

4.5. Auditierung

4.6. Deskriptive Analyse

4.7. Prädiktive Analyse

5. Schema für ein Scoring-Verfahren

5.1. Definition der Kriterien

5.2. Ermittlung der Kriterienausprägungen

5.3. Berechnung der Gesamtpunktwerte

6. Anwendung eines Scoring-Verfahrens

6.1. Definition der Kriterien

6.2. Ermittlung der Kriterienausprägungen

6.3. Berechnung der Gesamtpunktwerte

6.4. Erklärung des evaluierten Ergebnisses

7. Datenbankschnittstellen

7.1. Application Programming Interface

7.2. Open Database Connectivity

7.3. Java Database Connectivity

8. Auswahl der Datenbankschnittstelle

8.1. Definition der Kriterien

8.2. Ermittlung der Kriterienausprägungen

8.3. Berechnung der Gesamtpunktwerte

8.1. Erklärung des evaluierten Ergebnisses

9. Implementierung in die bestehende IT-Systemlandschaft

9.1. Datenbankschnittstelle

9.2. Robotic Process Automation

9.3. KNIME

10. Zusammenfassung

11. Fazit, Forschungslücke & Ausblick

11.1.Reflexionen des Vorgehens

11.2.Beantwortung der Forschungsfragen

11.3.Forschungslücke

11.4.Kritische Betrachtung & Ausblick

Zielsetzung & Forschungsthemen

Das Hauptziel dieser Bachelorarbeit ist die Auswahl einer leistungsstarken und kosteneffizienten Software-Lösung, um komplexe Datenbankschnittstellen für die Revision in einem Medienkonzern zu optimieren, wobei die Arbeit die Forschungsfrage untersucht, wie KNIME-Workflows zur effizienten Automatisierung und Datenanalyse großer Datensätze konzipiert werden können.

Optimierung von IT-Infrastrukturen zur automatisierten Datenextraktion aus Systemen wie SAP R/3.
Vergleichende Analyse von Datenanalyse-Software und Schnittstellen mittels Scoring-Verfahren.
Implementierung von KNIME zur performanten Datenaufbereitung und -analyse.
Sicherstellung von Revisionssicherheit und Datenschutz durch lokale Softwareausführung.
Entwicklung von Konzepten zur Modellierung von Arbeitsprozessen mittels Data-Mining-Methoden.

Auszug aus dem Buch

6.4. Erklärung des evaluierten Ergebnisses

Für die Datenanalyse ist eine leistungsstarke und benutzerfreundliche Software ausgewählt worden, die auf der Grundlage von Forschungsarbeiten an der Universität in Konstanz (KNIME, Konstanz Information Miner) entstanden ist (XY, 2023). Die Plattform KNIME (KAP, KNIME Analytics Platform) ist in der Pro-grammiersprache Java geschrieben und verfügt über einen Erweiterungsmechanis-mus, der das Hinzufügen von Plugins zur Bereitstellung zusätzlicher Funktionen ver-einfacht. Dies hat es einer großen Anzahl von Beitragenden ermöglicht, eigene Plugins zu erstellen, zusätzlich zu dem breiten Spektrum an integrierten Werkzeugen wie Maschinenlernalgorithmen aus WEKA und dem Statistikpaket R. Die KAP ermöglicht es, jeden Knoten innerhalb eines Workflows selektiv auszuführen. Dies steht im Gegen-satz zu den anderen untersuchten Plattformen, die eine Ausführung des gesamten Workflows erfordern. Konkret wird bei der Ausführung eines Knotens in KAP nur dieser Knoten und alle nicht ausgeführten abhängigen Knoten (d.h. seine Nachfolgeknoten) ausgeführt. Während alle wissenschaftlichen Workflow-Plattformen in der Lage sind, einen komplexen räumlichen Prozess in eine Reihe von diskreten Schritten (d.h. Kno-ten) zu zerlegen, ermöglicht die KAP, dass jeder Schritt individuell ausgeführt wird, wo-bei seine Ergebnisse, Modelle und interaktiven Ansichten jederzeit zur Inspektion und Änderung verfügbar sind. KNIME verwendet einen tabellenbasierten Ansatz zur Daten-repräsentation, bei dem Datenattribute als Spalten und Dateninstanzen als Zeilen ge-speichert werden. Konkret hat ein Datenverarbeitungsknoten einige oder alle der fol-genden Komponenten (Forkan, et. al., 2023).

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die Ausgangssituation, das Problem der Datenverarbeitung im Medienkonzern sowie die Zielsetzung und Vorgehensweise der Arbeit.

2. Forschungsstand und theoretische Grundlage: Erläutert den Einsatz rechnergestützter Audit-Tools (CAATs) und die theoretischen Hintergründe der Datenanalyse in der Wirtschaftsprüfung.

3. Forschungskonzept: Definiert die Forschungsfragen und erläutert die methodische Herangehensweise bei der Literatursuche und Wissensbildung.

4. Daten: Analysiert Begriff und Grundlagen von Daten, Big Data, Datenqualität, Auditierung sowie deskriptive und prädiktive Analysemethoden.

5. Schema für ein Scoring-Verfahren: Stellt die Methodik der Bewertung von Softwareprodukten mittels Kriterienkatalogen und Punktbewertungen vor.

6. Anwendung eines Scoring-Verfahrens: Wendet das Scoring-Verfahren praktisch auf die Auswahl alternativer Softwareprodukte für die Datenanalyse an.

7. Datenbankschnittstellen: Untersucht technische Schnittstellen wie APIs, ODBC und JDBC für den Datenaustausch mit Datenbanken.

8. Auswahl der Datenbankschnittstelle: Führt eine spezifische Bewertung der Datenbankschnittstellen für die SAP-KNIME-Anbindung durch und trifft eine Entscheidung für JDBC.

9. Implementierung in die bestehende IT-Systemlandschaft: Beschreibt die praktische Umsetzung und Integration der gewählten Lösung sowie den Einsatz von KNIME und Automatisierungstools.

10. Zusammenfassung: Fasst die Zielsetzung, den Auswahlprozess der Software und die technische Implementierung im Medienkonzern zusammen.

11. Fazit, Forschungslücke & Ausblick: Reflektiert das Vorgehen, beantwortet die Forschungsfragen und diskutiert die Forschungslücken sowie zukünftige Entwicklungen.

Schlüsselwörter

KNIME, Datenanalyse, Big Data, SAP R/3, Revision, Wirtschaftsprüfung, JDBC, Datenaustausch, Schnittstellen, Automatisierung, Scoring-Verfahren, Prozessmodellierung, Data Mining, Datenqualität, IT-Infrastruktur.

Häufig gestellte Fragen

Worum geht es in dieser Bachelorarbeit grundsätzlich?

Die Arbeit behandelt die Optimierung von Workflows in der Revision eines Medienkonzerns durch die Auswahl und Implementierung einer neuen Software-Lösung zur effizienten Analyse großer Datensätze aus SAP-Systemen.

Was sind die zentralen Themenfelder der Arbeit?

Zentrale Themen sind Datenanalyse-Methoden, Big Data, die Bewertung von Software-Schnittstellen (wie ODBC und JDBC) sowie der methodische Auswahlprozess mittels Scoring-Verfahren zur Optimierung von Wirtschaftsprüfungsprozessen.

Was ist das primäre Ziel oder die Forschungsfrage dieser Arbeit?

Das Ziel ist die Identifikation einer leistungsstarken und kosteneffizienten Software-Alternative zu bestehenden Systemen, um Daten aus SAP-Systemen ohne Cloud-Risiken lokal zusammenzuführen und analysierbar zu machen.

Welche wissenschaftliche Methode wird in dieser Arbeit verwendet?

Die Arbeit nutzt ein deduktives Vorgehen sowie ein strukturiertes Scoring-Verfahren, um objektive Entscheidungsgrundlagen für die Software- und Schnittstellenauswahl auf Basis definierter Kriterien zu schaffen.

Was wird im Hauptteil der Arbeit behandelt?

Der Hauptteil umfasst die theoretischen Grundlagen der Datenverwaltung, die detaillierte Evaluierung verschiedener Softwareprodukte, die Auswahl der optimalen Datenbankschnittstelle sowie die praktische Implementierung in die bestehende Unternehmenslandschaft.

Welche Schlüsselwörter charakterisieren diese Arbeit?

Die Arbeit lässt sich durch Begriffe wie KNIME, Datenanalyse, IT-Revision, BI-Schnittstellen, JDBC und Prozessautomatisierung charakterisieren.

Warum ist die Wahl auf KNIME gefallen?

KNIME wurde gewählt, da es eine leistungsstarke, quelloffene Plattform ist, die eine lokale Ausführung ermöglicht, große Datenmengen performant verarbeitet und durch eine flexible Java-basierte Architektur sowie einen modularen Erweiterungsmechanismus besticht.

Welche Rolle spielt die Datenbankschnittstelle JDBC in der Arbeit?

JDBC dient als zentrale, treiberbasierte Schnittstelle, um eine direkte und effiziente Verbindung zwischen dem SAP-System und der KNIME Analytics Platform herzustellen, was die manuelle Datenvorbereitung ersetzt.

Welche technischen Herausforderungen wurden bei der Implementierung genannt?

Herausforderungen waren unter anderem die Anforderung an technisches Wissen der Mitarbeiter, die Stabilität der Workflows bei Updates sowie der hohe Bedarf an Arbeitsspeicher bei der parallelen Verarbeitung großer Datensätze.

Was bedeutet die "Forschungslücke", auf die der Autor verweist?

Die Forschungslücke besteht darin, dass bisher kaum wissenschaftliche Publikationen zur Analyse spezifisch finanzieller Daten mit Open-Source-Tools wie KNIME vorliegen, da sich der Fokus existierender Literatur meist auf Biologie, Chemie oder Cloud-basierte Big-Data-Architekturen verengt.

Excerpt out of 42 pages - scroll top

Details

Title: Optimierung von KNIME Workflows für Big Data Analytics
Subtitle: Wie können große Datensätze aus mehreren Quellen kosteneffektiv zusammengeführt werden?
College: Fresenius University of Applied Sciences Idstein
Grade: 3,0
Author: Constantin Sinowski (Author)
Publication Year: 2024
Pages: 42
Catalog Number: V1488122
ISBN (PDF): 9783389184325
ISBN (Book): 9783389184332
Language: German
Tags: Datenanalyse, KNIME Auditing Finanzbuchhaltung Datenverwaltung
Product Safety: GRIN Publishing GmbH

Quote paper: Constantin Sinowski (Author), 2024, Optimierung von KNIME Workflows für Big Data Analytics, Munich, GRIN Verlag, https://www.grin.com/document/1488122

Optimierung von KNIME Workflows für Big Data Analytics

Wie können große Datensätze aus mehreren Quellen kosteneffektiv zusammengeführt werden?