Diese Hausarbeit konzentriert sich auf die Cassandra-Datenbanktechnologie und ihre Anwendung
in der datenbasierten Entscheidungsfindung. Sie betont die Bedeutung von Datenbanken für
die Verwaltung und Speicherung großer Datenmengen und hebt die Effizienz von Cassandra
in Umgebungen mit hohen Skalierbarkeits- und Verteilungsanforderungen hervor. Die Arbeit
untersucht sowohl die Theorie als auch die Praxis. Dabei zeigt eine Fallstudie zum Abrufen und
Speichern von NASDAQ-Werten die Praxistauglichkeit von Cassandra auf. Herausforderungen
und Stärken von Cassandra, einschließlich ihrer Skalierbarkeit, Fehlertoleranz und verteilten Architektur,
werden detailliert erörtert. Abschließend wird die wachsende Bedeutung von Cassandra
in der Echtzeit-Datenanalyse und Big-Data-Verarbeitung erläutert.

Excerpt

Inhaltsverzeichnis

1 Einleitung

2 Cassandra - Theorie

2.1 Ursprünge

2.2 Eigenschaften

2.3 Stärken und Schwächen

2.3.1 Stärken

2.3.2 Schwächen

3 Cassandra - Praxis

3.1 Anwendungsbeispiele

3.2 Installation

3.3 Codebeispiel

3.3.1 Grundstruktur

3.3.2 Grunddaten

3.3.3 Abfrage

3.3.4 Ergebnisse

4 Fazit

Zielsetzung & Themen

Die Arbeit untersucht die Eignung der Cassandra-Datenbanktechnologie für datenintensive Umgebungen mit hohen Anforderungen an Skalierbarkeit und Fehlertoleranz. Ziel ist es, durch die Analyse der theoretischen Grundlagen sowie eine praktische Fallstudie – das Abrufen und Speichern von NASDAQ-Aktienkursen – die Leistungsfähigkeit des Systems in der Praxis zu demonstrieren.

Analyse der Architektur und der Funktionsweise von Apache Cassandra.
Untersuchung der Stärken und Limitationen (ACID-Eigenschaften, Denormalisierung).
Praktische Implementierung mittels Docker und DataStax Studio.
Demonstration der Datenanbindung mittels Python und der Alpha Vantage API.
Evaluation der Praxistauglichkeit für Echtzeit-Echtzeit-Datenanalysen im Finanzsektor.

Auszug aus dem Buch

3.3.1 Grundstruktur

Zur Nutzung der Cassandra-Datenbank für die Speicherung und Analyse von Börsendaten illustriert der folgende CQL Code die Initialisierung und Strukturierung der erforderlichen Datenbanktabellen. Hierbei wird ein systematischer Ansatz verfolgt, um effizient und zielgerichtet Börsendaten zu speichern und abrufbar zu machen.

Zunächst wird mittels des CREATE KEYSPACE Befehls ein neuer Schlüsselraum (Keyspace) mit dem Namen stock_data erstellt. Dieser Schlüsselraum dient als übergeordneter Container für die Tabellen und definiert die Replikationsstrategie. In diesem Fall wird die SimpleStrategy mit einem replication_factor von 1 gewählt, was ausreichend für eine einfache, nicht-verteilte Datenbank oder für Testumgebungen ist.

Nach der Erstellung des Schlüsselraums wird dieser mittels des USE Befehls aktiviert, sodass alle weiteren Operationen innerhalb dieses Kontextes stattfinden.

Der nächste Schritt beinhaltet die Erstellung der Tabelle stock_values, die als eine Art Verzeichnis für Aktien dient. Sie enthält Spalten für das Börsensymbol (stock_symbol) und den Unternehmensnamen (company_name). Diese beiden Attribute bilden gemeinsam den Primärschlüssel der Tabelle, was bedeutet, dass jede Kombination aus Börsensymbol und Unternehmensname in dieser Tabelle einzigartig sein muss.

Anschließend werden spezifische Tabellen für jedes der ausgewählten Unternehmen – Apple, Microsoft und Amazon – erstellt. Jede dieser Tabellen enthält Spalten für den Zeitstempel (timestamp), den Unix-Zeitstempel (timestamp_unix), sowie für die Börsenkurse: Eröffnungskurs (open), Höchstkurs (high), Tiefstkurs (low), Schlusskurs (close) und Handelsvolumen (volume). Der Primärschlüssel für jede dieser Tabellen wird durch eine Kombination aus dem regulären Zeitstempel (timestamp) und dem Unix-Zeitstempel (timestamp_unix) gebildet. Diese einzigartige Zusammensetzung gewährleistet, dass jede Datenzeile in der Tabelle eindeutig identifizierbar ist und sich durch die spezifische Kombination beider Zeitstempelarten von allen anderen unterscheidet.

Zusammenfassung der Kapitel

1 Einleitung: Die Einleitung führt in die Herausforderungen der modernen Datenverwaltung ein und stellt Apache Cassandra als skalierbare Lösung vor, deren theoretische und praktische Aspekte in den Folgekapiteln analysiert werden.

2 Cassandra - Theorie: Dieses Kapitel erläutert die Ursprünge und Eigenschaften von Cassandra und prüft kritisch die Vor- und Nachteile sowie die technischen Limitationen des Systems.

3 Cassandra - Praxis: Im Praxisteil wird die Anwendung von Cassandra veranschaulicht, von der Installation über die Datenmodellierung bis hin zur Implementierung eines Skripts zur Abfrage und Analyse von Finanzdaten.

4 Fazit: Das Fazit fasst die Erkenntnisse zusammen und bestätigt die Eignung von Cassandra für datenintensive Anwendungen, wobei ein Ausblick auf die zukünftige technologische Relevanz gegeben wird.

Schlüsselwörter

Apache Cassandra, NoSQL, Datenbanktechnologie, Skalierbarkeit, Fehlertoleranz, Wide Column Store, CQL, Datenmodellierung, Echtzeit-Analyse, NASDAQ, API, Docker, DataStax, Big Data, Finanzmarkt

Häufig gestellte Fragen

Worum geht es in der Arbeit grundlegend?

Die Arbeit fokussiert sich auf die Cassandra-Datenbanktechnologie und analysiert deren Nutzen für die Verwaltung und Speicherung großer Datenmengen im professionellen Umfeld.

Was sind die zentralen Themenfelder?

Die zentralen Themen sind die theoretischen Grundlagen der Cassandra-Architektur, ihre spezifischen Stärken und Schwächen sowie die praktische Anwendung im Kontext von Börsenkursdaten.

Was ist das primäre Ziel der Untersuchung?

Das primäre Ziel ist es, die Praxistauglichkeit von Cassandra zu evaluieren und aufzuzeigen, wie Daten aus einer externen API effizient gespeichert und analysiert werden können.

Welche wissenschaftliche Methode wird ergänzend verwendet?

Neben einer theoretischen Analyse der Technologie führt die Arbeit eine eigene Fallstudie durch, in der reale NASDAQ-Börsendaten verarbeitet und visualisiert werden.

Was wird im Hauptteil behandelt?

Der Hauptteil ist zweigeteilt: Zuerst werden die technischen Ursprünge, Eigenschaften und die NoSQL-Architektur beleuchtet, anschließend folgt die praktische Implementierung und Auswertung anhand von Börsendaten.

Welche Schlüsselbegriffe charakterisieren die Arbeit?

Schlüsselbegriffe sind insbesondere Apache Cassandra, Skalierbarkeit, Fehlertoleranz, Wide Column Store, CQL, Fehlertoleranz und praktische Datenabfrage mittels APIs.

Warum wird im Beispiel von der Alpha Vantage API berichtet?

Die API dient als Beispielquelle für Echtzeit- und historische Finanzdaten, um zu zeigen, wie Cassandra komplexe Datensätze aus dem Internet skalierbar erfassen und persistieren kann.

Welche Rolle spielt Docker innerhalb der Fallstudie?

Docker wird als Containerisierungslösung genutzt, um Cassandra plattformunabhängig und in einer abgeschotteten Umgebung effizient zu installieren und zu betreiben.

Wie werden die Ergebnisse der Datenbankanfrage visualisiert?

Die Visualisierung erfolgt unter Nutzung von DataStax Studio, welches die gespeicherten Tabellendaten aus Cassandra liest und als grafische Börsencharts aufbereitet.

Was ist eine zentrale Limitation von Cassandra?

Eine zentrale Limitation ist laut der Arbeit das Fehlen von ACID-Eigenschaften sowie die Auswirkungen der notwendigen Datendenormalisierung auf die Schreibperformance.

Excerpt out of 27 pages - scroll top

Details

Title: Cassandra-Datenbank. Von der Theorie zur Praxis
College: University of Applied Sciences Südwestfalen in Iserlohn
Grade: 1.0
Author: Moritz Brühl (Author)
Publication Year: 2024
Pages: 27
Catalog Number: V1449564
ISBN (PDF): 9783963559099
Language: German
Tags: Datenbank NoSql Cassandra IT
Product Safety: GRIN Publishing GmbH

Quote paper: Moritz Brühl (Author), 2024, Cassandra-Datenbank. Von der Theorie zur Praxis, Munich, GRIN Verlag, https://www.grin.com/document/1449564

Cassandra-Datenbank. Von der Theorie zur Praxis