Wachsende Datenströme und die damit verbundene Herausforderung einer effizienten Verwaltung deuten darauf hin, dass auch Datenbankmanagementsysteme (DBMS) vor einer Revolution stehen. „Tape is Dead, Disk is Tape, Flash is Disk, RAM Locality is King“. So beschrieb Gray, Informatiker und Wissenschaftler bei Microsoft Research, die zunehmende Verschiebung der Speicherhierarchie. Haben traditionelle DBMS noch Sekundärspeicher unter entweder zeilen- oder spaltenorientierter Datenorganisation verwendet, gebrauchen In-Memory Datenbanken (IMDB) Hauptspeicher und eine primär spaltenorientierte Datenorganisation. Damit soll es in Echtzeit möglich sein zum einen große Datenmengen auswerten und zum anderen die Informationen zum Zeitpunkt des Entstehens verarbeiten zu können. Verhinderte in den Achtziger Jahren die starke Unzuverlässigkeit des Hauptspeichers und das hohe Preisniveau die Etablierung von IMDB, so ist es heute möglich den Einsatz in Datenbanken ökonomisch zu legitimieren.
Inhaltsverzeichnis
1. Einleitung
1.1 Motivation
1.2 Aufbau der Arbeit
2. Darstellung von Datenbank-Management-Systemen anhand von Speicherentwicklung und den zugrundeliegenden Benutzungsparadigmen
2.1 Darstellung traditioneller Datenbank-Management-Systeme und deren zugrundeliegenden Benutzungsparadigmen
2.2 Darstellung des In-Memory-Database-Managements mit Hilfe aktueller Speicherverwaltungssysteme
3. Darstellung verschiedener Speicherverwaltungssysteme und Performanz-Evaluation von In-Memory-Datenbanken
3.1 Darstellung verschiedener Speicherverwaltungssysteme
3.1.1 Darstellung der Speicherverwaltung von HDD-Magnetspeicher-Festplatten
3.1.2 Darstellung der Speicherverwaltung von SSD-Halbleiterlaufwerken
3.1.3 Darstellung der Speicherverwaltung von RAM-Arbeitsspeichern
3.2 Performanz-Evaluation von In-Memory-Datenbanken unter Berücksichtigung unterschiedlicher Workloads
4. Empirische Untersuchung zum Vergleich der Performanz von memSQL mit verschiedenen Speicherverwaltungssystemen in einer Amazon Elastic Compute Cloud
4.1 Untersuchungsaufbau zum Vergleich der Performanz von memSQL mit verschiedenen Speicherverwaltungssystemen in einer Amazon Elastic Compute Cloud
4.2 Betrachtung der Performanz von memSQL mit verschiedenen Speicherverwaltungssystemen
4.2.1 Betrachtung der Performanz von HDD-Magnetspeicher-Festplatten
4.2.2 Betrachtung der Performanz von SSD-Halbleiterlaufwerken
4.2.3 Betrachtung der Performanz von RAM-Arbeitsspeichern
4.3 Gesamtergebnisse sowie Bewertung der In-Memory-Datenbank-Performanz mit verschiedenen Speicherverwaltungssystemen
5. Schlussbetrachtung
Zielsetzung & Themen
Die vorliegende Arbeit untersucht die Leistungsfähigkeit von In-Memory-Datenbanken (IMDB) unter verschiedenen Speicherverwaltungssystemen wie HDD, SSD und RAM, um den Einfluss von Datenbankdesign und Workload auf die Performanz in Cloud-Umgebungen zu bewerten.
- Vergleich von HDD-, SSD- und RAM-basierten Speicherkonfigurationen.
- Performanz-Evaluation von memSQL als In-Memory-Datenbank.
- Anwendung von Workloads (OLTP, OLAP, gemischt) in einer Amazon Elastic Compute Cloud.
- Analyse des Einflusses von Speichertechnologien auf Durchsatz und Latenz.
- Bewertung der ökonomischen Effizienz im Kontext von Total Costs of Ownership (TCO).
Auszug aus dem Buch
Darstellung traditioneller Datenbank-Management-Systeme und deren zugrundeliegenden Benutzungsparadigmen
Basierend auf dem von E. F. Codd entwickeltem relationalen Modell sind die heute am häufigsten vertretenen Datenbanken mit einem relationalen Datenbank-Management-System (RDBMS) ausgestattet. Dabei besagt das zugrunde liegende Prinzip, dass sämtliche Daten in Tabellen, sog. Relationen, abgelegt werden können. Die Daten werden hierbei innerhalb der Relationen nach Themenkreisen, sog. Entitäten, geordnet. So werden bei Strukturergänzungen neue Tabellen erzeugt oder bestehende erweitert. Um die Entitäten miteinander zu verknüpfen erfolgt die Definition eines Schlüssels welcher in den miteinander zu verknüpfenden Entitäten für jeden Datensatz vermerkt wird (Abb.2). So wird eine hohe Flexibilität bezüglich Ergänzungen und Änderungen gewährleistet. Allerdings nimmt die Komplexität der Daten mit jeder neuen Entität zu und das Abfragen benötigt mehr Zeit, da das Ergebnis erst aus mehreren Tabellen zusammengeführt muss.
Will man bspw. wissen aus welchem Ort der Kunde kommt, dessen Auftrag ein bestimmter Disponent bearbeitet hat, würde die Abfrage bereits zwei Tabellen beinhalten. Die Anlage eines weiteren Kunden würde hingegen nur das Manipulieren einer einzigen Tabelle erfordern. Folglich ergeben sich im Wesentlichen zwei verschiedenen Benutzungsparadigmen für relationale Datenbanken – OLTP und OLAP.
Zusammenfassung der Kapitel
1. Einleitung: Die Einleitung beleuchtet die zunehmende Bedeutung von Datenströmen im Kontext von Industrie 4.0 und leitet daraus die Relevanz der Untersuchung von In-Memory-Datenbanksystemen ab.
2. Darstellung von Datenbank-Management-Systemen anhand von Speicherentwicklung und den zugrundeliegenden Benutzungsparadigmen: Dieses Kapitel erläutert die Grundlagen von Datenbankmanagementsystemen und unterscheidet zwischen transaktions- (OLTP) und analyseorientierten (OLAP) Systemen.
3. Darstellung verschiedener Speicherverwaltungssysteme und Performanz-Evaluation von In-Memory-Datenbanken: Hier werden die technischen Eigenschaften von HDD-, SSD- und RAM-Speichern analysiert und Methoden zur Messung der Datenbank-Performanz definiert.
4. Empirische Untersuchung zum Vergleich der Performanz von memSQL mit verschiedenen Speicherverwaltungssystemen in einer Amazon Elastic Compute Cloud: Das Hauptkapitel beschreibt den Versuchsaufbau zur Performanzmessung von memSQL auf unterschiedlicher Hardware und präsentiert sowie bewertet die resultierenden Messergebnisse.
5. Schlussbetrachtung: Das Fazit fasst die Erkenntnisse zusammen und betont die Leistungsüberlegenheit von RAM-Speichersystemen gegenüber konventionellen Speichermedien in In-Memory-Umgebungen.
Schlüsselwörter
In-Memory-Datenbank, MemSQL, Performanz-Evaluation, HDD, SSD, RAM, Amazon Elastic Compute Cloud, OLTP, OLAP, Workload-Simulation, Datenbank-Management-System, Durchsatz, Latenz, Speicherkosten, Industrie 4.0
Häufig gestellte Fragen
Was ist das Hauptziel der vorliegenden Masterarbeit?
Die Arbeit untersucht, wie sich verschiedene Speicherverwaltungssysteme (HDD, SSD, RAM) auf die Performanz der In-Memory-Datenbank memSQL auswirken, insbesondere bei unterschiedlichen transaktionalen und analytischen Workloads in einer Cloud-Umgebung.
Welche Speichertechnologien werden explizit miteinander verglichen?
Die Untersuchung vergleicht klassische HDD-Magnetspeicher-Festplatten mit modernen SSD-Halbleiterlaufwerken und RAM-Arbeitsspeichern.
Welche wissenschaftliche Methode wird zur Performanz-Evaluation genutzt?
Die Arbeit nutzt ein empirisches Vorgehen, bei dem ein memSQL-eigenes Benchmark-Szenario in der Amazon Elastic Compute Cloud installiert wird, um verschiedene Workloads unter kontrollierten Bedingungen auf unterschiedlicher Hardware auszuführen.
Welche Rolle spielt memSQL in dieser Untersuchung?
memSQL dient als repräsentative In-Memory-Datenbank, um die Leistungsunterschiede zwischen den Speicherverwaltungssystemen in der Praxis zu quantifizieren.
Was wird im Hauptteil der Arbeit behandelt?
Der Hauptteil umfasst den Versuchsaufbau in der AWS-Infrastruktur, die detaillierte Definition der Workloads (OLTP, OLAP und Mix) sowie die anschließende Auswertung und Bewertung der Messergebnisse für jedes Speichermedium.
Welche Schlüsselbegriffe prägen die Arbeit?
Zentrale Begriffe sind In-Memory-Technologie, Performanz, Workload-Analyse, Speicherkosten (TCO) und die Gegenüberstellung von OLTP- und OLAP-Verarbeitung.
Warum ist RAM für analytische Workloads oft überlegen?
Die Arbeit zeigt, dass RAM aufgrund seiner deutlich geringeren Zugriffszeiten und der direkten Anbindung an den Prozessor eine massiv höhere Performanz bei komplexen analytischen Abfragen im Vergleich zu HDD oder SSD bietet.
Welche ökonomische Schlussfolgerung zieht der Autor?
Neben der reinen technischen Performanz belegt die Arbeit, dass die RAM-Instanz trotz höherer Anschaffungskosten aufgrund ihrer massiv gesteigerten Leistungsfähigkeit oft die effizienteste Lösung hinsichtlich der Leistung pro Betriebskosten darstellt.
- Arbeit zitieren
- Michael Stiebritz (Autor:in), Prof. Dr. Johannes Ruhland (Autor:in), 2016, Leistungsanalyse und Bewertung von Datenbankimplementierungen unterschiedlicher Workloads, München, GRIN Verlag, https://www.grin.com/document/354698