Name: Privacy-aware Klassifikation auf Datenströmen am Beispiel des DAHOT Algorithmus
Price: 17.95 EUR
Availability: InStock
Author: Anonym
ISBN: 9783346793270

Um das Risiko eines Patienten für eine bestimmte Krankheit einzuschätzen, kann ein Klassifikationsmodell verwendet werden, das aus den Daten anderer Patienten gebaut wurde. Wenn im Gesundheitswesen Patientendaten verarbeitet werden, ist es wichtig, dabei die Privacy der Patienten zu gewährleisten. In der Vergangen-heit hat sich gezeigt, dass die Privacy der Patienten auch dann gefährdet sein kann, wenn die Trainingsdaten vor der Klassifikation anonymisiert wurden. Die meisten Methoden zur Gewährleistung der Privacy beziehen sich jedoch auf Da-ten in einer Datenbank und berücksichtigen die besonderen Anforderungen bei der Verarbeitung von Datenströmen nicht. Der DAHOT-Algorithmus ist eine Kombination aus Hoeffding-Baum, k-Anonymität und ℓ-Diversität und stellt die Privacy der Patienten bei der Klassi-fikation von Datenströmen sicher. In dieser Seminararbeit wird der DAHOT-Algorithmus und die dafür notwendigen Grundlagen vorgestellt. Außerdem wird auf die Effektivität und die Grenzen des DAHOT-Algorithmus eingegangen.

Leseprobe

Inhaltsverzeichnis

1. Einleitung

2. Grundlagen

2.1 Klassifikation mit Entscheidungsbäumen

2.2 k-Anonymität

2.3 l-Diversität

2.4 Datenströme

2.5 Hoeffding-Baum

3. DAHOT-Algorithmus

3.1 Grundidee

3.2 Algorithmus

3.3 Beispiel

3.4 Evaluation

3.5 Grenzen

4. Zusammenfassung und Ausblick

Zielsetzung & Themen

Die Arbeit untersucht, wie eine datenschutzkonforme Klassifikation auf unendlichen Datenströmen mittels des DAHOT-Algorithmus realisiert werden kann, um eine Re-Identifizierung von Personen durch Angriffe auf das Modellergebnis zu verhindern.

Privacy-preserving Data Mining in dynamischen Datenströmen
Kombination von Entscheidungsbäumen mit k-Anonymität und l-Diversität
Mechanismen zur anonymen Modellierung ohne vollständige Datenspeicherung
Evaluierung der Vorhersagegenauigkeit unter Wahrung der Privatsphäre

Auszug aus dem Buch

3.1 Grundidee

Das Ziel des DAHOT-Algorithmus ist es, einen Datenstrom zu klassifizieren und dabei die Privacy der Personen, deren Daten verarbeitet werden, in der Ausgabe sicherzustellen. Dazu nutzt er den in Abschnitt 2.5 vorgestellten Hoeffding-Baum als Klassifikationsverfahren. Die k-Anonymität und l-Diversität aus Abschnitt 2.2 und 2.3 wird genutzt, um die Privacy der Personen in der Ausgabe zu gewährleisten. Kotecha und Garg [11] nehmen dabei an, das der anfängliche Teil des Datenstroms ausschließlich Datensätze mit Klassenzuordnung enthält. Der zweite Teil des Datenstroms enthält dagegen eine zufällige Verteilung von Datensätze mit und ohne Klassenzuordnung.

Der DAHOT-Algorithmus baut aus den ankommenden Datensätzen des Datenstroms zunächst einen Hoeffding-Baum auf. Immer dann, wenn der Hoeffding-Baum zur Klassifikation genutzt werden soll, wird er anonymisiert. Dazu wird die Anzahl der Datensätze in den Blättern gezählt. Wenn das Blatt die k-Anonymität oder die l-Diversität verletzt, wird der betroffene Ast abgeschnitten und die Datensätze wandern in den Elternknoten [11].

Dabei werden die Daten des Datenstroms insgesamt zwei Mal betrachtet. Zunächst einmal für den Aufbau des Hoeffding-Baums und anschließend ein zweites Mal um die Anonymität zu überprüfen und wenn notwendig den Ast abzuschneiden. Kommen neue Datensätze an, muss der Hoeffding-Baum aktualisiert werden. Dazu ist es notwendig, einige der bereits verarbeiteten Datensätze noch einmal zu betrachten. Wie in Abschnitt 2.4 beschrieben, soll das bei der Verarbeitung von Datenströmen eigentlich vermieden werden. Kotecha und Garg [11] führen jedoch an, dass durch das zusätzliche Betrachten der bereits verarbeiteten Datensätze Zeit und Speicherplatz eingespart werden kann, da so auf das Speichern von Statistiken, die für die k-Anonymität und die l-Diversität benötigt werden, verzichtet werden kann.

Zusammenfassung der Kapitel

1. Einleitung: Einführung in die Thematik der Klassifikation von Datenströmen unter Berücksichtigung von Datenschutzanforderungen.

2. Grundlagen: Erläuterung der theoretischen Basis, bestehend aus Entscheidungsbäumen, k-Anonymität, l-Diversität, Datenstromcharakteristiken und Hoeffding-Bäumen.

3. DAHOT-Algorithmus: Detaillierte Darstellung des Algorithmus, seiner Grundidee, der funktionalen Abläufe, eines praxisnahen Beispiels sowie einer Evaluation und kritischen Diskussion der Grenzen.

4. Zusammenfassung und Ausblick: Abschließende Reflexion der Ergebnisse und Diskussion zukünftiger Entwicklungsrichtungen für privacy-aware Klassifikationsmodelle.

Schlüsselwörter

Datenströme, Klassifikation, DAHOT-Algorithmus, Privacy, Datenschutz, Hoeffding-Baum, k-Anonymität, l-Diversität, Entscheidungsbäume, Anonymisierung, Informationsgewinn, Datenstrommining, Re-Identifizierung, Modellgenauigkeit, Sensible Attribute

Häufig gestellte Fragen

Was ist das grundlegende Problem, das diese Seminararbeit adressiert?

Die Arbeit befasst sich mit der Herausforderung, personenbezogene Daten in kontinuierlichen Datenströmen zu klassifizieren, ohne dabei die Privatsphäre der Betroffenen durch das Klassifikationsergebnis zu gefährden.

Welche zentralen Konzepte werden zur Sicherung der Anonymität kombiniert?

Es wird eine Kombination aus dem inkrementellen Hoeffding-Baum, der k-Anonymität zur Gruppengrößensicherung und der l-Diversität zur Sicherstellung einer ausreichenden Vielfalt innerhalb der Klassen verwendet.

Was ist das primäre Ziel des DAHOT-Algorithmus?

Das Ziel ist die Erstellung eines Klassifikationsmodells auf Datenströmen, das einerseits Vorhersagen trifft und andererseits sicherstellt, dass kein direkter Rückschluss auf individuelle Datensätze oder sensible Klassen möglich ist.

Welche wissenschaftliche Methode wird zur Klassifikation genutzt?

Dazu wird der Hoeffding-Baum (Very Fast Decision Tree) eingesetzt, der aufgrund seiner Fähigkeit, Datensätze nur einmalig bei Ankunft zu verarbeiten, ideal für Datenströme geeignet ist.

Was wird im Hauptteil der Arbeit behandelt?

Neben den theoretischen Grundlagen werden der Algorithmus und dessen Privacy-Test-Stufen detailliert beschrieben, ein illustratives Beispiel durchgerechnet und die Leistungsfähigkeit anhand von Experimenten evaluiert.

Welche Eigenschaften machen einen Datenstrom besonders?

Ein Datenstrom ist ein potenziell unendlicher Fluss, bei dem das System keinen Einfluss auf die Reihenfolge hat und aufgrund der Datenmenge keine vollständige Speicherung zur späteren Analyse möglich ist.

Warum reicht k-Anonymität allein laut Arbeit oft nicht aus?

Die Arbeit weist auf die Anfälligkeit gegenüber Homogenitätsangriffen und Hintergrundwissen hin, bei denen alle Datensätze einer Äquivalenzklasse denselben sensiblen Wert aufweisen könnten.

Was ist die Konsequenz, wenn die Privatsphäre in einem Blatt verletzt wird?

Falls bei einem Testlauf die k-Anonymität oder l-Diversität unterschritten wird, schneidet der Algorithmus den entsprechenden Ast des Baumes ab und verschiebt die Datensätze in den übergeordneten Elternknoten.

Ende der Leseprobe aus 25 Seiten - nach oben

Details

Titel: Privacy-aware Klassifikation auf Datenströmen am Beispiel des DAHOT Algorithmus
Hochschule: Universität Stuttgart
Note: 1,0
Autor: Anonym (Autor:in)
Erscheinungsjahr: 2018
Seiten: 25
Katalognummer: V1313303
ISBN (PDF): 9783346793263
ISBN (Buch): 9783346793270
Sprache: Deutsch
Schlagworte: privacy-aware klassifikation datenströmen beispiel dahot algorithmus
Produktsicherheit: GRIN Publishing GmbH

Arbeit zitieren: Anonym (Autor:in), 2018, Privacy-aware Klassifikation auf Datenströmen am Beispiel des DAHOT Algorithmus, München, GRIN Verlag, https://www.grin.com/document/1313303