Private AI. Ein Ansatz zur Verarbeitung sensibler Daten für Machine-Learning-Modelle


Wissenschaftliche Studie, 2022

36 Seiten, Note: 1,3


Leseprobe


1 Einleitung

1.1 Motivation

Die Kunstliche Intelligenz (KI) und das damit einhergehende Gebiet des Maschinellen Lernens (ML) (engl. Machine Learning) stellen in der Wirtschaft keine unausgereiften Technologien mehr dar. Wie eine Potenzialanalyse der Sopra Steria GmbH zu dem Thema Kunstliche Intelligenz aus dem Jahr 2017 zeigt, wurde bereits zu dieser Zeit in fast jedem zweiten Unternehmen wenigstens eine KI-Anwendung in einem Unternehmensbereich implementiert [So17, S.13].

Die zunehmende Bedeutung von KI fur Unternehmen zeigt das Beratungsunternehmen McKinsey & Company auf. Sie prognostiziert fur Unternehmen die keine KI-Technologien adaptieren, einen Cash-Flow Ruckgang von bis zu 20%, wodurch wiederum ein Leistungsun- terschied zu KI-Vorreitern entstehen konnte [Mc18]. U.a. deshalb assoziieren die Menschen mit dem Wort KI die Schlagworter Effizienz und bessere Arbeitsergebnisse. Jedoch be- stehen bei Anwender:innen auch negative Verbindung zu dieser Technologie, wie bspw. ein fehlender Datenschutz [Pr20]. In Konsequenz kann dies zu einer geringeren Akzeptanz in der Anwenung einer KI-Applikation sowie der Freigabe von Daten fur die entsprechenden ML-Modelle fuhren. Sowohl aus Sicht von Privatpersonen bezuglich personenbezogener Daten, als auch aus Sicht sensibler Unternehmensdaten.

„Damit Unternehmen das Potenzial neuer KI-Technologien gewinnbringend ausschopfen konnen, ist die Verfugbarkeit relevanter Datenmengen in entsprechender Qualitat eine wesentliche Herausforderung, die es zu bewaltigen gilt.“

2 Felix Entrup

kann darauf zuruckgefuhrt werden, dass Daten von einer einzigen Organisation sehr homogen sein konnen und infolgedessen bei dem Trainieren auf diesen Datensatzen eine geringere Generalisierbarkeit des ML-Modells erzielt werden kann [Ly20, S.1]. Somit bietet die branchen- und unternehmensubergreifende Veroffentlichung und Nutzung von Daten groBe Potenziale fur die Gute von ML-Modellen. Jedoch werden besonders diese speziell benotigten Trainingsdaten von Unternehmen ungern veroffentlicht, da sie „dem Ausbau der eigenen Wettbewerbsfahigkeit dienen“ [Do18, S.158].

1.2 Zielsetzung

Die erste Halfte der vorliegenden Studie befasst sich mit dem Stand der Forschung zu dem Themengebiet Private AI. Dabei zielt eine Literaturrecherche darauf ab, ein grundlegendes Verstandnis uber die Idee von Private AI zu erlangen sowie Grundlagen zu den dazugehorigen wissenschaftlichen Grundkonzepte zu erarbeiten. Dieses Ziel wird von der folgenden Forschungsfrage geleitet:

Auf welchen wissenschaftlichen Grundkonzepten basiert die Idee von Private

AI? (RQ1)

Hierauf basierend ist ein weiteres Ziel dieser Studie nach wissenschaftlich erforschten Ansatze des Private AI Prinzips zu recherchieren, zu analysieren und gegenuberzustellen. Die hierzu entwickelte Forschungsfrage lautet:

Welche Ansatze zu Private AIsind in der Wissenschaft erforscht? (RQ2)

Das abschlieBende Ziel beschaftigt sich mit den in der Praxis implementierten Ansatzen zu Private AI. Hierbei ist das Ziel zu analysieren, welche Implementierungen existieren, worauf sie basieren und ob sie offentlich zuganglich sind:

Welche praktischen Implementierungen existieren zu dem Konzept von Private

AI? (RQ3)

1.3 Aufbau der Studie

Zur Bearbeitung der vorgestellten Motivation und Erreichung der definierten Ziele ist in dieser Studie eine systematische Literaturrecherche gewahlt worden. Diese ist hierzu in zwei unterschiedliche Phasen aufgeteilt (s. Abb. 1), welche die inhaltliche Struktur der vorliegenden Arbeit widerspiegeln sollen.

Private AI 3

Die erste Phase bildet die grundlegenden Modelle in Relation zu Private AI. Im Rahmen einer systematischen Literaturrecherche sind Grundlagen zu der Idee von Private AI (s. Kapitel 2.1), zu den Machine-Learning Trainingsansatzen Supervised Learning (s. Kapitel 2.2.1), Unsupervised Learning (s. Kapitel 2.2.2) und Ensemble Learning (s. Kapitel 2.2.3) sowie zu der Fully Homomorphic Encrytion (s. Kapitel 2.3) und Secure Multi Party Computation (s. Kapitel 2.4 erarbeitet. Die in den jeweiligen Themengebieten erlangten Erkenntnisse sind in der anschlieBenden Phase von Relevanz. Sie dienen der Identifikation von in der Wissenschaft existierenden (s. Kapitel 3.1) und in der Praxis implementierten Ansatze und Konzepte der Idee von Private AI (s. Kapitel 3.3). In dem abschlieBenden Kapitel 3.4 ist aus den identifizierten praktischen Implementierungen eine Gegenuberstellung dieser vorgenommen.

Die in der ersten Phase angewendete Literaturrecherche basiert auf einer systematischen Literaturrecherche. Die in der zweite Phase getatigten Recherche zu wissenschaftlichen Ansatzen zu Private AI basiert hingegen auf einer hybriden Strategie, bestehend aus einer Kombination von einer Vorwarts- und Ruckwarts gerichteten sowie systematischen Recherche. In Tabelle 1 sind die in der systematischen Literaturrecherche angewendeten Suchbegriffe festgehalten. Hierbei sind neben der Verwenendung der Suchmaschine Google Scholar folgende Recherchedatenbanken durchsucht worden:

- ACM Digital Library
- IEEE Xplore / Electronic Library Online (IEL)
- Digitale Bibliothek der Gesellschaft fur Informatik
- Staats- und Universitatsbibliothek Hamburg, Carl von Ossietzky

Der Ausgangspunkt fur die Ruckwarts gerichtete Literaturrecherche ist die zu Fully Homomorphic Encryption (FHE) veroffentlichte Dissertation von Craig Gentry [Ge09]. Der primare Grund zur Auswahl dieses Werkes ist, Publikationen zu Machine Learning identifizieren zu konnen, welche auf die „Durchbruchs-“ Arbeit von FHE referenzieren und die beiden Forschungsbereiche hochstwahrscheinlich in Verbindung setzen. Fur die Vorwarts gerichtete Literaturrecherche ist eines der neuesten Ausarbeitungen von Kristin E. Lauter [La21] als Ausgangspunkt gewahlt, da die Publikation ebenso der Ausgangspunkt und Treiber dieser Studie ist. Ob eine aus der Literaturrecherche resultierende Publikation fur die Studie infrage kommt, entscheiden neben der kontextbezogenen Abdeckung zwei weitere Kriterien: das Datum der Veroffentlichung und die Anzahl der Erwahnungen in nachfolgenden Arbeiten. Der Vorteil der Berucksichtigung des Datums der Veroffentlichung ist, dass der historische Verlauf des Forschungsgebiets gezielt festgehalten werden kann.

Die dritte Phase schlieBt die vorliegende Studie mit einer Zusammenfuhrung der Ergebnisse, einer kritischen Wurdigung und einem Ausblick ab (s. Kapitel 4).

Abbildung in dieser Leseprobe nicht enthalten

Tab. 1: Suchbegriffe fur die systematische Literaturrecherche

Abbildung in dieser Leseprobe nicht enthalten

Abb. 1: Aufbau der Studie Private AI 5

2 Grundlegende Modelle zu Private AI

2.1 Die Idee hinter Private AI

Der Begriff Machine Learning wurde in den 1950er Jahren von Arthur Samuel, einem Mitarbeiter der IBM Corporation, eingefuhrt und auch gepragt. Er demonstrierte in einer seiner Forschungen, dass man einem Computer das eigenstandige Spielen von Checkers (zu dt. Dame) beibringen kann [LE15]. Hierauf basierend entwickelte sich die Forschung zu Machine Learning stetig weiter und befand sich nach dem Gartner Inc., einem Anbieter von Marktforschungsergebnissen und Analyse uber die Entwicklung in der IT, auswirtschaftlicher Perspektive im Jahr 2017 bereits auf dem Scheitelpunkt des Gartner Hype Cycles [Ga17]. Dieser Trend hat sich in dem aktuellen Gartner Hype Cycle for Artificial Intelligence 2021 zwar abgeflacht und bewegt sich in die Zone der Ernuchterung. Dennoch werden stetig neue Trends identifiziert, welche auf die Forschung zu Machine Learning aufbauen. Eines dieser Trends stellt nach Gartner Inc. die „Responsible AI“ dar. Sie wird u.a. dadurch definiert, dass „organizations must develop and operate AI systems with fairness and transparency and take care of safety, privacy and society at large“ [Ga21].

Dieselbe Idee verbirgt sich hinter dem Titel dieser Studie: Private AI. Kristin E. Lauter [Me21], die den derzeitigen Fokus ihrer Forschung bei Homomorphic Encrytion und Private AI setzt und auch die Inspiration zu dieser Arbeit war, definiert den Begriff wie folgt:

Private AI refers to our Homomorphic Encryption-based tools for protecting the privacy of enterprise, customer, or patient data, while doing Machine Learning (ML)-based AI, both learning classification models and making valuable predictions based on such models. [La21, S.2]

Diese Definition beantwortet die zu Beginn aufgestellte erste Forschungsfrage (s. RQ1 in Kapitel 1.2), auf welchen wissenschaftlichen Grundkonzepten die Idee der Private AI basiert. Aufgrund dessen werden in den folgenden beiden Unterkapiteln die grundlegenden Begrifflichkeiten zu Machine Learning (s. Kapitel 2.2) und (Fully) Homomorphic Encryption (s. Kapitel 2.3) naher erlautert.

Die Abbildung 2 visualisiert auf Meta-Ebene den Prozess von Private AI.

Zudem sind in Kapitel 2.4 die Grundlagen zu Secure Multi Party Computation (MPC) ausgearbeitet, da viele der in Kapitel 3.1 identifizierten wissenschaftlichen Ausarbeitungen auf dessen Gebrauch verweisen.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 2: Beispielhafter Prozess zur Anwendung von HomomorphicEncryption beim Machine Learning2

2.2 Machine Learning

Das Forschungsfeld zu Machine Learning stellt eine Teilmenge des breiten und medial sehr bekannten Forschungsfelds zur Kunstliche Intelligenz (KI) dar. Die KI greift auf verschiedenste Ansatze zuruck, um Maschinen intelligent zu konstruieren. Machine Learning stellt dabei einen Ansatz dar, bei dem eine Maschine mithilfe von Beispieldaten und/oder vergangenen Erfahrungen die eigenstandige Durchfuhrung von Aufgaben erlernen soll [Al20, S.3] [RRC19, S.3]. Obwohl Machine Learning ein Teilgebiet der KI darstellt, kann es wiederum auch in viele verschiedenste Teilgebiete unterteilt werden, welche sich in der Art des Lernens einer Maschine unterscheiden. In Abbildung 3 ist eine reduzierte Ubersicht der verschiedenen Machine Learning Ansatze abgebildet, und im Folgenden naher erlautert.

Abbildung in dieser Leseprobe nicht enthalten

Abb. 3: Ausgewahlte Machine Learning Methoden3

2.2.1 Supervised Learning

Supervised Learning ist die bekannteste Vorgehensweise eine Maschine zu trainieren. Hierbei handelt es sich um einen Ansatz, welcher haufig bei Klassifikationsproblemen angewendet wird, da das Ziel zumeist klar definiert ist: neuen Daten vordefinierte Klassen zuzuordnen. Um dieses Ziel erreichen zu konnen, versuchen spezifische Algorithmen des Supervised Learnings eine Funktion ausfindig zu machen, welche eine zuverlassige Zuordnung der Klassen vornehmen kann. Des Weiteren kann Supervised Learning ebenso auf Regressionsprobleme angewendet werden, welche die Vorhersage von Werten einer kontinuierlichen Variablen als Ziel besitzen [RRC19, S.19f.] [Jo21, S.70ff.].

Bei dem Supervised Learning wird der Algorithmus auf einen fur das spezifische Anwen- dungsproblem aufbereiteten Datensatz angewendet, bei dem den jeweiligen Daten bereits ein Label zugeordnet ist. Bei einem Klassifikationsproblem entspricht dies eine Zielklas- sifikation. Dieser Datensatz wird auch Trainingsdatensatz genannt, da er ausschlieBlich zum Trainieren eines Algorithmus verwendet wird. Mithilfe des Trainingsdatensatzes hat der Algorithmus die Moglichkeit, Beziehungen zwischen den Daten und deren Zielklassifikation zu identifizieren, und darauf basierend eine Zielfunktion herzuleiten [Ve20, S.6f.] [MKB16, S.7f.] [Jo21, S.11] [IY15, S.946ff.]. Neben dem Trainingsdatensatz existiert bei dem Supervised Learning noch ein Testdatensatz, welcher zur Berechnung der Gute des entwickelten ML-Modells verwendet wird. Bekannte Metriken stellen „Precision“, „Recall“, „Accuracy“, „F-Score“ etc. dar [Mi19].4

Abbildung in dieser Leseprobe nicht enthalten

Abb. 4: Supervised Machine Learning Modell5

Zur Berechnung der Zielfunktion sind verschiedenste Techniken und Algorithmen entwickelt.

[...]

Ende der Leseprobe aus 36 Seiten

Details

Titel
Private AI. Ein Ansatz zur Verarbeitung sensibler Daten für Machine-Learning-Modelle
Hochschule
Universität Hamburg
Note
1,3
Autor
Jahr
2022
Seiten
36
Katalognummer
V1224769
ISBN (eBook)
9783346653642
Sprache
Deutsch
Schlagworte
private, ansatz, verarbeitung, daten, machine-learning-modelle
Arbeit zitieren
Felix Entrup (Autor:in), 2022, Private AI. Ein Ansatz zur Verarbeitung sensibler Daten für Machine-Learning-Modelle, München, GRIN Verlag, https://www.grin.com/document/1224769

Kommentare

  • Noch keine Kommentare.
Blick ins Buch
Titel: Private AI. Ein Ansatz zur Verarbeitung sensibler Daten für Machine-Learning-Modelle



Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden