In dieser Hausarbeit wird die Frage erläutert, welche Faktoren für den Erfolg und die Qualität eines Text-zu-Bild-Generators verantwortlich sind. Welche technischen Voraussetzungen muss ein neurales Modell erfüllen, wie ist der Stand der aktuellen Entwicklung und wo liegen die Grenzen? Zur Beantwortung dieser Fragestellung wird im Rahmen der Arbeit eine Literaturrecherche herangezogen. Außerdem wurde im Juni 2022 durch eine Einladung ein Zugang zum modernen Text-zu-Bild-Generator DALL-E 2 von Open AI erlangt, um eine stichprobenhafte Evaluation der Outputs zu ermöglichen. Mithilfe der Literaturrecherche sowie Stichproben innerhalb von aktuellen Bildgeneratoren sollen folgende Hypothesen untersucht werden:
H1: Aktuelle Text-zu-Bild-Generatoren sind in der Lage, Bilder in einer Qualität zu generieren, wie Menschen es in der Fotografie und der Bildkunst können. H2: Text-zu-Bild-Generatoren sind durch ihren Trainingsdatensatz begrenzt und können keine Werke erstellen, für die sie nicht mit genügend Referenzen trainiert wurden.

Menschen haben ein starkes visuelles Vorstellungsvermögen. Wenn Menschen über sensorische Charakteristiken nachdenken, vermitteln sie sie selbst über Bilder, die sie sich in ihrem Bewusstsein vorstellen. Dieses Vorstellungsvermögen spielt eine wichtige Rolle dabei, Erinnerungen zu verarbeiten und Zusammenhänge herzustellen. Bildverarbeitungstechnologien, die in Computerspielen oder Anwendungen wie Photoshop eingesetzt werden, haben in den letzten Jahren stark von der Maschine-Learning-Technologie profitiert. Einer der neuen Felder ist die Synthese von Bildmaterial durch Text-zu-Bild-Generatoren. Die Grundlagen hierfür legten Godfellow et al. 2014, indem sie neuralen Netzwerken beibrachten, sich selbst zu trainieren. Dafür trainierten sie zwei Modelle. Beide Modelle wurden mit Bildern aus einem Datensatz trainiert. Allerdings sollte das erste Modell, das Generative Model, daraus neue Bilder kreieren und das zweite Modell, das Discriminative Model, feststellen, ob das erste Modell die Bilder aus dem Datensatz nur kopiert oder tatsächlich ein neues Bild generiert hat. Im statistisch besten Sinne gab das zweite Modell die Wahrscheinlichkeit, ob die Ausgabe ein neues Bild ist, mit einem Koeffizienten an. So wurde der Weg zu einem Bildgenerator, der neue Bilder generiert, die es zuvor so noch nicht gegeben hatte, zu einem Spiel mit zwei Spielern.

Excerpt

Inhaltsverzeichnis

1. Einleitung

2. Fragestellung, Ziele und Methodik der Arbeit

2.1. Recherche

3. Technische Grundlagen von Text-zu-Bild-Generatoren

3.1. Generative adverserial networks

3.2. Text-to-Image-Synthesis (T2I)

3.3. Modernes T2I: Hierarchische Generatoren

3.4. Aktuelle Entwicklungen

4. Evaluation von Text-zu-Bild-Generatoren

4.1. Technische Evaluation

4.2. Menschliche Evaluation

4.3. Evaluation willkürlicher Stichproben aus unCLIP (DALL-E 2)

5. Diskussion

6. Fazit

Zielsetzung & Themen

Die Arbeit untersucht die Faktoren für den Erfolg und die Qualität moderner Text-zu-Bild-Generatoren, wobei technische Voraussetzungen, der Stand der aktuellen Entwicklung sowie existierende Systemgrenzen analysiert werden.

Technische Architektur von Bildgenerierungsmodellen (GANs, Diffusion Models).
Methoden zur technischen und menschlichen Evaluation der Output-Qualität.
Empirische Untersuchung von DALL-E 2 anhand willkürlicher Stichproben.
Herausforderungen im Bereich des Prompt Engineering und der Bild-Text-Treue.

Auszug aus dem Buch

3. Technische Grundlagen von Text-zu-Bild-Generatoren

Ein Text-zu-Bild-Generator besteht aus einem neuralen Netzwerk, welches mit einem Trainingsdatensatz aus Bildern trainiert und auf Texte konditioniert wird, dem Generator. In der Trainingsphase prüft ein Diskriminator, ob es sich bei dem generierten Bild um ein Bild aus dem Trainingsdatensatz handelt oder ob es ein neu erschaffenes Bild ist. Die Aufgabe des Diskriminators geht aber noch weit darüber hinaus, denn es sollen Bilder entstehen, die für das menschliche Auge sinnvoll sind und mit der Texteingabe im Zusammenhang stehen. Es ist nicht nur wichtig, ein realistisches Bild herzustellen, sondern auch Kontrolle über den Prozess der Bildgenerierung zu erlangen. Doch zunächst ist zu verstehen, was hier überhaupt trainiert werden soll. Häufig wird beim Trainingsprozess von dem Begriff Deep Learning gesprochen. Mit diesem Deep Learning soll ein neurales Netzwerk trainiert werden. Ein Beispiel für ein neurales Netzwerk stellt das Gehirn dar. Ein Neuron ist ein Punkt im Netzwerk, welches ein Aktionspotenzial hat, das ausgelöst wird, wenn eingehende Verbindungen gewichtet aufaddiert werden. Diese veranlassen das Neuron, nach einer nicht linearen Aktivierungsfunktion zu „feuern“. Das Neuron kann in verschiedenen Stärken in einem Wertebereich zwischen 0,1 und -1,1 feuern. Dieser Prozess heißt Transformation. Das „Gefeuerte“, also der Output, wird zu einem nachgeschalteten Neuron weitergeleitet und dient dort als Input. In diesem Neuron werden die Eingaben wieder gewichtet und wiederum nach einer bestimmten Formel eine Aktivierung veranlasst. Die Neuronen in einem neuralen Netzwerk werden in Neuronenschichten angeordnet. Da für komplexe Operationen viele neuronale Schichten notwendig sind, haben diese für eine sinnvolle Anwendung eine bestimme Tiefe.

Zusammenfassung der Kapitel

1. Einleitung: Beschreibt die historische Entwicklung und die technologischen Grundlagen der KI-basierten Bildsynthese.

2. Fragestellung, Ziele und Methodik der Arbeit: Definiert die Forschungsfragen und erläutert das methodische Vorgehen bei der Literaturrecherche im Kontext aktueller KI-Tools.

3. Technische Grundlagen von Text-zu-Bild-Generatoren: Erläutert die Funktionsweise von GANs und die Evolution hin zu hierarchischen Modellen und modernen Diffusion Models.

4. Evaluation von Text-zu-Bild-Generatoren: Analysiert verschiedene automatisierte Metriken sowie Herausforderungen der menschlichen Evaluierung bei der Güte von KI-Outputs.

5. Diskussion: Reflektiert den Fortschritt der Technologie kritisch und diskutiert gesellschaftliche Implikationen sowie die Rolle des Menschen bei der Bildgenerierung.

6. Fazit: Fasst die Ergebnisse zusammen und bewertet die aufgestellten Hypothesen hinsichtlich der Leistungsfähigkeit und der Grenzen von Bildgeneratoren.

Schlüsselwörter

Text-zu-Bild-Generatoren, Künstliche Intelligenz, GAN, DALL-E 2, Deep Learning, Bildsynthese, Diffusion Models, Prompt Engineering, Bild-Text-Treue, Evaluation, Inception Score, maschinelles Lernen, neuronale Netzwerke, semantische Analyse.

Häufig gestellte Fragen

Worum geht es in dieser Arbeit grundsätzlich?

Die Arbeit untersucht die technischen Grundlagen, Erfolgsfaktoren und Limitationen moderner Text-zu-Bild-Generatoren wie DALL-E 2.

Welche zentralen Themenfelder werden bearbeitet?

Die Schwerpunkte liegen auf der Architektur neuronaler Netzwerke, den Evaluationsmetriken für die Bildqualität und der praktischen Anwendung durch Prompting.

Was ist das primäre Ziel der Untersuchung?

Es soll geklärt werden, welche Anforderungen an KI-Modelle gestellt werden müssen, um hochwertige, konsistente Ergebnisse zu liefern und wo die technologischen Grenzen liegen.

Welche wissenschaftlichen Methoden kommen zum Einsatz?

Neben einer fundierten Literaturrecherche nutzt der Autor eine eigene stichprobenhafte Evaluation der Outputs von DALL-E 2 aus dem Jahr 2022.

Was steht im inhaltlichen Mittelpunkt des Hauptteils?

Der Hauptteil befasst sich detailliert mit der Evolution von GANs, der mathematischen Funktionsweise von Deep Learning und der vergleichenden Analyse technischer Evaluationsmodelle.

Welche Keywords charakterisieren die Publikation?

Die wesentlichen Begriffe sind Bildsynthese, generative KI, neurale Netzwerke, Evaluation, Prompting und Bild-Text-Treue.

Was ist das spezifische Ergebnis zur Hypothese der Datensatzbegrenzung (H2)?

Die Hypothese, dass KI-Modelle nur in der Lage sind, Werke innerhalb ihres Trainingsdatensatzes zu kopieren, wird durch moderne Fortschritte im Modellverständnis abgelehnt.

Wie bewertet der Autor die Rolle des Menschen bei der Nutzung dieser Tools?

Der Autor stellt fest, dass ein Text-zu-Bild-Generator aktuell eher wie ein spezialisiertes Werkzeug (ähnlich Photoshop) fungiert und die kreative Leistung sowie die Prompt-Optimierung weiterhin beim Menschen liegen.

Excerpt out of 33 pages - scroll top

Details

Title: Text-zu-Bild-Generatoren wie DALL-E 2. Einsatz, Risiken und Systemgrenzen von "kreativer" künstlicher Intelligenz
College: University of Applied Sciences Essen
Course: E-Business
Grade: 1,0
Author: Alexander Scharff (Author)
Publication Year: 2022
Pages: 33
Catalog Number: V1290289
ISBN (PDF): 9783346752079
ISBN (Book): 9783346752086
Language: German
Tags: DALL-E 2 KI T2I Text to image text zu bild generatoren prompts
Product Safety: GRIN Publishing GmbH

Quote paper: Alexander Scharff (Author), 2022, Text-zu-Bild-Generatoren wie DALL-E 2. Einsatz, Risiken und Systemgrenzen von "kreativer" künstlicher Intelligenz, Munich, GRIN Verlag, https://www.grin.com/document/1290289

Text-zu-Bild-Generatoren wie DALL-E 2. Einsatz, Risiken und Systemgrenzen von "kreativer" künstlicher Intelligenz