Grin logo
en de es fr
Shop
GRIN Website
Publicación mundial de textos académicos
Go to shop › Informática - Inteligencia artificial

Text-zu-Bild-Generatoren wie DALL-E 2. Einsatz, Risiken und Systemgrenzen von "kreativer" künstlicher Intelligenz

Título: Text-zu-Bild-Generatoren wie DALL-E 2. Einsatz, Risiken und Systemgrenzen von "kreativer" künstlicher Intelligenz

Trabajo , 2022 , 33 Páginas , Calificación: 1,0

Autor:in: Alexander Scharff (Autor)

Informática - Inteligencia artificial
Extracto de texto & Detalles   Leer eBook
Resumen Extracto de texto Detalles

In dieser Hausarbeit wird die Frage erläutert, welche Faktoren für den Erfolg und die Qualität eines Text-zu-Bild-Generators verantwortlich sind. Welche technischen Voraussetzungen muss ein neurales Modell erfüllen, wie ist der Stand der aktuellen Entwicklung und wo liegen die Grenzen? Zur Beantwortung dieser Fragestellung wird im Rahmen der Arbeit eine Literaturrecherche herangezogen. Außerdem wurde im Juni 2022 durch eine Einladung ein Zugang zum modernen Text-zu-Bild-Generator DALL-E 2 von Open AI erlangt, um eine stichprobenhafte Evaluation der Outputs zu ermöglichen. Mithilfe der Literaturrecherche sowie Stichproben innerhalb von aktuellen Bildgeneratoren sollen folgende Hypothesen untersucht werden:
H1: Aktuelle Text-zu-Bild-Generatoren sind in der Lage, Bilder in einer Qualität zu generieren, wie Menschen es in der Fotografie und der Bildkunst können. H2: Text-zu-Bild-Generatoren sind durch ihren Trainingsdatensatz begrenzt und können keine Werke erstellen, für die sie nicht mit genügend Referenzen trainiert wurden.

Menschen haben ein starkes visuelles Vorstellungsvermögen. Wenn Menschen über sensorische Charakteristiken nachdenken, vermitteln sie sie selbst über Bilder, die sie sich in ihrem Bewusstsein vorstellen. Dieses Vorstellungsvermögen spielt eine wichtige Rolle dabei, Erinnerungen zu verarbeiten und Zusammenhänge herzustellen. Bildverarbeitungstechnologien, die in Computerspielen oder Anwendungen wie Photoshop eingesetzt werden, haben in den letzten Jahren stark von der Maschine-Learning-Technologie profitiert. Einer der neuen Felder ist die Synthese von Bildmaterial durch Text-zu-Bild-Generatoren. Die Grundlagen hierfür legten Godfellow et al. 2014, indem sie neuralen Netzwerken beibrachten, sich selbst zu trainieren. Dafür trainierten sie zwei Modelle. Beide Modelle wurden mit Bildern aus einem Datensatz trainiert. Allerdings sollte das erste Modell, das Generative Model, daraus neue Bilder kreieren und das zweite Modell, das Discriminative Model, feststellen, ob das erste Modell die Bilder aus dem Datensatz nur kopiert oder tatsächlich ein neues Bild generiert hat. Im statistisch besten Sinne gab das zweite Modell die Wahrscheinlichkeit, ob die Ausgabe ein neues Bild ist, mit einem Koeffizienten an. So wurde der Weg zu einem Bildgenerator, der neue Bilder generiert, die es zuvor so noch nicht gegeben hatte, zu einem Spiel mit zwei Spielern.

Extracto


Inhaltsverzeichnis

  • 1. Einleitung
  • 2. Fragestellung, Ziele und Methodik der Arbeit
    • 2.1 Recherche
  • 3. Technische Grundlagen von Text-zu-Bild-Generatoren
    • 3.1 Generative adverserial networks
    • 3.2 Text-to-Image-Synthesis (T2I)
    • 3.3 Modernes T2I: Hierarchische Generatoren
    • 3.4 Aktuelle Entwicklungen
  • 4. Evaluation von Text-zu-Bild-Generatoren
    • 4.1 Technische Evaluation
    • 4.2 Menschliche Evaluation
    • 4.3 Evaluation willkürlicher Stichproben aus unCLIP (DALL-E 2)
  • 5. Diskussion
  • 6. Fazit

Zielsetzung und Themenschwerpunkte

Diese Arbeit untersucht den Einsatz, die Risiken und die Systemgrenzen bildgenerierender künstlicher Intelligenz, speziell von Text-zu-Bild-Generatoren wie DALL-E 2. Ziel ist es, ein umfassendes Verständnis der Technologie, ihrer Möglichkeiten und ihrer Limitationen zu entwickeln.

  • Technische Funktionsweise von Text-zu-Bild-Generatoren
  • Evaluierung verschiedener Ansätze zur Bildgenerierung
  • Analyse der Risiken und ethischen Implikationen
  • Diskussion der Grenzen der Technologie
  • Bewertung des aktuellen Entwicklungsstands

Zusammenfassung der Kapitel

1. Einleitung: Die Einleitung führt in die Thematik der bildgenerierenden künstlichen Intelligenz ein und betont die Bedeutung des visuellen Vorstellungsvermögens für Menschen. Sie beschreibt die Entwicklung von Bildverarbeitungstechnologien durch Machine Learning und hebt die Text-zu-Bild-Synthese als ein neues Feld hervor. Die Arbeit von Goodfellow et al. (2014) wird als Grundlage für generative adversarielle Netze vorgestellt, die den Weg für die Generierung von neuartigen Bildern ebneten. Die Anwendung dieser Technologie in verschiedenen Bereichen wie Image-Super-Resolution und der Synthese von menschlichen Gesichtern wird kurz angerissen, bevor die Arbeit von Zhu et al. (2022) mit ihrem Phased Bidirectional Generation Network erwähnt wird, welches höhere Auflösungen ermöglicht.

2. Fragestellung, Ziele und Methodik der Arbeit: Dieses Kapitel definiert die Forschungsfrage und die Ziele der Arbeit. Es beschreibt die angewandte Methodik, insbesondere die durchgeführte Recherche und die Herangehensweise an die Untersuchung von Text-zu-Bild-Generatoren. Der Fokus liegt auf der systematischen Erfassung und Analyse relevanter Informationen zur Beantwortung der Forschungsfrage.

3. Technische Grundlagen von Text-zu-Bild-Generatoren: Dieser Abschnitt beschreibt die technischen Grundlagen von Text-zu-Bild-Generatoren. Er erläutert detailliert generative adversarielle Netzwerke (GANs) und die Text-to-Image-Synthese (T2I). Hier werden verschiedene Architekturen und Ansätze, insbesondere hierarchische Generatoren, erläutert und ihr Beitrag zur Verbesserung der Bildqualität und -auflösung dargestellt. Der Abschnitt beleuchtet außerdem die aktuellen Entwicklungen auf diesem Gebiet.

4. Evaluation von Text-zu-Bild-Generatoren: Dieses Kapitel befasst sich mit der Evaluation von Text-zu-Bild-Generatoren. Es unterscheidet zwischen technischen und menschlichen Evaluationsmethoden. Die technischen Evaluationen stützen sich auf Metriken, während die menschlichen Evaluationen subjektive Bewertungen der generierten Bilder umfassen. Die Evaluation willkürlicher Stichproben aus unCLIP (DALL-E 2) dient als konkretes Beispiel für die angewandten Methoden und ihre Ergebnisse. Die Ergebnisse der verschiedenen Evaluationsmethoden werden verglichen und interpretiert.

Schlüsselwörter

Text-zu-Bild-Generatoren, DALL-E 2, Generative Adversarial Networks (GANs), Text-to-Image-Synthesis (T2I), Bildsynthese, Künstliche Intelligenz, Machine Learning, Bildverarbeitung, Evaluierung, Risiken, Systemgrenzen.

Häufig gestellte Fragen (FAQ) zur Arbeit: Text-zu-Bild-Generatoren

Was ist das Thema der Arbeit?

Die Arbeit untersucht den Einsatz, die Risiken und die Systemgrenzen bildgenerierender künstlicher Intelligenz, speziell von Text-zu-Bild-Generatoren wie DALL-E 2. Ziel ist ein umfassendes Verständnis der Technologie, ihrer Möglichkeiten und Limitationen.

Welche Kapitel umfasst die Arbeit?

Die Arbeit gliedert sich in folgende Kapitel: Einleitung, Fragestellung, Ziele und Methodik, Technische Grundlagen von Text-zu-Bild-Generatoren, Evaluation von Text-zu-Bild-Generatoren, Diskussion und Fazit. Jedes Kapitel wird in der Zusammenfassung der Kapitel detailliert beschrieben.

Welche technischen Grundlagen werden behandelt?

Die Arbeit erläutert detailliert generative adversarielle Netzwerke (GANs) und die Text-to-Image-Synthese (T2I). Verschiedene Architekturen und Ansätze, insbesondere hierarchische Generatoren, werden beschrieben und ihr Beitrag zur Verbesserung der Bildqualität und -auflösung dargestellt. Aktuelle Entwicklungen auf diesem Gebiet werden ebenfalls beleuchtet.

Wie werden Text-zu-Bild-Generatoren evaluiert?

Die Arbeit beschreibt sowohl technische als auch menschliche Evaluationsmethoden. Technische Evaluationen basieren auf Metriken, während menschliche Evaluationen subjektive Bewertungen der generierten Bilder umfassen. Die Evaluation willkürlicher Stichproben aus unCLIP (DALL-E 2) dient als konkretes Beispiel.

Welche Schlüsselwörter beschreiben die Arbeit?

Die wichtigsten Schlüsselwörter sind: Text-zu-Bild-Generatoren, DALL-E 2, Generative Adversarial Networks (GANs), Text-to-Image-Synthesis (T2I), Bildsynthese, Künstliche Intelligenz, Machine Learning, Bildverarbeitung, Evaluation, Risiken, Systemgrenzen.

Was ist die Zielsetzung der Arbeit?

Die Arbeit zielt darauf ab, ein umfassendes Verständnis der Technologie der Text-zu-Bild-Generatoren zu entwickeln, einschließlich ihrer Funktionsweise, ihrer Möglichkeiten, ihrer Limitationen, der damit verbundenen Risiken und ethischen Implikationen sowie des aktuellen Entwicklungsstands.

Welche Methodik wurde angewendet?

Die Arbeit beschreibt die angewandte Methodik, insbesondere die durchgeführte Recherche und die Herangehensweise an die Untersuchung von Text-zu-Bild-Generatoren. Der Fokus liegt auf der systematischen Erfassung und Analyse relevanter Informationen zur Beantwortung der Forschungsfrage.

Welche konkreten Beispiele werden verwendet?

Die Arbeit verwendet DALL-E 2 als konkretes Beispiel für einen Text-zu-Bild-Generator und bezieht sich auf die Arbeit von Goodfellow et al. (2014) zu generativen adversariellen Netzen und die Arbeit von Zhu et al. (2022) zu einem Phased Bidirectional Generation Network.

Final del extracto de 33 páginas  - subir

Detalles

Título
Text-zu-Bild-Generatoren wie DALL-E 2. Einsatz, Risiken und Systemgrenzen von "kreativer" künstlicher Intelligenz
Universidad
University of Applied Sciences Essen
Curso
E-Business
Calificación
1,0
Autor
Alexander Scharff (Autor)
Año de publicación
2022
Páginas
33
No. de catálogo
V1290289
ISBN (PDF)
9783346752079
ISBN (Libro)
9783346752086
Idioma
Alemán
Etiqueta
DALL-E 2 KI T2I Text to image text zu bild generatoren prompts
Seguridad del producto
GRIN Publishing Ltd.
Citar trabajo
Alexander Scharff (Autor), 2022, Text-zu-Bild-Generatoren wie DALL-E 2. Einsatz, Risiken und Systemgrenzen von "kreativer" künstlicher Intelligenz, Múnich, GRIN Verlag, https://www.grin.com/document/1290289
Leer eBook
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • https://cdn.openpublishing.com/images/brand/1/preview_popup_advertising.jpg
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
  • Si ve este mensaje, la imagen no pudo ser cargada y visualizada.
Extracto de  33  Páginas
Grin logo
  • Grin.com
  • Page::Footer::PaymentAndShipping
  • Contacto
  • Privacidad
  • Aviso legal
  • Imprint