Inwiefern gelingt es maschinellen Übersetzungssystemen, literarische Texte adäquat zu übertragen – und sind deren Ergebnisse von menschlichen Übersetzungen unterscheidbar? Die vorliegende Arbeit geht diesen Fragen anhand eines Vergleichs zwischen ChatGPT (GPT-4), DeepL und einer professionellen Übersetzerin nach. Im Rahmen einer Studie wurden anonymisierte Übersetzungen aus dem Roman "The Midnight Bargain" von Chelsea Louise Polk verschiedenen Lesergruppen – Laien, Übersetzungsstudierenden und professionellen Übersetzenden – vorgelegt. Die Teilnehmenden sollten einschätzen, ob die Übersetzungen von einem Menschen oder einer Maschine stammen, und sie zudem hinsichtlich Kreativität, Stilmitteln, kultureller Sensibilität und Fantasy-typischer Merkmale bewerten.
Die Studie kombiniert automatische Qualitätsbewertung mittels TransQuest mit einer humanen Evaluation unter Blindtestbedingungen. Die Ergebnisse zeigen, dass ChatGPT-Übersetzungen in vielen Fällen stilistisch und sprachlich mit menschlichen Übersetzungen mithalten können und häufiger als menschlich wahrgenommen wurden als DeepL-Übersetzungen. Dennoch bleibt die kreative Leistung menschlicher Übersetzender in zentralen Bereichen bislang unerreicht.
Die Studie liefert neue Erkenntnisse zur Leistungsfähigkeit und Rezeption maschineller Übersetzungssysteme im literarischen Kontext und zeigt, dass hybride Modelle – eine Zusammenarbeit von Mensch und Maschine – ein vielversprechender Weg für die Zukunft der Literaturübersetzung sein könnten.
Inhaltsverzeichnis
Abbildungsverzeichnis
Tabellenverzeichnis
Abkürzungsverzeichnis
1 Einleitung
1.1 Aktualität und Relevanz des Themas
1.2 Zielsetzung
1.3 Forschungsfragen
1.4 Vorgehensweise
2 Maschinelle Übersetzung - ein Überblick
2.1 Geschichte und Entwicklung der maschinellen Übersetzung
2.2 Arten der maschinellen Übersetzung
2.2.1 Regelbasierte maschinelle Übersetzung (RBMÜ)
2.2.2 Statistische maschinelle Übersetzung (SMÜ)
2.2.3 Neuronale maschinelle Übersetzung (NMÜ)
3 Neuronale Modelle und Large Language Models (LLMs)
3.1 Grundlagen neuronaler Netze
3.2 Arten neuronaler Modelle
3.2.1 RNN (mit und ohne Attention)
3.2.2 Convolutional Models (ConvSeq2Seq)
3.2.3 Self-Attention-Transformer
3.3 LLMs in der maschinellen Übersetzung
3.3.1 Funktionen von LLMs für die maschinelle Übersetzung
3.3.2 Stärken und Schwächen von LLMs
4 Vergleich von NMÜ und LLMs
4.1 In Abgrenzung zur menschlichen Übersetzung
4.2 Fähigkeiten
4.3 Automatische vs. humane Evaluation
4.4 Literarische Übersetzung als Herausforderung
5 Evaluierung maschineller Übersetzung
5.1 Humane Evaluierungsmethoden
5.2 Maschinelle Evaluierungsmethoden
5.2.1 BLEU
5.2.2 BERTScore
5.2.3 Hjerson
5.2.4 OpenKiwi
5.2.5 TransQuest
5.3 Kognitionswissenschaftliche Perspektive auf die Textbewertung
6 Literarische Übersetzung und maschinelle Systeme
6.1 Probleme bei der maschinellen Übersetzung literarischer Texte
6.1.1 Kreativität
6.1.2 Übertragung von Stilmitteln
6.1.3 Kulturspezifik
6.2 Maschinelle Übersetzung: Fiction vs. non-fiction
7 Verwendete Systeme
7.1 DeepL
7.2 ChatGPT
8 Wahrnehmung maschineller und humaner Literaturübersetzung
8.1 Hypothesen
8.2 Methodik
8.2.1 Experimenteller Aufbau
8.2.2 Testgruppen
8.2.3 Bewertungskriterien der Teilnehmenden
8.3 Ergebnisse
8.3.1 Maschinelle Evaluation durch TransQuest
8.3.1.1 Ergebnisse Ausgangstext 1
8.3.1.2 Ergebnisse Ausgangstext 2
8.3.1.3 Ergebnisse Ausgangstext 3
8.3.2 Menschliche Evaluation
8.3.2.1 Ergebnisse Ausgangstext 1
8.3.2.2 Ergebnisse Ausgangstext 2
8.3.2.3 Ergebnisse Ausgangstext 3
8.4 Überprüfung der Forschungshypothesen
9 Diskussion
9.1 Bedeutung der Ergebnisse für die Übersetzungsforschung
9.2 Limitationen der Studie
9.2.1 Begrenzungen der Methodik und Datenanalyse
9.2.2 Mögliche Verzerrungen durch die Testgruppen
10 Fazit und Ausblick
10.1 Zusammenfassung der wichtigsten Erkenntnisse
10.2 Implikationen für zukünftige Forschung und Praxis
Literaturverzeichnis
Anhang
• Fragebogen
• Originaltexte und Übersetzungen
Abstract (Deutsch)
Inwiefern gelingt es maschinellen Übersetzungssystemen, literarische Texte adäquat zu übertragen - und sind deren Ergebnisse von menschlichen Übersetzungen unterscheidbar? Die vorliegende Arbeit geht diesen Fragen anhand eines Vergleichs zwischen ChatGPT (GPT-4), DeepL und einer professionellen Übersetzerin nach. Im Rahmen einer Studie wurden anonymisierte Übersetzungen aus dem Roman The Midnight Bargain von C. L. Polk verschiedenen Lesergruppen - Laien, Übersetzungsstudierenden und professionellen Übersetzenden - vorgelegt. Die Teilnehmenden sollten einschätzen, ob die Übersetzungen von einem Menschen oder einer Maschine stammen, und sie zudem hinsichtlich Kreativität, Stilmitteln, kultureller Sensibilität und Fantasy-typischer Merkmale bewerten.
Die Studie kombiniert automatische Qualitätsbewertung mittels TransQuest mit einer humanen Evaluation unter Blindtestbedingungen. Die Ergebnisse zeigen, dass ChatGPT-Übersetzungen in vielen Fällen stilistisch und sprachlich mit menschlichen Übersetzungen mithalten können und häufiger als menschlich wahrgenommen wurden als DeepL-Übersetzungen. Dennoch bleibt die kreative Leistung menschlicher Übersetzender in zentralen Bereichen bislang unerreicht.
Die Studie liefert neue Erkenntnisse zur Leistungsfähigkeit und Rezeption maschineller Übersetzungssysteme im literarischen Kontext und zeigt, dass hybride Modelle - eine Zusammenarbeit von Mensch und Maschine - ein vielversprechender Weg für die Zukunft der Literaturübersetzung sein könnten.
Abstract (English)
To what extent are machine translation systems capable of adequately rendering literary texts— and can readers distinguish their output from that of human translators? This study investigates these questions by comparing translations produced by ChatGPT (GPT-4), DeepL, and a professional literary translator. As part of an empirical study, anonymized excerpts from the novel The Midnight Bargain by C. L. Polk were presented to three distinct reader groups: laypersons, translation students, and professional translators. Participants were asked to determine whether each translation had been generated by a human or a machine and to evaluate the texts with regard to creativity, stylistic features, cultural sensitivity, and genre-specific (fantasy) elements.
The study combines automatic quality estimation using TransQuest with a human evaluation conducted under blind test conditions. Results indicate that ChatGPT’s translations often rival human output in terms of linguistic and stylistic quality and were more frequently perceived as human-generated than those produced by DeepL. However, human translators continue to outperform machine systems in key areas.
The findings offer new insights into both the capabilities and reception of machine translation systems within the literary domain. They suggest that hybrid approaches—collaborations between human expertise and machine efficiency—may represent a promising direction for the future of literary translation.
Abbildungsverzeichnis
Abbildung 1: Ein lineares Netzwerkmodell
Abbildung 2: Ein neuronales Netzwerk mit versteckten Schichten
Abbildung 3: Aufbau von DeepL
Abbildung 4: Aufbau von ChatGPT
Abbildung 5: Verteilung der predicted scores nach Übersetzungsart
Abbildung 6: Vergleich: Übersetzung 1-3
Abbildung 7: Vergleich: Übersetzung 4-6
Abbildung 8: Vergleich: Übersetzung 7-9
Abbildung 9: Prozentuale Bewertung der Übersetzungen
Abbildung 10: Einschätzung der Übersetzungen Ausgangstext 1
Abbildung 11: Einschätzung der Übersetzungen Ausgangstext 2
Abbildung 12: Einschätzung der Übersetzungen Ausgangstext 3
Abbildung 13: Mittlere Gesamtrichtigkeitsrate nach Gruppe
Abbildung 14: Durchschnittliche Bewertung maschineller Übersetzungen nach Gruppenzugehörigkeit
Abbildung 15: Bewertung nach Gruppe und Übersetzungsherkunft
Abbildung 16: Bewertung der Übersetzungen nach Gruppe und System
Abbildung 17: Durchschnittliche TransQuest-Scores nach Übersetzungsart
Abbildung 18: Gesamtrichtigkeitsraten nach MÜ- und LLM-Nutzung sowie Lesefrequenz nach Gruppen
Tabellenverzeichnis
Tabelle 1: Kategorien zur Analyse kultureller Referenzen in der Übersetzung literarischer Texte
Tabelle 2: Sprachen mit fortgeschrittenen Kenntnissen
Tabelle 3: Nutzung maschineller Übersetzungssysteme/LLMs
Tabelle 4: Lesefrequenz
Abkürzungsverzeichnis
ALPAC Automatic Language Processing Advisory Committee
APE-QE Automatic Post-Editing Quality Estimation
API Application Programming Interface
BLEU Bilingual Evaluation Understudy
chrF Character n-gram F-score
CIA Central Intelligence Agency
CNN Convolutional Neural Network
COMET Crosslingual Optimized Metric for Evaluation of Translation
ConvSeq2Seq Convolutional Sequence-to-Sequence Model
DEJ Direct Evaluation Judgement
DQF Dynamic Quality Framework
GLU Gated Linear Unit
GRU Gated Recurrent Unit
GPT Generative Pre-trained Transformer
HBLEU Human-targeted Bilingual Evaluation Understudy
HMETEOR Human-targeted METEOR
HPer Hypothesis Position-Independent Error Rate
HTER Human-targeted Translation Edit Rate
HT Human Translation
IG Integrated Gradients
LLM Large Language Model
LOO Leave-One-Out
LSTM Long Short-Term Memory
MPDE Multilingual Parallel Direct Europarl
MQM Multidimensional Quality Metrics
MÜ Maschinelle Übersetzung
NE Named Entity
NMÜ Neuronale Maschinelle Übersetzung
NS National Science Foundation
NUQE Neural Quality Estimation
PE Postediting
QE Quality Estimation
QTLaunchPad Quality Translation LaunchPad
QUETCH QUality Estimation from ScraTCH
RBMÜ Regelbasierte maschinelle Übersetzung
RNN Recurrent Neural Network
RPer Reference Position-Independent Error Rate
ROUGE Recall-Oriented Understudy for Gisting Evaluation
SMÜ Statistische maschinelle Übersetzung
WER Word-Error-Rate
WMT Workshop on Machine Translation
YAML Yet Another Markup Language
1 Einleitung
1.1 Aktualität und Relevanz des Themas
In den vergangenen Jahren wurden im Bereich der maschinellen Übersetzung bemerkenswerte Fortschritte erzielt. Diese sind unter anderem auf die Integration neuronaler Netze sowie die rasante Entwicklung großer Sprachmodelle, auch bekannt als Large Language Models (LLMs), zurückzuführen. Daher rückt, während die Übertragung einfacher Sachtexte inzwischen zuverlässig gelingt, eine zentrale Frage zunehmend in den Fokus: Lassen sich auch literarische Texte - mit all ihren stilistischen Feinheiten, kulturellen Referenzen und emotionalen Nuancen - auf einem mit menschlichen Übersetzungen vergleichbaren Niveau maschinell wiedergeben?
Traditionell gilt die literarische Übersetzung als besonders herausfordernd und wurde lange Zeit als unantastbarer Bereich menschlicher Kreativität betrachtet. Jedoch wird diese Annahme durch die zunehmend kreativere Ausdrucksweise von Systemen wie ChatGPT zunehmend infrage gestellt. Ein zentrales Anliegen dieser Arbeit ergibt sich aus genau dieser Entwicklung: So soll untersucht werden, ob der Qualitätssprung maschineller Systeme so weit reicht, dass sie im Bereich der Literaturübersetzung mit professionellen Übersetzerinnen und Übersetzern mithalten können - und welche Rolle dabei die Wahrnehmung durch menschliche Leser und Leserinnen spielt.
1.2 Zielsetzung
Bisherige Studien, die die Übersetzungsleistung von LLMs wie ChatGPT mit neuronalen maschinellen Übersetzungssystemen (DeepL und Google Translate) sowie menschlichen Übersetzungen vergleichen (Karabayeva & Kalizhanova, 2024; Jiao et al., 2023; Ed-dali, 2024), sind in der Regel voreingenommen, da den Bewertenden die Quelle der Übersetzung bekannt ist. Ein unvoreingenommener Vergleich unter Blindtestbedingungen, bei dem die Herkunft der Übersetzung nicht bekannt ist, fehlt bislang. Darüber hinaus stoßen gängige automatische Evaluationsmetriken, wie beispielsweise BLEU, an ihre Grenzen, da sie sich allein auf Wort- und Satzübereinstimmungen konzentrieren und die für literarische Texte charakteristischen kontextuellen Feinheiten nur unzureichend erfassen. Aus diesem Grund kommt in der vorliegenden Arbeit TransQuest zum Einsatz (Ranasinghe et al., 2020).
Ein weiterer bislang vernachlässigter Aspekt besteht zudem in der Einbeziehung von Laienbewertungen, wodurch eine breitere und realitätsnähere Perspektive auf die Qualität literarischer Übersetzungen eröffnet wird. Zwar existieren Studien mit Bewertungen durch Laien (Cvetkovic, 2020) oder Experten und Expertinnen (Yan et al., 2024), doch eine systematische Analyse von Laienurteilen im Hinblick auf LLMs wie ChatGPT steht noch aus. Gerade im literarischen Kontext ist es jedoch von Interesse, ob Leser und Leserinnen ohne fachliche Übersetzungskompetenz in der Lage sind, zwischen menschlicher und maschineller Übersetzung zu unterscheiden - denn sie bilden die Hauptzielgruppe literarischer Werke und sind entscheidend für die gesellschaftliche Akzeptanz maschineller Übersetzungen.
Aus dieser Forschungslücke ergibt sich die Notwendigkeit einer umfassenden Studie, die unter unvoreingenommenen Bedingungen die Übersetzungsqualität von GPT-4, DeepL und einer professionellen menschlichen Übersetzerin miteinander vergleicht, neue automatische Bewertungsmethoden einsetzt und Laienurteile systematisch einbezieht, um sowohl die technischen Fähigkeiten als auch die gesellschaftliche Akzeptanz aktueller LLMs im literarischen Kontext zu untersuchen. Als Laien gelten in dieser Arbeit Personen ohne formale Ausbildung im Bereich Übersetzung. Fachpersonen hingegen sind Studierende oder Berufstätige im Bereich Übersetzung oder in sprachbezogenen Tätigkeiten wie Dolmetschen oder Terminologiearbeit.
Ziel der Arbeit ist es, die Qualität maschineller Literaturübersetzungen systematisch zu analysieren und sie mit der eines professionell angefertigten menschlichen Textes zu vergleichen. Im Zentrum steht ein mehrdimensionales Untersuchungsdesign: Neben einer automatisierten Qualitätsbewertung durch TransQuest wird ein Experiment mit anonymisierten Übersetzungsbeispielen durchgeführt. Diese stammen aus dem englischsprachigen Roman The Midnight Bargain und wurden von zwei maschinellen Systemen (DeepL und ChatGPT) sowie von der Übersetzerin Judith C. Vogt angefertigt. Testpersonen aus zwei unterschiedlichen Gruppen - Übersetzungsfachleute und Laien - beurteilen diese Texte hinsichtlich sprachlicher, stilistischer und inhaltlicher Qualität, ohne zu wissen, ob es sich um eine maschinelle oder eine menschliche Übersetzung handelt.
Ziel ist es, ein differenziertes Bild der Leistungsfähigkeit aktueller Systeme im Bereich der Literaturübersetzung zu gewinnen. Dabei werden nicht nur objektive Kriterien berücksichtigt, sondern auch subjektive Wahrnehmungen analysiert: Welche Systeme werden bevorzugt? Welche Merkmale wirken überzeugend - und inwieweit beeinflusst die persönliche Erfahrung mit Übersetzungstechnologie oder Literatur die Beurteilung? Die Ergebnisse dieser Arbeit liefern Impulse für die Übersetzungswissenschaft ebenso wie für die Weiterentwicklung und den gezielten Einsatz maschineller Übersetzungssysteme im literarischen Bereich.
1.3 Forschungsfragen
Im Zentrum der Arbeit steht folgende zentrale Frage:
1 Inwieweit sind unterschiedliche Gruppen - mit und ohne Übersetzungskenntnisse - in der Lage, maschinelle und menschliche Übersetzungen literarischer Texte voneinander zu unterscheiden, wenn ihnen diese anonymisiert vorgelegt werden?
Darauf aufbauend ergeben sich weitere leitende Fragen:
• Gibt es Systeme (z. B. ChatGPT), deren Übersetzungen häufiger als menschlich wahrgenommen werden als andere (z. B. DeepL)?
• Bewerten Fachpersonen mit Übersetzungshintergrund kritischer als Laien?
• Bestehen Zusammenhänge zwischen der Fähigkeit zur Unterscheidung und dem persönlichen Umgang mit maschinellen Übersetzungen bzw. dem Umfang des Literaturkonsums?
Diese Fragestellungen ermöglichen nicht nur eine Einschätzung der aktuellen Leistungsfähigkeit maschineller Übersetzungssysteme, sondern gewähren auch Einblicke in ihre Rezeption durch verschiedene Zielgruppen.
1.4 Vorgehensweise
Die Arbeit basiert auf einem Mixed-Methods-Ansatz, der quantitative Analysen mit qualitativen Beobachtungen kombiniert. Ausgangspunkt ist die Auswahl dreier Abschnitte aus dem englischsprachigen Roman The Midnight Bargain von C.L. Polk. Für diese Passagen wurden jeweils zwei maschinelle Übersetzungen (durch DeepL und ChatGPT) angefertigt und einer existierenden menschlichen Übersetzung (von Judith C. Vogt) gegenübergestellt. Die Texte wurden randomisiert und anonymisiert, um eine unbeeinflusste Bewertung durch die Testpersonen zu gewährleisten.
Die empirische Untersuchung erfolgte anhand zweier Gruppen: Laien einerseits und Personen mit übersetzungswissenschaftlichem Hintergrund andererseits. Die Teilnehmenden bewerteten die Übersetzungen anhand vordefinierter Kriterien und schätzten ein, ob es sich jeweils um eine maschinelle oder eine menschliche Übersetzung handelt. Ergänzend wurden Angaben zur Nutzungserfahrung mit Übersetzungstechnologien sowie zum persönlichen Leseverhalten erhoben. Parallel dazu kam TransQuest als automatisiertes Bewertungssystem zum Einsatz, das eine objektive Qualitätsbewertung auf Satzebene ermöglichte.
Zur Einbettung und Fundierung der Studie liefert Kapitel 2 einen historischen Überblick über die Entwicklung maschineller Übersetzung. Kapitel 3 erklärt die technischen Grundlagen neuronaler Modelle und LLMs. In Kapitel 4 erfolgt ein Vergleich neuronaler maschineller Übersetzungssysteme und LLMs. Kapitel 5 bietet einen Überblick über verschiedene menschliche und maschinelle Evaluationsmethoden. Kapitel 6 widmet sich den besonderen Herausforderungen literarischer Übersetzung, Kapitel 7 stellt die in der Studie verwendeten Systeme vor. Dieser theoretische Rahmen dient als Grundlage, um die Ergebnisse der empirischen Analyse in Kapitel 8 und Kapitel 9 fundiert einordnen zu können. Die Auswertung erfolgt sowohl quantitativ - etwa mittels Signifikanztests - als auch qualitativ anhand der freien Kommentare der Teilnehmenden. So entsteht ein umfassendes, mehrschichtiges Bild davon, wie maschinelle Literaturübersetzung heute wahrgenommen wird, welche Systeme überzeugen können - und wo nach wie vor die Stärken menschlicher Kreativität liegen. Kapitel 10 fasst die Ergebnisse zusammen und bietet einen Ausblick auf zukünftige Forschungsperspektiven.
2 Maschinelle Übersetzung - ein Überblick
Dieses Kapitel beleuchtet die historische Entwicklung, die zur Entstehung der neuronalen maschinellen Übersetzung (NMÜ) geführt hat, und erläutert deren Abgrenzung zur regelbasierten sowie zur statistischen maschinellen Übersetzung.
2.1 Geschichte und Entwicklung der maschinellen Übersetzung
Die ersten Ansätze zur maschinellen Übersetzung (MÜ) entstanden parallel zur Entwicklung elektronischer Computer. Bereits im Zweiten Weltkrieg inspirierte die Entschlüsselung der deutschen ENIGMA-Codes zu dem Gedanken, natürliche Sprache wie einen Code zu behandeln, der durch Maschinen „geknackt“ werden könne. Warren Weaver griff diese Metapher 1947 auf, als er einen russischen Text als in „seltsame Symbole“ codierte englische Botschaft beschrieb und vorschlug, diese mittels Computer zu dekodieren: „When I look at an article in Russian, I say: ‘This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.” (Weaver 1947, 1949 zit. nach Koehn, 2020: 34). Die frühen MÜ-Systeme beruhten jedoch weitgehend auf einfachen Wörterbüchern und wenigen syntaktischen Regeln und erwiesen sich deshalb als unzureichend für die komplexen Anforderungen des Übersetzens (Stein, 2009: 6).
Im Jahr 1964 beauftragten die CIA zusammen mit der US-amerikanischen Regierung und die National Science Foundation das Automatic Language Processing Advisory Committee (AL- PAC), das Potenzial der MÜ im Kontext des Kalten Krieges und dem damit verbundenen Streben nach Übersetzungen russischer Dokumente zu evaluieren. Die Ergebnisse des 1966 veröffentlichten Berichts waren jedoch niederschmetternd. So kam man zu dem Schluss, dass MÜ langsamer, weniger genau und etwa doppelt so teuer sei wie menschliche Übersetzung (Hutchins, 1995: 6). Gleichzeitig war die Nachfrage nach der Übersetzung russischer Fachliteratur gering und ausreichend qualifizierte Übersetzende standen zur Verfügung (Koehn, 2020: 35). Infolgedessen wurde die staatliche Förderung von MÜ fast vollständig eingestellt und stattdessen die Entwicklung einfacher Hilfsmittel wie Wörterbuchsoftware und die Grundlagenforschung in der Computerlinguistik vorangetrieben (Hutchins, 1995: 6).
Als Reaktion auf den Rückgang der MÜ-Forschung wurde der Fokus auf wissenschaftliche Ansätze und die Einbeziehung linguistischen Fachwissens, insbesondere semantischer Analysen, gelegt. Dies führte Mitte der 1970er Jahre zu einem Wiederaufschwung der MÜ-For- schung. In den 1980er Jahren sorgten technologische Fortschritte und die Verfügbarkeit von Heimcomputern für einen kontinuierlichen Anstieg der MÜ-Forschung (Stein, 2009: 7). Während die USA ihre Förderung drosselten, gewannen Kanada - aufgrund seiner zweisprachigen Politik -, und Europa - durch wachsenden Übersetzungsbedarf innerhalb der Europäischen Gemeinschaften - an Bedeutung (Hutchins, 1995: 7). Es entstanden die ersten kommerziellen maschinellen Übersetzungssysteme: So übersetzt das Météo-System der Universität Montreal seit 1976 Wettervorhersagen, und Systran entwickelte bereits 1968 eine Russisch-Englisch-Engine, die ab 1970 von der US Air Force und ab 1976 in einer französisch-englischen Version auch von der Europäischen Kommission eingesetzt wurde. Mit der Verbreitung von Desktop-Computern in den 1990er Jahren kamen zudem computerunterstützte Übersetzungstools wie Trados auf den Markt (Koehn, 2020: 35).
Durch die Wiederbelebung der Forschung in den 1980er Jahren rückten neuronale Netze in den Fokus. Die ersten Modelle neuronaler Netze, die sogenannten Perzeptoren, wurden Mitte des 20. Jahrhunderts entwickelt. Sie bestanden aus einer einzigen Verarbeitungsschicht, die im Wesentlichen eine Liste von Neuronen darstellte, wobei jedes Neuron über die gleiche Anzahl binärer Eingaben und eine binäre Ausgabe verfügte. Diese frühen Modelle stießen jedoch auf erhebliche Einschränkungen und wurden zu einer Zeit, in der die Forschung zu neuronalen Netzen in Verruf geriet, entwickelt (Koehn, 2020: 31-32).
Dies änderte sich mit der Wiederentdeckung und Einführung des Backpropagation-Algorithmus in den 1980er und 1990er Jahren, welcher das Training von mehrschichtigen neuronalen Netzen ermöglichte. Hieraus gingen zahlreiche Innovationen wie Convolutional Neural Networks, Recurrent Neural Networks und Long Short-Term Memory-Modelle hervor. Doch auch hier erschwerten Komplexität und Trainingsprobleme den Fortschritt, was einen zweiten Rückschlag zur Folge hatte (Koehn, 2020: 32). Erst im neuen Jahrtausend, begünstigt durch steigende Rechenleistung, riesige Datensätze und verbesserte Trainingsverfahren, erlebte das „Deep Learning“ einen Durchbruch: Neuronale Netze erzielten nun beachtliche Leistungen in Bereichen wie Bild- und Spracherkennung (Koehn, 2020: 33; Mohamed et al., 2020: 15920).
2.2 Arten maschineller Übersetzung
2.2.1 Regelbasierte maschinelle Übersetzung (RBMÜ)
Der regelbasierte Ansatz gliedert den Übersetzungsprozess in drei aufeinanderfolgende Phasen: Analyse des Ausgangstextes, Transfer in eine sprachunabhängige Repräsentation und abschließende Synthese des Zielsatzes. Innerhalb der RBMÜ unterscheidet man drei Komplexitätsgrade: direkte Übersetzung, Transferübersetzung und Interlingua-Übersetzung.
Die direkte Übersetzung stellt die einfachste Form der RBMÜ dar. Sie basiert auf einer direkten Wort-für-Wort Übertragung, wobei minimale Anpassungen an die Satzstruktur der Zielsprache vorgenommen werden. Aufgrund fehlender Fähigkeiten zur adäquaten Verarbeitung von Mehrdeutigkeiten und idiomatischen Wendungen stößt die direkte Übersetzung jedoch an ihre Grenzen - so kann etwa die Redewendung „ins Gras beißen“ nicht sinngemäß wiedergegeben werden.
Die Transferübersetzung ergänzt morphologische, semantische und syntaktische Regeln, was die Übersetzungsqualität gegenüber der direkten Methode verbessert, jedoch weiterhin Einschränkungen aufweist.
Die Interlingua-Übersetzung stellt das Idealziel der RBMÜ dar. Sie basiert auf einer universellen, sprachunabhängigen Repräsentation von Informationen, wodurch eine vollständige Trennung von Ausgangs- und Zielsprache ermöglicht wird. Bis heute ist sie unerreicht, da eine universelle Sprache noch nicht existiert (Stein, 2009: 7-8).
Die regelbasierte maschinelle Übersetzung dominierte bis Ende der 1980er Jahre. Seit 1989 setzen sich korpusbasierte Methoden durch, die keine expliziten linguistischen Regeln verwenden (Hutchins, 1995: 12).
2.2.2 Statistische maschinelle Übersetzung (SMÜ)
Statistische maschinelle Übersetzung (SMÜ) basiert auf der Berechnung von bedingten Wahrscheinlichkeiten, welche aus großen, zweisprachigen Korpora gewonnen werden. Im Rahmen dieses Verfahrens wird die wahrscheinlichste Übersetzung eines Satzes ermittelt. Da es unmöglich ist, alle Sätze einer Sprache zur Verfügung zu stellen, kombiniert SMÜ zwei Modelltypen: ein Übersetzungsmodell und ein Sprachmodell.
Das Übersetzungsmodell basiert auf zweisprachigen, alignierten Korpora, welche mögliche Übersetzungen und deren Wahrscheinlichkeiten repräsentieren. Es gliedert sich in ein Lexikon- modell, welches die Wahrscheinlichkeit von Wort- oder Wortsequenzübersetzungen bewertet und in ein Alignierungsmodell, welches die Wahrscheinlichkeit von Satzstellungen bewertet.
Das Sprachmodell basiert auf einsprachigen Korpora in der Zielsprache und umfasst gültige Sätze einer Sprache. Es arbeitet mit abstrakten Einheiten wie Wörtern oder Wortsequenzen. Ein Suchalgorithmus berechnet die wahrscheinlichste Übersetzung, indem er das Produkt aus Satzgültigkeit (Sprachmodell), Wortübersetzung (Lexikonmodell) und Satzstellung (Alignierungs- modell) maximiert. Die Wahrscheinlichkeiten werden durch den Satz von Bayes geschätzt (Stein, 2009: 9-10).
Da die exakte Wiedergabe ganzer Sätze selten im Trainingsmaterial vorkommt, arbeiten SMÜ- Systeme häufig auf kleineren Einheitsebenen:
Die wortbasierte SMÜ stellt eine frühe Form der statistischen maschinellen Übersetzung dar, die auf der Ebene einzelner Wörter arbeitet. Dabei wird ein Wort der Ausgangssprache einem oder mehreren Wörtern der Zielsprache zugeordnet. Diese Methode weist jedoch signifikante Einschränkungen auf: Es ist beispielsweise nicht möglich, mehrere Wörter der Ausgangssprache einem einzigen Wort in der Zielsprache zuzuordnen. Zudem können zusammenhängende Wörter nicht als Einheit behandelt werden, was insbesondere bei zusammengesetzten Verben oder bei syntaktischen Unterschieden, wie der Position des finiten Verbs, zu Problemen führt.
Im Gegensatz dazu adressiert die phrasenbasierte SMÜ viele der Einschränkungen der wortbasierten Methode, indem sie auf Phrasenebene arbeitet. Dabei handelt es sich um maschinell definierte Wortgruppen, die nicht zwingend linguistisch motiviert sind. Ein zentraler Vorteil ist die Möglichkeit, mehrere Wörter der Ausgangssprache in ein oder mehrere Wörter der Zielsprache zu übertragen. Darüber hinaus wird durch die Berücksichtigung eines erweiterten Kon- texts die Disambiguierung erleichtert, beispielsweise bei Ausdrücken wie „pretty much“ im Vergleich zu „pretty girl“. Ebenso können syntaktische Unterschiede zwischen Ausgangs- und Zielsprache besser ausgeglichen werden. Die Effektivität dieser Methode hängt jedoch maßgeblich von der Länge und Struktur der analysierten Sequenzen ab. Insgesamt bietet die phrasenbasierte SMÜ gegenüber der wortbasierten Methode eine größere Flexibilität und bessere Übersetzungsergebnisse.
Statistische maschinelle Übersetzungssysteme (SMÜ) bieten im Vergleich zu regelbasierten Ansätzen zahlreiche Vorteile. Ein zentraler Pluspunkt ist ihre Sprachunabhängigkeit, da sie ohne tiefgreifendes linguistisches Fachwissen entwickelt werden können. Dies spart sowohl Zeit als auch Kosten im Vergleich zu regelbasierten Methoden. Zudem sind sie flexibel einsetzbar und erlauben die Übersetzung auch für Sprachen mit geringen linguistischen Ressourcen, vorausgesetzt, es existieren ausreichend alignierte mehrsprachige Korpora. Ein weiterer Vorteil ist ihre effiziente Entwicklung, denn SMÜ-Systeme lassen sich in kurzer Zeit implementieren, wobei ihre Übersetzungsqualität mit der von regelbasierten Systemen vergleichbar ist. Darüber hinaus können sie lexikalische Ambiguitäten und idiomatische Ausdrücke bewältigen, sofern diese ausreichend im Trainingsmaterial enthalten sind. Dabei gilt: Je größer und qualitativ hochwertiger die Datenbasis, desto besser die Ergebnisse.
Trotz all dieser Vorteile weisen SMÜ-Systeme jedoch auch einige Schwächen auf. Ein zentraler Nachteil ist die Intransparenz ihrer Algorithmen, da zugrunde liegenden Berechnungen oft schwer nachvollziehbar sind und Fehlerquellen sich nur schwer identifizieren lassen. Dies erschwert die Korrektur systematischer Fehler. Ein weiteres Problem sind strukturelle Sprachunterschiede, die zu unvollständigen Übersetzungen führen können, wie etwa bei der deutschen Verbklammer oder bei stark abweichender Syntax und Morphologie. Die starke Abhängigkeit von Korpora stellt ebenfalls eine Herausforderung dar. Große zweisprachige Korpora sind oft nur für Fachsprachen wie Rechtstexte verfügbar, was zu einer Überrepräsentation spezifischer Terminologien führt und die Qualität für allgemeinsprachliche Übersetzungen einschränkt. Auch erfordert die Entwicklung leistungsfähiger SMÜ-Systeme einen hohen Datenbedarf. Die Beschaffung ausreichend großer und diversifizierter Korpora gestaltet sich jedoch häufig schwierig, was insbesondere für weniger verbreitete Sprachen problematisch ist (Stein, 2009: 11-13).
2.2.3 Neuronale maschinelle Übersetzung (NMÜ)
Als Reaktion auf die Einschränkungen von SMÜ wurden neuronale maschinelle Übersetzungssysteme (NMÜ) entwickelt. Diese Systeme sind besser in der Lage, kontextübergreifende Abhängigkeiten zu erfassen und komplexe Wort-Alignment-Informationen zu verarbeiten. Zudem reduzieren sie den Speicherbedarf und profitieren von der gemeinsamen Optimierung aller Modellkomponenten (Cho et al., 2014a: 103; Mohamed et al., 2020: 15920).
Der Fortschritt in der NMÜ basiert auf der Technologie neuronaler Netzwerke, die Eingaben verarbeitet und Vorhersagen über die Ausgaben trifft (Koehn, 2020: 67). NMÜ verwendet ein großes neuronales Netzwerk, das aus zwei Hauptkomponenten besteht: dem Encoder und dem Decoder. Der Encoder wandelt Sätze variabler Länge der Ausgangssprache in semantische Vektorrepräsentationen um. Der Decoder nutzt diese Repräsentationen, um den Zielsatz Wort für Wort in variabler Länge zu generieren (Mohamed et al., 2020: 15919-20; Cho et al., 2014b: Abs. 1). Durch die Berücksichtigung des Wortkontexts erzielt diese Methode eine signifikante Verbesserung der Übersetzungsqualität (Stahlberg, 2020: 345). Für das Training der NMÜ-Mo- delle wird ein zweisprachiger, paralleler Korpus verwendet (Mohamed et al., 2020: 15921).
3 Neuronale Modelle und Large Language Models (LLMs)
In diesem Kapitel werden zunächst die grundlegenden Prinzipien neuronaler Netze sowie verschiedene Arten neuronaler Modelle erläutert. Im Anschluss werden die Funktionen von Large Language Models (LLMs) für Übersetzende vorgestellt sowie deren Stärken und Schwächen kritisch beleuchtet.
3.1 Grundlagen neuronaler Netze
Die Funktionsweise künstlicher neuronaler Netze ist an das biologische Vorbild des menschlichen Gehirns angelehnt. Biologische Neuronen empfangen über Dendriten Signale anderer Zellen, verarbeiten diese Informationen und leiten sie über Axone weiter. Künstliche neuronale Netze übernehmen dieses Prinzip in ähnlicher Form: Sie kombinieren Eingabewerte mittels gewichteter Summen, wenden eine Aktivierungsfunktion an und generieren daraus eine Ausgabe.
Trotz dieser Ähnlichkeit bestehen grundlegende Unterschiede zwischen biologischen und künstlichen neuronalen Netzen in Bezug auf Funktionsweise, Struktur und Lernmechanismen.
Während biologische Neuronen über binäre Impulse kommunizieren, deren Frequenz variiert, arbeiten künstliche Neuronen mit kontinuierlichen Zahlenwerten und somit auf mathematischer Basis. Auch strukturell unterscheiden sich beide Systeme deutlich: Künstliche Neuronen sind in klar definierten Schichten organisiert, was eine transparente und kontrollierbare Architektur ermöglicht. Im Gegensatz dazu bilden biologische Neuronen ein hochgradig vernetztes, dynamisches und nicht-linear organisiertes System, das eine außerordentliche Anpassungsfähigkeit erlaubt.
Ebenso unterscheiden sich die Lernprozesse beider Systeme erheblich. Während künstliche neuronale Netze durch überwachtes Lernen auf annotierten Datensätzen trainiert werden, erfolgt das Lernen biologischer Systeme über evolutionäre Entwicklungen und individuelle Erfahrungen. Dies ermöglicht eine tiefgreifendere, kontextabhängige und flexibel anpassbare Form des Lernens. Angesichts dieser Unterschiede betrachten viele Forschende künstliche neuronale Netze als stark vereinfachte Abbildungen biologischer Strukturen und ziehen es vor, statt von neuronalen Netzen vom Konzept des „Deep Learning“ zu sprechen (Koehn, 2020: 30-31).
In der maschinellen Übersetzung kommen verschiedene Modellarten zum Einsatz. Lineare Modelle, wie sie in der statistischen maschinellen Übersetzung verwendet werden, bewerten potenzielle Übersetzungen anhand von gewichteten Features. Visuell können lineare Modelle als Netzwerke dargestellt werden, bei denen die Eingabeknoten die Feature-Werte und die Verbindungen die Gewichtungen repräsentieren.
Der zentrale Nachteil dieser Modelle liegt in ihrer Beschränkung auf lineare Beziehungen: Nichtlineare Abhängigkeiten oder Interaktionen zwischen Merkmalen können mit ihnen nicht erfasst werden. Zudem setzen sie voraus, dass die zu unterscheidenden Daten im Merkmalsraum linear trennbar sind - eine Bedingung, die in der Praxis, etwa im Kontext der maschinellen Übersetzung, selten erfüllt ist (Koehn, 2020: 67-68).
Abb. in Leseprobe nicht enthalten
Abbildung 1: Ein lineares Netzwerkmodell1(Koehn, 2020: 68).
Neuronale Netze erweitern diese linearen Modelle durch die Einbeziehung mehrerer, auch sogenannter „versteckter“ Schichten (Hidden Layers), die zwischen Eingabe- und Ausgabeschicht liegen und nicht direkt beobachtbar sind.
Die Informationsverarbeitung erfolgt dabei in zwei Schritten: Zunächst wird eine lineare Kombination der gewichteten Eingaben berechnet, um die Aktivierung der versteckten Neuronen zu erzeugen. Anschließend wird eine weitere gewichtete Kombination dieser versteckten Werte berechnet, um die Ausgabeneuronen zu aktivieren. Je nach Anwendung können Netze über mehrere Ausgabeknoten verfügen, auch wenn vereinfachte Darstellungen häufig nur einen einzigen Ausgabeknoten zeigen (Koehn, 2020: 68).
Abb. in Leseprobe nicht enthalten
Abbildung 2: Ein neuronales Netzwerk mit versteckten Schichten (Koehn, 2020: 69).
[1] Die Merkmale sind: Eingangsknoten, Gewichte in Form von Pfeilen und der Ausgangsknoten (Score)
Erst durch die Verwendung nichtlinearer Aktivierungsfunktionen ist es neuronalen Netzen möglich, komplexe Beziehungen zwischen Ein- und Ausgaben zu modellieren. Die versteckten Schichten erkennen dabei automatisch relevante Merkmale während des Trainings. Je mehr solcher Schichten ein Netzwerk umfasst, desto tiefer wird seine Architektur - ein Merkmal, das dem „Deep Learning“ seinen Namen verleiht. Tiefer geschichtete Netzwerke sind in der Lage, abstraktere und komplexere Muster zu erkennen und erzielen in vielen Anwendungsbereichen signifikant bessere Ergebnisse (Koehn, 2020: 69-70).
In der neuronalen maschinellen Übersetzung haben sich laut Mohamed et al. (2020: 15921) insbesondere drei Architekturtypen als besonders leistungsfähig erwiesen, die alle das Konzept der Attention nutzen:
1 . Stacked RNN with Attention
2 . Convolutional Models (ConvSeq2Seq)
3 . Self-attentional Transformer
3.2 Arten neuronaler Modelle
3.2.1 RNN (mit und ohne Attention)
Zu den frühesten Encoder-Decoder-Modellen auf der Basis rekurrenter neuronaler Netzwerke (RNN) zählen die Ansätze von Cho et al. (2014a) sowie von Bahdanau et al. (2015).
Im RNN-Encoder-Decoder-Modell von Cho et al. (2014a) kommt ein RNN sowohl im Encoder als auch im Decoder zum Einsatz. Der Encoder verarbeitet dabei eine Eingabesequenz variabler Länge, indem er die Wörter nacheinander einliest und in einen kompakten, festen Vektor - den sogenannten Kontextvektor - transformiert. Dieser Kontextvektor dient als komprimierte Darstellung des gesamten Satzes und enthält wesentliche semantische und kontextuelle Informationen. So wird dem Modell eine ganzheitliche Erfassung der Satzbedeutung ermöglicht, anstatt einzelne Wörter isoliert zu betrachten.
Anschließend übernimmt der Decoder die Aufgabe, ausgehend von einem speziellen Startsymbol, den Zieltext Wort für Wort zu generieren. Dabei verwendet er den Kontextvektor als Grundlage und bezieht zusätzlich den jeweils vorherigen Zustand sowie das zuletzt erzeugte Wort in die Vorhersage des nächsten Zielworts ein. Dieser Prozess wiederholt sich, bis ein Endsymbol das Ende der Übersetzung signalisiert. Auf diese Weise entsteht die Übersetzung schrittweise, wobei jedes Wort auf dem vorherigen aufbaut.
Ein zentrales Problem dieses Modells besteht jedoch darin, dass sämtliche Informationen der Eingabesequenz in einem einzigen Vektor gespeichert werden müssen. Vor allem bei längeren Sätzen führt dies zu Informationsverlusten und folglich zu einer sinkenden Übersetzungsqualität (Cho, 2014b: 107).
Um dieser Schwäche entgegenzuwirken, erweiterten Bahdanau et al. (2015) das klassische RNN-Encoder-Decoder-Modell um einen Aufmerksamkeitsmechanismus (Attention). In ihrem Modell besteht der Encoder aus einem bidirektionalen RNN, das die Eingabesequenz sowohl in Vorwärts- als auch in Rückwärtsrichtung verarbeitet. Dadurch entstehen für jedes Wort zwei Zustände, die kombiniert eine umfassende Annotation bilden. Diese Annotationsvektoren enthalten somit Informationen über die jeweilige Wortumgebung im gesamten Satzkontext.
Der zentrale Innovationspunkt dieses Ansatzes ist der Attention-Mechanismus, der es dem Decoder erlaubt, sich während der Generierung der Zielsequenz gezielt auf unterschiedliche Teile der Eingabesequenz zu konzentrieren. Anstatt sich auf einen einzigen Kontextvektor zu stützen, berechnet das Modell für jedes Zielwort individuelle Gewichtungen, die angeben, welche Bestandteile der Ausgangssequenz besonders relevant sind. Diese dynamische Ausrichtung erlaubt eine kontextabhängige, flexible Übersetzung und verbessert die Modellleistung insbesondere bei langen und komplexen Sätzen (Bahdanau et al., 2015: 2).
Zu den Vorteilen von RNNs zählen neben der Möglichkeit des gemeinsamen Trainings aller Modellkomponenten auch ihre Erfolge in verschiedenen Anwendungsfeldern wie maschineller Übersetzung, Sentiment-Analyse oder Part-of-Speech-Tagging (Cho et al., 2014a; Mohamed et al., 2020: 15922). Insbesondere durch die Einführung des Attention-Mechanismus können längere Texte deutlich effizienter verarbeitet werden, da das Modell nicht länger auf einen komprimierten Kontextvektor angewiesen ist. Dies ermöglicht ein präziseres Alignment zwischen Ausgangs- und Zieltext und steigert die Übersetzungsqualität erheblich (Bahdanau et al., 2015: 2).
Dem gegenüber stehen jedoch auch einige Nachteile. RNNs verarbeiten Eingabe- und Ausgabesequenzen sequentiell, was paralleles Training erschwert. Darüber hinaus muss das Modell für jedes Ausgabeelement erneut die gesamte Eingabesequenz durchlaufen, was die Verarbeitung längerer Texte zeitaufwendig macht. Zudem sind RNN-Modelle für Echtzeitanwendungen, bei denen bereits mit der Übersetzung begonnen werden soll, bevor alle Eingabedaten vorliegen, nur bedingt geeignet (Mohamed et al., 2020: 15922-15923). Auch zeigt sich eine erhöhte Fehleranfälligkeit bei der Verarbeitung unbekannter Wörter (Cho et al., 2014b: 103).
3.2.2 Convolutional Models (ConvSeq2Seq)
Das von Gehring et al. (2017) vorgestellte Convolutional Sequence-to-Sequence-Modell stellt eine Abkehr von der rekurrenten Architektur dar und basiert vollständig auf Convolutional Neural Networks (CNNs). Ziel dieses Ansatzes ist es, die sequentielle Verarbeitung von Textdaten effizienter zu gestalten und gleichzeitig die Leistung in Anwendungen wie maschineller Übersetzung oder Textzusammenfassung zu verbessern.
Im Gegensatz zu rekurrenten Netzwerken, die Eingabesequenzen Wort für Wort verarbeiten, modellieren CNNs lokale Abhängigkeiten, indem sie innerhalb eines fest definierten Kontextbereichs arbeiten. Dieser Kontextbereich wird durch das Stapeln mehrerer konvolutionaler Schichten schrittweise erweitert, wodurch das Modell zunehmend größere Zusammenhänge innerhalb der Sequenz erfassen kann.
Ein wesentlicher Vorteil gegenüber RNNs liegt in der Parallelisierbarkeit von CNNs, wodurch eine deutlich schnellere Verarbeitung ermöglicht wird. Da CNNs jedoch keine inhärente Information über die Reihenfolge der Tokens enthalten, wird die Positionsinformation durch sogenannte Positionsembeddings ergänzt: Jedes Token erhält einen zusätzlichen Vektor, der seine relative Position in der Sequenz kodiert, wodurch die Modellierung der Wortreihenfolge sichergestellt wird.
Die Modellarchitektur gliedert sich in einen Encoder und einen Decoder, die jeweils aus mehreren konvolutionalen Blöcken bestehen. Diese Blöcke sind über sogenannte Residualverbindungen miteinander verbunden, was das Training tiefer Netzwerke erleichtert. Eine zentrale Rolle spielt die Anwendung von Gated Linear Units (GLUs) als Aktivierungsfunktion, die die Extraktion relevanter Informationen unterstützt und somit zur Leistungssteigerung des Modells beiträgt.
Ein zentrales Merkmal dieses Modells ist der Multi-Step-Attention-Mechanismus. Anders als bei klassischen Ansätzen ist jede Schicht des Decoders mit einem eigenen Attention-Mechanis- mus ausgestattet, der es dem Modell erlaubt, unterschiedliche Aspekte der Eingabesequenz auf verschiedenen Repräsentationsebenen zu gewichten. Die Kombination aus Convolution und Attention ermöglicht es dem System, sowohl lokale als auch globale Abhängigkeiten innerhalb der Sequenz effektiv zu erfassen.
Zu den wichtigsten Vorteilen konvolutionaler Modelle zählt ihre Fähigkeit zur parallelen Datenverarbeitung, was eine effiziente Ausnutzung moderner Hardware wie GPUs erlaubt (Mohamed et al., 2020: 15925). Zudem lassen sich diese Modelle problemlos auf große Datenmengen skalieren, da jede konvolutionale Schicht mit einem festen Kontext arbeitet, der unabhängig von der Gesamtlänge der Sequenz ist (Gehring et al., 2017: Abs. 1). Die Verwendung einer konstanten Anzahl von GLUs trägt darüber hinaus zu einer stabileren und effizienteren Optimierung bei (Mohamed et al., 2020: 15925).
Allerdings bringt diese Architektur auch gewisse Einschränkungen mit sich. So ist die Wirksamkeit des Attention-Mechanismus eng an eine mehrschichtige konvolutionale Struktur gekoppelt. Ohne eine solche Struktur nimmt der Einfluss der gewichteten Kontextinformationen deutlich ab (Mohamed et al., 2020: 15925). Darüber hinaus steigt der Rechenaufwand zur Modellierung weit entfernter Wortbeziehungen linear mit der Distanz, was die Effizienz insbesondere bei sehr langen Sequenzen erheblich beeinträchtigen kann (Mohamed et al., 2020: 15925).
3.2.3 Self-Attention-Transformer
Das Transformer-Modell von Vaswani et al. (2017) revolutioniert die Verarbeitung von Sequenzen, indem es vollständig auf rekurrente und konvolutionale Netzwerke verzichtet und stattdessen ausschließlich auf Aufmerksamkeitsmechanismen setzt. Diese Mechanismen ermöglichen es, globale Abhängigkeiten zwischen Eingabe- und Ausgabesequenzen zu modellieren (Vas- wani et al. 2023: 2).
Die Architektur des Transformers gliedert sich in zwei zentrale Komponenten: den Encoder und den Decoder. Der Encoder verarbeitet die Eingabesequenz und überführt sie mittels Word-Embeddings sowie Positional Encodings in eine abstrakte Vektorrepräsentation, die semantische und syntaktische Relationen zwischen den Elementen abbildet. Dabei stellen die Positional Encodings - auf Sinus- und Kosinusfunktionen basierende Vektoren - sicher, dass die Modellarchitektur die Wortreihenfolge erfassen kann (Krüger, 2021: 5-6; Vaswani et al., 2023: 6).
Die so vorbereitete Eingabesequenz durchläuft mehrere Encoder-Blöcke, in denen durch rekursive Anwendung von Aufmerksamkeitsmechanismen zunehmend kontextuelle Informationen integriert werden (Krüger, 2021: 9). Ein zentrales Element dieses Prozesses ist der Self-At- tention-Mechanismus, der für jedes Token die Relevanz aller anderen Tokens der Sequenz gewichtet. Auf diese Weise wird eine differenzierte, kontextualisierte Repräsentation jedes einzelnen Tokens erzeugt, was zu einer erheblichen Leistungssteigerung gegenüber früheren Modellen führt (Krüger, 2021: 11-13).
Im Anschluss an die Encodierung beginnt der Decoder mit der Generierung der Zielsequenz. Anders als der Encoder arbeitet der Decoder nicht vollständig parallel, sondern generiert den Zieltext sequenziell: Jedes neu erzeugte Token wird unmittelbar in den nächsten Dekodierschritt eingespeist. Dieser Prozess wiederholt sich, bis ein vordefiniertes Endsymbol erreicht wird (Krüger, 2021: 35-36).
Encoder und Decoder bestehen jeweils aus sechs Blöcken, die sich aus einer Multi-Head-At- tention-Schicht - als Implementierung des Self-Attention-Mechanismus - und einer Feed-Forward-Schicht, die eine nichtlineare Funktion einführt, zusammensetzen. Diese Schichten werden durch eine Add-&-Norm-Schicht verbunden, bei denen die Ergebnisse der vorherigen Schichten mittels Residualverbindungen zusammengeführt und anschließend schichtnormalisiert werden (Krüger, 2021: 5; 11; 33-34). Zusätzlich beinhaltet ein Decoder-Block eine Mas- ked-Multi-Head-Attention-Schicht, die während der Trainingsphase des Transformers von Bedeutung ist, sowie eine lineare Schicht und eine Softmax-Schicht, welche die finale Ausgabe des Modells bestimmen. Durch die lineare Schicht wird der Output-Vektor des letzten DecoderBlocks von einem 512-dimensionalen Vektor in einen Vektor transformiert, dessen Dimension der Größe des Zielvokabulars entspricht. Anschließend normalisiert die Softmax-Funktion diesen Vektor, sodass eine Wahrscheinlichkeitsverteilung entsteht, bei der die Summe aller Werte 1 beträgt (Krüger, 2021: 36-41).
Ein prominentes Beispiel für ein auf dem Transformer-Modell basierendes Large Language Model ist ChatGPT (LTIMindtree, 2023: 4), das in der vorliegenden Arbeit im Rahmen der Evaluation maschineller Literaturübersetzung zum Einsatz kommt.
Der Self-Attention-Transformer bringt eine Reihe signifikanter Vorteile mit sich. Insbesondere ermöglicht der Verzicht auf sequentielle Verarbeitung eine parallele Berechnung sämtlicher Positionen innerhalb einer Sequenz, was die Trainingszeit gegenüber rekurrenten Modellen drastisch reduziert (Mohamed et al., 2020: 15924). Darüber hinaus erlaubt die explizite Modellierung von Beziehungen zwischen beliebigen Positionen in der Eingabe eine effizientere Erfassung von Abhängigkeiten, insbesondere über längere Distanzen hinweg (Mohamed et al., 2020: 15924).
Nichtsdestotrotz sind auch einige Einschränkungen zu beachten. Der Attention-Mechanismus weist jedem Token unabhängig von dessen semantischer Relevanz Gewichtungen zu, was dazu führen kann, dass irrelevante Informationen überbewertet und relevante Details vernachlässigt werden. Hinzu kommt, dass die Anzahl der Rechenoperationen quadratisch mit der Länge der Sequenz zunimmt, da für jedes Tokenpaar das Skalarprodukt berechnet werden muss. Dies kann insbesondere bei sehr langen Sequenzen zu einer erheblichen Reduktion der Effizienz führen (Mohamed et al., 2020: 15924).
3.3 LLMs in der maschinellen Übersetzung
3.3.1 Funktionen von LLMs für die maschinelle Übersetzung
Große Sprachmodelle wie ChatGPT bieten Übersetzenden Unterstützung in Bereichen, die klassische neuronale Übersetzungssysteme wie DeepL oder Google Translate nicht in gleicher Weise abdecken. Siu (2023) hebt hervor, dass LLMs insbesondere in folgenden Aspekten hilfreich sein können:
• Sie ermöglichen eine präzisere Kontextualisierung mehrdeutiger Begriffe und unterstützen die korrekte Interpretation von Ausdrücken innerhalb ihres spezifischen Bedeutungsrahmens.
• Sie liefern kulturelle und historische Erklärungen zu sprachlichen Wendungen, die für Personen aus anderen kulturellen Kontexten schwer verständlich sein können, etwa bei idiomatischen Redewendungen oder Sprichwörtern.
• Sie erleichtern das Verständnis fachspezifischer Terminologie und können komplexe Inhalte in vereinfachter Sprache darstellen - ein Vorteil insbesondere bei juristischen oder medizinischen Texten, wie beispielsweise der Anforderung „Erkläre koronare Herzkrankheit in leicht verständlichen Worten“.
• Sie können erste Übersetzungsentwürfe generieren, die als Ausgangspunkt für die weiterführende Bearbeitung durch menschliche Übersetzende dienen.
• Sie tragen zur Qualitätssicherung bei, indem sie Fehler oder Auslassungen identifizieren, grammatikalische Korrekturen vorschlagen und alternative Formulierungen bereitstellen, die die stilistische und sprachliche Präzision der Übersetzung erhöhen.
• Sie ermöglichen Verbesserungen durch dialogische Interaktion: Übersetzende können gezielt Rückfragen stellen, Anpassungen vorschlagen oder Bewertungen einfordern, wodurch eine schrittweise Verfeinerung der Übersetzung erfolgt.
3.3.2 Stärken und Schwächen von LLMs
Die Integration von LLMs wie ChatGPT in den Übersetzungsprozess hat zu weitreichenden Veränderungen geführt. Aufgrund ihrer vielseitigen Einsatzmöglichkeiten tragen diese Modelle wesentlich zur Effizienzsteigerung in professionellen Übersetzungsabläufen bei (Amini et al., 2024). Besonders durch ihre dialogorientierte Funktionsweise unterstützen LLMs Übersetzende etwa mit alternativen Formulierungen, der Beantwortung von Rückfragen und der Korrektur fehlerhafter Annahmen. Dies verbessert nicht nur die Genauigkeit und Effizienz des Übersetzungsprozesses, sondern stellt herkömmliche neuronale Übersetzungssysteme wie DeepL oder Google Translate in den Schatten (Ruoqi et al., 2023).
Stärken von ChatGPT im Übersetzungskontext sind eine Produktivitätssteigerung durch Reduktion des Arbeitsaufwands und Zeitersparnis für Übersetzende, Kosteneffizienz, kontextuelle Anpassungsfähigkeit, kreative Textgenerierung und ein branchenübergreifender Einsatz in Sektoren wie Gesundheitswesen, Finanzwesen und E-Commerce.
Schwächen von ChatGPT im Übersetzungskontext sind Risiken für das Berufsbild des Übersetzenden durch einen Rollenwandel hin zu Post-Editoren und eine damit verbundene mögliche berufliche Entwertung, die Gefahr der Reduktion aktiver Sprachkompetenz durch zunehmende Abhängigkeit von maschinellen Lösungen, begrenzte Leistung bei hochspezialisierten oder terminologisch komplexen Texten sowie die Möglichkeit ungenauer oder fehlerhafter Ausgaben bei Themen außerhalb der Trainingsdaten (Ruoqi et al., 2023, Amini et al., 2024 und Siu, 2023).
Inwieweit ein Large Language Model wie ChatGPT aktuell dazu in der Lage ist, eine tatsächliche Bedrohung für das Berufsbild des Literaturübersetzenden darzustellen, soll in dieser Arbeit untersucht werden.
4 Vergleich von NMÜ und LLMs
Wie genau unterscheiden sich klassische NMÜ-Systeme von modernen LLMs? Um dieser Frage nachzugehen, werden im Folgenden mehrere aktuelle Studien beleuchtet, die spannende Einblicke in das Übersetzungsverhalten beider Systemarten geben. Dabei stehen vier zentrale Elemente im Fokus: Erstens in Abgrenzung zur menschlichen Übersetzung, zweitens die jeweiligen Fähigkeiten der Systeme, drittens deren Bewertung durch automatische und menschliche Evaluationsmethoden sowie viertens die spezifischen Herausforderungen im Kontext literarischer Übersetzung. Anhand dieser Grundlage lässt sich ein differenziertes Bild der Stärken und Schwächen von NMÜ und LLMs im Übersetzungsprozess darstellen.
4.1 In Abgrenzung zur menschlichen Übersetzung
Sizov et al. (2024) untersuchten, inwiefern Übersetzungen großer Sprachmodelle (LLMs), neuronaler maschineller Übersetzungssysteme (NMÜs) und menschlicher Übersetzungen (HTs) sich voneinander unterscheiden. Ziel war es, linguistische Merkmale zu identifizieren, anhand derer maschinell erzeugte Übersetzungen von ursprünglich in der Zielsprache verfassten Texten unterschieden werden können.
Dazu setzten die Autoren und Autorinnen zwei Verfahren ein: Leave-One-Out (LOO) und Integrated Gradients (IG). Beide Methoden dienen dazu, jene lexikalischen Elemente sichtbar zu machen, die besonders ausschlaggebend dafür sind, ob ein Satz als Originaltext oder als Übersetzung erkannt wird. Die Analyse verlief dabei zweistufig: Im ersten Schritt klassifizierte ein automatisiertes Verfahren Sätze danach, ob sie als originalsprachlich oder übersetzt einzustufen sind. Im zweiten Schritt wurden die auffälligsten sprachlichen Merkmale extrahiert und eingehender analysiert. Als Datengrundlage diente der MPDE-Datensatz, der sowohl Originaltexte als auch deren Übersetzungen enthält. Untersucht wurden Übersetzungen von menschlichen Übersetzenden ebenso wie maschinelle Ergebnisse, darunter solche von DeepL, Google Translate sowie von großen Sprachmodellen wie TowerInstruct-7B-v0.2 und Gemma-7B.
Die Analyse zeigte, dass maschinelle Übersetzungen, sowohl von NMÜs als auch von LLMs, systematisch von menschlichen Übersetzungen und Originaltexten abweichen. NMÜs erzeugen tendenziell wörtlichere, strukturell homogenere Sätze, während LLMs stilistisch näher an menschliche Übersetzungen heranreichen, aber dennoch maschinell erkennbar bleiben. Insbesondere bei der Verwendung von Adverbien und Hilfsverben weisen LLMs eine deutlichere Annäherung an menschliche Muster auf als klassische NMÜ-Systeme.
Eine ähnliche Untersuchung von Jiang et al. (2024a) geht darüber hinaus, indem sie die stilistischen Unterschiede zwischen den drei Übersetzungsarten (HT, NMÜ und ChatGPT) genauer analysiert. Anhand eines Korpus diplomatischer Sprechertexte sowie maschineller Lernverfahren und multidimensionaler Analyse zeigte sich, dass ChatGPT-Übersetzungen stilistisch stärker an NMÜ-Ergebnisse als an HT heranreichen. Während menschliche Übersetzungen formeller, vorsichtiger und zurückhaltender im Ausdruck sind, neigen ChatGPT-Übersetzungen zu mehr Direktheit, evaluativer Sprache und einem informelleren Ton.
4.2 Fähigkeiten
Zeng & Liang (2024) untersuchten, ob große Sprachmodelle wie GPT-4 besser für maschinelle Übersetzung geeignet sind als klassische neuronale Übersetzungsmodelle wie Google Translate. Dabei lag der Fokus auf vier Kriterien: Übersetzungsqualität, interaktive Fähigkeiten, Einbindung externen Wissens sowie Domänenanpassung. Sie verglichen GPT-4 und Google Translate anhand der WMT-2019-Daten für Chinesisch-Englisch und Deutsch-Englisch.
Zunächst wurde die Übersetzungsqualität mithilfe des COMET-Scores bewertet. Dabei übertraf GPT-4 Google Translate bei Chinesisch-Englisch, lag aber zunächst bei Englisch-Chinesisch zurück. Durch ein „Refinement“-Prompt konnte GPT-4 jedoch auch dort Google Translate überholen.
Im Hinblick auf die Interaktivität zeigte sich, dass GPT-4 durch einfache natürliche Spracheingaben effektiv zur Verbesserung von Übersetzungen genutzt werden kann. Ein Beispiel zeigte, dass GPT-4 durch einen einfachen Refinement-Prompt „Please review and polish the translation result” (Zeng & Liang, 2024: 3) fehlerhafte Wortbedeutungen korrigieren und stilistische Verbesserungen vornehmen konnte - ähnlich wie menschliche Übersetzende beim Überarbeiten ihrer Texte.
Die Fähigkeit zur Integration von externem Wissen wurde anhand von Named-Entity-Fehlern überprüft. In 20 Fällen fehlerhafter Übersetzungen von Eigennamen konnte GPT-4 durch gezielte Prompts „Please retranslate the sentence, and note that the [NE in source] should be translated as [NE in target]“ (Zeng & Liang, 2024: 3) sämtliche Fehler korrigieren. Dies zeigt, dass GPT-4 durch einfache Benutzereingaben spezifisches Wissen übernehmen kann - eine Aufgabe, die bei traditionellen NMÜ-Modellen mit erheblichem technischem Aufwand verbunden ist.
Auch im Bereich der Domänenanpassung lieferte GPT-4 überzeugende Ergebnisse. Anhand eines deutsch-englischen Datensatzes aus den Bereichen Medizin und Recht (OPUS Multi-Domain Dataset) konnte gezeigt werden, dass GPT-4 mit gezielten Prompts wie „You are an expert in [DOMAIN]...” (Zeng & Liang, 2024: 3) oder durch Beispiel-Sätze aus dem jeweiligen Fachgebiet seine Übersetzungen deutlich verbessern konnte. Die besten Ergebnisse wurden jeweils durch unterschiedliche Strategien erzielt: Im medizinischen Bereich brachte die Nennung des Bereichs den größten Effekt, während im juristischen Bereich die Verwendung von ZielsatzBeispielen besonders hilfreich war.
Zusammenfassend zeigten die Ergebnisse, dass große Sprachmodelle - insbesondere GPT-4 - herkömmliche NMÜ-Systeme in mehreren zentralen Bereichen übertreffen können, insbesondere wenn sie durch gezielte Prompts oder leichtes Finetuning angepasst werden.
4.3 Automatische vs. humane Evaluation
Jiang et al. (2024b) untersuchten in ihrer Studie, inwieweit sich automatische Bewertungsmethoden und menschliche Qualitätsurteile bei maschinellen Übersetzungen decken. Ziel war es, mögliche Übereinstimmungen und Diskrepanzen zu identifizieren und zu ermitteln, welche Aspekte der Übersetzungsqualität durch automatische Metriken möglicherweise nicht erfasst werden.
Untersucht wurden Übersetzungen politisch-diplomatischer Texte, konkret 6.878 Redebeiträge von Pressesprecherinnen und Pressesprechern des chinesischen Außenministeriums, die professionell ins Englische übertragen wurden. Diese dienten als Grundlage für den Vergleich der Übersetzungsqualität von ChatGPT (GPT-3.5-Turbo) in drei unterschiedlichen Prompting-Sze- narien (0-shot, 1-shot und kontextbasiert) mit der Leistung dreier etablierter NMÜ-Systeme: Google Translate, Microsoft Translate und DeepL. Für die Evaluation kamen zum einen vier gängige automatische Metriken - BLEU, chrF, BERTScore und COMET - zum Einsatz, zum anderen wurde eine umfassende qualitative Bewertung anhand des DQF-MQM-Fehlerklassifi- kationssystems vorgenommen. Diese qualitative Analyse erfolgte durch professionelle Übersetzerinnen und Übersetzer im Rahmen eines systematisch dokumentierten Verfahrens.
Die Ergebnisse zeigen, dass ChatGPT insbesondere unter der 1-shot-Bedingung die qualitativ besten Ergebnisse erzielte - noch vor den getesteten NMÜ-Systemen. Bereits die Bereitstellung eines einzigen Übersetzungsbeispiels führt zu einer signifikanten Qualitätssteigerung. Besonders auffällig ist, dass diese Verbesserung primär in der menschlichen Evaluation sichtbar wurde, während sich in den Scores der automatischen Metriken kaum eine Veränderung zeigte. Die Studie legt damit offen, dass automatische Bewertungsverfahren vorrangig auf formale Kriterien wie N-Gramm-Übereinstimmungen fokussieren und semantische, kulturelle oder stilistische Aspekte der Übersetzung kaum adäquat abbilden.
Jiang et al. (2024b) kommen zu dem Schluss, dass automatische Metriken zwar eine erste Orientierung bieten können, jedoch keinesfalls als alleinige Grundlage zur Qualitätsbewertung maschineller Übersetzungen dienen sollten. Für kontextuell, stilistisch oder kulturell anspruchsvolle Texte bleibt die menschliche Evaluation trotz ihres Aufwands unverzichtbar. Darüber hinaus verdeutlichen die Ergebnisse das Potenzial gezielten Prompt Engineerings zur Optimierung von LLM-Übersetzungen - ein Potenzial, das durch aktuelle automatische Bewertungsmethoden noch nicht adäquat erfasst werden kann.
4.4 Literarische Übersetzung als Herausforderung
Karabayeva & Kalizhanova (2024) widmeten sich in ihrer Studie der Frage, inwieweit KI-ge- stützte Übersetzungssysteme - konkret ChatGPT und DeepL - in der Lage sind, literarische Texte adäquat zu übertragen. Im Fokus standen dabei insbesondere kreative und rhetorische Elemente wie Metaphern, Reime und bildhafte Sprache, die hohe Anforderungen an die sprachliche Sensibilität und stilistische Kompetenz von Übersetzenden stellen.
Als Untersuchungsgrundlage diente ein Korpus ausgewählter Textpassagen aus Neil Gaimans Roman Coraline, der eine Vielzahl stilistischer Mittel wie Metaphern, Alliterationen und bildhafte Sprache enthält. Etwa fünfzehn kurze Passagen wurden jeweils mit der Standardfunktion von ChatGPT und DeepL ins Russische übersetzt. Die Auswertung erfolgte qualitativ anhand der Kriterien Genauigkeit (semantische Treue), Sprachflüssigkeit (Grammatik und Natürlichkeit) und Erhaltung rhetorischer Stilmittel. Zusätzlich wurde ChatGPT mithilfe gezielter Prompts auf die stilistischen Merkmale hingewiesen, um das Potenzial menschlicher Steuerung im Übersetzungsprozess zu erproben. Darüber hinaus wurden die Ergebnisse zudem mit professionellen menschlichen Übersetzungen verglichen.
Beide Systeme konnten unkomplizierte, beschreibende Passagen mit hinreichender Genauigkeit übertragen, stießen jedoch bei komplexeren, metaphorischen oder kulturell geprägten Inhalten an ihre Grenzen. DeepL neigte dazu, Metaphern wörtlich zu übertragen, wodurch Bedeutungsnuancen verloren gingen. In einigen Fällen gelang ChatGPT eine sinngemäße Umschreibung, wenngleich das Modell bei seltenen oder kulturell spezifischen Metaphern ebenfalls an seine Grenzen stieß. Hinsichtlich der Sprachflüssigkeit überzeugte DeepL durch durchgehend grammatikalisch korrekte Ausgaben, während ChatGPT mitunter kleinere grammatikalische Unregelmäßigkeiten aufwies - jedoch die Fähigkeit zeigte, diese bei entsprechender Rückmeldung eigenständig zu korrigieren. Die größten Schwächen zeigten beide Systeme bei der Reproduktion literarischer Stilmittel wie Reim, Alliteration, bildhafte Sprache, Tonalität und emotionale Nuancen. Selbst bei gezielter menschlicher Steuerung gelang es ChatGPT nur in begrenztem Maße, die Qualität in diesen Bereichen zu verbessern.
Die Untersuchung verdeutlicht die gegenwärtigen Grenzen maschineller Übersetzung im literarischen Bereich. Während ChatGPT und DeepL bei der Übertragung sachlicher Inhalte beachtliche Ergebnisse liefern, fehlt es beiden Systemen an kreativem Ausdruck, stilistischer
Feinfühligkeit und kultureller Sensibilität. Besonders ChatGPT zeigt Potenzial für Optimierungen durch interaktive Anleitung, was hybride Arbeitsformen zwischen Mensch und Maschine als zukunftsweisend erscheinen lässt. Dennoch bleibt die kreative Leistung menschlicher Übersetzerinnen und Übersetzer im literarischen Kontext bislang unerreicht.
5 Evaluierung maschineller Übersetzung
5.1 Humane Evaluierungsmethoden
Chatzikoumi (2020) unterscheidet menschliche Bewertungsmethoden für maschinelle Übersetzungen danach, ob die Beurteilenden ihre Einschätzungen explizit äußern oder nicht. Dabei werden zwei grundlegende Typen identifiziert: explizit oder implizit geäußerte, urteilsbasierte Evaluationsverfahren.
Explizit geäußerte urteilsbasierte Evaluierungsverfahren (DEJ) basieren darauf, dass menschliche Fachpersonen ihre Einschätzung zur Qualität der Übersetzung unmittelbar und subjektiv mitteilen. Dabei äußern sie ihre Bewertungen etwa durch Aussagen wie „gut“ oder „besser als“ und stützen sich dabei auf zwei wesentliche Kriterien: Angemessenheit und Flüssigkeit. In der Regel erfolgt die Bewertung durch einen Vergleich zwischen dem Ausgangstext und dem Zieltext oder zwischen dem Zieltext und einer Referenzübersetzung. Am häufigsten kommt dabei eine Fünf-Punkte-Skala zum Einsatz, wobei auch Varianten mit vier oder sieben Stufen verwendet werden. Die Angemessenheit bezieht sich auf die inhaltliche Richtigkeit der Übersetzung, während die Flüssigkeit Aspekte wie Grammatik und natürliche Sprachverwendung umfasst.
Eine weitere direkte Bewertungsmethode ist das Ranking mehrerer Übersetzungen nach Qualität. Dabei gibt es zwei Ansätze: Bei der „Quick Comparison“ wird die beste von drei Übersetzungen ausgewählt, während bei „Rank Translations“ mehrere Übersetzungen in eine Rangfolge gebracht werden.
Zusätzlich existiert das sogenannte „Direct Assessment“, bei dem Nutzer und Nutzerinnen die Qualität maschineller Übersetzungen auf einer kontinuierlichen Skala - etwa einer 100-Punkte- Skala - bewerten. Der Fokus liegt hierbei meist auf der Angemessenheit. Diese Methode kann entweder auf dem Ausgangs- oder dem Zieltext basieren und zielt darauf ab, den Grad der Übersetzungsqualität zu erfassen, anstatt lediglich eine Rangordnung zu erstellen (Chatziko- umi, 2020: 146-149).
Im Gegensatz zu expliziten Bewertungsmethoden basieren implizit geäußerte urteilsbasierte Evaluierungsverfahren (non-DEJ) auf indirekten Einschätzungen durch Menschen. Dazu zählen unter anderem halbautomatische Metriken sowie aufgabenbasierte Evaluierungen.
Halbautomatische Verfahren, auch als Human-in-the-Loop-Evaluierungen bekannt, kombinieren automatische Metriken mit menschlichem Urteil. Bekannte Beispiele sind HTER, HBLEU und HMETEOR. Diese Methoden nutzen maschinelle Voranalysen, die anschließend durch menschliche Bewertungen ergänzt oder überprüft werden.
Aufgabenbasierte Evaluierungen hingegen messen die Qualität maschineller Übersetzungen anhand konkreter Anwendungsaufgaben. Dazu gehören etwa: das Erkennen relevanter Informationen, das Beantworten von Fragen zum Text, oder das Ausfüllen von Lücken in Referenzübersetzungen.
In diesen Fällen bewerten die Teilnehmenden nicht direkt die Übersetzung, sondern führen Aufgaben aus, die ein Verständnis oder eine Interaktion mit dem übersetzten Text erfordern. Beispiele sind Klassifizierungsaufgaben, Fehleranalysen oder Korrekturen maschineller Übersetzungen.
Ein weit verbreiteter Ansatz ist die Fehlerklassifikation und -analyse, bei der unter anderem das Multidimensional Quality Metrics (MQM)-Modell zum Einsatz kommt. Dieses wurde im Rahmen des QTLaunchPad-Projekts entwickelt und definiert Standards für die Qualitätsbewertung von Übersetzungen.
Der MQM-Ansatz umfasst: die Auswahl relevanter Qualitätsdimensionen, die Festlegung spezifischer Fehlerkategorien sowie die Annotation von Fehlern mithilfe von Tools wie translate5. Fehler werden auf einer vierstufigen Skala gewichtet: keine, geringfügig, schwerwiegend und kritisch.
Zu den zentralen MQM-Fehlerkategorien (MQM, 2025) zählen:
• Terminology, also Fehler, die entstehen, wenn Begriffe nicht den etablierten Standards entsprechen oder keine äquivalente Entsprechung in der Zielsprache sind.
• Accuracy, also Fehler, die aus Verzerrungen, Auslassungen oder Hinzufügungen resultieren, was zu einer Nichtübereinstimmung mit der Bedeutung des Ausgangstextes führt.
• Linguistic Conventions, also Grammatik-, Idiomatik- oder Rechtschreibfehler.
• Style, also Stilabweichungen oder unangemessener Sprachgebrauch.
• Locale Conventions, also die Missachtung regionaler oder formaler Vorgaben.
• Audience Appropriateness, also ungeeignete Inhalte für die Zielgruppe.
• Design and Markup, also Probleme bei Layout, Formatierung oder Medieneinbindung.
• Custom, also Fehler, die keiner der vorherigen Kategorien zugeordnet werden können.
Jede dieser Kategorien kann weiter untergliedert werden, um eine präzisere Fehleranalyse zu ermöglichen, deren detaillierte Auflistung jedoch den Rahmen dieser Darstellung sprengen würde.
Ein weiterer zentraler Evaluierungsansatz ist das Postediting, also die Nachbearbeitung maschinell erzeugter Übersetzungen. Dabei unterscheidet man: Full Postediting, das eine vollständige Angleichung an eine hochwertige menschliche Übersetzung anstrebt und Light Postediting, das sich auf minimale Korrekturen zur Verbesserung der Verständlichkeit beschränkt.
Der Postediting-Prozess umfasst typischerweise die Identifikation von Übersetzungsfehlern durch den Vergleich von Ausgangs- und Zieltext, die Erkennung sprachlicher Fehler in der Zielsprache, die Korrektur dieser Fehler, sowie abschließendes Korrekturlesen. Diese Schritte verlaufen oft parallel und nicht strikt nacheinander.
Die Kombination von Postediting mit Fehlerklassifikation ermöglicht eine tiefgreifende Analyse der Übersetzungsqualität: Fehler werden zunächst kategorisiert und anschließend durch geeignete Übersetzungsalternativen ersetzt. Dieser parallele Ablauf verbessert die Fehlererkennung und unterstützt eine effiziente Annotation (vgl. Chatzikoumi, 2020: 149-155).
5.2 Maschinelle Evaluierungsmethoden
Die automatische Qualitätsbewertung (QE) ist ein zentrales Instrument zur Beurteilung maschineller Übersetzungen, da sie wichtige Hinweise auf die Verlässlichkeit automatisch erzeugter Inhalte liefert. Sie unterstützt Nutzerinnen und Nutzer dabei, die Qualität einer Übersetzung besser einzuschätzen, etwa um zu entscheiden, ob ein Text direkt verwendet oder nachbearbeitet werden sollte. Zudem ermöglicht sie die gezielte Kennzeichnung von Wörtern, die einer Überarbeitung bedürfen.
QE kann auf zwei Ebenen erfolgen: Wort- und Satzebene. Auf Wortebene wird jedem übersetzten Wort ein Qualitätslabel wie „OK“ oder „BAD“ zugewiesen. Zusätzlich werden auch Zwischenräume zwischen Wörtern analysiert, um fehlenden Kontext zu identifizieren. Auch Wörter im Ausgangstext können markiert werden, wenn sie falsch übersetzt oder ausgelassen wurden. Auf Satzebene zielt die Bewertung darauf ab, die Gesamtqualität einer Übersetzung vorherzusagen. Dabei werden unter anderem Faktoren wie die geschätzte Bearbeitungszeit durch einen Menschen oder die Anzahl notwendiger Korrekturen berücksichtigt (Kepler et al., 2019: 117-118).
Im Folgenden werden verschiedene automatische Evaluierungsmethoden vorgestellt, bevor begründet wird, weshalb in dieser Arbeit die Wahl auf TransQuest fiel.
5.2.1 BLEU
BLEU, kurz für „ B i L ingual E valuation U nderstudy“ (Papineni et al., 2002) zählt zu den frühesten und am weitesten verbreiteten Metriken zur automatischen Bewertung maschineller Übersetzungen. Ziel dieser Methode ist es, eine schnelle, kostengünstige und sprachunabhängige Evaluierung zu ermöglichen, die möglichst gut mit menschlichen Urteilen übereinstimmt. Sie bietet Entwicklerinnen und Entwicklern eine effiziente Möglichkeit, Übersetzungsmodelle regelmäßig zu überprüfen und gezielt weiterzuentwickeln.
BLEU bewertet die Qualität einer maschinellen Übersetzung (Hypothese), indem sie mit einer oder mehreren Referenzübersetzungen verglichen wird. Grundlage ist der Vergleich von nGrammen - also Wortfolgen unterschiedlicher Länge. Je mehr Übereinstimmungen zwischen Hypothese und Referenz auf verschiedenen n-Gramm-Ebenen bestehen, desto höher fällt der BLEU-Wert aus. Dadurch werden sowohl einzelne Wörter als auch längere Phrasen berücksichtigt.
Die Metrik basiert auf dem Konzept der Precision, um die Übereinstimmung zwischen einer Hypothese und einer Referenz zu bestimmen. Dabei wird ermittelt, wie viele Wörter der Hypothese auch in der Referenz vorkommen, wobei dieser Wert durch die Gesamtanzahl der Wörter in der Hypothese geteilt wird. Je höher die Anzahl der Übereinstimmungen, desto besser wird die Übersetzungsqualität eingeschätzt. Um jedoch Verzerrungen durch Wortwiederholungen in der Hypothese zu vermeiden, kommt das Prinzip der modified n-gram precision zum Einsatz: Übereinstimmende n-Gramme werden nur einmal gezählt, selbst wenn sie mehrfach auftreten.
Die Berechnungen der Metrik erfolgen nicht auf Satzebene, sondern über das gesamte Testkorpus hinweg, wodurch ein ausgewogeneres Gesamtbild der Übersetzungsleistung entsteht. Dabei liegt der BLEU-Score zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung mit der Referenz bedeutet.
Trotz alldem weist BLEU auch einige Einschränkungen auf. So berücksichtigt die Metrik keinen Recall, da ausschließlich erfasst wird, welche Bestandteile der Hypothese in der Referenz vorkommen - nicht jedoch, welche relevanten Elemente aus der Referenz in der Hypothese fehlen. Zudem kann es zu Verzerrungen kommen, wenn die Hypothese deutlich kürzer als die Referenz ist. In solchen Fällen greift die sogenannte Brevity Penalty, eine Strafkomponente, die aktiviert wird, sobald die Länge der Hypothese unter der der Referenz liegt; ist die Hypothese hingegen länger, bleibt dieser Strafwert bei 1 und hat keinen Einfluss. Dies kann dazu führen, dass kürzere, inhaltlich möglicherweise dennoch adäquate Übersetzungen schlechter bewertet werden. Eine weitere Schwäche besteht darin, dass BLEU die Wortreihenfolge lediglich anhand von n-Grammen beurteilt und damit die syntaktische Struktur oder kohärente Satzlogik nicht zuverlässig widerspiegelt (vgl. Papineni et al., 2002: 311-315).
Alles in allem fassen Papineni et al. (2002: 311) das Ziel von BLEU treffend zusammen: „The closer a machine translation is to a professional human translation, the better it is.“
5.2.2 BERTScore
BERTScore (Zhang et al., 2019) ist eine automatische Bewertungsmetrik für Textgenerierung, die sich deutlich von klassischen n-grammbasierten Verfahren unterscheidet. Statt auf reine Wortübereinstimmungen zu setzen, nutzt BERTScore kontextualisierte Worteinbettungen, um die semantische Ähnlichkeit zwischen einer maschinellen Übersetzung (Hypothese) und einer Referenz zu erfassen. Dabei zeigt sich eine höhere Korrelation mit menschlichen Bewertungen, sowohl auf System- als auch auf Segmentebene.
Die Ähnlichkeit wird durch die Summierung der Kosinusähnlichkeit zwischen den Einbettungsvektoren der Tokens beider Texte berechnet. Dabei berücksichtigt BERTScore den Kontext, in dem ein Wort verwendet wird, was eine differenziertere Bewertung ermöglicht - insbesondere bei semantischen Verschiebungen oder syntaktisch komplexen Strukturen.
Ein zentrales Merkmal ist die gewichtete Bewertung der Tokens, wodurch wichtigere Wörter stärker in die Bewertung einfließen. Die Tokenisierung erfolgt auf Wortteil-Ebene, was auch die Verarbeitung unbekannter Wörter ermöglicht. Die Einbettungen werden mithilfe eines Transformer-Encoders erzeugt, der auf selbstaufmerksamen Mechanismen basiert.
Die finale BERTScore-Bewertung ergibt sich aus der Precision, den Anteil der Tokens in der Hypothese, der mit der Referenz übereinstimmt, und dem Recall, also dem Anteil der Tokens in der Referenz, der in der Hypothese wiederzufinden ist. Diese beiden Werte werden zu einer F1-Measure kombiniert, die einen Gesamtwert zwischen 0 und 1 liefert.
Obwohl BERTScore auf umfangreich vortrainierten Modellen basiert, ist die Berechnung vergleichsweise effizient. Selbst für große Test- und Validierungsdatensätze bleibt der Anstieg der Verarbeitungszeit gering, sodass sich die Metrik gut für den Einsatz in Evaluationsprozessen eignet (vgl. Zhang et al., 2019: 1-8).
BERTScore basiert auf dem Konzept der Worteinbettung, bei dem Wörter als numerische Vektoren in einem mehrdimensionalen Raum dargestellt werden. Diese Vektoren erfassen semantische und grammatikalische Relationen zwischen Wörtern, wobei die Distanz zwischen zwei Vektoren ein Maß für ihre semantische Ähnlichkeit darstellt. Je näher sich zwei Wörter in diesem Raum befinden, desto ähnlicher sind sie in ihrer Bedeutung. Die Vielzahl der Dimensionen ermöglicht es, verschiedene Beziehungen zwischen Wörtern gleichzeitig abzubilden, wodurch sowohl semantische als auch grammatikalische Muster erfasst werden können (vgl. Hirschle, 2022: 129-133; Fick, 2018: 35-37).
5.2.3 Hjerson
Hjerson (Popovic, 2011) ist ein Tool zur automatisierten Fehlerklassifikation in der maschinellen Übersetzung. Es analysiert Übersetzungen auf Wortebene und ordnet erkannte Fehler in fünf Hauptkategorien ein: morphologische Fehler, Fehler in der Wortreihenfolge, fehlende Wörter, zusätzliche Wörter sowie lexikalische Fehler.
Die Fehlerklassifikation erfolgt durch den Vergleich einer maschinellen Übersetzung (Hypothese) mit einer Referenzübersetzung. Dabei werden sowohl die Originalformen der Wörter als auch deren Basisformen berücksichtigt. Zusätzlich können weitere Informationen auf Wortebene integriert werden, um eine differenziertere Analyse zu ermöglichen.
Zur Identifikation von Fehlern nutzt Hjerson verschiedene Metriken, darunter die Edit-Distance-Rate sowie die Word-Error-Rate (WER) zur Erfassung von Ersetzungen, Löschungen und Einfügungen sowie positionsunabhängige Metriken, die auf Precision und Recall basieren wie Reference Position-Independent Error Rate (RPer) zur Erfassung von Wörtern, die in der Referenz vorkommen, aber in der Hypothese fehlen und Hypothesis Position-Independent Error Rate (HPer) zur Erfassung von Wörtern, die in der Hypothese vorkommen, aber nicht in der Referenz.
Um eine präzisere Fehlerklassifikation zu gewährleisten, ergänzt Hjerson die Analyse um die Basisformen der Wörter. Dies ermöglicht eine detailliertere Einteilung der Fehler. Morphologische Fehler treten auf, wenn die Wortformen nicht übereinstimmen, die Basisformen jedoch schon. Fehler in der Wortreihenfolge treten auf, wenn die Wörter in beiden Texten vorhanden sind, aber an unterschiedlichen Positionen. Fehlende Wörter sind Löschungen, Wörter aus der Referenz, die in der Hypothese fehlen. Zusätzliche Wörter sind Einfügungen, Wörter in der Hypothese, die nicht in der Referenz vorkommen. Als lexikalische Fehler werden alle übrigen Fehler, die keiner der obigen Kategorien zugeordnet werden können, bezeichnet.
Hjerson liefert sowohl absolute Fehlerzahlen als auch normalisierte Fehlerquoten auf Satz- und Dokumentebene. Die Ergebnisse können als Text- oder HTML-Dateien ausgegeben werden, wobei die betroffenen Wörter farblich markiert sind. Das Tool ist grundsätzlich sprachunabhängig, setzt jedoch die Verfügbarkeit von Basisformen in der jeweiligen Zielsprache voraus. Fehlen diese, kann insbesondere die Erkennung morphologischer Fehler beeinträchtigt sein - ein Nachteil bei morphologisch komplexen Sprachen.
5.2.4 OpenKiwi
OpenKiwi (Kepler et al., 2019) ist ein auf PyTorch basierendes Open-Source-Framework zur automatischen Qualitätsbewertung maschineller Übersetzungen. Es unterstützt sowohl das Training als auch das Testen von Quality Estimation (QE)-Systemen auf Wort- und Satzebene und integriert mehrere leistungsstarke Modelle, die bei den WMT-Wettbewerben (2015-2018) erfolgreich eingesetzt wurden.
Zu den zentralen Merkmalen von OpenKiwi zählen die Integration von fünf QE-Modellen, darunter QUETCH (Kreutzer et al., 2015), NUQE (Martins et al., 2016, 2017), Predictor-Estimator (Kim et al., 2017; Wang et al., 2018), APE-QE (Martins et al., 2017) sowie ein Stacked Ensemble (Martins et al. 2017), die Nutzung von PyTorch unter Python 3, eine benutzerfreundliche API, die sich sowohl in bestehende Projekte integrieren als auch über die Kommandozeile ausführen lässt, die Möglichkeit zum Training eigener Modelle, die Bereitstellung vortrainierter Modelle (z. B. auf WMT 2018-Daten), die Verwendung von YAML-Konfigurationsdateien zur Dokumentation und Reproduzierbarkeit, sowie eine Open-Source-Lizenz (Affero GPL).
OpenKiwi integriert mehrere leistungsfähige Modelle zur automatischen Qualitätseinschätzung maschineller Übersetzungen, die auf unterschiedlichen Ansätzen basieren. Eines der frühesten Modelle ist QUETCH (Kreutzer et al., 2015), das auf einem mehrschichtigen Perzeptron mit einer einzigen versteckten Schicht und tanh -Aktivierungsfunktionen basiert. Es verwendet eine Wort-Einbettungsschicht, um Wörter in numerische Vektoren zu überführen, und berücksichtigt für jedes Zielwort ein festes Kontextfenster im Zieltext sowie einen entsprechenden Ausschnitt aus dem Ausgangstext, basierend auf Wortalignments. Die resultierenden Informationen werden kombiniert und über eine Softmax-Schicht klassifiziert, die die Wahrscheinlichkeit angibt, ob ein Wort korrekt (OK) oder fehlerhaft (BAD) ist. QUETCH wird separat für Zieltext, Ausgangstext und Lücken trainiert und verzichtet bewusst auf externe Trainingsdaten.
NuQE (Martins et al., 2016) ist ein neuronales Modell, das zur automatisierten Bewertung der Übersetzungsqualität auf Wortebene entwickelt wurde. Ziel ist es, jedes Wort in einem maschinell erzeugten Satz als entweder korrekt (OK) oder fehlerhaft (BAD) zu klassifizieren. Hierfür kombiniert das Modell Embeddings von Zielwörtern mit denen der jeweils zugeordneten Wörter im Ausgangstext. Diese kombinierten Repräsentationen werden anschließend durch zwei Feedforward-Schichten sowie eine bidirektionale Gated Recurrent Unit (GRU) verarbeitet. Die finale Entscheidung über die Wortklassifikation erfolgt über eine Softmax-Schicht, die Wahrscheinlichkeiten für die beiden Klassen ausgibt. Ein besonderes Merkmal von NuQE ist, dass es verschiedene Arten von Wortpositionen separat behandelt: Wörter im Zieltext, Lücken zwischen diesen Wörtern sowie Wörter im Ausgangstext. Für jede dieser Kategorien wird ein eigenes Modell trainiert - so können die spezifischen Eigenschaften der einzelnen Elemente gezielter erfasst werden. NuQE folgt dem sogenannten Blackbox-System, was bedeutet, dass es ausschließlich mit den offiziellen Daten aus der jeweiligen Aufgabe trainiert wird. Es greift also nicht auf zusätzliche Trainingsdaten oder externe Hilfsmittel zurück.
APE-QE (Martins et al. 2017) nutzt Automatic Post-Editing (APE) als Zwischenschritt zur Qualitätseinschätzung. Dabei wird ein APE-System auf Grundlage menschlicher Korrekturen trainiert. Die dabei entstehenden sogenannten Pseudo-Post-Edits dienen anschließend als Grundlage zur Ableitung von Qualitätsbewertungen. Auf Basis dieser Ausgaben lassen sich sowohl Labels auf Wortebene als auch Bewertungen auf Satzebene generieren, wodurch eine differenzierte Einschätzung der Übersetzungsqualität ermöglicht wird.
Das Predictor-Estimator-Modell (Kim et al., 2017) kombiniert zwei aufeinander abgestimmte Komponenten zur Bewertung der Übersetzungsqualität auf Wortebene. Die erste Komponente, der Predictor, prognostiziert für jedes Zielwort das wahrscheinlich folgende Wort, wobei sowohl der Ausgangstext als auch der Kontext im Zieltext berücksichtigt werden. Die zweite Komponente, der Estimator, nutzt die vom Predictor erzeugten Informationen, um jedes Zielwort als korrekt (OK) oder fehlerhaft (BAD) zu klassifizieren.
Technisch basiert das Modell auf rekurrenten neuronalen Netzen: Der Ausgangstext wird durch ein bidirektionales Long Short-Term Memory (LSTM) verarbeitet, während der Zieltext von zwei unidirektionalen LSTMs gelesen wird - jeweils in Vorwärts- und Rückwärtsrichtung. Die daraus resultierenden Kontextrepräsentationen werden kombiniert und durch ein Attention-Mo- dul geleitet, das die finale Klassifikation unterstützt. Der Predictor wird mit umfangreichen Paralleltexten trainiert, die speziell für die WMT-Shared-Task bereitgestellt wurden. Der Estimator greift auf verschiedene Repräsentationen zurück, darunter die Vorhersagen des Predictors sowie die kombinierten Zustände der LSTMs nach der Verarbeitung des jeweiligen Zielworts. Darüber hinaus ist das Modell in der Lage, zusätzlich zu Wortklassifikationen auch Satzbewertungen in Form von HTER-Scores (Translation-Error-Rate) zu liefern. Es generiert Vorhersagen nicht nur für Zielwörter, sondern auch für Lücken im Zieltext sowie - über ein separat trainiertes Modell - für Wörter im Ausgangstext.
Das Stacked Ensemble (Martins et al., 2017) stellt schließlich ein übergeordnetes Modell dar, das die Stärken der zuvor beschriebenen Modelle in einem gemeinsamen Framework vereint. Es kombiniert die Ausgaben der Einzelmodelle - und integriert zusätzlich lexikalische Merkmale, kontextuelle Informationen, syntaktische Strukturen sowie sprachmodellbasierte Zusatzinformationen. Ziel ist es, durch diese Kombination eine robustere und genauere Klassifikation zu ermöglichen. Das Ensemble-Modell wird ausschließlich zur Wortklassifikation in maschinellen Übersetzungen eingesetzt und profitiert dabei von der Vielfalt und Komplementarität der zugrunde liegenden Modelle (Kepler et al., 2019: 118-119).
5.2.5 TransQuest
TransQuest (Ranasinghe et al., 2020) ist ein Framework zur automatisierten Qualitätseinschätzung maschineller Übersetzungen, das speziell dafür konzipiert wurde, ohne Referenzübersetzungen auszukommen. Es fokussiert sich auf die satzbasierte Bewertung und nutzt dabei crosslinguale Transformer-Modelle und Einbettungen, um die Qualität einer Übersetzung direkt aus dem Vergleich mit dem Ausgangstext abzuleiten. Durch die gezielte Feinabstimmung dieser Modelle gelingt es TransQuest, sprachübergreifende Zusammenhänge zu erfassen, wodurch der Bedarf an großen parallelen Trainingskorpora reduziert wird. Dies macht das System besonders attraktiv für ressourcenschwache Sprachpaare und trägt zur Effizienzsteigerung bei.
Vor dem Training werden die Übersetzungen mit menschlich annotierten Qualitätslabels versehen, die als Zielwerte dienen. Die Grundlage von TransQuest bildet das XLM-R-Transformer- modell (Conneau et al., 2020), das Eingabesequenzen von bis zu 512 Tokens verarbeitet und sowohl eine globale Repräsentation der Sequenz (über das [CLS]-Token) als auch individuelle Wortrepräsentationen erzeugt. Diese Repräsentationen werden anschließend durch einfache Ausgabeschichten weiterverarbeitet, um einen Qualitätsscore zu berechnen. TransQuest bietet zwei Modellvarianten für die satzbasierte Qualitätsbewertung: MonoTransQuest und Siamese- TransQuest:
MonoTransQuest verwendet ein einzelnes XLM-R-Modell, dem Ausgangs- und Zieltext gemeinsam übergeben werden, getrennt durch ein spezielles Trennzeichen (SEP). Für die Repräsentation der Eingabe kommen drei Strategien zum Einsatz: die CLS-Strategie, die den [CLS]- Token nutzt, die MEAN-Strategie, die den Mittelwert aller Token-Vektoren berechnet, sowie die MAX-Strategie, die das Maximum über alle Vektoren bildet. In empirischen Tests zeigte die CLS-Strategie die besten Ergebnisse. Die so gewonnene Repräsentation wird einer Soft- max-Schicht übergeben, die schließlich einen Qualitätsscore für die Übersetzung berechnet.
SiameseTransQuest hingegen verarbeitet Ausgangs- und Zieltext getrennt in zwei identischen XLM-R-Modellen. Auch hier wurden die drei Repräsentationsstrategien getestet, wobei sich in diesem Fall die MEAN-Strategie als am leistungsfähigsten erwies. Die resultierenden Vektoren beider Sätze werden anschließend über die Kosinusähnlichkeit verglichen, um die Übersetzungsqualität zu bestimmen.
Im Rahmen der WMT 2020 Sentence-Level Direct Assessment Shared Task erzielte TransQuest überdurchschnittlich gute Ergebnisse in allen untersuchten Sprachpaaren und übertraf dabei frühere Systeme wie OpenKiwi. Zudem setzt die Metrik auf eine Qualitätsbewertung ohne Referenzübersetzung, weshalb sie als am besten geeignet für die folgende Studie ausgewählt wurde.
5.3 Kognitionswissenschaftliche Perspektive auf die Textbewertung
Inwiefern können Vorwissen und Erfahrung die Wahrnehmung von Übersetzungen beeinflussen? Im Allgemeinen ist davon auszugehen, dass Übersetzende, die über ein unzureichendes Maß an übersetzerischem Wissen verfügen, subtile Unterschiede, die eine Übersetzung in ihrer Qualität unterscheiden, nicht bemerken (Toral et al. 2018: 3). Da bislang jedoch Erkenntnisse zur Wahrnehmung von Übersetzungen durch Laien weitgehend fehlen, erscheint es sinnvoll, zunächst allgemeine Unterschiede zwischen professionellen Übersetzenden und weniger erfahrenen Personen systematisch herauszuarbeiten. Laut Ronowicz und Imanishi (2003: 27-28) lassen sich die Leistungsunterschiede zwischen professionellen Übersetzenden und Übersetzungsanfängern und Übersetzungsanfängerinnen in mehreren zentralen Bereichen verorten, darunter die Wortschatzkompetenz, das Lese- und Textverständnis, der Übersetzungsprozess sowie die Problemlösung und Nutzung von Ressourcen.
Professionelle Übersetzende verfügen über ein breites aktives und passives Vokabular, was ihnen eine präzisere und kontextadäquate Übersetzung ermöglicht. Angehende Übersetzende hingegen sind oft durch einen eingeschränkten Wortschatz limitiert, was sowohl das Textverständnis als auch die Qualität der Übersetzung beeinträchtigen kann.
Professionelle Übersetzende erfassen fachliche Texte meist bereits nach einmaligem Lesen, wodurch sie den übergeordneten Kontext sowie sprachliche und stilistische Feinheiten besser erkennen. Angehende Übersetzende benötigen hingegen mehr Zeit und kognitive Ressourcen, um komplexe Strukturen zu entschlüsseln.
Während professionelle Übersetzende größere Sinneinheiten (z. B. Absätze) analysieren und übertragen, arbeiten Anfänger und Anfängerinnen häufig linear und wortwörtlich. Dies kann zu Kohärenz- und Stilbrüchen führen, die bei einer ganzheitlichen Betrachtung des Textes auffallen würden.
Erfahrene Übersetzende setzen gezielt Fachliteratur und Referenzmaterialien ein, wägen verschiedene Optionen ab und nutzen ihr sprachliches Wissen reflektiert. Weniger erfahrene Personen hingegen verlassen sich oft unkritisch auf Wörterbücher und Standarddefinitionen, was die Fehleranfälligkeit erhöht.
Ein weiterer relevanter Aspekt ist das Post-Editing (PE) maschineller Übersetzungen. Eine Studie von Stasimioti und Sosoni (2021) zum Sprachpaar Englisch-Griechisch zeigt, dass sich der technische, zeitliche und kognitive Aufwand beim Post-Editing je nach Erfahrungsgrad deutlich unterscheidet. Unerfahrene Übersetzende zeigten eine grundsätzlich positivere Einstellung gegenüber maschineller Übersetzung und PE, während erfahrene Übersetzende kritischer eingestellt waren. Letztere gingen effizienter vor, führten gezieltere Korrekturen durch und waren eher bereit, unzureichende Formulierungen umzuarbeiten. Gleichzeitig neigten sie jedoch auch zu einer stärkeren Überarbeitung, was mitunter zu einer Überkorrektur führen konnte. Weniger erfahrene Übersetzende hingegen ließen häufiger Fehler im bearbeiteten Text bestehen und zeigten eine geringere Bereitschaft zur Umformulierung.
Die Fähigkeit, maschinell erzeugte literarische Übersetzungen von menschlichen zu unterscheiden, könnte maßgeblich vom Erfahrungsstand der Leserinnen und Leser abhängen. Besonders relevant ist dabei, ob Personen mit unterschiedlichem Hintergrund - etwa professionelle Übersetzende, Studierende der Übersetzungswissenschaft oder Laien - in der Lage sind, anonymisierte Übersetzungen korrekt zuzuordnen. In diesem Zusammenhang stellt sich die Frage, welche Rolle praktische Übersetzungserfahrung sowie der Umgang mit Technologien wie neuronalen maschinellen Übersetzungssystemen oder Large Language Models (LLMs) spielen. Ebenso könnte die allgemeine Lesefrequenz literarischer Texte Einfluss darauf haben, ob menschliche Stilmerkmale erkannt oder maschinelle Eigenheiten enttarnt werden.
6 Literarische Übersetzung und maschinelle Systeme
Dieses Kapitel befasst sich mit den Herausforderungen und Grenzen maschineller Übersetzung im Bereich literarischer Texte. Im Mittelpunkt stehen dabei drei zentrale Problemfelder: die kreative Dimension literarischer Übersetzung, die Übertragung sprachlicher Stilmittel sowie der Umgang mit kulturspezifischen Elementen. Anhand aktueller Studien wird aufgezeigt, in welchen Bereichen maschinelle Systeme an ihre Grenzen stoßen und welche Rolle menschliche Übersetzende weiterhin einnehmen. Abschließend erfolgt in Abschnitt 6.2 ein Vergleich zwischen fiktionalen und nicht-fiktionalen Texten, um den Unterschied in der Schwierigkeit der Übertragung herauszuarbeiten.
6.1 Probleme bei der maschinellen Übersetzung literarischer Texte
6.1.1 Kreativität
Kreativität wird allgemein als das Zusammenspiel von Neuheit und Effektivität verstanden. Sie zeigt sich in der Fähigkeit, etwas Neues zu schaffen oder bereits Bekanntes auf innovative Weise neu zu gestalten - stets unter Berücksichtigung des jeweiligen Kontexts und seiner Anforderungen. Im Bereich der Übersetzung bedeutet dies, dass Übersetzende kreative Lösungen finden müssen, die über eine rein wörtliche Übertragung hinausgehen und kulturell sowie situativ angemessen sind. Besonders der gezielte Einsatz sogenannter Translation Shifts - bewusster struktureller oder stilistischer Abweichungen vom Ausgangstext - ermöglicht es, den Sinn und die Wirkung eines Textes in der Zielsprache bestmöglich zu transportieren.
Der kreative Prozess im Übersetzen teilt sich in mehreren aufeinanderfolgenden Phasen: Er beginnt mit der Analyse und inhaltlichen Erschließung des Ausgangstextes (Vorbereitungsphase), gefolgt von einer Phase der Lösungsfindung (Inkubation), in der verschiedene Übertragungsmöglichkeiten erwogen werden. Daraufhin wird eine geeignete kreative Lösung ausgewählt und umgesetzt, ehe diese im letzten Schritt einer abschließenden Überprüfung unterzogen wird.
Zur Bewertung von Kreativität in Übersetzungen können vier zentrale Dimensionen herangezogen werden: Akzeptabilität beschreibt, in welchem Maß die Übersetzung den Anforderungen des Übersetzungsauftrags entspricht und sprachlich korrekt ist. Flexibilität bezieht sich auf die Fähigkeit, kreativ vom Ausgangstext abzuweichen, anstatt diesen wortgetreu zu übertragen. Neuheit bewertet die Originalität der Lösung im Vergleich zu anderen Varianten. Flüssigkeit schließlich misst die Anzahl an kreativen Lösungen, die ein Übersetzer für eine bestimmte Herausforderung entwickelt (Guerberof-Arenas & Toral, 2022: 2-3).
Maschinelle Übersetzungssysteme stoßen insbesondere im Umgang mit der kreativen und imaginativen Dimension literarischer Texte an ihre Grenzen (Sharofova, 2024: 71). Studien belegen, dass maschinell erzeugte Übersetzungen in der Regel als weniger kreativ wahrgenommen werden. So zeigen beispielsweise die Ergebnisse von Guerberof-Arenas und Toral (2020), dass professionelle Literaturübersetzungen durchweg höhere Kreativitätsbewertungen erhielten als maschinell erzeugte oder nachbearbeitete Versionen. Insbesondere rein maschinell erzeugte Übersetzungen erzielten in Bezug auf Kreativität vergleichsweise schlechte Bewertungen - ein Befund, der unter anderem darauf zurückzuführen ist, dass maschinelle Systeme häufig wortwörtliche Übertragungen bevorzugen. Diese Tendenz begrenzt die gestalterische Freiheit erheblich und erschwert damit die Entwicklung innovativer, kontextspezifischer Übersetzungslösungen.
6.1.2 Übertragung von Stilmitteln
Ein literarisches Werk kann Metaphern, Wortspiele, Alliterationen oder andere sprachliche Stilmittel enthalten, die in der Übersetzung möglicherweise nicht wortwörtlich übertragen werden können. Der Übersetzer muss kreative Lösungen finden, um diese Stilmittel in der Zielsprache wiederzugeben, wobei er den künstlerischen Wert des Originals berücksichtigt. (Abdelaty, 2024: 48).
Das adäquate Erfassen und Übertragen stilistischer Mittel erweist sich als eine besondere Herausforderung für maschinelle Übersetzungssysteme. Häufig ist eine nachträgliche Bearbeitung durch menschliche Übersetzende notwendig, um eine stimmige Übersetzung zu gewährleisten. Allerdings sind nicht alle Stilmittel gleichermaßen von einer potenziellen Unübersetzbarkeit betroffen, wie verschiedene Studien zeigen.
Crosbie et al. (2013) untersuchten, inwieweit automatische Übersetzungstools in der Lage sind, literarische Texte adäquat zu übertragen. Im Fokus stand dabei insbesondere die Frage, wie gut stilistische Merkmale bei der Übersetzung und anschließenden Rückübersetzung erhalten bleiben. In der Studie wurden ein Prosatext und ein Gedicht aus dem Englischen in eine von 62 Zielsprachen übersetzt und anschließend ins Englische rückübersetzt. Die Ergebnisse zeigten, dass maschinelle Übersetzungen in der Lage sind, zahlreiche stilistische Elemente zu bewahren, während subtilere Aspekte häufig verloren gehen. Die Ähnlichkeitswerte zwischen Original und Rückübersetzung variierten erheblich: Die höchste Übereinstimmung lag bei 90 %, die geringste bei 32,9 %. Stilistische Elemente wie Alliteration, Anapher und Adjektivgebrauch konnten oftmals erhalten werden, während Metaphern und idiomatische Wendungen eine deutlich höhere Fehleranfälligkeit aufwiesen. Die Studie legt nahe, dass maschinelle Übersetzungen als erstes Analyseinstrument durchaus hilfreich sein können, jedoch nicht alle stilistischen Feinheiten eines literarischen Textes erfassen.
Digue und Campen (2022) widmeten sich gezielt der Frage, inwiefern Künstliche Intelligenz in der Lage ist, Wortspiele adäquat zu übersetzen. Untersucht wurde die Leistung verschiedener Übersetzungssysteme - darunter Google T5 und DeepL - bei der Übertragung englischer Wortspiele ins Französische. Die Analyse differenzierte zwischen der Übersetzung isolierter Wortspiele und ganzer Sätze, in denen Wortspiele eingebettet waren. Zur Bewertung wurden Kriterien wie lexikalisches Feld, Sinnbewahrung und Verständlichkeit herangezogen. Von 254 Übersetzungen isolierter Wortspiele wurden 46,85 % als vollständig fehlerhaft eingestuft, da sie keinerlei Elemente des ursprünglichen Wortspiels enthielten. Lediglich zehn Übersetzungen erfüllten alle Bewertungskriterien und konnten sowohl Bedeutung als auch Form und humoristische Wirkung des Ausgangstextes bewahren. Bei der Übersetzung ganzer Sätze fiel die Erfolgsquote etwas höher aus: Von insgesamt 7893 Wortspielen wurden 1145 als gelungen eingestuft, das entspricht einer Erfolgsquote von etwa 14,51 %. Dabei stellten humoristisch gelungene Übersetzungen zwar keine absolute Mehrheit dar, doch lieferten viele Vorschläge zumindest auf inhaltlicher Ebene zufriedenstellende Ergebnisse: In 7442 Fällen blieb das thematische Wortfeld erhalten, und in 6217 Fällen wurde die ursprüngliche Bedeutung korrekt wiedergegeben. 78,77 % konnten als angemessen eingestuft werden, unabhängig davon, ob der Wortspielcharakter gewahrt wurde oder nicht. Die Studie verdeutlicht jedoch, dass die adäquate Übersetzung von Wortspielen ein tiefes Verständnis für Bedeutung und Kontext erfordert - Fähigkeiten, die aktuellen KI-Systemen noch weitgehend fehlen. Besonders homographische Wortspiele konnten vergleichsweise gut übertragen werden, während komplexere Formen erhebliche Schwierigkeiten bereiteten.
Ein weiteres zentrales Problemfeld für maschinelle Übersetzungen stellt die Übertragung metaphorischer Sprache dar. Wang et al. (2024) entwickelten spezifische Evaluationskriterien, um die Qualität, Äquivalenz, emotionale Wirkung und Authentizität maschinell übersetzter Metaphern zu analysieren. Grundlage der Untersuchung war das MOH-Dataset, das 315 metaphorische sowie 332 nicht-metaphorische Sätze umfasst, die ins Chinesische und Italienische übersetzt wurden. Zum Einsatz kamen vier maschinelle Übersetzungssysteme, darunter die Google Cloud Translation API, Youdao Cloud Translation API, Helsinki-NLP/opus-mt model sowie GPT-4o. Die Qualität der Übersetzungen wurde sowohl mittels automatisierter Metriken (BLEU/ROUGE, BertScore und GPT score) als auch durch manuelle Bewertungen von Muttersprachler und Muttersprachlerinnen der Zielsprachen beurteilt.
Die Ergebnisse zeigten, dass metaphorische Übersetzungen durch maschinelle Systeme durchweg schlechter bewertet wurden als nicht-metaphorische. Besonders ausschlaggebend für die Qualität war die Bewahrung der metaphorischen Äquivalenz. Übersetzungen, die die metaphorische Bedeutung vollständig bewahrten, erzielten signifikant bessere Bewertungen. Die Ergebnisse der Studie legen zudem nahe, dass die Bewahrung der metaphorischen Äquivalenz entscheidend ist, um die emotionale Wirkung des Ausgangstextes in der Übersetzung aufrechtzuerhalten.
6.1.3 Kulturspezifik
Trotz erheblicher Fortschritte in der maschinellen Übersetzung zeigen sich weiterhin deutliche Grenzen, insbesondere bei der Übertragung kultureller Elemente. Diese Schwierigkeit ergibt sich aus der Komplexität und Vielschichtigkeit kultureller Konzepte, die ein tiefgehendes Verständnis der jeweiligen Kulturen voraussetzen. Eine zentrale Herausforderung besteht darin, dass es für viele kulturspezifische Begriffe keine direkten Entsprechungen in der Zielsprache gibt. Jede Kultur verfügt über eigene, teils einzigartige Ausdrucksformen, die sich nicht ohne Bedeutungsverlust in eine andere Sprach- und Kulturgemeinschaft übertragen lassen. Zudem fungieren Sprachen nicht nur als Kommunikationsmittel, sondern spiegeln auch die Geschichte, Werte, Überzeugungen und Weltanschauungen ihrer Sprecher und Sprecherinnen wider. Die Übersetzung kultureller Elemente erfordert daher mehr als die bloße Übertragung von Wörtern; sie umfasst ebenso die Vermittlung von kulturellen Konzepten und Wertvorstellungen. Besonders herausfordernd ist in diesem Zusammenhang die Kontextabhängigkeit kultureller Elemente, deren Bedeutung je nach Situation, oder beteiligten Personen variieren kann. Dies erschwert es, eine Übersetzung zu finden, die sowohl inhaltlich als auch emotional oder kulturell eine vergleichbare Wirkung entfaltet wie das Original. Ein weiterer zentraler Aspekt ist die Konnotation kulturspezifischer Elemente, die oftmals über die wörtliche Bedeutung hinausreicht. Diese Konnotationen beruhen häufig auf historischen Ereignissen, sozialen Normen oder kollektiven Erfahrungen, die mit bestimmten Begriffen assoziiert werden. Eine angemessene Übersetzung setzt daher nicht nur sprachliche Kompetenz, sondern auch ein tiefgehendes
Verständnis der kulturellen Bedeutungsnuancen voraus. Darüber hinaus erfordert die Übersetzung kulturell geprägter Inhalte eine besondere kulturelle Sensibilität. Begriffe oder Konzepte, die in einer Kultur neutral oder positiv konnotiert sind, können in einer anderen als sensibel oder gar tabu gelten. Eine unreflektierte Übersetzung birgt daher das Risiko von Missverständnissen oder unbeabsichtigten Beleidigungen. Schließlich ist die Dynamik kultureller Entwicklungen zu berücksichtigen: Sprache und Kultur unterliegen einem kontinuierlichen Wandel. Ausdrucksformen, die heute geläufig sind, können morgen veraltet sein, während gleichzeitig neue kulturelle Phänomene entstehen, für die es in anderen Sprachgemeinschaften keine direkten Entsprechungen gibt. Diese kulturelle und sprachliche Dynamik stellt eine zusätzliche Herausforderung für Übersetzungssysteme dar, die nicht nur zeitlose, sondern auch gegenwartsbezogene Bedeutungen adäquat erfassen und übertragen müssen (Ait Lahcen 2023: 15-16).
In diesem Zusammenhang bietet die Klassifikation kultureller Referenzen nach Igareda (2011: 19-21) eine hilfreiche Grundlage für die Analyse literarischer Übersetzungen. Sie unterscheidet unter anderem zwischen ökologischen und historischen Referenzen, sozialen Strukturen, kulturellen Institutionen, dem gesellschaftlichen Umfeld, materieller Kultur sowie sprachlich-kulturellen Besonderheiten - einschließlich humoristischer Elemente. Diese Kategorien ermöglichen eine differenzierte Betrachtung der Herausforderungen, die mit der Übersetzung kulturell geprägter Inhalte verbunden sind.
Abb. in Leseprobe nicht enthalten
Tabelle 1: Kategorien zur Analyse kultureller Referenzen in der Übersetzung literarischer Texte (Igareda, 2011: 19-21)
6.2 Maschinelle Übersetzung: Fiction vs. non-fiction
Bereits 2014 untersuchte Salimi die Anwendbarkeit maschineller Übersetzungssysteme auf fiktionale und nicht-fiktionale Texte. Im Rahmen der Studie wurden Texte beider Gattungen mithilfe von Google Translate aus dem Englischen ins Schwedische übersetzt. Die resultierenden Übersetzungen wurden anschließend anhand der BLEU-Metrik bewertet, um Rückschlüsse auf ihre Qualität zu ziehen. Ziel der Untersuchung war es, zu bestimmen, welche Textsorte besser für maschinelle Übersetzung geeignet ist.
Die Ergebnisse zeigten, dass nicht-fiktionale Texte mit einem BLEU-Wert von 32,16 deutlich besser abschnitten als fiktionale Texte, die lediglich einen Wert von 27,75 erreichten. Dies legt nahe, dass nicht-fiktionale Texte grundsätzlich besser für die automatisierte Übersetzung geeignet sind.
Die analysierten nicht-fiktionalen Texte umfassten unter anderem juristische Dokumente, Unternehmensberichte sowie sozialwissenschaftliche und medizinische Fachtexte. Obwohl diese Texte häufig durch komplexe und verschachtelte Satzstrukturen gekennzeichnet waren, stellte dies kein wesentliches Hindernis für die maschinelle Übersetzung dar. Ein möglicher Erklärungsansatz liegt in der Verwendung spezifischer Terminologie, die in der Regel wenig Interpretationsspielraum bietet und somit leichter von den Systemen verarbeitet werden kann.
Demgegenüber stellten fiktionale Texte eine deutlich größere Herausforderung dar, da sie häufig mehrere Bedeutungsebenen und sprachliche Nuancen enthalten, die eine differenzierte Interpretation erfordern. Dies unterstreicht die anhaltende Relevanz menschlicher Übersetzung im Bereich literarischer Texte. Innerhalb der Studie wurden die fiktionalen Texte unterteilt in Kinderliteratur, Kriminalromane sowie allgemeine fiktionale Literatur, um eine differenzierte Analyse zu ermöglichen.
Besonders komplex gestaltet sich die Übertragung von Fantasy-Literatur, wie Bergmann (2017: 28-40) hervorhebt. Neben sprachlichen Aspekten müssen hier auch kulturelle und stilistische Feinheiten berücksichtigt werden. Ein zentrales Merkmal dieses Genres ist der kulturelle Transfer: Fantasy-Literatur entführt Leserinnen und Leser sowohl in der Ausgangs- als auch in der Zielkultur in fiktive Welten, die sich häufig weder zeitlich noch geografisch eindeutig verorten lassen und daher einen gewissen Grad an Entkulturalisierung aufweisen. Gleichzeitig sind viele Fantasy-Welten eng mit realen historischen oder mythologischen Elementen verknüpft, sodass Übersetzende nicht nur mit den Genre-Konventionen vertraut sein müssen, sondern auch ein fundiertes Wissen über die kulturellen und historischen Hintergründe der Ausgangssprache benötigen, um diese kreativ in die Zielsprache zu übertragen. Ein weiteres zentrales Stilmerkmal vieler Fantasy-Texte ist ihr häufig archaischer Sprachgebrauch. Um die Authentizität der fiktiven Welt zu erhalten, ist eine präzise Wortwahl erforderlich, die Anachronismen vermeidet und den charakteristischen Ton des Originals beibehält. Da viele Begriffe und Redewendungen auf historischen oder mythologischen Kontexten beruhen, wird ihre Übertragung zusätzlich durch die Notwendigkeit erschwert, sie in eine fiktive Sprachwelt mit eigener Logik einzubetten.
Auch Namen und Ortsbezeichnungen tragen wesentlich zur Weltenbildung in der Fantasy-Literatur bei. Sie sind oft so gestaltet, dass sie die Fremdheit und Eigenständigkeit der fiktionalen Welt unterstreichen. Übersetzende stehen hier vor der Entscheidung, ob sie Eigennamen in der Originalform belassen oder an die Zielsprachkultur anpassen - eine Wahl, die stark von den Konventionen der jeweiligen Sprachkultur abhängt. Während im Englischen häufig eine Beibehaltung bevorzugt wird, ist im Französischen eine stärkere Adaption üblich. Für den deutschen Sprachraum existieren keine festen Konventionen, sodass individuelle Entscheidungen notwendig sind. Oft nutzen Autoren und Autorinnen Namen gezielt zur Erzeugung bestimmter Assoziationen. Ein prominentes Beispiel ist „Sirius Black“ aus der Harry Potter-Reihe: Während „Black“ Dunkelheit assoziiert, verweist „Sirius“, der hellste Stern am Nachthimmel, auf die wahre Natur der Figur.
Gedichte und Lieder, die häufig in Fantasy-Romanen eingebettet sind, tragen zur atmosphärischen Gestaltung der Erzählwelt bei und verstärken deren archaischen Charakter. Ihre Übersetzung verlangt eine sensible Abwägung zwischen inhaltlicher Präzision und poetischer Form, da eine vollständige Wiedergabe beider Aspekte meist nicht möglich ist. In der Praxis wird daher häufig eine freie Übertragung gewählt, um den Lesefluss und das immersive Leseerlebnis nicht zu stören.
Schließlich stellt die Verwendung erfundener Sprachen eine besondere Herausforderung dar. Während einige Autoren und Autorinnen lediglich einzelne Ausdrücke oder Phrasen zur sprach- liehen Differenzierung ihrer Welt einsetzen, haben nur wenige - wie etwa J.R.R. Tolkien - vollständige Sprachsysteme mit eigener Grammatik und Syntax entwickelt. Übersetzende müssen entscheiden, ob diese Sprachelemente in der Originalform erhalten bleiben oder an die Zielsprache angepasst werden sollen. Meist wird eine möglichst geringe Anpassung bevorzugt, um die Authentizität der Kunstsprache zu bewahren und gleichzeitig die Lesbarkeit für das Zielpublikum sicherzustellen.
7 Verwendete Systeme
In diesem Kapitel werden die in dieser Studie verwendeten Systeme DeepL und ChatGPT kurz vorgestellt.
7.1 DeepL
DeepL ist ein neuronales maschinelles Übersetzungssystem, das aktuell 33 Sprachen unterstützt (Stand: März 2025), darunter zahlreiche europäische und asiatische Sprachen. Neben der klassischen Textübersetzung bietet DeepL eine Vielzahl zusätzlicher Funktionen. Nutzerinnen und Nutzer können Texte manuell eingeben oder per Copy-and-Paste einfügen. Darüber hinaus ermöglicht die Plattform die direkte Übersetzung von Dateien in den Formaten .docx, .pptx und .pdf, wobei die ursprüngliche Formatierung weitgehend erhalten bleibt. Für Unternehmen und Entwickelnde steht zudem eine API-Schnittstelle zur Verfügung, mit der sich DeepL in bestehende Anwendungen integrieren lässt. Die kostenpflichtige Version „DeepL Pro“ erweitert den Funktionsumfang unter anderem um eine unbegrenzte Zeichenanzahl, die vollständige
Dokumentenübersetzung ohne Beschränkungen, erweiterte Datenschutzoptionen sowie größere Flexibilität bei Glossarverwaltung und API-Nutzung. Ein besonderes Merkmal von DeepL ist die Anpassungsfähigkeit der Übersetzungen an individuelle sprachliche Präferenzen. So erlaubt die Pro-Version die Wahl zwischen formeller und informeller Ansprache, während in der kostenfreien Version die Ansprache automatisch bestimmt wird. Darüber hinaus bietet DeepL in der Basisversion kontextabhängige Synonymvorschläge an: Durch das Anklicken einzelner Wörter lassen sich alternative Übersetzungen anzeigen, um Ton und Stil zu variieren. Die Satzstruktur des Originaltexts bleibt dabei in der Regel erhalten oder wird minimal angepasst. Ergänzend dazu können Nutzerinnen und Nutzer eigene Glossare erstellen, um die terminologische Konsistenz zu gewährleisten. Weitere Funktionen betreffen die Interaktivität der Plattform: Übersetzungen lassen sich bewerten, kopieren und speichern; zudem kann die Eingabe per Sprache erfolgen, wobei diese auch wiedergegeben werden kann.
Mit dem Tool „DeepL Write“ bietet das Unternehmen ein sprachoptimierendes Zusatzwerkzeug an, das stilistische und grammatikalische Verbesserungen vornimmt. Nutzer und Nutzerinnen können den Tonfall und Stil gezielt anpassen und zwischen Optionen wie „einfach“, „geschäftlich“, „akademisch“ oder „locker“ wählen. Zusätzlich stehen Tonalitäten wie „freundlich“, „souverän“, „diplomatisch“ oder „enthusiastisch“ zur Verfügung. Die Funktion „Begriffe“ erlaubt es, bestimmte Wörter oder Wendungen als unveränderlich zu kennzeichnen und in einer Liste festzuhalten, sodass sie bei stilistischer Überarbeitung unberührt bleiben. Dabei wird sowohl zwischen Deutsch und Englisch als auch zwischen Groß- und Kleinschreibung unterschieden. Darüber hinaus trägt die Software durch automatische Korrekturen von Recht- schreib-, Grammatik- und Zeichensetzungsfehlern zur Verbesserung der Textqualität bei. DeepL generiert flüssige, professionelle und stilistisch angepasste Formulierungen und schlägt alternative Wort- und Satzkonstruktionen zur Erhöhung der sprachlichen Präzision vor (DeepL, 2025).
Abb. in Leseprobe nicht enthalten
Abbildung 3: Aufbau von DeepL
7.2 ChatGPT
ChatGPT ist ein auf einem Large Language Model basierendes System, das eine interaktive, textbasierte Kommunikation mit Nutzerinnen und Nutzern ermöglicht. Die Interaktion erfolgt über eine benutzerfreundliche Chat-Oberfläche, in der Anfragen eingegeben und durch Drücken der Eingabetaste oder per Klick auf den „Senden“-Button übermittelt werden können. Der Verlauf der Konversation bleibt sichtbar und kann jederzeit nachvollzogen werden. Zusätzlich bietet das System eine Datei-Upload-Funktion, mit der hochgeladene Dokumente analysiert und verarbeitet werden können. Neben der klassischen Texterstellung umfasst ChatGPT erweiterte Funktionen wie Code- und Bildgenerierung sowie die Möglichkeit zur Internetsuche. Darüber hinaus können Nutzer und Nutzerinnen das Modell explizit auffordern, eine Aufgabe zunächst zu durchdenken, bevor eine Antwort generiert wird - ein Feature, das insbesondere bei komplexeren Problemstellungen zu besseren Ergebnissen führen kann. Mit der Funktion „GPTs erkunden“ können spezialisierte KI-Modelle entdeckt werden, die auf bestimmte Aufgabenbereiche wie Programmierung, wissenschaftliche Recherche oder kreative Textproduktion ausgerichtet sind. Diese individuellen Modelle ermöglichen eine gezielte Anpassung an spezifische Anwendungsbedarfe. Zusätzlich lassen sich Konversationen mit anderen teilen, individuelle Einstellungen vornehmen und Präferenzen zur Antwortgestaltung definieren - um Antworten an persönliche Bedürfnisse anzupassen (ChatGPT, 2025).
Abb. in Leseprobe nicht enthalten
Abbildung 4: Aufbau von ChatGPT
8 Wahrnehmung maschineller und humaner Übersetzungen
Im folgenden Kapitel werden zunächst zentrale Hypothesen formuliert. Anschließend werden der experimentelle Aufbau, die Zusammensetzung der Testgruppen sowie die von den Teilnehmenden angewandten Bewertungskriterien im Detail dargestellt. Schließlich werden die Ergebnisse der Studie präsentiert.
8.1 Hypothesen
H1: Laien haben größere Schwierigkeiten, maschinelle von menschlichen Übersetzungen zu unterscheiden als Personen mit einer Übersetzungsausbildung.
H2: Personen mit Übersetzungsausbildung bewerten die Qualität maschineller Übersetzungen kritischer als Laien.
H3: Laien bevorzugen maschinelle Übersetzungen, während Personen mit Übersetzungsausbildung menschliche Übersetzungen bevorzugen.
H4: Ob Laien oder Personen mit Übersetzungsausbildung eine maschinelle Übersetzung der menschlichen vorziehen, hängt davon ab, welches Übersetzungssystem verwendet wurde - Übersetzungen von ChatGPT werden häufiger als menschlich wahrgenommen als Übersetzungen von DeepL.
H5: Die automatische Bewertung mit Transquest tendiert dazu, menschliche Übersetzungen gegenüber maschinellen zu bevorzugen.
H6: Laien und Personen mit Übersetzungsausbildung, die regelmäßig Large Language Models (LLMs) oder neuronale maschinelle Übersetzungs-Systeme (NMÜ) nutzen oder eine höhere
Lesefrequenz aufweisen, erkennen maschinell erzeugte literarische Übersetzungen signifikant besser als Laien und Personen mit Übersetzungsausbildung, die selten oder gar nicht mit LLMs bzw. NMÜ interagieren oder wenig lesen.
8.2 Methodik
8.2.1 Experimenteller Aufbau
Für die Analyse maschineller und humaner Übersetzungen wurde der Roman The Midnight Bargain von C. L. Polk als Ausgangstext gewählt. Die Auswahl erfolgte aus zwei zentralen Gründen: Zum einen vereint der Text Elemente der Regency-Ära mit Fantasy - eine Genrekombination, die aus übersetzungswissenschaftlicher Perspektive besonders reizvoll ist. Die Verflechtung historischer und magischer Komponenten stellt spezifische Herausforderungen an die Übersetzung, insbesondere in Bezug auf stilistische und kulturelle Übertragungen dar. Zum anderen wurde bewusst ein weniger stark rezipiertes Werk gewählt. Im Gegensatz zu vielfach analysierten Werken wie Harry Potter, Bridgerton oder Der Herr der Ringe steht The Midnight Bargain bislang nicht im Fokus wissenschaftlicher Untersuchungen. Dadurch wurde sichergestellt, dass keine Vorkenntnisse der Studienteilnehmenden die Beurteilung der Übersetzungen beeinflussen. Dies ermöglicht eine objektivere Bewertung der maschinellen und humanen Übersetzungen und trägt zu einer eigenständigen wissenschaftlichen Analyse bei. Als menschliche Vergleichsbasis diente die deutschsprachige Übersetzung von Judith C. Vogt, der Mitternachtspakt.
Da Leserinnen und Leser literarischer Texte in der Regel nur mit der Ziel- oder Ausgangssprache konfrontiert sind, wurden im Rahmen der Studie ausschließlich Übersetzungen präsentiert. Dies gewährleistet eine realitätsnahe Testumgebung und minimiert mögliche Verzerrungen durch den direkten Vergleich von Ausgangs- und Zieltext.
Die maschinellen Übersetzungen wurden mithilfe zweier Systeme erzeugt: ChatGPT und DeepL. Die Art und Weise, wie Eingaben an Modelle wie ChatGPT formuliert werden, wird als Prompting bezeichnet (Schulhoff et al., 2024: 4). Im Falle von ChatGPT kam zunächst das sogenannte Zero-Shot Prompting zum Einsatz (Sahoo et al., 2024: 2), bei dem das Modell eine Übersetzung auf Basis einer einmaligen Anweisung ohne weitere Kontexte oder Beispiele erstellt. Die verwendete Eingabe lautete:
„Bitte übersetze folgenden literarischen fiktionalen Text ins Deutsche. Der Text enthält sowohl Fantasy- als auch Regency-Elemente. Die Übersetzung soll so wirken, als sei sie von einem Menschen erstellt worden.“
Anschließend kam eine Form des Self-Refine Prompting (Madaan et al. 2023) zum Einsatz. Dabei erstellte das Modell auf Basis der Anfrage zunächst eine Erstübersetzung. Im Unterschied zum herkömmlichen Self-Refine-Ansatz erfolgte jedoch keine automatische Selbstbewertung der eigenen Übersetzung durch das Modell - stattdessen wurde die Beurteilung durch den Nutzer bzw. die Nutzerin vorgenommen. Diese gaben gezielt Hinweise zu Passagen, die einer Überarbeitung bedurften, während das Modell eigenständig eine verbesserte Version der Übersetzung generierte. Dieser Prozess wurde fortgesetzt, bis eine zufriedenstellende Übersetzung erreicht wurde.
Im Gegensatz dazu beschränkt DeepL sich auf die reine Übertragung des Ausgangstextes, weshalb in der vorliegenden Arbeit bei den von diesem System erzeugten Übersetzungen eine Form des sogenannten Full Post-Editing (Chatzikoumi, 2020: 153) angewendet wurde. Um einen möglichst human-ähnlichen Zustand zu erzielen und gleichzeitig eine reine KI-Übersetzung anzustreben, wurden hierfür ausschließlich systemseitig vorgeschlagene Alternativen übernommen, die durch Anklicken der zu überarbeitenden Wörter erzeugt wurden. Somit bleibt DeepL eingeschränkter in seinen Möglichkeiten der Überarbeitung, sodass davon auszugehen ist, dass ChatGPT in Übersetzungsaufgaben besser abschneidet und einer menschlichen Übersetzung näherkommt.
8.2.2 Testgruppen
Die Evaluation der Übersetzungen erfolgte sowohl automatisiert mithilfe von TransQuest als auch durch menschliche Bewertungen. Für die manuelle Evaluation wurden Teilnehmende mit unterschiedlichem Erfahrungsstand im Bereich Übersetzung rekrutiert, um eine differenzierte Analyse der Qualität und Unterscheidbarkeit von KI- und humanen Übersetzungen zu ermöglichen. Durch die Kombination objektiver Metriken und subjektiver Wahrnehmungen ergibt sich ein umfassendes Bild der Übersetzungsqualität.
Die Datenerhebung erfolgte im Zeitraum vom 7. März bis 31. März 2025 über die Plattform empirio. Die Umfrage wurde über verschiedene Kanäle geteilt, darunter soziale Medien, universitäre Verteiler sowie direkt über empirio. Insgesamt nahmen 58 Personen an der Befragung teil. Fünf Datensätze wurden jedoch von der Analyse ausgeschlossen:
• Vier Teilnehmende wurden entfernt, da ihre Bearbeitungszeit unter fünf Minuten lag, was eine sorgfältige Bearbeitung infrage stellte.
• Ein weiterer Datensatz wurde ausgeschlossen, da die betreffende Person unter 18 Jahre alt war.
Die finale Stichprobe umfasste somit 53 Personen, von denen 42 über den Direktlink und 11 über empirio zur Studie gelangten. Diese verteilten sich wie folgt auf die drei Gruppen:
• 23 Laien: Personen ohne formale Ausbildung im Bereich Übersetzung und ohne berufliche Tätigkeit in diesem Feld.
• 20 Übersetzungsstudierende: Personen, die ein übersetzungswissenschaftliches Studium absolvieren, jedoch (noch) nicht im Übersetzungsberuf tätig sind.
• 10 professionelle Übersetzende: Personen mit einer abgeschlossenen Ausbildung oder einem Studium im Bereich Übersetzung, die zudem beruflich als Übersetzende tätig sind.
Von den 53 Teilnehmenden identifizierten sich 9 Personen (16,98 %) als männlich, 41 Personen (77,36 %) als weiblich und 3 Personen (5,66 %) als divers. Die Altersspanne der Teilnehmenden reichte von 19 bis 59 Jahren. Der Altersdurchschnitt betrug ca. 29,72 Jahre. Die überwiegende Mehrheit (96,23 %) gab Deutsch als Muttersprache an. Weitere Muttersprachen waren Polnisch (1,89 %) und Kurdisch (1,89 %).
Abb. in Leseprobe nicht enthalten
Tabelle 2: Sprachen mit fortgeschrittenen Kenntnissen
Mehr als die Hälfte der Teilnehmenden (56,60 %) gab an, eine Ausbildung oder ein Studium im Bereich Übersetzung oder Sprachwissenschaft absolviert zu haben oder derzeit in einem solchen Studiengang eingeschrieben zu sein. 43,40% verfügten hingegen über keine entsprechende Qualifikation. Die Mehrheit der Teilnehmenden (41,51 %) verfügt über einen Bachelorabschluss, gefolgt von 32,08 %, die die allgemeine Hochschulreife als höchsten Bildungsabschluss angaben. Ein Masterabschluss wurde von 16,98 % der Befragten erreicht. Personen mit Abschluss eines Promotionsstudiums waren in der Stichprobe nicht vertreten. Weitere 9,43 % gaben an, über einen anderen Bildungsabschluss zu verfügen. Der größte Anteil der Teilnehmenden befindet sich derzeit in einem Masterstudium (39,62 %), gefolgt von 33,96 %, die aktuell einen Bachelorstudiengang absolvieren. 1,89% der Befragten absolvieren ein Promotionsstudium, während sich niemand in einer Ausbildung befindet. 16,98 % haben ihr Studium bereits abgeschlossen, und 7,55 % eine Ausbildung erfolgreich beendet.
Die Mehrheit der Teilnehmenden (81,13 %) geht derzeit keiner beruflichen Tätigkeit im Bereich Übersetzung nach. Drei Personen (5,66 %) sind als freiberufliche Übersetzer tätig, während eine Person (1,89 %) angestellt in diesem Berufsfeld arbeitet. Zudem sind sechs Teilnehmende (11,32 %) in einer anderen sprachbezogenen Tätigkeit wie Lektorat, Dolmetschen oder Terminologiearbeit beschäftigt.
Die berufliche Tätigkeit der Teilnehmenden, die nicht im Übersetzungsbereich arbeiten, verteilt sich auf eine Vielzahl unterschiedlicher Branchen. Mehrere befinden sich noch im Studium oder üben studentische Aushilfstätigkeiten aus. Andere sind in Bereichen wie Verwaltung, Personalwesen, Marketing, Automobilindustrie, Gesundheitswesen, Steuerberatung, Ingenieurwesen oder IT tätig. Darüber hinaus wurden Berufe wie Lehrkraft für Deutsch als Fremdsprache, Softwaretestung, Energieberatung oder Forschung in den Geisteswissenschaften genannt. Einige Teilnehmende gaben an, derzeit keiner beruflichen Tätigkeit nachzugehen.
Abb. in Leseprobe nicht enthalten
Tabelle 3: Nutzung maschineller Übersetzungssysteme/LLMs
Abb. in Leseprobe nicht enthalten
Tabelle 4: Lesefrequenz
8.2.3 Bewertungskriterien der Teilnehmenden
Die menschliche Evaluation der Übersetzungen erfolgte anhand eines im Anhang dieser Arbeit beigefügten Fragebogens, in dem die Teilnehmenden verschiedene Aspekte der Übersetzungsqualität bewerteten.
Zunächst sollten die Teilnehmenden angeben, ob sie die jeweilige Übersetzung für eine menschliche oder maschinelle Übersetzung hielten. Auf diese Weise konnte ermittelt werden, wie überzeugend KI-gestützte Übersetzungen menschliche Übersetzungen nachahmen konnten. Zur Begründung ihrer Einschätzung sollten die Teilnehmenden in einem Freitextfeld Merkmale benennen, die aus ihrer Sicht auf eine maschinelle oder menschliche Herkunft der jeweiligen Übersetzung hindeuteten, sodass qualitative Hinweise auf stilistische Besonderheiten, sprachliche Eigenheiten oder auffällige Strukturen gesammelt werden konnten.
Darüber hinaus wurden die Teilnehmenden gebeten, ihre Einschätzung zu folgenden Elementen der Texte zu geben:
• Übertragung der Stilmittel: Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?
• Wiedergabe kultureller Elemente: Wie gut wurden Ihrer Meinung nach kulturelle Elemente in diesen Übersetzungen übertragen?
• Übertragung der Fantasy-Elemente: Wie gut wurden Ihrer Meinung nach die FantasyElemente übertragen?
Zusätzlich bewerteten die Teilnehmenden jede Übersetzung auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht), um eine differenzierte Einschätzung der allgemeinen Übersetzungsqualität zu ermöglichen.
Darüber hinaus bestand die Möglichkeit, freiwillige Zusatzkommentare abzugeben. In diesem offenen Feld konnten besonders gelungene oder problematische Passagen hervorgehoben und subjektive Eindrücke detaillierter geschildert werden.
8.3 Ergebnisse
8.3.1 Maschinelle Evaluation durch TransQuest
Abb. in Leseprobe nicht enthalten
Abbildung 5: Verteilung der predicted scores nach Übersetzungsart
In Abbildung 5 wird die Verteilung der von TransQuest vorhergesagten Qualitätswerte („pre- dicted scores“) für die drei Übersetzungsmethoden - menschliche Übersetzungen, DeepL und ChatGPT - dargestellt. Sie zeigt, in welchen Bereichen die Bewertungen besonders häufig liegen, und erlaubt Rückschlüsse auf mögliche Unterschiede in der wahrgenommenen Übersetzungsqualität.
Die Analyse zeigt, dass sich die Werte aller drei Methoden überwiegend in einem ähnlichen Bereich bewegen: Der Großteil der predicted scores liegt zwischen 0,71 und 0,73. Dies deutet darauf hin, dass die Qualität der Übersetzungen insgesamt als vergleichbar eingeschätzt wurde. Dennoch lassen sich feine Unterschiede erkennen: Die meisten Werte der menschlichen Übersetzungen liegen im Bereich zwischen 0,70 und 0,74, wobei sich zwischen 0,71 und 0,74 eine deutlich höhere Konzentration zeigt als bei DeepL und ChatGPT. DeepL- und ChatGPT-Über- setzungen hingegen weisen eine größere Streuung auf. Sie treten verstärkt sowohl im unteren Bereich (0,69-0,70) als auch im oberen Bereich (0,74-0,76) auf. Dies könnte darauf hinweisen, dass maschinelle Übersetzungen von TransQuest tendenziell differenzierter bewertet werden und sowohl über als auch unter dem Niveau menschlicher Übersetzungen liegen können.
Da es sich hierbei um eine Gesamtverteilung über alle neun Übersetzungen handelt, soll nun untersucht werden, wie die sich die Verteilung der vorhergesagten Qualitätswerte innerhalb der verschiedenen Gruppen gestaltet. Jede Gruppe umfasst drei Übersetzungen eines Ausgangstextes: eine von einem Menschen, eine von DeepL und eine von ChatGPT.
Abb. in Leseprobe nicht enthalten
Abbildung 6: Vergleich: Übersetzung 1-3
8.3.1.1 Ergebnisse Ausgangstext 1
In der ersten Gruppe wurden drei Übersetzungen von Ausgangstext 1 miteinander verglichen: eine menschliche Übersetzung (Übersetzung 1), eine von ChatGPT generierte Übersetzung (Übersetzung 2) sowie eine Übersetzung durch DeepL (Übersetzung 3). Die Verteilung der vorhergesagten Qualitätswerte zeigt, dass alle drei Übersetzungen in einem sehr engen Bereich zwischen 0,71 und 0,73 liegen. Dies deutet darauf hin, dass die Qualität der Übersetzungen insgesamt als vergleichbar eingeschätzt wurde.
Unterschiede werden vor allem in der Streuung der Scores sichtbar. Die Übersetzung von Chat- GPT zeigt eine besonders schmale und hohe Verteilungskurve, was auf eine konstant gleichbleibende Qualität hinweist. Die Verteilung der Scores von DeepL ist breiter, was auf eine etwas größere Varianz in der wahrgenommenen Qualität schließen lässt. Auch die menschliche Übersetzung weist eine gewisse Streuung auf, allerdings ist diese weniger ausgeprägt als bei DeepL.
8.3.1.2 Ergebnisse Ausgangstext 2
Abb. in Leseprobe nicht enthalten
Abbildung 7: Vergleich: Übersetzung 4-6
In der zweiten Gruppe wurden drei Übersetzungen von Ausgangstext 2 miteinander verglichen: eine DeepL-Übersetzung (Übersetzung 4), eine von ChatGPT erzeugte Version (Übersetzung 5) sowie eine menschliche Übersetzung (Übersetzung 6). Die vorhergesagten Qualitätswerte bewegen sich bei allen drei Übersetzungen im Bereich zwischen 0,71 und 0,75. Dennoch zeigen sich Unterschiede in der Verteilung der Scores, die Rückschlüsse auf die wahrgenommene Übersetzungsqualität zulassen.
Die DeepL-Übersetzung weist eine relativ breite Streuung der Scores auf, was auf eine gewisse Varianz in der wahrgenommenen Qualität schließen lässt. Die Verteilung von ChatGPT fällt etwas schmaler aus, wobei die meisten Werte bei 0,73 liegen. Dies könnte auf eine tendenziell konstantere Übersetzungsqualität hindeuten. Die menschliche Übersetzung erreicht die höchsten vorhergesagten Scores innerhalb dieser Gruppe: Die meisten Werte konzentrieren sich hier zwischen 0,71 und 0,74. Damit wird der menschlichen Übersetzung in dieser Gruppe insgesamt eine konstant hohe Qualität zugeschrieben. ChatGPT folgt mit einer etwas geringeren, aber dennoch stabilen Konstanz der vorhergesagten Qualitätswerte, während DeepL in dieser Konstellation erneut am unteren Ende liegt. Dennoch bewegen sich alle drei Übersetzungen auf einem insgesamt guten Qualitätsniveau.
8.3.1.3 Ergebnisse Ausgangstext 3
Abb. in Leseprobe nicht enthalten
Abbildung 8: Vergleich: Übersetzung 7-9
In der dritten Gruppe wurden drei Übersetzungen von Ausgangstext 3 miteinander verglichen: eine von ChatGPT (Übersetzung 7), eine menschliche Übersetzung (Übersetzung 8) sowie eine Version von DeepL (Übersetzung 9). Im Unterschied zu den vorherigen Gruppen zeigen sich hier deutlichere Unterschiede in der vorhergesagten Übersetzungsqualität.
Die von DeepL erzeugte Übersetzung erhält zahlreiche Qualitätswerte zwischen 0,71 und 0,72. Dies spricht für ein konstant gleichbleibendes Qualitätsniveau. Sowohl die von ChatGPT generierte Übersetzung als auch die menschliche Übersetzung weisen im Vergleich dazu eine breitere Streuung auf, was auf eine größere Varianz in der wahrgenommenen Übersetzungsqualität hinweist. Bemerkenswert ist, dass bei der menschlichen Übersetzung ein Großteil der Scores zwischen 0,69 und 0,72 liegt, während bei ChatGPT die Mehrzahl der Bewertungen im Bereich von 0,71 bis 0,74 angesiedelt ist. Dies bedeutet, dass die menschliche Version tendenziell schlechter bewertet wurde als die beiden anderen. Zusammenfassend zeigt sich in dieser Gruppe ein deutlicher Qualitätsvorsprung für DeepL und ChatGPT. Die menschliche Übersetzung wird in dieser Konstellation als am schwächsten eingeschätzt.
Insgesamt zeigt sich, dass menschliche Übersetzungen, DeepL und ChatGPT insgesamt vergleichbare Qualitätswerte erzielen und je nach Kontext die menschliche Übersetzung oder ein bestimmtes System vorne liegt.
8.3.2 Menschliche Evaluation
Im Rahmen einer allgemeinen Einschätzung sollten die Teilnehmenden angeben, ob sie die jeweilige Übersetzung für menschlich oder maschinell erzeugt hielten. Dabei zeigten sich deutliche Unterschiede in der Wahrnehmung der verschiedenen Übersetzungsarten, die auch in den frei formulierten Kommentaren zum Ausdruck kamen.
Insgesamt zeigte sich, dass ChatGPT-Übersetzungen in zwei von drei Fällen am ehesten mit menschlichen Übersetzungen verwechselt wurden, während DeepL-Übersetzungen überwiegend korrekt als maschinell erzeugt erkannt wurden. Die menschlichen Übersetzungen wurden teilweise ebenfalls für maschinell gehalten, was sowohl auf die Annäherung maschineller Übersetzungsqualität an menschliche Ausdrucksformen als auch auf Unsicherheiten und unterschiedliche Bewertungskriterien der Teilnehmenden schließen lässt. Die Kommentare unterstreichen, dass stilistische Merkmale, Tonalität und sprachliche Natürlichkeit zentrale Faktoren bei der Zuschreibung waren - und dass die Grenze zwischen menschlicher und maschineller Übersetzung zunehmend verschwimmt.
Abb. in Leseprobe nicht enthalten
Abbildung 9: Prozentuale Bewertung der Übersetzungen
Abbildung 9 veranschaulicht diese Tendenzen anhand konkreter Zahlen: ChatGPT-Übersetzun- gen wurden in 56% der Fälle als menschlich und in 42,1 % als maschinell erzeugt eingestuft. Übersetzungen von DeepL hingegen wurden mit 75,5 % überwiegend korrekt als maschinell erzeugt erkannt, lediglich 25,8 % hielten sie für menschlich. Bemerkenswert ist auch, dass die tatsächlichen Humanübersetzungen nur in 54,7 % der Fälle als solche erkannt wurden - 46,5 % der Bewertungen fielen fälschlicherweise in die maschinelle Kategorie. Diese Ergebnisse machen deutlich, wie sehr sich maschinelle und menschliche Übersetzungen inzwischen annähern und wie schwierig eine klare Unterscheidung selbst für aufmerksame Leserinnen und Leser geworden ist.
Im Folgenden werden die Ergebnisse der menschlichen Evaluation wie bereits bei TransQuest sortiert nach Gruppen dargestellt.
8.3.2.1 Ergebnisse Ausgangstext 1
Abb. in Leseprobe nicht enthalten
Abbildung 10: Einschätzung der Übersetzungen Ausgangstext 1
Die Auswertung der Bewertungen zeigt deutliche Unterschiede in der Wahrnehmung der drei Übersetzungen: Übersetzung 1 wurde von einer menschlichen Übersetzerin, Übersetzung 2 von ChatGPT und Übersetzung 3 von DeepL erstellt. Den Teilnehmenden gelang es häufig nicht, die richtige Herkunft zu erkennen.
Nur 30,19 % der Teilnehmenden hielten die menschlich erstellte Übersetzung für menschlich, während 71,70 % sie als maschinell erstellt einstuften. Kritische Kommentare bezogen sich vor allem auf die Lesbarkeit und Kohärenz: „Übersetzung 1 war schwer zu lesen, mit unklaren Begriffen und einem unflüssigen Stil.“ „Der Lesefluss war stockend und einige Begriffe wirkten deplatziert.“
Darüber hinaus wurden offensichtliche Fehler festgestellt, wie die falsche Schreibweise von „weise“ in „vorgeschriebene weiße Luft“ statt „vorgeschriebene Weise Luft“. Solche Fehler
führten zu Unsicherheiten über die Herkunft: „Fehler ,weiße‘ statt ,Weise‘ ließ mich zweifeln, ob es eventuell ein menschlicher und kein maschineller Fehler ist.“1
Die Einschätzung der Kreativität bestätigt diese Wahrnehmung: 39,62 % empfanden die Übersetzung als „eher unkreativ“, und 22,64 % bewerteten sie als „überhaupt nicht kreativ“. Eine mögliche Erklärung dafür könnte die Wortwahl sein, denn „Übersetzung 1 verwendete weniger bekannte Begriffe und klang teilweise sehr wörtlich.“ Dennoch empfanden einige die kreative Wortwahl als positiv: „Die erste Übersetzung war sehr kreativ und gut verständlich.“
Die Übertragung der Stilmittel wurde ebenfalls kritisch gesehen, wobei 35,85 % die Umsetzung als „eher schlecht“ und 24,53 % als „sehr schlecht“ beurteilten. Jedoch merkte ein Teilnehmender an, dass „eine typische Lexik für literarische Texte verwendet wurde (z. B. Sigille), während sich Übersetzung 2 und 3 näher am Ausgangstext orientierten.“ Ein Teilnehmender bemerkte: „Die Syntax in Übersetzung 1 war anders, und zum Beispiel wurde ,Dazwischen‘ kursiv gesetzt, was für eine menschliche Übersetzung spricht.“
Bei der Übertragung kultureller Elemente schnitt die menschliche Übersetzung nichtsdestotrotz schwach ab: 33,96 % bewerteten sie als „eher schlecht“, 11,32 % sogar als „sehr schlecht“. Bei den Fantasy-Elementen zeigte sich ein ähnliches Bild: 32,08 % gaben an, dass sie „eher schlecht“ übertragen wurden, und 22,64 % beurteilten die Umsetzung als „sehr schlecht“. Die Gesamtbewertung fiel entsprechend negativ aus: 30,19 % vergaben die schlechteste Note (5).
Im Gegensatz dazu hielten 67,92 % der Befragten die von ChatGPT erstellte Übersetzung für menschlich. Sie wurde als besonders flüssig und natürlich gelobt: „Übersetzung 2 war sehr flüssig und zog mich in den Bann“, schrieb ein Teilnehmender. Besonders die idiomatischen Formulierungen wurden positiv bewertet: „Die Ausschmückungen in Übersetzung 2 sind extrem menschlich - es fühlt sich an, als ob nicht nur die Worte, sondern auch die Stimmung des Textes übernommen wurden.“ „Übersetzung 2 beschreibt die Situation am verständlichsten und nachvollziehbarsten. Außerdem werden idiomatische Formulierungen verwendet.“ Auch die stilistische Umsetzung wurde gelobt: „Übersetzung 2 war literarischer und harmonischer.“ Insgesamt empfanden 24,53 % die Übersetzung als „sehr kreativ“, 41,51 % als „eher kreativ“.
Auch die Übertragung von Stilmitteln wurde bei Übersetzung 2 deutlich positiver beurteilt: 30,19 % der Teilnehmenden empfanden sie als „sehr gut“, 24,53 % als „eher gut“. Auch die Übertragung kultureller Elemente wurde positiver wahrgenommen: 32,08 % bewerteten sie als „eher gut“, während kein Teilnehmender die Note „sehr schlecht“ vergab. Ebenso war die Umsetzung der Fantasy-Elemente mit 33,96 % für „sehr gut“ überzeugender als in den anderen Übersetzungen. In der Gesamtbewertung erhielt die ChatGPT-generierte Übersetzung die besten Noten: 28,30 % vergaben die Bestnote 1, 32,08 % eine 2.
Ein Teilnehmender fasste treffend zusammen, was wohl für viele galt: „Mein Sprachgefühl sagt mir, die Übersetzung wurde von einem Menschen angefertigt“. Dies zeigt, dass KI-gestützte Systeme zunehmend natürliche und kohärente Texte generieren können. Interessant jedoch ist, dass eine Person vermutete, dass diese Übersetzung ein Post-Editing einer maschinellen Übersetzung sein könnte. 73,58 % der Teilnehmenden erkannten die von DeepL erstellte Übersetzung korrekt als maschinell. Begründet wurde dies häufig mit der kompakten Textlänge: „Übersetzung 3 ist kürzer, was ich mit MÜ assoziiere.“ Hinsichtlich der Kreativität erhielt sie gemischte Bewertungen: 5,66 % empfanden sie als „sehr kreativ“, während 32,08 % sie als „eher kreativ“ einstuften. 45,28 % gaben jedoch eine neutrale Einschätzung ab, was darauf hindeutet, dass die Übersetzung als weniger stilistisch ausgereift wahrgenommen wurde als die von ChatGPT generierte. „Übersetzung 3 würde ich dazwischen anordnen: Sie klingt natürlicher als Übersetzung 1, aber nicht so literarisch wie Übersetzung 2.“
Dies zeigt sich ebenfalls bei der weiteren Bewertung der Übersetzung. Die Übertragung der Stilmittel wurde von 37,74 % als „eher gut“ bewertet, jedoch fanden 24,53 % die Umsetzung „eher schlecht“. Auch kulturelle Elemente wurden größtenteils neutral wahrgenommen (66,04 %). Die Übertragung von Fantasy-Elementen wurde besser bewertet als bei der menschlichen Übersetzung: 45,28 % empfanden sie als „eher gut“, 30,19 % als „neutral“. Ein Teilnehmer merkte jedoch an: „Übersetzung 3 hatte wenig Fantasy-Atmosphäre.“
Somit fiel die Gesamtbewertung mittel aus: 11,32 % vergaben die Bestnote 1, 28,30 % eine 2, während 39,62 % eine 3 vergaben. Dies zeigt, dass die DeepL-Übersetzung insgesamt als solide, aber nicht herausragend angesehen wurde. Sie liegt noch vor der menschlichen, aber hinter der ChatGPT-Übersetzung. „Es scheint, als ob der Text erst von einer Maschine übersetzt und dann von einem Menschen angepasst wurde, der kein deutscher Muttersprachler ist, aber die Sprache auf hohem Niveau beherrscht.“
Abb. in Leseprobe nicht enthalten
Abbildung 11: Einschätzung der Übersetzungen Ausgangstext 2
Auch bei der Auswertung der Ergebnisse der Übersetzungen des zweiten Ausgangstextes zeigt sich, dass die tatsächliche Herkunft der Übersetzungen (Übersetzung 4: DeepL, Übersetzung 5: ChatGPT, Übersetzung 6: Mensch) von den Teilnehmenden häufig nicht korrekt identifiziert wurde. Besonders auffällig ist, dass die von ChatGPT erstellte Übersetzung am häufigsten für eine menschliche Übersetzung gehalten wurde, während die menschliche Übersetzung in gut einem Drittel der Fälle als maschinell erstellt eingestuft wurde.
Die von DeepL erstellte Übersetzung wurde von 77,36 % der Teilnehmenden korrekt als maschinell identifiziert. Die häufigsten Kritikpunkte bezogen sich auf mangelnde Idiomatik, eine stockende Syntax und unnatürliche, wörtliche oder schwer verständliche Formulierungen. So schrieb ein Teilnehmender etwa: „Die Übersetzung wirkt sperrig und entspricht nicht dem natürlichen Sprachfluss.“
Diese Einschätzungen spiegeln sich auch in der Bewertung der Stilmittelübertragung wider, die von 47,17 % als „eher schlecht“ oder „sehr schlecht“ eingestuft wurde. Auch die kreative Umsetzung wurde kritisch bewertet: 81,13 % beurteilten die Übersetzung als „neutral“ bis „überhaupt nicht kreativ“. Die Übertragung der kulturellen und der Fantasy-Elemente fiel ebenfalls wenig überzeugend aus. So stuften 54,72 % die Übertragung der Fantasy-Elemente als „neutral“ oder schlechter ein. Die Gesamtbewertung fiel entsprechend negativ aus: 55,67 % der Teilnehmenden vergaben eine mittlere bis schlechte Note (3, 4 oder 5).
Die von ChatGPT generierte Übersetzung wurde in 69,81 % der Fälle als menschlich wahrgenommen. Besonders gelobt wurden ihre idiomatische Ausdrucksweise, stilistische Kohärenz und literarisch ansprechenden Formulierungen. Ein Kommentar lautete: „Übersetzung 5 hatte die elegantesten Formulierungen.“
Diese Wahrnehmung spiegelt sich auch in den weiteren Bewertungen wider: 71,70 % bewerteten die Übertragung der Stilmittel als „eher gut“ oder „sehr gut“. Auch in Bezug auf Kreativität wurde die Übersetzung positiv eingeschätzt - 62,27 % stuften sie als „eher kreativ“ oder „sehr kreativ“ ein. Die kulturellen Elemente wurden von 56,60 % als gelungen bewertet, die FantasyElemente sogar von 73,58 % als „eher gut“ oder „sehr gut“.
Insgesamt erhielt die von ChatGPT generierte Übersetzung die beste Gesamtbewertung, wobei 83,02 % der Teilnehmenden eine 1 oder 2 vergaben.
Die menschliche Übersetzung wurde von 64,15 % der Befragten korrekt als menschlich erstellt erkannt und spaltete die Meinungen. Während einige Teilnehmende die kreative Gestaltung und Ausdruckskraft positiv hervorhoben - 49,06 % bewerteten sie als „sehr kreativ“ -, äußerten andere Kritik daran, dass sich die Übersetzung zu weit vom Original entferne. Positiv wurde hingegen gewürdigt, dass die Übersetzung bewusst stilistisch verändert wurde und erklärende Elemente enthielt, die im Originaltext nicht vorkamen. Ein Teilnehmender lobte die sprachliche Ausgewogenheit: „Übersetzung 6 war am flüssigsten und harmonischsten.“
Die Bewertung der Stilmittelübertragung zeigt ein differenziertes Bild: 58,49 % bewerteten sie als „eher gut“ oder „sehr gut“, 28,30 % hingegen als „eher schlecht“ oder „sehr schlecht“. Die Übertragung kultureller Elemente wurde von 45,28 % als „eher gut“ bzw. „sehr gut“ eingeschätzt, während 33,96 % eine neutrale Haltung einnahmen. Die Umsetzung der Fantasy-Elemente wurde von 50,94 % als gelungen wahrgenommen („eher gut“ oder „sehr gut“), während 24,52 % sie kritisch bewerteten („eher schlecht“ bis „sehr schlecht“). In der Gesamtbewertung erhielt die menschliche Übersetzung gemischte Ergebnisse: 49,06 % vergaben eine 1 oder 2, 28,30 % bewerteten sie mit einer 4 oder 5.
Abb. in Leseprobe nicht enthalten
Abbildung 12: Einschätzung der Übersetzungen Ausgangstext 3
Auch bei Ausgangstext 3 stammten die untersuchten Übersetzungen aus unterschiedlichen Quellen: Übersetzung 7 wurde von ChatGPT generiert, Übersetzung 8 von einer menschlichen Übersetzerin erstellt und Übersetzung 9 mithilfe von DeepL angefertigt.
Die von ChatGPT erstellte Übersetzung wurde von 67,92 % der Teilnehmenden korrekt als maschinell erstellt erkannt. Diese Einschätzung wurde durch zahlreiche Kommentare untermauert. Kritisiert wurden unter anderem „grammatikalische Unstimmigkeiten im ersten Satz“ sowie ungewöhnliche Wortverbindungen wie „Ärmel erblühen in Spitze“. Stilistisch wurde der Text häufig als „zu starr“ empfunden, was auf eine fehlende idiomatische Anpassung an die Zielsprache hinweist.
Trotz dieser Kritik wurde die Übersetzung vereinzelt als „lebendig und detailgetreu“ sowie „stimmig“ wahrgenommen. Im Hinblick auf Kreativität fiel die Bewertung jedoch überwiegend neutral bis kritisch aus: Lediglich 16,98 % stuften die Übersetzung als „sehr kreativ“ ein, während 39,62 % eine neutrale Einschätzung abgaben. Die Stilmittelübertragung wurde unterschiedlich beurteilt - 47,17 % vergaben ein positives Urteil („eher gut“ oder „sehr gut“), 26,41 % hingegen ein negatives („eher schlecht“ oder „sehr schlecht“).
Kritisch wurde auch die Übertragung kultureller- und Fantasy-spezifischer Elemente betrachtet: Nur 37,73% empfanden die kulturelle Übertragung als gelungen, während 28,30% eine schlechte Umsetzung anmerkten. Auch bei den Fantasy-Elementen zeigte sich ein ähnliches Bild: Nur 39,62 % gaben an, diese seien sehr oder eher gut übertragen worden. Ein Kommentar fasst die Problematik zusammen: „Die Krone der Zauberei um Beatrices Kopf - unklare Bedeutung.“
Besonders schwer wog ein inhaltlicher Fehler: So wurde ein Kleidungsstück als „Mantua“ bezeichnet - „Mantua ist kein Kleidstück [sic], sondern eine Stadt in Italien“, so ein Teilnehmender, was auf fehlendes Weltwissen schließen lässt. Insgesamt wurde die Qualität dieser Übersetzung als mittelmäßig bewertet: Die meisten Befragten (35,85 %) vergaben die Note 3, während jeweils 16,98 % eine 1 bzw. 2 vergaben. Auffällig ist jedoch der hohe Anteil negativer Bewertungen mit Note 4 (15,09 %) und 5 (13,21 %).
Die von einer menschlichen Übersetzerin erstellte Version wurde in 69,81 % der Fälle korrekt als menschlich erkannt und insgesamt am positivsten bewertet.
Besonders positiv bewertet wurde sie hinsichtlich ihrer Kreativität und Stilmittelübertragung: 77,36 % der Teilnehmenden stuften die Übersetzung als „eher kreativ“ oder „sehr kreativ“ ein. Die stilistische Umsetzung wurde ebenfalls überdurchschnittlich positiv bewertet - 67,93 % sahen die Stilmittel als gelungen übertragen.
Ein Teilnehmender lobte „typische lyrische Merkmale“ sowie „kreative und idiomatische Lösungen“. Auch bei der Übertragung der Fantasy-Elemente schnitt diese Übersetzung am besten ab: 69,81 % bewerteten diese als „eher gut“ oder „sehr gut“. Die kulturellen Elemente wurden von 60,37 % als gelungen eingestuft. Besonders positiv hervorgehoben wurden die „romantische Wortwahl“, der „zusammenfassende Satzbau“ sowie der freie Umgang mit dem Ausgangstext - „Ü8 wirkt sehr frei übersetzt“ und „es gibt starke Abweichungen zu den beiden anderen Texten.“ Ein Detail, das auf eine menschliche Übersetzung schließen lässt, war die erklärende Einfügung von Kontext - beispielsweise wurde „Beatrice’“ als erläuternder Einschub genutzt. Dieser Eingriff wurde teils kritisch, teils positiv im Sinne der Verständlichkeit bewertet. Trotz der insgesamt sehr positiven Einschätzungen wurden kleinere Mängel benannt. So wurde der Satz „Was tat Sie hier?“ als grammatikalisch fehlerhaft und untypisch markiert. Zudem fiel auf, dass im ersten Absatz ein ganzer Satz ausgelassen wurde. Insgesamt wurde Übersetzung 8 jedoch klar favorisiert: 64,16 % der Befragten vergaben die Schulnote 1 oder 2.
Die DeepL-Übersetzung wurde von 75,47 % der Teilnehmenden korrekt als maschinell erstellt erkannt. Die Bewertungen spiegeln eine ambivalente Haltung wider. Einerseits wurde die gute Lesbarkeit und der emotionale Zugang positiv hervorgehoben - „Der Text klingt natürlich, es entsteht ein schöner Lesefluss.“ Andererseits wurde die Übersetzung als zu wörtlich und technisch empfunden.
Besonders kritisiert wurden syntaktische Strukturen: „Viel zu lange Sätze. Ein Mensch hätte das gekürzt“, oder auch: „Die Syntax unterschied sich massiv von den anderen beiden.“ Die stilistische und kulturelle Umsetzung wurde nur bedingt als gelungen bewertet - jeweils 41,51 % der Teilnehmenden vergaben hier eine positive Einschätzung.
Die Umsetzung der Fantasy-Elemente wurde von 47,17 % als gelungen angesehen, während 20,76 % sie als „eher schlecht“ oder „sehr schlecht“ einstuften. Wiederholt wurde die Formulierung „Konnte sie das?“ kritisiert - eine wenig idiomatische Entsprechung zu „Could she?“. Auch unpassende Begriffe wie „Vermögen“ oder die nicht korrekt übersetzte Referenz „Mantua“ wurden negativ bewertet - „Ein Mensch hätte das gemerkt“, so ein Kommentar.
In der Gesamtbewertung schnitt die DeepL-Übersetzung mittelmäßig ab: Die Mehrheit bewertete sie mit einer 3 (35,85 %), gefolgt von einer 2 (28,3 %).
8.4 Überprüfung der Forschungshypothesen
Nach der deskriptiven Analyse der Bewertungen wird im folgenden Abschnitt untersucht, ob sich aus den erhobenen Daten signifikante Zusammenhänge in Bezug auf die aufgestellten Forschungshypothesen ableiten lassen. Ziel der Untersuchung ist es herauszufinden, in welchem Maß individuelle Eigenschaften der Teilnehmenden - wie etwa der Umgang mit maschinellen Übersetzungssystemen oder LLMs, ihre Lesefrequenz oder ihre fachliche Qualifikation - die Fähigkeit beeinflussen, maschinelle Übersetzungen zu erkennen. Für die statistische Auswertung wurde das Programm R (R Core Team, 2025) verwendet, unterstützt durch die Packages effects (Fox & Weisberg, 2019) und tidyverse (Wickham et al., 2019).
H1: Laien haben größere Schwierigkeiten, maschinelle von menschlichen Übersetzungen zu unterscheiden als Personen mit einer Übersetzungsausbildung.
Abb. in Leseprobe nicht enthalten
Abbildung 13: Mittlere Gesamtrichtigkeitsrate nach Gruppe
Zur Überprüfung von H1 wurde ein lineares Regressionsmodell verwendet. Dabei diente die Gesamtrichtigkeitsrate als abhängige Variable. Diese erfasste, wie häufig die Teilnehmenden korrekt beurteilten, ob es sich bei einer Übersetzung um eine menschliche oder eine maschinelle Variante handelte. Die Skala reichte von 0 bis 9 richtigen Einschätzungen. Als unabhängige Variable diente die Gruppenzugehörigkeit, wobei zwischen Laien, Übersetzungsstudierenden und professionellen Übersetzenden unterschieden wurde.
Die Analyse ergab, dass die mittlere Richtigkeitsrate der Laien bei etwa 4,91 lag. Im Vergleich dazu schnitten die Übersetzungsstudierenden mit einem leichten Anstieg (+0,44) minimal besser ab, während die Profis sogar etwas schlechter abschnitten (-0,41). Allerdings waren diese Unterschiede statistisch nicht signifikant (ß = 0.4370, SE = 0.4793, t = 0.912, p = 0.366 für die Übersetzungsstudierenden, ß = -0.4130, SE = 0.5938, t = -0.696, p = 0.490 für die Profis). Damit lässt sich die Hypothese nicht bestätigen.
Eine mögliche Erklärung für das Ausbleiben signifikanter Unterschiede zwischen den Gruppen liegt in der zunehmenden Qualität maschineller Übersetzungen. Large Language Models wie ChatGPT sind inzwischen in der Lage, kohärente, stilistisch ansprechende Texte zu produzieren, die nicht mehr ohne Weiteres als maschinell erzeugt erkennbar sind. Dies erschwert selbst fachlich geschulten Personen die Unterscheidung. Zweitens könnte das gewählte Textmaterial in beiden Varianten ähnlich sprachlich überzeugend gewesen sein, was eine Differenzierung erschwerte. Drittens scheint die Fähigkeit zur Unterscheidung möglicherweise nicht allein von der Ausbildung abhängig zu sein, sondern auch von anderen Faktoren wie Erfahrung im Umgang mit maschinellen Übersetzungen, das regelmäßige Arbeiten mit Sprachmodellen oder aber auch das regelmäßige Lesen von Literatur. Dies soll im Laufe der weiteren Analyse untersucht werden.
H2: Personen mit Übersetzungsausbildung bewerten die Qualität maschineller Übersetzungen kritischer als Laien.
Abb. in Leseprobe nicht enthalten
Abbildung 14: Durchschnittliche Bewertung maschineller Übersetzungen nach Gruppenzugehörigkeit
Zur Überprüfung von H2 wurde ein lineares Regressionsmodell verwendet. Dabei wurde analysiert, ob die Gruppenzugehörigkeit (Laien, Übersetzungsstudierende, professionelle Übersetzende) einen Einfluss auf die Bewertung maschineller Übersetzungen hat. Berücksichtigt wurden ausschließlich maschinell erzeugte Texte, also Übersetzungen durch ChatGPT und DeepL. Die Bewertung erfolgte auf einer dreistufigen Skala (1 = unkritisch, 2 = neutral, 3 = kritisch) und wurde als abhängige Variable modelliert. Als unabhängige Variable diente erneut die Gruppenzugehörigkeit.
Die durchschnittliche Bewertung der Laien lag bei 2,10. Im Vergleich dazu bewerteten Übersetzungsstudierende die maschinellen Übersetzungen tendenziell um 0,20 Punkte kritischer (ß = 0.19855, SE = 0.11507, t = 1.725, p = 0.0854). Professionelle Übersetzende äußerten sich im Schnitt sogar um 0,27 Punkte kritischer (ß = 0.26522, SE = 0.14256, t = 1.860, p = 0.0638). Beide Unterschiede waren jedoch nur marginal signifikant.
Dennoch lässt sich ein Trend erkennen: Mit zunehmender Übersetzungserfahrung steigt die Wahrscheinlichkeit, maschinelle Übersetzungen kritischer zu bewerten. Damit kann H2 zwar nicht eindeutig bestätigt werden, doch die beobachtete Tendenz stützt die theoretische Annahme, dass eine höhere Sensibilität für sprachliche Qualität mit Übersetzungserfahrung einhergeht.
H3: Laien bevorzugen maschinelle Übersetzungen, während Personen mit Übersetzungsaus-bildung menschliche Übersetzungen bevorzugen.
Abb. in Leseprobe nicht enthalten
Abbildung 15: Bewertung nach Gruppe und Übersetzungsherkunft
Zur Überprüfung von H3 wurde ein lineares Regressionsmodell verwendet. Ziel war es herauszufinden, ob die Herkunft der Übersetzung (menschlich vs. maschinell) und die Gruppenzugehörigkeit der Teilnehmenden (Laien, Übersetzungsstudierende, professionelle Übersetzende) sowie deren Interaktion einen Einfluss auf die Bewertung der Übersetzungen haben. Als abhängige Variable diente die Bewertung auf einer dreistufigen Skala (1 = unkritisch, 2 = neutral, 3 = kritisch). Die unabhängigen Variablen waren die Gruppenzugehörigkeit sowie die Herkunft der Übersetzung, wobei maschinelle Übersetzungen (ChatGPT und DeepL) gemeinsam betrachtet und der menschlichen Übersetzung gegenübergestellt wurden.
Die Analyse ergab, dass sich in den Einzelvergleichen weder für die Gruppenzugehörigkeit noch für die Übersetzungsherkunft signifikante Ergebnisse zeigten. Die Bewertungen maschineller Übersetzungen unterschieden sich insgesamt nicht signifikant von der menschlichen Übersetzung (ß = 0.01449, SE = 0.13901, t = 0.104, p = 0.9170). Auch zwischen Laien und Personen mit Übersetzungsausbildung traten keine signifikanten Unterschiede auf (ß = 0.08696, SE = 0.16642, t = -0.523, p = 0.6016 für Studierende; ß = - 0.22029, SE = 0.20618, t = -1.068, p = 0.2859 für Profis). In der Interaktion zeigte sich jedoch ein Trend: Die Gruppe der professionellen Übersetzenden bewertete maschinelle Übersetzungen tendenziell kritischer als menschliche, verglichen mit den Laien (ß = 0.48551, SE = 0.25252, t = 1.923, p = 0.0551). Dieser Effekt war marginal signifikant, was darauf hindeutet, dass eine unterschiedliche Wahrnehmung durchaus existiert. Übersetzungsstudierende zeigten ebenfalls eine leicht kritischere Bewertung maschineller Übersetzungen allerdings ohne statistische Signifikanz (ß = 0.28551, SE = 0.20383, t = 1.401, p = 0.1620).
Diese Ergebnisse deuten darauf hin, dass sich die grundsätzliche Einstellung gegenüber maschinellen und menschlichen Übersetzungen zwischen den Gruppen nicht stark unterscheidet. Es zeigt sich jedoch ein leichter Trend, dass ausgebildete Übersetzende maschinelle Übersetzungen tendenziell kritischer bewerten als Laien - was H3 teilweise stützt. Dies legt nahe, dass fachliche Vorkenntnisse die Wahrnehmung und Bewertung von Übersetzungen maßgeblich beeinflussen. Dieser Unterschied könnte sich bei einer größeren Stichprobe oder in einem gezielteren Vergleich maschineller Systeme noch deutlicher zeigen. Im Folgenden soll daher untersucht werden, ob ein Unterschied zwischen den Bewertungen von ChatGPT und DeepL existiert.
H4: Ob Laien oder Personen mit Übersetzungsausbildung eine maschinelle Übersetzung der menschlichen vorziehen, hängt davon ab, welches Übersetzungssystem verwendet wurde - Übersetzungen von ChatGPT werden häufiger bevorzugt als Übersetzungen von DeepL.
Abb. in Leseprobe nicht enthalten
Abbildung 16: Bewertung der Übersetzungen nach Gruppe und System
Zur Überprüfung von H4 wurde ein lineares Regressionsmodell verwendet. Ziel war es herauszufinden, ob das verwendete maschinelle Übersetzungssystem (ChatGPT oder DeepL) in Kombination mit der Gruppenzugehörigkeit (Laien, Übersetzungsstudierende, professionelle Übersetzende) einen Einfluss auf die Bewertung der Übersetzungen hatte. Als abhängige Variable diente die Übersetzungsbewertung auf einer dreistufigen Skala (1 = unkritisch, 2 = neutral, 3 = kritisch). Die unabhängigen Variablen waren das verwendete System (Mensch, ChatGPT oder DeepL) sowie die Gruppenzugehörigkeit. Zudem wurde die Interaktion zwischen beiden Faktoren untersucht, um zu prüfen, ob sich bestimmte Gruppen gegenüber einem System besonders kritisch oder wohlwollend zeigten.
Die Analyse ergab, dass sich in den Einzelvergleichen keine signifikanten Unterschiede zwischen den Gruppen zeigten, wenn es um die Bewertung menschlicher oder ChatGPT-Überset- zungen ging. Die Bewertungen von Laien unterschieden sich damit nicht deutlich von denen der Übersetzungsstudierenden (ß = -0.08696, SE = 0.15805, t = -0.550, p = 0.58246) oder der Profis (ß = -0.22029, SE = 0.19581, t = -1.125, p = 0.26115). Auch ChatGPT-Übersetzungen wurden im Vergleich zu menschlichen Übersetzungen nicht signifikant anders bewertet (ß = - 0.15942, SE = 0.15244, t = -1.046, p = 0.29619). Dies galt sowohl für Laien als auch für Übersetzungsstudierende (ß = 0.00942, SE = 0.22352, t = 0.042, p = 0.96640) sowie professionelle Übersetzende (ß = 0.15942, SE = 0.27692, t = 0.576, p = 0.56509). Auffällig war jedoch die Bewertung von DeepL-Übersetzungen: Zwar ergab sich im Gesamteffekt kein signifikanter Unterschied gegenüber den menschlichen Übersetzungen (ß = 0.18841, SE = 0.15244, t = 1.236, p = 0.21709), in der Interaktion mit der Gruppenzugehörigkeit zeigten sich jedoch signifikante Unterschiede. Übersetzungsstudierende bewerteten DeepL-Überset- zungen signifikant kritischer als Laien (ß = 0.56159, SE = 0.22352, t = 2.513, p = 0.01232), ebenso wie professionelle Übersetzende (ß = 0.81159, SE = 0.27692, t = 2.931, p = 0.00355).
Diese Ergebnisse deuten darauf hin, dass sich die Einschätzungen maschineller Übersetzungen nicht zwingend zwischen den Gruppen unterscheiden, sondern stark vom eingesetzten System abhängen. Während ChatGPT offenbar Übersetzungen liefert, die auch bei fachlich geschulten Personen nicht auf stärkere Kritik stoßen, scheint DeepL - zumindest in den gewählten Beispielen - weniger zu überzeugen. Möglicherweise liegt dies an Unterschieden in Stil, Kohärenz oder in der Sensibilität für bestimmte sprachliche Merkmale, die vor allem von geschulten Lesenden erkannt werden. Dass menschliche und ChatGPT-Übersetzungen vergleichbar bewertet wurden, könnte wiederum ein Hinweis auf die zunehmend hohe Qualität KI-gestützter Systeme wie ChatGPT sein. Damit bestätigt sich H4 teilweise: Zwar wurden ChatGPT-Übersetzungen nicht explizit bevorzugt, doch DeepL wurde im Vergleich deutlich kritischer beurteilt - und zwar vor allem von den Personen mit Übersetzungsausbildung.
H5: Die automatische Bewertung mit Transquest tendiert dazu, menschliche Übersetzungen gegenüber maschinellen zu bevorzugen.
Abb. in Leseprobe nicht enthalten
Abbildung 17: Durchschnittliche TransQuest-Scores nach Übersetzungsart
Zur Überprüfung von H5 wurde ein lineares Regressionsmodell verwendet, um herauszufinden, ob die Art der Übersetzung (Mensch, ChatGPT, DeepL) einen Einfluss auf die TransQuest- Vorhersagewerte hat. Die abhängige Variable war der vorhergesagte Qualitätswert (predic- ted_score), der von TransQuest automatisch generiert wird. Als unabhängige Variable diente die Übersetzungsart. Ziel war es, zu prüfen, ob menschliche Übersetzungen durch das Modell systematisch höher bewertet werden als maschinelle.
Das Regressionsmodell zeigte, dass die durchschnittliche Bewertung für menschliche Übersetzungen bei 0.718871 lag. Weder ChatGPT-Übersetzungen (ß = 0.002371, SE = 0.002926, t = 0.810, p = 0.420) noch DeepL-Übersetzungen (ß = 0.002481, SE = 0.002926, t = 0.848, p = 0.399) wichen in statistisch signifikanter Weise von diesem Mittelwert ab.
Diese Ergebnisse sprechen gegen die Hypothese, dass TransQuest menschliche Übersetzungen systematisch bevorzugt. TransQuest wurde speziell für die Qualitätseinschätzung maschineller Übersetzungen konzipiert. So lagen die Bewertungen für maschinelle Übersetzungen leicht über denen der menschlichen. Dennoch ist dieser Unterschied statistisch nicht signifikant und zeigt so keine klare Benachteiligung menschlicher Übersetzungen. Vielmehr deuten die Ergebnisse darauf hin, dass TransQuest keine signifikanten Unterschiede zwischen menschlichen und maschinellen Übersetzungen macht. Das könnte darauf zurückzuführen sein, dass TransQuest bei allen Systemen ähnliche Merkmale bewertet. Insgesamt kann H5 nicht bestätigt werden. TransQuest scheint im gegebenen Datensatz neutral gegenüber der Herkunft der Übersetzung zu bewerten.
H6: Laien und Personen mit Übersetzungsausbildung, die regelmäßig Large Language Models (LLMs) oder neuronale maschinelle Übersetzungs-Systeme (NMÜ) nutzen oder eine höhere Lesefrequenz aufweisen, erkennen maschinell oder menschlich erzeugte literarische Übersetzungen signifikant besser als Laien und Personen mit Übersetzungsausbildung, die selten oder gar nicht mit LLMs bzw. NMÜ interagieren oder wenig lesen.
Abb. in Leseprobe nicht enthalten
Abbildung 18: Gesamtrichtigkeitsraten nach MÜ- und LLM-Nutzung sowie Lesefrequenz nach Gruppen
Zur Überprüfung von H6 wurde ein lineares Regressionsmodell verwendet, um zu untersuchen, ob Laien und Personen mit Übersetzungsausbildung, die regelmäßig Large Language Models (LLMs) oder neuronale maschinelle Übersetzungs-Systeme (NMÜ) nutzen oder eine höhere Lesefrequenz aufweisen, maschinell erzeugte literarische Übersetzungen signifikant besser erkennen können als solche, die selten oder gar nicht mit diesen Systemen interagieren oder wenig lesen. Die abhängige Variable war die Gesamtrichtigkeitsrate der Übersetzungen, und die unabhängigen Variablen waren die Nutzungshäufigkeit von LLMs bzw. NMÜ sowie die Lesefrequenz.
Die Ergebnisse zeigen, dass es Unterschiede in den Effekten der Nutzung von LLMs beziehungsweise NMÜ sowie der Lesefrequenz zwischen den Gruppen (Laien, Übersetzungsstudierende, Profis) gab. Insbesondere für Laien zeigte das Modell keinen signifikanten Einfluss der Häufigkeit der Nutzung von NMÜ und LLM oder der Lesefrequenz auf die Gesamtrichtigkeitsrate (ß = - 1.2799, SE = 1.0482, t = -1.221, p = 0.239 für wöchentlichen Gebrauch und ß = - 0.8147, SE = 1.0978, t = -0.742, p = 0.468 für seltenen Gebrauch von LLMs/NMÜ. Für die Lesefrequenz ergaben sich folgende Werte: ß = - 0.5932, SE = 1.3090, t = -0.453, p = 0.656 für wöchentliches Lesen, ß = -1.0770, SE = 1.2258, t = - 0.879, p = 0.392 für seltenes Lesen und ß = -0.5463, SE = 2.1080, t = -0.259, p = 0.799 für die Lesefrequenz „nie“.
Im Gegensatz dazu zeigte das Modell für Übersetzungsstudierende signifikante Ergebnisse. Sowohl die Nutzung von LLMs bzw. NMÜ auf wöchentlicher (ß = 2.5205, SE = 0.7344, t = 3.432, p = 0.00371) als auch auf seltener Basis (ß = 3.1058, SE = 0.7723, t = 4.021, p = 0.00111) sowie die Lesefrequenz hatten einen positiven Effekt auf die Gesamtrichtigkeitsrate. Übersetzungsstudierende, die regelmäßig wöchentlich (ß = -1.4266, SE = 0.5608, t = -2.544, p = 0.02247) oder selten (ß = -1.9846, SE = 0.6040, t = -3.286, p = 0.00500) lasen, erkannten maschinelle oder menschliche Übersetzungen signifikant besser.
Die Analyse der professionellen Übersetzenden zeigte, dass die Lesefrequenz einen signifikanten positiven Einfluss auf die Erkennungsrate hatte, insbesondere für Teilnehmende, die wöchentlich (ß = 3.35294, SE = 0.98149, t = 3.416, p = 0.0189) oder selten (ß = 3.76471, SE = 0.93970, t = 4.006, p = 0.0103) lasen. Im Gegensatz dazu hatte die Nutzung von LLMs bzw. NMÜ keinen signifikanten Einfluss auf die Erkennungsrate. Die wöchentliche Nutzung von LLMs bzw. NMÜ zeigte keinen signifikanten Effekt (ß = 0.05882, SE = 0.69402, t = 0.085, p = 0.9357), ebenso wenig wie die seltene Nutzung (ß = 1.70588, SE = 0.88470, t = 1.928, p = 0.1117).
Zusammenfassend zeigt die Analyse, dass die Fähigkeit zur Erkennung maschineller oder menschlicher Übersetzungen von der Nutzungshäufigkeit von LLMs bzw. NMÜ und der Lesefrequenz abhängt, dies jedoch auf einem gewissen Erfahrungsstand beruht. Somit bestätigen die Ergebnisse H6 teilweise, da der Effekt der Nutzung von LLMs bzw. NMÜ und der Lesefrequenz besonders für geschulte Gruppen signifikant war.
9 Diskussion
9.1 Bedeutung der Ergebnisse für die Übersetzungsforschung
Die Ergebnisse dieser Studie liefern wichtige Hinweise auf den aktuellen Stand der maschinellen Übersetzung im literarischen Bereich - insbesondere im Vergleich zur menschlichen Übersetzung. Dabei zeigt sich ein vielschichtiges Bild, das sowohl den Einfluss technologischer Fortschritte als auch die Mechanismen menschlicher Wahrnehmung zum Ausdruck bringt.
Zunächst wird deutlich, dass die Fähigkeit, maschinelle und menschliche Übersetzungen voneinander zu unterscheiden, nicht eindeutig an den Grad der Ausbildung oder Berufserfahrung im Übersetzungsbereich gekoppelt ist. Die Annahme, dass Fachpersonen grundsätzlich bessere Urteile treffen, konnte nicht bestätigt werden. Dies legt nahe, dass moderne Systeme wie Chat- GPT mittlerweile Übersetzungen erzeugen, die auch für geübte Lesende schwer erkennbar sind. Dies zeigte sich auch in den Arbeiten von Sizov et al. (2024) und Jiang et al. (2024 a). Moderne LLMs reichten stilistisch deutlich näher an menschliche Übersetzungen heran als klassische NMÜ-Systeme. Die Ergebnisse dieser Arbeit bestätigen dies: ChatGPT-Übersetzungen wurden in knapp 70 % der Fälle als menschlich eingeschätzt, während DeepL deutlich häufiger als Maschine erkannt wurde. Dies verdeutlicht, dass aktuelle LLMs mittlerweile so gut sind, dass selbst Übersetzungsexperten und -expertinnen im Blindtest Schwierigkeiten haben, sie zuverlässig zu unterscheiden.
Zugleich zeigen sich Hinweise darauf, dass mit zunehmender Übersetzungserfahrung die Sensibilität für Unterschiede wächst - insbesondere in der Bewertung, nicht unbedingt in der reinen Erkennung. Fachpersonen tendieren tendenziell zu kritischeren Einschätzungen maschineller Übersetzungen, was darauf hinweist, dass professionelle Bewertung andere Maßstäbe anlegt als die bloße Identifikation der Herkunft. Dies ist für die Praxis der Übersetzungsforschung relevant, weil es nahelegt, dass Bewertungen stärker kontext- und gruppenspezifisch interpretiert werden sollten.
Die Tatsache, dass ChatGPT-Übersetzungen im Schnitt ähnlich bewertet wurden wie die menschlichen, während DeepL deutlich kritischer beurteilt wurde - vor allem von fachlich geschulten Teilnehmenden -, zeigt, dass nicht maschinelle Übersetzung als solche, sondern die Wahl des Systems entscheidend ist. Dies unterstreicht die Notwendigkeit, maschinelle Übersetzung nicht pauschal zu beurteilen, sondern differenziert nach Technologie, Kontext (wie bspw. Fiction und Non-Fiction) und Anwendungszweck zu bewerten.
Auch die Bewertung durch automatische Metriken wie TransQuest liefert interessante Einsichten: Entgegen der Hypothese bevorzugte TransQuest menschliche Übersetzungen nicht systematisch. Vielmehr bewertete das System alle Übersetzungsarten auf einem vergleichbaren Niveau - ein Befund, der die Kritik von Jiang et al. (2024b) an der begrenzten Aussagekraft automatischer Metriken bei stilistisch und kulturell komplexen Texten bestätigt. Automatische Metriken wie TransQuest dienen also weiterhin nur als erster Indikator. Empirische Studien sollten menschliche Rezeption stärker einbeziehen und gegebenenfalls neue, darauf abgestimmte Metriken entwickeln.
Ein weiterer zentraler Aspekt ist die Bedeutung der individuellen Nutzererfahrung. Während Laien kaum von häufiger Nutzung maschineller Übersetzung oder häufigem Lesen profitierten, zeigte sich bei Übersetzungsstudierenden und Profis ein positiver Zusammenhang zwischen diesen Faktoren und der Fähigkeit, Übersetzungen korrekt zuzuordnen. Dies deutet darauf hin, dass maschinelle Übersetzungskompetenz - ähnlich wie Sprachkompetenz - nicht allein durch technische Affinität, sondern durch gezielte Erfahrung und reflektierten Umgang mit Texten entsteht.
Besonders relevant ist auch die Rolle des Prompt Engineerings. Die in dieser Arbeit eingesetzte Self-Refine-Strategie führte zu deutlich besseren Ergebnissen bei ChatGPT - ein Befund, der die Studienlage (z. B. Zeng & Liang, 2024) stützt und das Potenzial interaktiver Steuerung unterstreicht. DeepL hingegen blieb in seiner Funktionalität begrenzt, was sich in den Bewertungen widerspiegelte.
Besonders aufschlussreich sind die Ergebnisse im Hinblick auf die Bewertung der Übertragung literarisch relevanter Merkmale wie Kreativität, Stilmittel, kulturelle Elemente und FantasyElemente:
Kreativität wurde in den menschlichen Übersetzungen insgesamt am höchsten bewertet - insbesondere bei Übersetzung 6 und 8, die von über 70 % der Teilnehmenden als „eher“ oder „sehr kreativ“ eingestuft wurden. ChatGPT-Übersetzungen schnitten ebenfalls sehr gut ab und wurden in zwei von drei Fällen als kreativer wahrgenommen als DeepL. DeepL hingegen wurde durchweg als am wenigsten kreativ bewertet, was auf eine stärkere Tendenz zur wörtlichen und strukturell konservativen Übertragung hinweist. Diese Ergebnisse stehen im Einklang mit Guerberof-Arenas & Toral (2020), die menschlichen Übersetzungen eine höhere kreative Qualität zuschreiben. ChatGPT zeigte jedoch Potenzial, insbesondere bei gezielter Steuerung durch Prompts.
Stilmittel wurden in den menschlichen Übersetzungen (v. a. Ü6 und Ü8) am besten bewertet. ChatGPT konnte hier ebenfalls überzeugen, insbesondere bei Übersetzung 5, die von über 70 % der Teilnehmenden als stilistisch gelungen eingeschätzt wurde. DeepL hingegen wurde in diesem Bereich meist neutral oder leicht negativ bewertet - ein Befund, der die in der Literatur beschriebene strukturelle Starrheit klassischer NMÜ-Systeme bestätigt. So zeigten Studien von Crosbie et al. (2013) und Wang et al. (2024), dass Maschinen bei komplexen Stilmitteln häufig scheitern oder diese nur oberflächlich übertragen.
Kulturelle Elemente wurden in den menschlichen Übersetzungen am besten übertragen, was sich in den höchsten Zustimmungswerten für Übersetzung 6 und 8 zeigt. ChatGPT konnte auch hier solide Ergebnisse erzielen, während DeepL-Übersetzungen häufig als zu neutral oder kontextfern wahrgenommen wurden. Dies bestätigt die Annahme, dass kulturelle Sensibilität weiterhin eine Schwäche maschineller Systeme darstellt - insbesondere ohne gezielte Steuerung, wie auch schon bei Karabayeva & Kalizhanova (2024) aufgezeigt wurde.
Fantasy-Elemente, die in der gewählten Textsorte besonders zentral sind, wurden in den menschlichen Übersetzungen (v. a. Ü8) am überzeugendsten übertragen. ChatGPT konnte in zwei von drei Fällen ebenfalls hohe Bewertungen erzielen, insbesondere bei Übersetzung 5. DeepL zeigte hier zwar solide, aber weniger konsistente Leistungen. Die Ergebnisse bestätigen Bergmanns (2017) These, dass Fantasy-Literatur besonders anspruchsvolle stilistische, kreative und kulturelle Übertragungsleistungen erfordert - Anforderungen, die LLMs wie ChatGPT zwar immer besser erfüllen, klassische NMÜ-Systeme wie DeepL jedoch weiterhin nur bedingt meistern und bei denen eine menschliche Nachbearbeitung unverzichtbar bleibt.
Insgesamt zeigen die Ergebnisse, dass die Grenzen zwischen menschlicher und maschineller Übersetzung durch Systeme wie ChatGPT zunehmend verschwimmen - sowohl in ihrer Qualität als auch in ihrer Wahrnehmung. Für die Übersetzungsforschung bedeutet dies, dass traditionelle Bewertungskriterien überdacht werden müssen und neue, empirisch fundierte Perspektiven erforderlich sind, die sowohl technologische Entwicklungen als auch menschliche Rezeptionsmuster berücksichtigen. Die Differenzierung nach Systemtyp, Textsorte und Nutzergruppe wird dabei ebenso zentral sein wie die Integration von Prompting-Strategien und hybriden Arbeitsformen zwischen Mensch und Maschine.
9.2 Limitationen der Studie
9.2.1 Begrenzungen der Methodik und Datenanalyse
Wie bei jeder empirischen Untersuchung gibt es auch in dieser Studie methodische Einschränkungen, die bei der Interpretation der Ergebnisse berücksichtigt werden müssen. Die Auswahl von drei Textausschnitten stellt nur einen kleinen Ausschnitt aus dem Spektrum literarischer Sprache dar. Die Übertragbarkeit der Ergebnisse auf andere Textsorten, Genres oder längere Passagen ist daher nur bedingt möglich.
Auch die gewählten Analysemethoden - sowohl bei der automatischen als auch bei der menschlichen Bewertung - bilden nur einen Teil möglicher Evaluationsstrategien ab. Andere Metriken oder experimentelle Designs hätten gegebenenfalls zu abweichenden Ergebnissen geführt oder zusätzliche Einsichten ermöglicht. Ebenso kann nicht ausgeschlossen werden, dass sich bestimmte Einflüsse - etwa durch die Reihenfolge der Texte oder die Präsentationsform - auf das Antwortverhalten ausgewirkt haben.
9.2.2 Mögliche Verzerrungen durch die Testgruppen
Auch bei der Zusammensetzung der Testgruppen können Verzerrungen auftreten. So ist es möglich, dass die Teilnehmenden nicht repräsentativ für die Zielgruppe literarischer Übersetzungen sind. Faktoren wie Bildungshintergrund, Interesse an Literatur oder Vorerfahrung mit und Einstellung zu Übersetzungstools könnten unbewusst das Urteil beeinflusst haben.
Zudem beruhte die Einteilung in Laien und Fachpersonen auf Selbstauskünften, ohne objektive Überprüfung der tatsächlichen Übersetzungskompetenz. Auch individuelle Lesestrategien, persönliche Vorlieben oder Erwartungshaltungen gegenüber maschinellen Texten können das Ergebnis mitgeprägt haben, ohne dass diese Einflüsse kontrolliert oder gemessen wurden.
Diese Einschränkungen relativieren die Aussagekraft der Ergebnisse nicht grundsätzlich, zeigen aber, dass weiterführende Studien mit breiterer Datenbasis, alternativen Methoden und kon- trollierteren Bedingungen sinnvoll und notwendig wären, um das Potenzial maschineller Literaturübersetzung noch differenzierter bewerten zu können.
10 Fazit und Ausblick
10.1 Zusammenfassung der wichtigsten Erkenntnisse
Die vorliegende Arbeit widmete sich der Frage, inwieweit maschinelle Übersetzungssysteme - insbesondere ChatGPT und DeepL - in der Lage sind, literarische Texte auf einem mit menschlichen Übersetzungen vergleichbaren Niveau wiederzugeben. Im Zentrum stand dabei nicht nur die technische Qualität der Übersetzungen, sondern auch deren Wahrnehmung durch unterschiedliche Zielgruppen - von Laien bis hin zu professionellen Übersetzenden. Inwieweit konnten diese maschinelle und menschliche Übersetzungen literarischer Texte voneinander unterscheiden, wenn sie ihnen anonymisiert vorgelegt wurden? Die Ergebnisse zeigen ein vielschichtiges Bild, das sowohl die Leistungsfähigkeit aktueller Systeme als auch die Herausforderungen bei der Bewertung literarischer Übersetzungen deutlich macht.
Zunächst wurde deutlich, dass moderne Large Language Models wie ChatGPT Übersetzungen erzeugen können, die stilistisch und sprachlich so überzeugend sind, dass sie selbst von Fachpersonen häufig nicht mehr eindeutig als maschinell erkannt werden. In knapp 70 % der Fälle wurden ChatGPT-Übersetzungen für menschlich gehalten - ein Wert, der die zunehmende Annäherung maschineller Systeme an menschliche Ausdrucksformen eindrucksvoll belegt. DeepL hingegen wurde deutlich häufiger korrekt als maschinell identifiziert und insgesamt kritischer bewertet. Dies legt nahe, dass die Qualität maschineller Übersetzungen stark vom verwendeten System abhängt und nicht pauschal beurteilt werden kann.
Interessanterweise zeigte sich, dass die Fähigkeit zur Unterscheidung zwischen menschlichen und maschinellen Übersetzungen nicht signifikant mit der Ausbildung oder Berufserfahrung im Übersetzungsbereich zusammenhängt. Fachpersonen konnten maschinelle Übersetzungen nicht verlässlicher erkennen als Laien. Allerdings bewerteten sie diese tendenziell kritischer. Besonders deutlich wurde dies bei DeepL, dessen Übersetzungen von Fachpersonen signifikant negativer beurteilt wurden als von Laien. ChatGPT hingegen wurde über alle Gruppen hinweg ähnlich positiv bewertet wie die menschlichen Übersetzungen.
Auch die automatische Bewertung durch TransQuest ergab keine systematische Bevorzugung menschlicher Übersetzungen. Die Scores lagen für alle Systeme auf vergleichbarem Niveau, was die Grenzen automatischer Metriken bei der Bewertung literarischer Texte unterstreicht. Stilistische, kulturelle und kreative Aspekte, die für literarische Übersetzungen zentral sind, werden von solchen Metriken nur unzureichend erfasst. Dies bestätigt die Notwendigkeit, menschliche Bewertungen auch künftig als unverzichtbaren Bestandteil der Qualitätsevaluation zu betrachten.
Ein weiterer zentraler Befund betrifft die Rolle individueller Erfahrung. Während bei Laien kein signifikanter Zusammenhang zwischen Nutzungshäufigkeit maschineller Übersetzungssysteme oder Lesefrequenz und der Erkennungsleistung festgestellt werden konnte, zeigte sich bei Übersetzungsstudierenden und professionellen Übersetzenden ein klarer positiver Effekt. Wer regelmäßig mit LLMs oder NMÜ-Systemen arbeitet oder häufig literarische Texte liest, konnte Übersetzungen signifikant besser zuordnen. Dies unterstreicht die Bedeutung praktischer Erfahrung und literarischer Kompetenz für die Bewertung maschineller Übersetzungen.
Besonders hervorzuheben ist das Potenzial von Prompt Engineering. Die in dieser Arbeit eingesetzte Self-Refine-Strategie bei ChatGPT führte zu besseren Ergebnissen als einfache ZeroShot-Prompts. Dies zeigt, dass die Qualität maschineller Übersetzungen nicht nur vom Modell selbst, sondern auch von der Art der Interaktion abhängt. DeepL hingegen blieb in seiner Funktionalität begrenzt, was sich in den Bewertungen widerspiegelte.
Insgesamt lässt sich festhalten, dass die Grenzen zwischen menschlicher und maschineller Literaturübersetzung zunehmend verschwimmen. ChatGPT hat ein Niveau erreicht, das in vielen Fällen mit menschlichen Übersetzungen konkurrieren kann - insbesondere bei gezielter Steuerung durch Prompts. Dennoch bleibt die kreative Leistung menschlicher Übersetzender in vielen Bereichen - etwa bei der Übertragung komplexer Stilmittel, kultureller Referenzen oder emotionaler Nuancen - bislang unerreicht.
Die Ergebnisse dieser Arbeit legen nahe, dass die Zukunft der Literaturübersetzung nicht in einem Entweder-oder, sondern in einem Sowohl-als-auch liegt: Hybride Modelle, in denen Mensch und Maschine kooperieren, könnten neue Wege eröffnen, um literarische Texte effizient, kreativ und kultursensibel zu übertragen.
10.2 Implikationen für zukünftige Forschung und Praxis
Für die zukünftige Forschung ergeben sich daraus mehrere zentrale Implikationen:
Erstens sollte die Rolle von Prompt Engineering systematisch untersucht und in die Ausbildung von Übersetzenden integriert werden. Die Erkenntnis, dass Fachwissen strengere Maßstäbe setzt, legt nahe, Module zu KI-Technologien ins Übersetzungsstudium zu integrieren. Übersetzende sollten im Umgang mit LLMs geschult werden. Praktische Übungen im PromptEngineering, systematisches Post-Editing und kritische Reflexion maschineller Outputs sollten fester Bestandteil der Lehre werden.
Zweitens bedarf es neuer Evaluationsmetriken, die literarische Qualität adäquat erfassen können. Bestehende automatische Verfahren wie BLEU oder TransQuest erfassen vor allem formale Übereinstimmungen, vernachlässigen jedoch stilistische, kulturelle und emotionale Dimensionen. Es bedarf daher neuer Bewertungsansätze, die literarische Qualität differenzierter abbilden können - idealerweise in Kombination mit menschlicher Rezeption.
Drittens sollten weitere Studien unterschiedliche Textsorten, Sprachpaare und kulturelle Kontexte einbeziehen, um die Generalisierbarkeit der Ergebnisse zu prüfen. Zukünftige Studien sollten weitere literarische Genres wie Lyrik und Drama sowie längere Textpassagen einbeziehen. Ebenso sollte untersucht werden, wie maschinelle Übersetzungssysteme kulturelle Anspielungen und stilistische Mittel in verschiedenen Zielkulturen verarbeiten - idealerweise im Rahmen multilingualer Vergleichsstudien.
Viertens beeinflusst die Wahl des Systems (z. B. DeepL vs. ChatGPT) die Wahrnehmung stark. Zukünftige Studien sollten kontextspezifisch bewerten indem verschiedene Systemtypen und Prompting-Strategien miteinander verglichen werden. Inwiefern können unterschiedliche Prompt-Formulierungen die Qualität und Erkennbarkeit von maschinellen Übersetzungen beeinflussen?
Fünftens ist auch die gesellschaftliche Akzeptanz maschineller Literaturübersetzungen ein lohnendes Forschungsfeld - insbesondere im Hinblick auf die Frage, wie Leserinnen und Leser ohne Übersetzungshintergrund maschinell erzeugte Literatur wahrnehmen und bewerten.
Die vorliegende Arbeit leistet einen Beitrag zur aktuellen Diskussion über die Rolle maschineller Übersetzung im literarischen Bereich. Sie zeigt, dass maschinelle Systeme wie ChatGPT nicht nur technisch leistungsfähig, sondern auch stilistisch überzeugend sein können - und dass ihre Bewertung differenzierter ausfallen muss als bisher. Die Herausforderung besteht nun darin, diese Entwicklung kritisch zu begleiten, neue Bewertungsmaßstäbe zu entwickeln und die Potenziale hybrider Übersetzungsprozesse gezielt zu nutzen. Mit diesen Ansätzen kann die Forschung einen differenzierteren Einblick in das komplexe Zusammenspiel von Technik, Text und Rezeption gewinnen und praxisrelevante Handlungsempfehlungen für den literarischen Übersetzungsmarkt entwickeln.
Literaturverzeichnis
Primärliteratur
Polk, C. L. (2020). The midnight bargain. New York, Erewhon Books.
Polk, C. L. (2023). Der Mitternachtspakt. Roman. München, Piper.
Sekundärliteratur:
Abdelaty, Ragab (2024). Kompetenzen und Herausforderungen für Übersetzer im Zeitalter der Künstlichen Intelligenz. Beni-Suef University International Journal of Humanities and Social Sciences 6, 31-54. https://doi.org/10.21608/buijhs.2024.270423.1135.
Ait Lahcen, Ayoub (2023). The Impact of Machine Translation on Cultural Transfer in Literary Texts 2023.
Amini, Mansour/Ravindran, Latha/Lee, Kam-Fong (2024). Implications of using AI in translation studies: Trends, challenges, and future direction. Asian Journal of Research in Education and Social Sciences e-ISSN 6 (1,740-754).
Bahdanau, Dzmitry/Cho, Kyunghyun/Bengio, Yoshua (2015). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473 [Titel anhand dieser ArXiv-ID in Citavi-Projekt übernehmen].
Bergmann, Alexandra (2017). The challenges of translating fantasy fiction from English into German: Tolkien’s "The Lord of the Rings: The Fellowship of the Ring", Rowling’s "Harry Potter and the Philosopher’s Stone", and Martin’s "A Song of Ice and Fire: A Game of Thrones. Master’s Thesis. Graz, Universität Graz. Online verfügbar unter https://unipub.uni-graz.at/urn:nbn:at:at-ubg:1-114542.
Chatzikoumi, Eirini (2020). How to evaluate machine translation: A review of automated and human metrics. Natural Language Engineering 26 (2), 137-161. https://doi.org/10.1017/S1351324919000469.
Cho, Kyunghyun/van Merrienboer, Bart/Bahdanau, Dzmitry/Bengio, Yoshua (2014a). On the Properties of Neural Machine Translation: Encoder-Decoder Approaches. Online verfügbar unter http://arxiv.org/pdf/1409.1259.
Cho, Kyunghyun/van Merrienboer, Bart/Gulcehre, Caglar/Bahdanau, Dzmitry/Bougares, Fethi/Schwenk, Holger/Bengio, Yoshua (2014b). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. Online verfügbar unter http://arxiv.org/pdf/1406.1078.
Conneau, Alexis/Khandelwal, Kartikay/Goyal, Naman/Chaudhary, Vishrav/Wenzek, Guil- laume/Guzman, Francisco/Grave, Edouard/Ott, Myle/Zettlemoyer, Luke/Stoyanov, Veselin (2020). Unsupervised Cross-lingual Representation Learning at Scale. In: Dan Jurafsky/Joyce Chai/Natalie Schluter et al. (Hg.). Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. Online, Association for Computational Linguistics, 8440-8451.
Crosbie, Tess/French, Tim/Conrad, Marc (2013). Stylistic Analysis Using Machine Translation as a Tool. International Journal for Infonomics Special 1, 835-843. https://doi.org/10.20533/iji.1742.4712.2013.0099.
Cvetkovic, Daniela (2020). Wahrnehmung der Qualität von maschineller Übersetzung durch professionelle ÜbersetzerInnen und LaiInnen. Wien. https://doi.org/10.25365/the- sis.65245.
Digue Albin/Campen, Paul (2022). Automatic Translation of Wordplay. In: Working Notes of CLEF 2022 - Conference and Labs of the Evaluation Forum. Bologna, Italy, CEUR- WS.org.
Ed-Dali, Rachid (2024). Comparative Analysis of Copilot 4 and Chatgpt 4 for Literary Translation: A Comprehensive Evaluation 2024.
Fick, Sabine Ute (2017/2018). Neuronal=optimal? : Eine Qualitätsstudie zu neuronalen maschinellen Übersetzungssystemen. Masterarbeit. Mainz, Johannes Gutenberg-Universität Mainz.
Fox, John; Weisberg, Sanford (2019). An R Companion to Applied Regression. 3. Auflage. Thousand Oaks, CA: SAGE Publications.
Gehring, Jonas/Auli, Michael/Grangier, David/Yarats, Denis/Dauphin, Yann N. (2017). Convolutional sequence to sequence learning. In: International conference on machine learning, 1243-1252.
Guerberof-Arenas, Ana/Toral, Antonio (2020). The impact of post-editing and machine translation on creativity and reading experience. Translation Spaces 9 (2), 255-282. https://doi.org/10.1075/ts.20035.gue.
Guerberof-Arenas, Ana/Toral, Antonio (2022). Creativity in translation. Translation Spaces 11 (2), 184-212. https://doi.org/10.1075/ts.21025.gue.
Hirschle, Jochen (2022). Deep Natural Language Processing. Einstieg in Word Embedding, Sequence-to-Sequence-Modelle und Transformers mit Python. München, Hanser; Hanser eLibrary.
Hutchins, W. John (1995). Machine translation: A brief history. In: Concise history of the language sciences. Elsevier, 431-445.
Igareda, Paula (2011). Categorización temática del análisis cultural: una propuesta para la traducción / Thematic Categorization of Cultural Analysis: A Proposal for Translation. Ikala: Revista de Lenguaje y Cultura 0.
Jiang, Zhaokun/Lv, Qianxi/Zhang, Ziyin/Lei, Lei (2024a). Distinguishing translations by human, nmt, and chatgpt: A linguistic and statistical approach. arXiv preprint ar- Xiv:2312.10750
Jiang, Zhaokun/Lv, Qianxi/Zhang, Ziyin/Lei, Lei (2024b). Convergences and Divergences between Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation. arXiv preprint arXiv:2401.05176
Jiao, Wenxiang/Wang, Wenxuan/Huang, Jen-tse/Wang, Xing/Shi, Shuming/Tu, Zhaopeng (2023). Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine. Online verfügbar unter http://arxiv.org/pdf/2301.08745.
Karabayeva, Irina/Kalizhanova, Anna (2024). Evaluating machine translation of literature through rhetorical analysis. Journal of Translation and Language Studies 5 (1), 1-9. https://doi.org/10.48185/jtls.v5i1.962.
Kepler, Fabio/Trénous, Jonay/Treviso, Marcos/Vera, Miguel/Martins, André F. T. (2019). OpenKiwi: An Open Source Framework for Quality Estimation. In: Marta R. Costa- jussà/Enrique Alfonseca (Hg.). Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Florence, Italy, Association for Computational Linguistics, 117-122.
Kim, Hyun/Lee, Jong-Hyeok/Na, Seung-Hoon (2017). Predictor-Estimator using Multilevel Task Learning with Stack Propagation for Neural Quality Estimation. In: Ondrej Bojar/Christian Buck/Rajen Chatterjee et al. (Hg.). Proceedings of the Second Conference on Machine Translation. Copenhagen, Denmark, Association for Computational Linguistics, 562-568.
Koehn, Philipp (2020). Neural Machine Translation. GB, Cambridge University Press.
Kreutzer, Julia/Schamoni, Shigehiko/Riezler, Stefan (2015). QUality Estimation from ScraTCH (QUETCH): Deep Learning for Word-level Translation Quality Estimation. In: Ondrej Bojar/Rajan Chatterjee/Christian Federmann et al. (Hg.). Proceedings of the Tenth Workshop on Statistical Machine Translation. Lisbon, Portugal, Association for Computational Linguistics, 316-322.
Krüger, Ralph (2021). Die Transformer-Architektur für Systeme zur neuronalen maschinellen Übersetzung-eine popularisierende Darstellung. trans-kom 14 (2), 278-324.
LTIMindtree (2023). ChatGPT-An-AI-NLP-Model-POV-lastpage. Online verfügbar unter https://www.ltimindtree.com/wp-content/uploads/2023/02/ChatGPT-An-AI-NLP-Mo- del-POV.pdf (abgerufen am 26.05.2025).
Madaan, Aman/Tandon, Niket/Gupta, Prakhar/Hallinan, Skyler/Gao, Luyu/Wiegreffe, Sa- rah/Alon, Uri/Dziri, Nouha/Prabhumoye, Shrimai/Yang, Yiming/Gupta, Shashank/Ma- jumder, Bodhisattwa Prasad/Hermann, Katherine/Welleck, Sean/Yazdanbakhsh, Amir/Clark, Peter (2023). Self-Refine: Iterative Refinement with Self-Feedback. Online verfügbar unter http://arxiv.org/pdf/2303.17651.
Martins, André F. T./Astudillo, Ramon/Hokamp, Chris/Kepler, Fabio (2016). Unbabel’s Participation in the WMT16 Word-Level Translation Quality Estimation Shared Task. In: Ondrej Bojar/Christian Buck/Rajen Chatterjee et al. (Hg.). Proceedings of the First Conference on Machine Translation: Volume 2, Shared Task Papers. Berlin, Germany, Association for Computational Linguistics, 806-811.
Martins, André F. T./Junczys-Dowmunt, Marcin/Kepler, Fabio N./Astudillo, Ramon/Hokamp, Chris/Grundkiewicz, Roman/Lee, Lillian/Johnson, Mark/Toutanova, Kristina (2017). Pushing the Limits of Translation Quality Estimation. Transactions of the Association for Computational Linguistics 5, 205-218. https://doi.org/10.1162/tacl_a_00056.
Mohamed, Shereen A./Elsayed, Ashraf A./Hassan, Y. F./Abdou, Mohamed A. (2021). Neural machine translation: past, present, and future. Neural Computing and Applications 33, 15919-15931.
Papineni, Kishore/Roukos, Salim/Ward, Todd/Zhu, Wei-Jing (2002). Bleu: a Method for Automatic Evaluation of Machine Translation. In: Pierre Isabelle/Eugene Charniak/Dekang Lin (Hg.). Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, USA, Association for Computational Linguistics, 311-318.
Popovic, Maja (2011). Hjerson: An Open Source Tool for Automatic Error Classification of Machine Translation Output. The Prague Bulletin of Mathematical Linguistics 96 (1). https://doi.org/10.2478/v10108-011-0011-4.
R Core Team (2025). R: A Language and Environment for Statistical Computing. Vienna, Austria 2025. Online verfügbar unter https://www.R-project.org/.
Ranasinghe, Tharindu/Orasan, Constantin/Mitkov, Ruslan (2020). TransQuest: Translation Quality Estimation with Cross-lingual Transformers. Online verfügbar unter http://ar- xiv.org/pdf/2011.01536.
Ronowicz, Eddie/Imanishi, Kyoko (2003). A Comparison of task management and lexical search mechanisms in novice and professional translators/interpreters. Interpretation Studies 3, 16-34.
Ruoqi, Shi/Yuan, Xiong/Gochuico, Maria Theresa (2023). Translators and their use of ChatGPT. Academia Lasalliana Journal of Education and Humanities 5 (1), 49-59.
Sahoo, Pranab/Singh, Ayush Kumar/Saha, Sriparna/Jain, Vinija/Mondal, Samrat/Chadha, Aman (2024). A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications. Online verfügbar unter http://arxiv.org/pdf/2402.07927.
Salimi, Jonni (2014). Machine Translation Of Fictional And Non-fictional Texts : An examination of Google Translate’s accuracy on translation of fictional versus non-fictional texts 2014.
Schulhoff, Sander/Ilie, Michael/Balepur, Nishant/Kahadze, Konstantine/Liu, Amanda/Si, Chenglei/Li, Yinheng/Gupta, Aayush/Han, HyoJung/Schulhoff, Sevien/Dulepet, Pranav Sandeep/Vidyadhara, Saurav/Ki, Dayeon/Agrawal, Sweta/Pham, Chau/Kroiz, Gerson/Li, Feileen/Tao, Hudson/Srivastava, Ashay/Da Costa, Hevander/Gupta, Saloni/Rogers, Megan L./Goncearenco, Inna/Sarli, Giuseppe/Galynker, Igor/Peskoff, Denis/Carpuat, Ma- rine/White, Jules/Anadkat, Shyamal/Hoyle, Alexander/Resnik, Philip (2024). The Prompt Report: A Systematic Survey of Prompt Engineering Techniques. Online verfügbar unter http://arxiv.org/pdf/2406.06608.
Sharofova, Shakhnoza (2024). FROM BOTS TO BOOKS: UNDERSTANDING THE INTERSECTION OF AI AND LITERARY TRANSLATION. American Journal of Interdisciplinary Research and Development 26, 68-75. Online verfügbar unter https://www.ajird.journalspark.org/index.php/ajird/article/view/1035.
Siu, Sai Cheong (2023). ChatGPT and GPT-4 for Professional Translators: Exploring the Potential of Large Language Models in Translation. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4448091.
Sizov, Fedor/Espana-Bonet, Cristina/van Genabith, Josef/Xie, Roy/Chowdhury, Koel Dutta (2024). Analysing Translation Artifacts: A Comparative Study of LLMs, NMTs, and Human Translations. In: Proceedings of the Ninth Conference on Machine Translation, 1183-1199.
Stahlberg, Felix (2020). Neural Machine Translation: A Review. Journal of Artificial Intelligence Research 69, 343-418. https://doi.org/10.1613/jair.1.12007.
Stasimioti, Maria/Sosoni, Vilelmini (2021). Investigating post-editing: A mixed-methods study with experienced and novice translators in the English-Greek language pair. Translation, Interpreting, cognition: The way out of the box 15, 79.
Stein, Daniel (2009). Maschinelle Übersetzung-ein Überblick. Journal for Language Technology and Computational Linguistics 24 (3), 5-18.
Toral, Antonio/Castilho, Sheila/Hu, Ke/Way, Andy (2018). Attaining the Unattainable? Reassessing Claims of Human Parity in Neural Machine Translation. In: Ondrej Bojar/Rajen Chatterjee/Christian Federmann et al. (Hg.). Proceedings of the Third Conference on Machine Translation: Research Papers. Brussels, Belgium, Association for Computational Linguistics, 113-123.
Vaswani, Ashish/Shazeer, Noam/Parmar, Niki/Uszkoreit, Jakob/Jones, Llion/Gomez, Aidan N./Kaiser, Lukasz/Polosukhin, Illia (2023). Attention Is All You Need. Online verfügbar unter http://arxiv.org/pdf/1706.03762.
Vaswani, Ashish/Shazeer, Noam/Parmar, Niki/Uszkoreit, Jakob/Jones, Llion/Gomez, Aidan N./Kaiser, Lukasz/Polosukhin, Illia (2017). Attention is all you need. Advances in neural information processing systems 30.
Wang, Jiayi/Fan, Kai/Li, Bo/Zhou, Fengming/Chen, Boxing/Shi, Yangbin/Si, Luo (2018). Alibaba Submission for WMT18 Quality Estimation Task. In: Ondrej Bojar/Rajen Chat- terjee/Christian Federmann et al. (Hg.). Proceedings of the Third Conference on Machine Translation: Shared Task Papers. Belgium, Brussels, Association for Computational Linguistics, 809-815.
Wang, Shun/Zhang, Ge/Wu, Han/Loakman, Tyler/Huang, Wenhao/Lin, Chenghua (2024). MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language. Online verfügbar unter http://arxiv.org/pdf/2406.13698v2.
Wickham, Hadley; Averick, Mara; Bryan, Jennifer; Chang, Winston; McGowan, Lucy D’Agostino; François, Romain; Grolemund, Garrett; Hayes, Alex; Henry, Lionel; Hester, Jim; Kuhn, Max; Pedersen, Thomas Lin; Miller, Evan; Bache, Stephan Milton; Müller, Kirill; Ooms, Jeroen; Robinson, David; Seidel, Dana Paige; Spinu, Vitalie; Takahashi, Kohske; Vaughan, Davis; Wilke, Claus; Woo, Kara; Yutani, Hiroaki (2019). Welcome to the ti- dyverse. Journal of Open Source Software, 4(43), 1686. https://doi.org/10.21105/joss.01686
Yan, Jianhao/Yan, Pingchuan/Chen, Yulong/Li, Judy/Zhu, Xianchao/Zhang, Yue (2024). GPT- 4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels. Online verfügbar unter http://ar- xiv.org/pdf/2407.03658.
Zeng, Zhaohan/Liang, Zhibin (2024). Large Language Models are Good Translators. Journal of Emerging Investigators. https://doi.org/10.59720/24-020.
Zhang, Tianyi/Kishore, Varsha/Wu, Felix/Weinberger, Kilian Q./Artzi, Yoav (2019). BERT- Score: Evaluating Text Generation with BERT. Online verfügbar unter http://ar- xiv.org/pdf/1904.09675.
Internetquellen:
ChatGPT (2025). ChatGPT. Online verfügbar unter https://chatgpt.com/ (abgerufen am 26.05.2025).
DeepL (2025). DeepL Übersetzer: Der präziseste Übersetzer der Welt. Online verfügbar unter https://www.deepl.com/de/translator (abgerufen am 26.05.2025).
MQM (2025). The MQM Error Typology - MQM (Multidimensional Quality Metrics). Online verfügbar unter https://themqm.org/error-types-2/typology/ (abgerufen am 26.05.2025).
Anhang
Fragebogen zur Umfrage „Mensch oder Maschine? Ein Qualitätsvergleich maschineller und menschlicher Literaturübersetzung“
Wie identifizieren Sie sich?
• männlich
• weiblich
• divers
Wie alt sind Sie?
• Freitext-Antwort
Welche Muttersprache haben Sie?
• Freitext-Antwort
Welche weiteren Sprachen beherrschen Sie auf einem fortgeschrittenen Niveau?
(Mehrfach-Auswahl möglich)
• Deutsch
• Englisch
• Französisch
• Spanisch
• Italienisch
• Russisch
• Andere
Haben Sie eine Ausbildung oder ein Studium im Bereich Übersetzung/Sprachwissen- schaft absolviert oder sind Sie aktuell in einem solchen Studiengang eingeschrieben?
• Ja
• Nein
Welcher ist Ihr höchster Abschluss?
• Allgemeine Hochschulreife
• Bachelor
• Master
• Promotionsstudium
• Anderes
In welchem Studiengang studieren Sie aktuell?
• Bachelor
• Master
• Promotionsstudium
• Ausbildung
• Ich habe mein Studium abgeschlossen
• Ich habe meine Ausbildung abgeschlossen
Gehen Sie derzeit einer beruflichen Tätigkeit im Bereich Übersetzung nach?
• Ja, als freiberufliche(r) Übersetzer(in)
• Ja, als angestellte(r) Übersetzer(in)
• Ja, in einer anderen sprachbezogenen Tätigkeit (z. B. Lektorat, Dolmetschen, Terminologiearbeit)
• Nein
Falls nein, in welchem Bereich sind Sie beruflich tätig?
• Freitext-Antwort
Wie oft nutzen Sie maschinelle Übersetzungssysteme und/oder Large Language Models (z. B. DeepL, Google Translate, ChatGPT)?
• Täglich
• Wöchentlich
• Selten
• Nie
Wie oft lesen Sie literarische Texte?
• Täglich
• Wöchentlich
• Selten
• Nie
Informationsseite
Informationsseite
Welche Übersetzung wurde Ihrer Meinung nach von einem Menschen/einer Maschine erstellt?
(Mehrfach-Auswahl möglich)
• Übersetzung 1 = Mensch
• Übersetzung 1 = Maschine
• Übersetzung 2 = Mensch
• Übersetzung 2 = Maschine
• Übersetzung 3 = Mensch
• Übersetzung 3 = Maschine
Welche Merkmale haben Sie zu dieser Einschätzung kommen lassen?
• Freitext-Antwort
Wie kreativ wirken die Übersetzungen auf Sie?
(Mehrfach-Auswahl möglich)
• Übersetzung 1 = Sehr kreativ
• Übersetzung 1 = Eher kreativ
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher unkreativ
• Übersetzung 1 = Überhaupt nicht kreativ
• Übersetzung 2 = Sehr kreativ
• Übersetzung 2 = Eher kreativ
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher unkreativ
• Übersetzung 2 = Überhaupt nicht kreativ
• Übersetzung 3 = Sehr kreativ
• Übersetzung 3 = Eher kreativ
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher unkreativ
• Übersetzung 3 = Überhaupt nicht kreativ
Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 1 = Sehr gut
• Übersetzung 1 = Eher gut
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher schlecht
• Übersetzung 1 = Sehr schlecht
• Übersetzung 2 = Sehr gut
• Übersetzung 2 = Eher gut
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher schlecht
• Übersetzung 2 = Sehr schlecht
• Übersetzung 3 = Sehr gut
• Übersetzung 3 = Eher gut
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher schlecht
• Übersetzung 3 = Sehr schlecht
Wie gut wurden Ihrer Meinung nach kulturelle Elemente in diesen Übersetzungen übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 1 = Sehr gut
• Übersetzung 1 = Eher gut
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher schlecht
• Übersetzung 1 = Sehr schlecht
• Übersetzung 2 = Sehr gut
• Übersetzung 2 = Eher gut
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher schlecht
• Übersetzung 2 = Sehr schlecht
• Übersetzung 3 = Sehr gut
• Übersetzung 3 = Eher gut
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher schlecht
• Übersetzung 3 = Sehr schlecht
Wie gut wurden Ihrer Meinung nach die Fantasy-Elemente übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 1 = Sehr gut
• Übersetzung 1 = Eher gut
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher schlecht
• Übersetzung 1 = Sehr schlecht
• Übersetzung 2 = Sehr gut
• Übersetzung 2 = Eher gut
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher schlecht
• Übersetzung 2 = Sehr schlecht
• Übersetzung 3 = Sehr gut
• Übersetzung 3 = Eher gut
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher schlecht
• Übersetzung 3 = Sehr schlecht
Bewerten Sie die Qualität der Übersetzungen auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht).
(Mehrfach-Auswahl möglich)
• Übersetzung 1 = 1
• Übersetzung 1 = 2
• Übersetzung 1 = 3
• Übersetzung 1 = 4
• Übersetzung 1 = 5
• Übersetzung 2 = 1
• Übersetzung 2 = 2
• Übersetzung 2 = 3
• Übersetzung 2 = 4
• Übersetzung 2 = 5
• Übersetzung 3 = 1
• Übersetzung 3 = 2
• Übersetzung 3 = 3
• Übersetzung 3 = 4
• Übersetzung 3 = 5
Gibt es etwas, das Ihnen an diesen Übersetzungen besonders positiv oder negativ aufgefallen ist?
• Freitext-Antwort
Informationsseite
Welche Übersetzung wurde Ihrer Meinung nach von einem Menschen/einer Maschine erstellt?
(Mehrfach-Auswahl möglich)
• Übersetzung 4 = Mensch
• Übersetzung 4 = Maschine
• Übersetzung 5 = Mensch
• Übersetzung 5 = Maschine
• Übersetzung 6 = Mensch
• Übersetzung 6 = Maschine
Welche Merkmale haben Sie zu dieser Einschätzung kommen lassen?
Wie kreativ wirken die Übersetzungen auf Sie?
(Mehrfach-Auswahl möglich)
• Übersetzung 4 = Sehr kreativ
• Übersetzung 4 = Eher kreativ
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher unkreativ
• Übersetzung 4 = Überhaupt nicht kreativ
• Übersetzung 5 = Sehr kreativ
• Übersetzung 5 = Eher kreativ
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher unkreativ
• Übersetzung 5 = Überhaupt nicht kreativ
• Übersetzung 6 = Sehr kreativ
• Übersetzung 6 = Eher kreativ
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher unkreativ
• Übersetzung 6 = Überhaupt nicht kreativ
Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 4 = Sehr gut
• Übersetzung 4 = Eher gut
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher schlecht
• Übersetzung 4 = Sehr schlecht
• Übersetzung 5 = Sehr gut
• Übersetzung 5 = Eher gut
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher schlecht
• Übersetzung 5 = Sehr schlecht
• Übersetzung 6 = Sehr gut
• Übersetzung 6 = Eher gut
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher schlecht
• Übersetzung 6 = Sehr schlecht
Wie gut wurden Ihrer Meinung nach kulturelle Elemente in diesen Übersetzungen übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 4 = Sehr gut
• Übersetzung 4 = Eher gut
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher schlecht
• Übersetzung 4 = Sehr schlecht
• Übersetzung 5 = Sehr gut
• Übersetzung 5 = Eher gut
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher schlecht
• Übersetzung 5 = Sehr schlecht
• Übersetzung 6 = Sehr gut
• Übersetzung 6 = Eher gut
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher schlecht
• Übersetzung 6 = Sehr schlecht
Wie gut wurden Ihrer Meinung nach die Fantasy-Elemente übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 4 = Sehr gut
• Übersetzung 4 = Eher gut
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher schlecht
• Übersetzung 4 = Sehr schlecht
• Übersetzung 5 = Sehr gut
• Übersetzung 5 = Eher gut
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher schlecht
• Übersetzung 5 = Sehr schlecht
• Übersetzung 6 = Sehr gut
• Übersetzung 6 = Eher gut
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher schlecht
• Übersetzung 6 = Sehr schlecht
Bewerten Sie die Qualität der Übersetzungen auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht).
(Mehrfach-Auswahl möglich)
• Übersetzung 4 = 1
• Übersetzung 4 = 2
• Übersetzung 4 = 3
• Übersetzung 4 = 4
• Übersetzung 4 = 5
• Übersetzung 5 = 1
• Übersetzung 5 = 2
• Übersetzung 5 = 3
• Übersetzung 5 = 4
• Übersetzung 5 = 5
• Übersetzung 6 = 1
• Übersetzung 6 = 2
• Übersetzung 6 = 3
• Übersetzung 6 = 4
• Übersetzung 6 = 5
Gibt es etwas, das Ihnen an diesen Übersetzungen besonders positiv oder negativ aufgefallen ist?
• Freitext-Antwort
Informationsseite
Welche Übersetzung wurde Ihrer Meinung nach von einem Menschen/einer Maschine erstellt?
(Mehrfach-Auswahl möglich)
• Übersetzung 7 = Mensch
• Übersetzung 7 = Maschine
• Übersetzung 8 = Mensch
• Übersetzung 8 = Maschine
• Übersetzung 9 = Mensch
• Übersetzung 9 = Maschine
Welche Merkmale haben Sie zu dieser Einschätzung kommen lassen?
• Freitext-Antwort
Wie kreativ wirken die Übersetzungen auf Sie?
(Mehrfach-Auswahl möglich)
• Übersetzung 7 = Sehr kreativ
• Übersetzung 7 = Eher kreativ
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher unkreativ
• Übersetzung 7 = Überhaupt nicht kreativ
• Übersetzung 8 = Sehr kreativ
• Übersetzung 8 = Eher kreativ
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher unkreativ
• Übersetzung 8 = Überhaupt nicht kreativ
• Übersetzung 9 = Sehr kreativ
• Übersetzung 9 = Eher kreativ
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher unkreativ
Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 7 = Sehr gut
• Übersetzung 7 = Eher gut
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher schlecht
• Übersetzung 7 = Sehr schlecht
• Übersetzung 8 = Sehr gut
• Übersetzung 8 = Eher gut
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher schlecht
• Übersetzung 8 = Sehr schlecht
• Übersetzung 9 = Sehr gut
• Übersetzung 9 = Eher gut
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher schlecht
• Übersetzung 9 = Sehr schlecht
Wie gut wurden Ihrer Meinung nach kulturelle Elemente in diesen Übersetzungen übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 7 = Sehr gut
• Übersetzung 7 = Eher gut
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher schlecht
• Übersetzung 7 = Sehr schlecht
• Übersetzung 8 = Sehr gut
• Übersetzung 8 = Eher gut
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher schlecht
• Übersetzung 8 = Sehr schlecht
• Übersetzung 9 = Sehr gut
• Übersetzung 9 = Eher gut
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher schlecht
• Übersetzung 9 = Sehr schlecht
Wie gut wurden Ihrer Meinung nach die Fantasy-Elemente übertragen?
(Mehrfach-Auswahl möglich)
• Übersetzung 7 = Sehr gut
• Übersetzung 7 = Eher gut
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher schlecht
• Übersetzung 7 = Sehr schlecht
• Übersetzung 8 = Sehr gut
• Übersetzung 8 = Eher gut
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher schlecht
• Übersetzung 8 = Sehr schlecht
• Übersetzung 9 = Sehr gut
• Übersetzung 9 = Eher gut
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher schlecht
• Übersetzung 9 = Sehr schlecht
Bewerten Sie die Qualität der Übersetzungen auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht).
(Mehrfach-Auswahl möglich)
• Übersetzung 7 = 1
• Übersetzung 7 = 2
• Übersetzung 7 = 3
• Übersetzung 7 = 4
• Übersetzung 7 = 5
• Übersetzung 8 = 1
• Übersetzung 8 = 2
• Übersetzung 8 = 3
• Übersetzung 8 = 4
• Übersetzung 8 = 5
• Übersetzung 9 = 1
• Übersetzung 9 = 2
• Übersetzung 9 = 3
• Übersetzung 9 = 4
• Übersetzung 9 = 5
Gibt es etwas, das Ihnen an diesen Übersetzungen besonders positiv oder negativ aufgefallen ist?
Originaltexte und Übersetzungen
Ausgangstext 1
She held her palm over each chalked symbol, breathing in the accepted pattern to infuse each mark with her will. She drew in the correct breath, held and vibrated exactly the right way to activate her circle and put her between the realms of flesh and spirit. Every mark had to be charged with the correct breath, the exact vibration, shaped by the positions of her fingers held just so—and as she worked the air shifted, pressing against her skin as the summoning built itself, mark by mark, breath by breath, sign by sign.
The energy flickered and built just at the corner of her eye, bluer than candlelight, shot through with iridescent flashes of gold, rose, green. It made the air fuzzy and alive as her actions unmoored her from the world of the flesh, rubbing against the realm of spirit.
She held down the urge to stare at it, to gasp in wonder like a child. But magic tingled all through her. She touched the aether and held power in her hands, her breath, her body —it was better than the sweetest music, the finest meal. Knowing power, drawing nearer to the mysteries, nothing was its match. Nothing was its equal.
She breathed in magic, shaped it with her need, and charged the circle closed. She was between. Her body felt bigger than it was. Her awareness had expanded to the skin of her aetheric form, the body that spirits and magicians could see, glowing softly within the circle spun of her mortal life. But she trembled, her hands shaking as she gathered more power within herself, more and more until she was full as a waterskin, preparing herself for the ritual.
Übersetzung 1 (Mensch)
Beatrice ließ die Hände über den Kreidesymbolen schweben und atmete nach dem erforderlichen Prinzip, um jedes Zeichen in ihrem Willen aufzuladen. Sie holte auf die vorgeschriebene weiße Luft, hielt den Atem zunächst an und ließ ihn dann mit exakten, vibrierenden Stößen entweichen, um so den Kreis zu aktivieren und sich ins Reich zwischen Leib und Geist zu versetzen. Jedes Zeichen musste mit dem korrekten Atem und einer bestimmten Schwingung aufgeladen werden, musste von der Stellung ihrer Finger auf die richtige Weise geformt werden. Unterdessen veränderte sich die Luft um sie herum, presste sich an sie, während die Herbeirufung stärker wurde, Sigille um Sigille, Atemzug um Atemzug, Handzeichen um Handzeichen.
Die Energie ballte sich flackernd am Rand ihres Sichtfelds zusammen, blauer als die Kerzenflamme, durchzuckt von irisierenden Blitzen aus Gold, Rosa und Grün. Die Luft flirrte und mutete geradezu lebendig an, als Beatrice‘ Tun sie aus der körperlichen Welt löste und zu den Gefilden der Geister trieb.
Sie verbot es sich, die Augen aufzureißen wie ein staunendes Kind. Magie kribbelte in ihrem ganzen Körper. Sie berührt den Äther und hielt diese Macht in ihren Händen, in ihrem Atem, in ihrem Körper - es war schöner als die süßeste Musik oder die erlesenste Speise. Nichts kam diesem Gefühl wissender Macht, dieser Annäherung an die Mysterien gleich.
Beatrice atmete Magie ein, formte sie nach ihren Wünschen und schloss den Kreis. Nun war sie im Dazwischen. Ihr Leib fühlte sich größer an, als er war. Ihr Bewusstsein dehnte sich bis an die Haut ihrer Ätherform aus, diesem Körper, den nur Geister und Magiebegabte sehen konnten und der sanft in dem Kreis glomm, den ihr sterbliches Leben bildete. Zitternd und mit bebenden Händen verleibte sie sich noch mehr Macht ein, bis sie voll war wie ein Wasserschlauch, vorbereitet für das Ritual.
Übersetzung 2 (ChatGPT)
Sie hielt ihre Handfläche über jedes der mit Kreide gezeichneten Symbole, atmete im vorgeschriebenen Rhythmus ein, um jede Markierung mit ihrem Willen zu durchdringen. Sie zog den richtigen Atemzug ein, hielt ihn, ließ ihn in exakt der richtigen Weise vibrieren, um ihren Kreis zu aktivieren und sich zwischen die Reiche von Fleisch und Geist zu versetzen. Jede Markierung musste mit dem passenden Atem aufgeladen sein, mit der exakten Schwingung, geformt durch die präzise Position ihrer Finger - und während sie arbeitete, veränderte sich die Luft, drängte gegen ihre Haut, als sich die Beschwörung aufbaute, Zeichen für Zeichen, Atemzug für Atemzug, Symbol für Symbol.
Die Energie flackerte am Rand ihres Blickfelds auf, blauer als Kerzenlicht, durchzogen von irisierenden Blitzen aus Gold, Rosé und Grün. Sie machte die Luft weich und lebendig, als ihre Handlungen sie von der Welt des Fleisches loslösten und sie mit dem Reich der Geister in Berührung kam.
Sie zwang sich, nicht hinzustarren, sich nicht vor Staunen wie ein Kind die Hand vor den Mund zu schlagen. Doch die Magie prickelte in ihr, durchströmte sie. Sie berührte das Ätherische, hielt Macht in ihren Händen, in ihrem Atem, in ihrem Körper - es war besser als die süßeste Musik, köstlicher als das erlesenste Mahl. Macht zu kennen, den Mysterien näherzukommen, nichts kam dem gleich. Nichts war dem ebenbürtig.
Sie atmete Magie ein, formte sie mit ihrem Verlangen und schloss den Kreis mit ihrer Energie. Sie war dazwischen. Ihr Körper fühlte sich größer an, als er war. Ihr Bewusstsein hatte sich auf die Haut ihrer ätherischen Gestalt ausgedehnt, jener Form, die Geister und Magier wahrnehmen konnten, sanft leuchtend innerhalb des Kreises, der aus ihrem sterblichen Leben gesponnen war. Doch sie zitterte, ihre Hände bebten, als sie mehr Kraft in sich sammelte, mehr und mehr, bis sie sich prall und schwer anfühlte wie ein randvoll gefüllter Wasserschlauch, bereit für das Ritual.
Übersetzung 3 (DeepL)
Sie hielt ihre Handfläche über jedes der Kreidesymbole und atmete nach dem vorgegebenen Muster, um jedes Zeichen mit ihrem Willen zu erfüllen. Sie atmete auf die richtige Weise ein, hielt die Luft an und vibrierte auf die richtige Weise, um ihren Kreis zu aktivieren und sich zwischen die Reiche des Fleisches und des Geistes zu begeben. Jedes Zeichen musste mit dem richtigen Atem aufgeladen werden, mit der exakten Schwingung, geformt durch die richtige Position ihrer Finger - und während sie arbeitete, bewegte sich die Luft, drückte gegen ihre Haut, während die Beschwörung sich aufbaute, Zeichen für Zeichen, Atemzug für Atemzug, Symbol für Symbol.
In ihrem Augenwinkel flackerte die Energie und baute sich auf, blauer als Kerzenlicht, durchzogen von schillernden Blitzen in Gold, Rosa und Grün. Sie machte die Luft schwammig und lebendig, während ihre Handlungen sie von der Welt des Fleisches lösten und sie gegen das Reich des Geistes stieß.
Sie unterdrückte den Drang, hinzustarren und wie ein Kind zu staunen. Aber die Magie kribbelte in ihr. Sie berührte den Äther und hielt die Macht in ihren Händen, ihrem Atem, ihrem Körper - es war besser als die süßeste Musik, die feinste Mahlzeit. Sie kannte die Macht, kam den Geheimnissen näher, nichts war ihr gleich. Nichts war ihr ebenbürtig.
Sie atmete Magie ein, formte sie nach ihrem Bedürfnis und schloss den Kreis. Sie war dazwischen. Ihr Körper fühlte sich größer an, als er war. Ihr Bewusstsein hatte sich bis zur Haut ihrer ätherischen Form ausgedehnt, dem Körper, den Geister und Magier sehen konnten und der in dem von ihrem sterblichen Leben gesponnenen Kreis sanft glühte. Aber sie bebte, ihre Hände zitterten, als sie mehr und mehr Kraft in sich sammelte, bis sie voll war wie ein Wasserschlauch und bereit für das Ritual.
Ausgangstext 2
The doorbell jingled as Beatrice crossed into the bookkeeper’s domain. Harriman’s! O dust and ink and leather binding, O map-scrolls and star-prints and poetry chapbooks—and the grimoire, somewhere within! She directed her smile at the clerk in shirtsleeves and weskit waiting at the front counter.
“Just having a browse,” she said, and moved past without inviting further conversation. Beatrice followed her prickling thumbs between stacks of books and laden shelves. She breathed in old paper and the thin rain-on-green-stones scent of magic, looking not for respectable novels or seemly poetry, but for the authors certain young women never even dared whisper to each other in the powder rooms and parlors of society—the writers of the secret grimoires.
It was here! But it wouldn’t do to be too hasty, to follow the pull of her senses toward the stack where the volume rested, its spine bearing an author name like John Estlin Churchman, or J. C. Everworth, or perhaps E. James Curtfield. The authors always bore those initials on all of the books in her modest collection, stored away from curious eyes. The clerk might wonder at how she knew exactly where to find the book she wanted in all this jumble. She browsed through literature, in history, and even in the occult sections where other patrons would eye her with disapproval, because the realm of magic was not suitable territory for a woman of a certain youth.
Übersetzung 4 (DeepL)
Die Türklingel läutete, als Beatrice den Bereich des Buchhalters betrat. Harriman's! O Staub und Tinte und Ledereinband, o Landkartenrollen und Sterndrucke und Gedichtbände - und das Grimoire, irgendwo darin! Sie lächelte dem Angestellten in Hemdsärmeln und Weste zu, der am Tresen wartete.
„Ich stöbere nur ein wenig“, sagte sie und ging an ihm vorbei, ohne ein weiteres Gespräch anzuregen. Beatrice folgte ihren kribbelnden Daumen zwischen Bücherstapeln und beladenen Regalen. Sie atmete altes Papier und den dünnen Regen-auf-grünen-Steinen-Duft der Magie ein, nicht auf der Suche nach angesehenen Romanen oder anständiger Poesie, sondern nach den Autoren, über die manche junge Frauen nicht einmal wagten, in den Puderzimmern und Salons der Gesellschaft miteinander zu flüstern - den Verfassern der geheimen Grimoires.
Es war hier! Aber sie sollte nicht zu voreilig sein und dem Drang ihrer Gefühle zu dem Stapel nachgeben, auf dem der Band lag, dessen Buchrücken einen Autorennamen wie John Estlin Churchman oder J. C. Everworth oder vielleicht E. James Curtfield trug. Die Autoren trugen immer diese Initialen auf allen Büchern in ihrer bescheidenen Sammlung, die sie vor neugierigen Blicken geschützt aufbewahrte. Der Angestellte würde sich wundern, woher sie in diesem Durcheinander genau wusste, wo sie das gewünschte Buch finden konnte. Sie stöberte in der Literatur, in der Geschichte und sogar in den okkulten Abteilungen, wo sie von anderen Kunden missbilligend beäugt wurde, weil das Reich der Magie kein geeignetes Pflaster für eine Frau von gewisser Jugend war.
Übersetzung 5 (ChatGPT)
Die Ladenglocke bimmelte, als Beatrice das Reich des Buchhändlers betrat. Harriman’s! O Staub und Tinte und Ledereinbände, o Landkartenrollen und Sternendrucke und Gedichtbändchen - und das Grimoire, irgendwo hier verborgen! Mit einem höflichen Lächeln wandte sie sich an den Verkäufer, der in Hemdsärmeln und Weste am vorderen Tresen wartete.
„Ich sehe mich nur ein wenig um“, sagte sie und glitt an ihm vorbei, ohne eine Unterhaltung zu ermutigen. Beatrice folgte dem Prickeln in ihren Daumen zwischen Bücherstapeln und überladenen Regalen. Sie sog den Duft alten Papiers ein, vermischt mit der feinen Note von Regen auf grünen Steinen - dem Geruch der Magie. Doch sie suchte weder angesehene Romane noch anständige Poesie, sondern jene Autoren, deren Namen junge Damen in den Puderräumen und Salons der Gesellschaft nicht einmal zu flüstern wagten - die Verfasser geheimer Grimoires.
Es war hier! Doch es wäre unklug, sich zu eilig dorthin zu begeben, zu offensichtlich dem Ruf ihrer Sinne zu folgen, der sie zu jenem Stapel zog, wo der Band ruhte. Sein Buchrücken trug vermutlich einen jener Namen - John Estlin Churchman, oder J. C. Everworth, oder vielleicht E. James Curtfield. Alle Bücher ihrer bescheidenen, vor neugierigen Blicken verborgenen Sammlung wiesen diese Initialen auf. Der Angestellte könnte sich wundern, wie sie in diesem Durcheinander genau das Werk fand, das sie suchte. Also schlenderte sie durch die Literaturabteilung, durchstöberte die Geschichtsbände und verweilte sogar in der okkulten Abteilung - dort, wo andere Kunden sie missbilligend beäugten, denn das Reich der Magie war kein angemessener Ort für eine junge Dame ihres Standes.
Übersetzung 6 (Mensch)
Die Türklingel schellte, als Beatrice in den Herrschaftsbereich derer trat, die kein Buch wegwarfen. Harriman’s! O Staub und Tinte und Lederbindung, o Landkarten, Sternenbilder und Balladenbüchlein! Und irgendwo mittendrin das Grimoire! Dem Angestellten in Hemd und Weste, der an der Kasse stand, schenkte sie ein entwaffnendes Lächeln.
„Ich sehe mich nun mal um!“ Sie stapfte schnurstracks an dem Mann vorbei. Mit kribbelndem Daumen strich sie über Bücherstapel und vollgestopfte Regale. Sie atmete den Geruch von altem Papier und jenen zarten Regen auf-moosbewachsenen-Steinen-Duft ein, den ihre Magie mit sich brachte. Sie suchte weder nach seriösen Romanen noch nach sittsamer Lyrik, sondern nach jenen Werken, von denen junge Frauen in ihren Boudoirs oder Salons kaum zu flüstern wagten: nach Grimoires.
Das begehrte Buch befand sich hier irgendwo! Doch sie durfte die Suche nicht überstürzen, durfte sich von ihren Sinnen nicht zu jenem Stapel ziehen lassen, in dem sich der Band eines John Estlin Churchman, J. C. Everworth oder vielleicht auch eines E. James Curtfield befand. Diese Initialen, J.E.C., zierten alle Titel ihrer bescheidenen und gut versteckten Sammlung. Hielte sie geradenwegs auf ihr Ziel zu, würde sich der Angestellte womöglich wundern, dass sie in dem Chaos so rasch fündig geworden war. Deshalb stöberte sie in der Abteilung für schöngeistige Literatur, für Geschichte und sogar für Okkultismus. Letzteres hatte ihr schon oft missbilligende Blicke eingetragen, da sich für eine junge Damen nicht schickte, sich ins Reich der Magie vorzuwagen.
Ausgangstext 3
Beatrice beheld a Llanandari woman who stood tall and slim in a saffron satin-woven cotton mantua, the under-gown scattered all over with vibrant tropical flowers, the elbow-length sleeves erupting in delicate, hand-hooked lace. Hooked lace, on a day gown! She was beautiful, surpassing even the famous reputation of the women of Llanandras. She was blessed with wide brown eyes and deep brown skin, a cloud of tight black curls studded with golden beads, matching a fortune in gold piercing the young woman’s ears and even the side of her nose. But what was she doing here? She couldn’t be in this affluent seaside retreat away from the capital to hunt a husband just as Beatrice was supposed to be doing. Could she?
She stared at Beatrice with an ever-growing perplexity. Beatrice knew what the young lady found so arresting—the crown of sorcery around Beatrice’s head, even brighter than the veil of shimmering light around the woman’s. Another sorceress attracted to the call of the grimoire Beatrice clutched to her chest.
Übersetzung 7 (ChatGPT)
Beatrice erblickte eine Frau aus Llanandras, die groß und schlank in einer aus Safran gefärbter, satiniert gewebter Baumwolle gefertigten Mantua dastand. Das Unterkleid war über und über mit leuchtenden tropischen Blumen bestickt, die ellbogenlangen Ärmel erblühten in filigraner, handgeklöppelter Spitze. Geklöppelte Spitze - an einem Tageskleid! Sie war atemberaubend schön, übertraf selbst den legendären Ruf der Frauen von Llanandras.
Ihre großen braunen Augen und ihre tiefbraune Haut wurden von einer Wolke aus dichten schwarzen Locken umrahmt, in die goldene Perlen eingearbeitet waren - passend zu einem Vermögen in Gold, das ihre Ohren und sogar die Seite ihrer Nase zierte. Aber was tat sie hier? Sie konnte doch nicht in dieses wohlhabende Seebad fernab der Hauptstadt gekommen sein, um sich - genau wie Beatrice - einen Ehemann zu suchen. Oder etwa doch?
Mit wachsender Verwunderung starrte sie Beatrice an. Beatrice wusste genau, was die junge Frau so fesselte - die Krone der Zauberei, die über ihrem Kopf leuchtete, noch strahlender als der Schleier aus schimmerndem Licht, der die Fremde umgab. Eine weitere Zauberin, angelockt vom Ruf des Grimoires, das Beatrice an ihre Brust gepresst hielt.
Übersetzung 8 (Mensch)
Beatrice musterte die Frau, eine große, schlanke Llanandari, in einem Manteau aus safrangelben Baumwollsatin und einem Kleid mit leuchtenden tropischen Blumen. Die Halbärmel ihrer Robe explodierten schier in feiner, handgeklöppelter Spitze. Wie musste diese Frau erst in einem Abendkleid aussehen?
Sie war noch schöner, als es der Ruf verhieß, der den Frauen aus Llanandras vorauseilte, gesegnet mit großen braunen Augen und tiefbrauner Haut, die Wolke eng gelockter schwarzer Haare, von goldenen Perlen geziert, und dazu Goldschmuck von beachtlichem Wert, der ihre Ohren und sogar einen Flügel ihrer Nase zierte. Was tat Sie hier? Denn ganz sicher suchte sie ja wohl in einem reichen Küstenort fernab der Hauptstadt nicht nach einem Ehemann, so wie es Beatrice eigentlich tun sollte. Oder etwa doch?
Die Frau starrte Beatrice mit wachsender Verwirrung an. Beatrice wusste genau, was die junge Dame so in Erstaunen versetzte: Die Aura der Zaubermacht um ihren, Beatrice’, Kopf schimmerte sogar noch ein wenig heller als ihr eigenes Licht. War also eine weitere Zauberin dem Ruf des Grimoires gefolgt, das Beatrice inzwischen an sich gedrückt hielt?
Übersetzung 9 (DeepL)
Beatrice erblickte eine Llanandari-Frau, die groß und schlank in einem safranfarbenen, aus Satin gewebten Baumwollmantua dastand, dessen Unterkleid über und über mit leuchtenden tropischen Blumen übersät war und dessen ellenbogenlange Ärmel mit zarter, handgehäkelter Spitze besetzt waren. Gehäkelte Spitze, auf einem Tageskleid! Sie war wunderschön und übertraf sogar den berühmten Ruf der Frauen von Llanandras.
Sie hatte große braune Augen und dunkelbraune Haut, eine Wolke dichter schwarzer Locken, die mit goldenen Perlen besetzt waren, passend zu einem Vermögen in Gold, das die Ohren der jungen Frau und sogar die Seite ihrer Nase zierte. Aber was hatte sie hier zu suchen? Sie konnte doch nicht an diesem wohlhabenden Ort am Meer sein, weit weg von der Hauptstadt, um sich einen Ehemann zu suchen, wie es Beatrice eigentlich tun sollte. Konnte sie das?
Sie starrte Beatrice mit immer größer werdender Ratlosigkeit an. Beatrice wusste, was die junge Frau so anziehend fand - die Krone der Zauberei um Beatrices Kopf, die noch heller leuchtete als der Schleier aus schimmerndem Licht um den der Frau. Eine weitere Zauberin, die von dem Ruf des Grimoire angezogen wurde, das Beatrice an ihre Brust drückte.
[...]
1 Bei der Übertragung der Übersetzungen wurden versehentlich kleine Fehler in die Texte eingebaut. Sie stammen nicht von der professionellen Übersetzerin.
- Quote paper
- Corinna Schuff (Author), 2025, Mensch vs. Maschine. Ein Qualitätsvergleich maschineller und menschlicher Literaturübersetzung, Munich, GRIN Verlag, https://www.grin.com/document/1618838