Grin logo
en de es fr
Shop
GRIN Website
Publish your texts - enjoy our full service for authors
Go to shop › Interpreting / Translating

Mensch vs. Maschine. Ein Qualitätsvergleich maschineller und menschlicher Literaturübersetzung

Summary Excerpt Details

Inwiefern gelingt es maschinellen Übersetzungssystemen, literarische Texte adäquat zu übertragen – und sind deren Ergebnisse von menschlichen Übersetzungen unterscheidbar? Die vorliegende Arbeit geht diesen Fragen anhand eines Vergleichs zwischen ChatGPT (GPT-4), DeepL und einer professionellen Übersetzerin nach. Im Rahmen einer Studie wurden anonymisierte Übersetzungen aus dem Roman "The Midnight Bargain" von Chelsea Louise Polk verschiedenen Lesergruppen – Laien, Übersetzungsstudierenden und professionellen Übersetzenden – vorgelegt. Die Teilnehmenden sollten einschätzen, ob die Übersetzungen von einem Menschen oder einer Maschine stammen, und sie zudem hinsichtlich Kreativität, Stilmitteln, kultureller Sensibilität und Fantasy-typischer Merkmale bewerten.
Die Studie kombiniert automatische Qualitätsbewertung mittels TransQuest mit einer humanen Evaluation unter Blindtestbedingungen. Die Ergebnisse zeigen, dass ChatGPT-Übersetzungen in vielen Fällen stilistisch und sprachlich mit menschlichen Übersetzungen mithalten können und häufiger als menschlich wahrgenommen wurden als DeepL-Übersetzungen. Dennoch bleibt die kreative Leistung menschlicher Übersetzender in zentralen Bereichen bislang unerreicht.
Die Studie liefert neue Erkenntnisse zur Leistungsfähigkeit und Rezeption maschineller Übersetzungssysteme im literarischen Kontext und zeigt, dass hybride Modelle – eine Zusammenarbeit von Mensch und Maschine – ein vielversprechender Weg für die Zukunft der Literaturübersetzung sein könnten.

Excerpt


Inhaltsverzeichnis

Abbildungsverzeichnis

Tabellenverzeichnis

Abkürzungsverzeichnis

1 Einleitung
1.1 Aktualität und Relevanz des Themas
1.2 Zielsetzung
1.3 Forschungsfragen
1.4 Vorgehensweise

2 Maschinelle Übersetzung - ein Überblick
2.1 Geschichte und Entwicklung der maschinellen Übersetzung
2.2 Arten der maschinellen Übersetzung
2.2.1 Regelbasierte maschinelle Übersetzung (RBMÜ)
2.2.2 Statistische maschinelle Übersetzung (SMÜ)
2.2.3 Neuronale maschinelle Übersetzung (NMÜ)

3 Neuronale Modelle und Large Language Models (LLMs)
3.1 Grundlagen neuronaler Netze
3.2 Arten neuronaler Modelle
3.2.1 RNN (mit und ohne Attention)
3.2.2 Convolutional Models (ConvSeq2Seq)
3.2.3 Self-Attention-Transformer
3.3 LLMs in der maschinellen Übersetzung
3.3.1 Funktionen von LLMs für die maschinelle Übersetzung
3.3.2 Stärken und Schwächen von LLMs

4 Vergleich von NMÜ und LLMs
4.1 In Abgrenzung zur menschlichen Übersetzung
4.2 Fähigkeiten
4.3 Automatische vs. humane Evaluation
4.4 Literarische Übersetzung als Herausforderung

5 Evaluierung maschineller Übersetzung
5.1 Humane Evaluierungsmethoden
5.2 Maschinelle Evaluierungsmethoden
5.2.1 BLEU
5.2.2 BERTScore
5.2.3 Hjerson
5.2.4 OpenKiwi
5.2.5 TransQuest
5.3 Kognitionswissenschaftliche Perspektive auf die Textbewertung

6 Literarische Übersetzung und maschinelle Systeme
6.1 Probleme bei der maschinellen Übersetzung literarischer Texte
6.1.1 Kreativität
6.1.2 Übertragung von Stilmitteln
6.1.3 Kulturspezifik
6.2 Maschinelle Übersetzung: Fiction vs. non-fiction

7 Verwendete Systeme
7.1 DeepL
7.2 ChatGPT

8 Wahrnehmung maschineller und humaner Literaturübersetzung
8.1 Hypothesen
8.2 Methodik
8.2.1 Experimenteller Aufbau
8.2.2 Testgruppen
8.2.3 Bewertungskriterien der Teilnehmenden
8.3 Ergebnisse
8.3.1 Maschinelle Evaluation durch TransQuest
8.3.1.1 Ergebnisse Ausgangstext 1
8.3.1.2 Ergebnisse Ausgangstext 2
8.3.1.3 Ergebnisse Ausgangstext 3
8.3.2 Menschliche Evaluation
8.3.2.1 Ergebnisse Ausgangstext 1
8.3.2.2 Ergebnisse Ausgangstext 2
8.3.2.3 Ergebnisse Ausgangstext 3
8.4 Überprüfung der Forschungshypothesen

9 Diskussion
9.1 Bedeutung der Ergebnisse für die Übersetzungsforschung
9.2 Limitationen der Studie
9.2.1 Begrenzungen der Methodik und Datenanalyse
9.2.2 Mögliche Verzerrungen durch die Testgruppen

10 Fazit und Ausblick
10.1 Zusammenfassung der wichtigsten Erkenntnisse
10.2 Implikationen für zukünftige Forschung und Praxis

Literaturverzeichnis

Anhang
• Fragebogen
• Originaltexte und Übersetzungen

Abstract (Deutsch)

Inwiefern gelingt es maschinellen Übersetzungssystemen, literarische Texte adäquat zu über­tragen - und sind deren Ergebnisse von menschlichen Übersetzungen unterscheidbar? Die vor­liegende Arbeit geht diesen Fragen anhand eines Vergleichs zwischen ChatGPT (GPT-4), DeepL und einer professionellen Übersetzerin nach. Im Rahmen einer Studie wurden anonymi­sierte Übersetzungen aus dem Roman The Midnight Bargain von C. L. Polk verschiedenen Le­sergruppen - Laien, Übersetzungsstudierenden und professionellen Übersetzenden - vorgelegt. Die Teilnehmenden sollten einschätzen, ob die Übersetzungen von einem Menschen oder einer Maschine stammen, und sie zudem hinsichtlich Kreativität, Stilmitteln, kultureller Sensibilität und Fantasy-typischer Merkmale bewerten.

Die Studie kombiniert automatische Qualitätsbewertung mittels TransQuest mit einer humanen Evaluation unter Blindtestbedingungen. Die Ergebnisse zeigen, dass ChatGPT-Übersetzungen in vielen Fällen stilistisch und sprachlich mit menschlichen Übersetzungen mithalten können und häufiger als menschlich wahrgenommen wurden als DeepL-Übersetzungen. Dennoch bleibt die kreative Leistung menschlicher Übersetzender in zentralen Bereichen bislang uner­reicht.

Die Studie liefert neue Erkenntnisse zur Leistungsfähigkeit und Rezeption maschineller Über­setzungssysteme im literarischen Kontext und zeigt, dass hybride Modelle - eine Zusammen­arbeit von Mensch und Maschine - ein vielversprechender Weg für die Zukunft der Literatu­rübersetzung sein könnten.

Abstract (English)

To what extent are machine translation systems capable of adequately rendering literary texts— and can readers distinguish their output from that of human translators? This study investigates these questions by comparing translations produced by ChatGPT (GPT-4), DeepL, and a pro­fessional literary translator. As part of an empirical study, anonymized excerpts from the novel The Midnight Bargain by C. L. Polk were presented to three distinct reader groups: laypersons, translation students, and professional translators. Participants were asked to determine whether each translation had been generated by a human or a machine and to evaluate the texts with regard to creativity, stylistic features, cultural sensitivity, and genre-specific (fantasy) elements.

The study combines automatic quality estimation using TransQuest with a human evaluation conducted under blind test conditions. Results indicate that ChatGPT’s translations often rival human output in terms of linguistic and stylistic quality and were more frequently perceived as human-generated than those produced by DeepL. However, human translators continue to out­perform machine systems in key areas.

The findings offer new insights into both the capabilities and reception of machine translation systems within the literary domain. They suggest that hybrid approaches—collaborations be­tween human expertise and machine efficiency—may represent a promising direction for the future of literary translation.

Abbildungsverzeichnis

Abbildung 1: Ein lineares Netzwerkmodell

Abbildung 2: Ein neuronales Netzwerk mit versteckten Schichten

Abbildung 3: Aufbau von DeepL

Abbildung 4: Aufbau von ChatGPT

Abbildung 5: Verteilung der predicted scores nach Übersetzungsart

Abbildung 6: Vergleich: Übersetzung 1-3

Abbildung 7: Vergleich: Übersetzung 4-6

Abbildung 8: Vergleich: Übersetzung 7-9

Abbildung 9: Prozentuale Bewertung der Übersetzungen

Abbildung 10: Einschätzung der Übersetzungen Ausgangstext 1

Abbildung 11: Einschätzung der Übersetzungen Ausgangstext 2

Abbildung 12: Einschätzung der Übersetzungen Ausgangstext 3

Abbildung 13: Mittlere Gesamtrichtigkeitsrate nach Gruppe

Abbildung 14: Durchschnittliche Bewertung maschineller Übersetzungen nach Gruppenzuge­hörigkeit

Abbildung 15: Bewertung nach Gruppe und Übersetzungsherkunft

Abbildung 16: Bewertung der Übersetzungen nach Gruppe und System

Abbildung 17: Durchschnittliche TransQuest-Scores nach Übersetzungsart

Abbildung 18: Gesamtrichtigkeitsraten nach MÜ- und LLM-Nutzung sowie Lesefrequenz nach Gruppen

Tabellenverzeichnis

Tabelle 1: Kategorien zur Analyse kultureller Referenzen in der Übersetzung literarischer Texte

Tabelle 2: Sprachen mit fortgeschrittenen Kenntnissen

Tabelle 3: Nutzung maschineller Übersetzungssysteme/LLMs

Tabelle 4: Lesefrequenz

Abkürzungsverzeichnis

ALPAC Automatic Language Processing Advisory Committee

APE-QE Automatic Post-Editing Quality Estimation

API Application Programming Interface

BLEU Bilingual Evaluation Understudy

chrF Character n-gram F-score

CIA Central Intelligence Agency

CNN Convolutional Neural Network

COMET Crosslingual Optimized Metric for Evaluation of Translation

ConvSeq2Seq Convolutional Sequence-to-Sequence Model

DEJ Direct Evaluation Judgement

DQF Dynamic Quality Framework

GLU Gated Linear Unit

GRU Gated Recurrent Unit

GPT Generative Pre-trained Transformer

HBLEU Human-targeted Bilingual Evaluation Understudy

HMETEOR Human-targeted METEOR

HPer Hypothesis Position-Independent Error Rate

HTER Human-targeted Translation Edit Rate

HT Human Translation

IG Integrated Gradients

LLM Large Language Model

LOO Leave-One-Out

LSTM Long Short-Term Memory

MPDE Multilingual Parallel Direct Europarl

MQM Multidimensional Quality Metrics

MÜ Maschinelle Übersetzung

NE Named Entity

NMÜ Neuronale Maschinelle Übersetzung

NS National Science Foundation

NUQE Neural Quality Estimation

PE Postediting

QE Quality Estimation

QTLaunchPad Quality Translation LaunchPad

QUETCH QUality Estimation from ScraTCH

RBMÜ Regelbasierte maschinelle Übersetzung

RNN Recurrent Neural Network

RPer Reference Position-Independent Error Rate

ROUGE Recall-Oriented Understudy for Gisting Evaluation

SMÜ Statistische maschinelle Übersetzung

WER Word-Error-Rate

WMT Workshop on Machine Translation

YAML Yet Another Markup Language

1 Einleitung

1.1 Aktualität und Relevanz des Themas

In den vergangenen Jahren wurden im Bereich der maschinellen Übersetzung bemerkenswerte Fortschritte erzielt. Diese sind unter anderem auf die Integration neuronaler Netze sowie die rasante Entwicklung großer Sprachmodelle, auch bekannt als Large Language Models (LLMs), zurückzuführen. Daher rückt, während die Übertragung einfacher Sachtexte inzwischen zuver­lässig gelingt, eine zentrale Frage zunehmend in den Fokus: Lassen sich auch literarische Texte - mit all ihren stilistischen Feinheiten, kulturellen Referenzen und emotionalen Nuancen - auf einem mit menschlichen Übersetzungen vergleichbaren Niveau maschinell wiedergeben?

Traditionell gilt die literarische Übersetzung als besonders herausfordernd und wurde lange Zeit als unantastbarer Bereich menschlicher Kreativität betrachtet. Jedoch wird diese Annahme durch die zunehmend kreativere Ausdrucksweise von Systemen wie ChatGPT zunehmend in­frage gestellt. Ein zentrales Anliegen dieser Arbeit ergibt sich aus genau dieser Entwicklung: So soll untersucht werden, ob der Qualitätssprung maschineller Systeme so weit reicht, dass sie im Bereich der Literaturübersetzung mit professionellen Übersetzerinnen und Übersetzern mit­halten können - und welche Rolle dabei die Wahrnehmung durch menschliche Leser und Le­serinnen spielt.

1.2 Zielsetzung

Bisherige Studien, die die Übersetzungsleistung von LLMs wie ChatGPT mit neuronalen ma­schinellen Übersetzungssystemen (DeepL und Google Translate) sowie menschlichen Überset­zungen vergleichen (Karabayeva & Kalizhanova, 2024; Jiao et al., 2023; Ed-dali, 2024), sind in der Regel voreingenommen, da den Bewertenden die Quelle der Übersetzung bekannt ist. Ein unvoreingenommener Vergleich unter Blindtestbedingungen, bei dem die Herkunft der Übersetzung nicht bekannt ist, fehlt bislang. Darüber hinaus stoßen gängige automatische Eva­luationsmetriken, wie beispielsweise BLEU, an ihre Grenzen, da sie sich allein auf Wort- und Satzübereinstimmungen konzentrieren und die für literarische Texte charakteristischen kontex­tuellen Feinheiten nur unzureichend erfassen. Aus diesem Grund kommt in der vorliegenden Arbeit TransQuest zum Einsatz (Ranasinghe et al., 2020).

Ein weiterer bislang vernachlässigter Aspekt besteht zudem in der Einbeziehung von Laienbe­wertungen, wodurch eine breitere und realitätsnähere Perspektive auf die Qualität literarischer Übersetzungen eröffnet wird. Zwar existieren Studien mit Bewertungen durch Laien (Cvetkovic, 2020) oder Experten und Expertinnen (Yan et al., 2024), doch eine systematische Analyse von Laienurteilen im Hinblick auf LLMs wie ChatGPT steht noch aus. Gerade im literarischen Kontext ist es jedoch von Interesse, ob Leser und Leserinnen ohne fachliche Über­setzungskompetenz in der Lage sind, zwischen menschlicher und maschineller Übersetzung zu unterscheiden - denn sie bilden die Hauptzielgruppe literarischer Werke und sind entscheidend für die gesellschaftliche Akzeptanz maschineller Übersetzungen.

Aus dieser Forschungslücke ergibt sich die Notwendigkeit einer umfassenden Studie, die unter unvoreingenommenen Bedingungen die Übersetzungsqualität von GPT-4, DeepL und einer professionellen menschlichen Übersetzerin miteinander vergleicht, neue automatische Bewer­tungsmethoden einsetzt und Laienurteile systematisch einbezieht, um sowohl die technischen Fähigkeiten als auch die gesellschaftliche Akzeptanz aktueller LLMs im literarischen Kontext zu untersuchen. Als Laien gelten in dieser Arbeit Personen ohne formale Ausbildung im Bereich Übersetzung. Fachpersonen hingegen sind Studierende oder Berufstätige im Bereich Überset­zung oder in sprachbezogenen Tätigkeiten wie Dolmetschen oder Terminologiearbeit.

Ziel der Arbeit ist es, die Qualität maschineller Literaturübersetzungen systematisch zu analy­sieren und sie mit der eines professionell angefertigten menschlichen Textes zu vergleichen. Im Zentrum steht ein mehrdimensionales Untersuchungsdesign: Neben einer automatisierten Qua­litätsbewertung durch TransQuest wird ein Experiment mit anonymisierten Übersetzungsbei­spielen durchgeführt. Diese stammen aus dem englischsprachigen Roman The Midnight Bargain und wurden von zwei maschinellen Systemen (DeepL und ChatGPT) sowie von der Übersetzerin Judith C. Vogt angefertigt. Testpersonen aus zwei unterschiedlichen Gruppen - Übersetzungsfachleute und Laien - beurteilen diese Texte hinsichtlich sprachlicher, stilistischer und inhaltlicher Qualität, ohne zu wissen, ob es sich um eine maschinelle oder eine menschliche Übersetzung handelt.

Ziel ist es, ein differenziertes Bild der Leistungsfähigkeit aktueller Systeme im Bereich der Literaturübersetzung zu gewinnen. Dabei werden nicht nur objektive Kriterien berücksichtigt, sondern auch subjektive Wahrnehmungen analysiert: Welche Systeme werden bevorzugt? Wel­che Merkmale wirken überzeugend - und inwieweit beeinflusst die persönliche Erfahrung mit Übersetzungstechnologie oder Literatur die Beurteilung? Die Ergebnisse dieser Arbeit liefern Impulse für die Übersetzungswissenschaft ebenso wie für die Weiterentwicklung und den ge­zielten Einsatz maschineller Übersetzungssysteme im literarischen Bereich.

1.3 Forschungsfragen

Im Zentrum der Arbeit steht folgende zentrale Frage:

1 Inwieweit sind unterschiedliche Gruppen - mit und ohne Übersetzungskenntnisse - in der Lage, maschinelle und menschliche Übersetzungen literarischer Texte voneinander zu unterscheiden, wenn ihnen diese anonymisiert vorgelegt werden?

Darauf aufbauend ergeben sich weitere leitende Fragen:

• Gibt es Systeme (z. B. ChatGPT), deren Übersetzungen häufiger als menschlich wahr­genommen werden als andere (z. B. DeepL)?
• Bewerten Fachpersonen mit Übersetzungshintergrund kritischer als Laien?
• Bestehen Zusammenhänge zwischen der Fähigkeit zur Unterscheidung und dem per­sönlichen Umgang mit maschinellen Übersetzungen bzw. dem Umfang des Literatur­konsums?

Diese Fragestellungen ermöglichen nicht nur eine Einschätzung der aktuellen Leistungsfähig­keit maschineller Übersetzungssysteme, sondern gewähren auch Einblicke in ihre Rezeption durch verschiedene Zielgruppen.

1.4 Vorgehensweise

Die Arbeit basiert auf einem Mixed-Methods-Ansatz, der quantitative Analysen mit qualitati­ven Beobachtungen kombiniert. Ausgangspunkt ist die Auswahl dreier Abschnitte aus dem eng­lischsprachigen Roman The Midnight Bargain von C.L. Polk. Für diese Passagen wurden je­weils zwei maschinelle Übersetzungen (durch DeepL und ChatGPT) angefertigt und einer exis­tierenden menschlichen Übersetzung (von Judith C. Vogt) gegenübergestellt. Die Texte wurden randomisiert und anonymisiert, um eine unbeeinflusste Bewertung durch die Testpersonen zu gewährleisten.

Die empirische Untersuchung erfolgte anhand zweier Gruppen: Laien einerseits und Personen mit übersetzungswissenschaftlichem Hintergrund andererseits. Die Teilnehmenden bewerteten die Übersetzungen anhand vordefinierter Kriterien und schätzten ein, ob es sich jeweils um eine maschinelle oder eine menschliche Übersetzung handelt. Ergänzend wurden Angaben zur Nut­zungserfahrung mit Übersetzungstechnologien sowie zum persönlichen Leseverhalten erhoben. Parallel dazu kam TransQuest als automatisiertes Bewertungssystem zum Einsatz, das eine ob­jektive Qualitätsbewertung auf Satzebene ermöglichte.

Zur Einbettung und Fundierung der Studie liefert Kapitel 2 einen historischen Überblick über die Entwicklung maschineller Übersetzung. Kapitel 3 erklärt die technischen Grundlagen neu­ronaler Modelle und LLMs. In Kapitel 4 erfolgt ein Vergleich neuronaler maschineller Überset­zungssysteme und LLMs. Kapitel 5 bietet einen Überblick über verschiedene menschliche und maschinelle Evaluationsmethoden. Kapitel 6 widmet sich den besonderen Herausforderungen literarischer Übersetzung, Kapitel 7 stellt die in der Studie verwendeten Systeme vor. Dieser theoretische Rahmen dient als Grundlage, um die Ergebnisse der empirischen Analyse in Ka­pitel 8 und Kapitel 9 fundiert einordnen zu können. Die Auswertung erfolgt sowohl quantitativ - etwa mittels Signifikanztests - als auch qualitativ anhand der freien Kommentare der Teil­nehmenden. So entsteht ein umfassendes, mehrschichtiges Bild davon, wie maschinelle Litera­turübersetzung heute wahrgenommen wird, welche Systeme überzeugen können - und wo nach wie vor die Stärken menschlicher Kreativität liegen. Kapitel 10 fasst die Ergebnisse zusammen und bietet einen Ausblick auf zukünftige Forschungsperspektiven.

2 Maschinelle Übersetzung - ein Überblick

Dieses Kapitel beleuchtet die historische Entwicklung, die zur Entstehung der neuronalen ma­schinellen Übersetzung (NMÜ) geführt hat, und erläutert deren Abgrenzung zur regelbasierten sowie zur statistischen maschinellen Übersetzung.

2.1 Geschichte und Entwicklung der maschinellen Übersetzung

Die ersten Ansätze zur maschinellen Übersetzung (MÜ) entstanden parallel zur Entwicklung elektronischer Computer. Bereits im Zweiten Weltkrieg inspirierte die Entschlüsselung der deutschen ENIGMA-Codes zu dem Gedanken, natürliche Sprache wie einen Code zu behan­deln, der durch Maschinen „geknackt“ werden könne. Warren Weaver griff diese Metapher 1947 auf, als er einen russischen Text als in „seltsame Symbole“ codierte englische Botschaft beschrieb und vorschlug, diese mittels Computer zu dekodieren: „When I look at an article in Russian, I say: ‘This is really written in English, but it has been coded in some strange symbols. I will now proceed to decode.” (Weaver 1947, 1949 zit. nach Koehn, 2020: 34). Die frühen MÜ-Systeme beruhten jedoch weitgehend auf einfachen Wörterbüchern und wenigen syntakti­schen Regeln und erwiesen sich deshalb als unzureichend für die komplexen Anforderungen des Übersetzens (Stein, 2009: 6).

Im Jahr 1964 beauftragten die CIA zusammen mit der US-amerikanischen Regierung und die National Science Foundation das Automatic Language Processing Advisory Committee (AL- PAC), das Potenzial der MÜ im Kontext des Kalten Krieges und dem damit verbundenen Stre­ben nach Übersetzungen russischer Dokumente zu evaluieren. Die Ergebnisse des 1966 veröf­fentlichten Berichts waren jedoch niederschmetternd. So kam man zu dem Schluss, dass MÜ langsamer, weniger genau und etwa doppelt so teuer sei wie menschliche Übersetzung (Hutch­ins, 1995: 6). Gleichzeitig war die Nachfrage nach der Übersetzung russischer Fachliteratur gering und ausreichend qualifizierte Übersetzende standen zur Verfügung (Koehn, 2020: 35). Infolgedessen wurde die staatliche Förderung von MÜ fast vollständig eingestellt und stattdes­sen die Entwicklung einfacher Hilfsmittel wie Wörterbuchsoftware und die Grundlagenfor­schung in der Computerlinguistik vorangetrieben (Hutchins, 1995: 6).

Als Reaktion auf den Rückgang der MÜ-Forschung wurde der Fokus auf wissenschaftliche Ansätze und die Einbeziehung linguistischen Fachwissens, insbesondere semantischer Analy­sen, gelegt. Dies führte Mitte der 1970er Jahre zu einem Wiederaufschwung der MÜ-For- schung. In den 1980er Jahren sorgten technologische Fortschritte und die Verfügbarkeit von Heimcomputern für einen kontinuierlichen Anstieg der MÜ-Forschung (Stein, 2009: 7). Wäh­rend die USA ihre Förderung drosselten, gewannen Kanada - aufgrund seiner zweisprachigen Politik -, und Europa - durch wachsenden Übersetzungsbedarf innerhalb der Europäischen Ge­meinschaften - an Bedeutung (Hutchins, 1995: 7). Es entstanden die ersten kommerziellen ma­schinellen Übersetzungssysteme: So übersetzt das Météo-System der Universität Montreal seit 1976 Wettervorhersagen, und Systran entwickelte bereits 1968 eine Russisch-Englisch-Engine, die ab 1970 von der US Air Force und ab 1976 in einer französisch-englischen Version auch von der Europäischen Kommission eingesetzt wurde. Mit der Verbreitung von Desktop-Com­putern in den 1990er Jahren kamen zudem computerunterstützte Übersetzungstools wie Trados auf den Markt (Koehn, 2020: 35).

Durch die Wiederbelebung der Forschung in den 1980er Jahren rückten neuronale Netze in den Fokus. Die ersten Modelle neuronaler Netze, die sogenannten Perzeptoren, wurden Mitte des 20. Jahrhunderts entwickelt. Sie bestanden aus einer einzigen Verarbeitungsschicht, die im We­sentlichen eine Liste von Neuronen darstellte, wobei jedes Neuron über die gleiche Anzahl binärer Eingaben und eine binäre Ausgabe verfügte. Diese frühen Modelle stießen jedoch auf erhebliche Einschränkungen und wurden zu einer Zeit, in der die Forschung zu neuronalen Net­zen in Verruf geriet, entwickelt (Koehn, 2020: 31-32).

Dies änderte sich mit der Wiederentdeckung und Einführung des Backpropagation-Algorith­mus in den 1980er und 1990er Jahren, welcher das Training von mehrschichtigen neuronalen Netzen ermöglichte. Hieraus gingen zahlreiche Innovationen wie Convolutional Neural Net­works, Recurrent Neural Networks und Long Short-Term Memory-Modelle hervor. Doch auch hier erschwerten Komplexität und Trainingsprobleme den Fortschritt, was einen zweiten Rück­schlag zur Folge hatte (Koehn, 2020: 32). Erst im neuen Jahrtausend, begünstigt durch stei­gende Rechenleistung, riesige Datensätze und verbesserte Trainingsverfahren, erlebte das „Deep Learning“ einen Durchbruch: Neuronale Netze erzielten nun beachtliche Leistungen in Bereichen wie Bild- und Spracherkennung (Koehn, 2020: 33; Mohamed et al., 2020: 15920).

2.2 Arten maschineller Übersetzung

2.2.1 Regelbasierte maschinelle Übersetzung (RBMÜ)

Der regelbasierte Ansatz gliedert den Übersetzungsprozess in drei aufeinanderfolgende Phasen: Analyse des Ausgangstextes, Transfer in eine sprachunabhängige Repräsentation und abschlie­ßende Synthese des Zielsatzes. Innerhalb der RBMÜ unterscheidet man drei Komplexitäts­grade: direkte Übersetzung, Transferübersetzung und Interlingua-Übersetzung.

Die direkte Übersetzung stellt die einfachste Form der RBMÜ dar. Sie basiert auf einer direkten Wort-für-Wort Übertragung, wobei minimale Anpassungen an die Satzstruktur der Zielsprache vorgenommen werden. Aufgrund fehlender Fähigkeiten zur adäquaten Verarbeitung von Mehr­deutigkeiten und idiomatischen Wendungen stößt die direkte Übersetzung jedoch an ihre Gren­zen - so kann etwa die Redewendung „ins Gras beißen“ nicht sinngemäß wiedergegeben wer­den.

Die Transferübersetzung ergänzt morphologische, semantische und syntaktische Regeln, was die Übersetzungsqualität gegenüber der direkten Methode verbessert, jedoch weiterhin Ein­schränkungen aufweist.

Die Interlingua-Übersetzung stellt das Idealziel der RBMÜ dar. Sie basiert auf einer universel­len, sprachunabhängigen Repräsentation von Informationen, wodurch eine vollständige Tren­nung von Ausgangs- und Zielsprache ermöglicht wird. Bis heute ist sie unerreicht, da eine uni­verselle Sprache noch nicht existiert (Stein, 2009: 7-8).

Die regelbasierte maschinelle Übersetzung dominierte bis Ende der 1980er Jahre. Seit 1989 setzen sich korpusbasierte Methoden durch, die keine expliziten linguistischen Regeln verwen­den (Hutchins, 1995: 12).

2.2.2 Statistische maschinelle Übersetzung (SMÜ)

Statistische maschinelle Übersetzung (SMÜ) basiert auf der Berechnung von bedingten Wahr­scheinlichkeiten, welche aus großen, zweisprachigen Korpora gewonnen werden. Im Rahmen dieses Verfahrens wird die wahrscheinlichste Übersetzung eines Satzes ermittelt. Da es unmög­lich ist, alle Sätze einer Sprache zur Verfügung zu stellen, kombiniert SMÜ zwei Modelltypen: ein Übersetzungsmodell und ein Sprachmodell.

Das Übersetzungsmodell basiert auf zweisprachigen, alignierten Korpora, welche mögliche Übersetzungen und deren Wahrscheinlichkeiten repräsentieren. Es gliedert sich in ein Lexikon- modell, welches die Wahrscheinlichkeit von Wort- oder Wortsequenzübersetzungen bewertet und in ein Alignierungsmodell, welches die Wahrscheinlichkeit von Satzstellungen bewertet.

Das Sprachmodell basiert auf einsprachigen Korpora in der Zielsprache und umfasst gültige Sätze einer Sprache. Es arbeitet mit abstrakten Einheiten wie Wörtern oder Wortsequenzen. Ein Suchalgorithmus berechnet die wahrscheinlichste Übersetzung, indem er das Produkt aus Satz­gültigkeit (Sprachmodell), Wortübersetzung (Lexikonmodell) und Satzstellung (Alignierungs- modell) maximiert. Die Wahrscheinlichkeiten werden durch den Satz von Bayes geschätzt (Stein, 2009: 9-10).

Da die exakte Wiedergabe ganzer Sätze selten im Trainingsmaterial vorkommt, arbeiten SMÜ- Systeme häufig auf kleineren Einheitsebenen:

Die wortbasierte SMÜ stellt eine frühe Form der statistischen maschinellen Übersetzung dar, die auf der Ebene einzelner Wörter arbeitet. Dabei wird ein Wort der Ausgangssprache einem oder mehreren Wörtern der Zielsprache zugeordnet. Diese Methode weist jedoch signifikante Einschränkungen auf: Es ist beispielsweise nicht möglich, mehrere Wörter der Ausgangsspra­che einem einzigen Wort in der Zielsprache zuzuordnen. Zudem können zusammenhängende Wörter nicht als Einheit behandelt werden, was insbesondere bei zusammengesetzten Verben oder bei syntaktischen Unterschieden, wie der Position des finiten Verbs, zu Problemen führt.

Im Gegensatz dazu adressiert die phrasenbasierte SMÜ viele der Einschränkungen der wortba­sierten Methode, indem sie auf Phrasenebene arbeitet. Dabei handelt es sich um maschinell definierte Wortgruppen, die nicht zwingend linguistisch motiviert sind. Ein zentraler Vorteil ist die Möglichkeit, mehrere Wörter der Ausgangssprache in ein oder mehrere Wörter der Ziel­sprache zu übertragen. Darüber hinaus wird durch die Berücksichtigung eines erweiterten Kon- texts die Disambiguierung erleichtert, beispielsweise bei Ausdrücken wie „pretty much“ im Vergleich zu „pretty girl“. Ebenso können syntaktische Unterschiede zwischen Ausgangs- und Zielsprache besser ausgeglichen werden. Die Effektivität dieser Methode hängt jedoch maß­geblich von der Länge und Struktur der analysierten Sequenzen ab. Insgesamt bietet die phra­senbasierte SMÜ gegenüber der wortbasierten Methode eine größere Flexibilität und bessere Übersetzungsergebnisse.

Statistische maschinelle Übersetzungssysteme (SMÜ) bieten im Vergleich zu regelbasierten Ansätzen zahlreiche Vorteile. Ein zentraler Pluspunkt ist ihre Sprachunabhängigkeit, da sie ohne tiefgreifendes linguistisches Fachwissen entwickelt werden können. Dies spart sowohl Zeit als auch Kosten im Vergleich zu regelbasierten Methoden. Zudem sind sie flexibel einsetz­bar und erlauben die Übersetzung auch für Sprachen mit geringen linguistischen Ressourcen, vorausgesetzt, es existieren ausreichend alignierte mehrsprachige Korpora. Ein weiterer Vorteil ist ihre effiziente Entwicklung, denn SMÜ-Systeme lassen sich in kurzer Zeit implementieren, wobei ihre Übersetzungsqualität mit der von regelbasierten Systemen vergleichbar ist. Darüber hinaus können sie lexikalische Ambiguitäten und idiomatische Ausdrücke bewältigen, sofern diese ausreichend im Trainingsmaterial enthalten sind. Dabei gilt: Je größer und qualitativ hoch­wertiger die Datenbasis, desto besser die Ergebnisse.

Trotz all dieser Vorteile weisen SMÜ-Systeme jedoch auch einige Schwächen auf. Ein zentraler Nachteil ist die Intransparenz ihrer Algorithmen, da zugrunde liegenden Berechnungen oft schwer nachvollziehbar sind und Fehlerquellen sich nur schwer identifizieren lassen. Dies er­schwert die Korrektur systematischer Fehler. Ein weiteres Problem sind strukturelle Sprachun­terschiede, die zu unvollständigen Übersetzungen führen können, wie etwa bei der deutschen Verbklammer oder bei stark abweichender Syntax und Morphologie. Die starke Abhängigkeit von Korpora stellt ebenfalls eine Herausforderung dar. Große zweisprachige Korpora sind oft nur für Fachsprachen wie Rechtstexte verfügbar, was zu einer Überrepräsentation spezifischer Terminologien führt und die Qualität für allgemeinsprachliche Übersetzungen einschränkt. Auch erfordert die Entwicklung leistungsfähiger SMÜ-Systeme einen hohen Datenbedarf. Die Beschaffung ausreichend großer und diversifizierter Korpora gestaltet sich jedoch häufig schwierig, was insbesondere für weniger verbreitete Sprachen problematisch ist (Stein, 2009: 11-13).

2.2.3 Neuronale maschinelle Übersetzung (NMÜ)

Als Reaktion auf die Einschränkungen von SMÜ wurden neuronale maschinelle Übersetzungs­systeme (NMÜ) entwickelt. Diese Systeme sind besser in der Lage, kontextübergreifende Ab­hängigkeiten zu erfassen und komplexe Wort-Alignment-Informationen zu verarbeiten. Zudem reduzieren sie den Speicherbedarf und profitieren von der gemeinsamen Optimierung aller Mo­dellkomponenten (Cho et al., 2014a: 103; Mohamed et al., 2020: 15920).

Der Fortschritt in der NMÜ basiert auf der Technologie neuronaler Netzwerke, die Eingaben verarbeitet und Vorhersagen über die Ausgaben trifft (Koehn, 2020: 67). NMÜ verwendet ein großes neuronales Netzwerk, das aus zwei Hauptkomponenten besteht: dem Encoder und dem Decoder. Der Encoder wandelt Sätze variabler Länge der Ausgangssprache in semantische Vek­torrepräsentationen um. Der Decoder nutzt diese Repräsentationen, um den Zielsatz Wort für Wort in variabler Länge zu generieren (Mohamed et al., 2020: 15919-20; Cho et al., 2014b: Abs. 1). Durch die Berücksichtigung des Wortkontexts erzielt diese Methode eine signifikante Verbesserung der Übersetzungsqualität (Stahlberg, 2020: 345). Für das Training der NMÜ-Mo- delle wird ein zweisprachiger, paralleler Korpus verwendet (Mohamed et al., 2020: 15921).

3 Neuronale Modelle und Large Language Models (LLMs)

In diesem Kapitel werden zunächst die grundlegenden Prinzipien neuronaler Netze sowie ver­schiedene Arten neuronaler Modelle erläutert. Im Anschluss werden die Funktionen von Large Language Models (LLMs) für Übersetzende vorgestellt sowie deren Stärken und Schwächen kritisch beleuchtet.

3.1 Grundlagen neuronaler Netze

Die Funktionsweise künstlicher neuronaler Netze ist an das biologische Vorbild des menschli­chen Gehirns angelehnt. Biologische Neuronen empfangen über Dendriten Signale anderer Zel­len, verarbeiten diese Informationen und leiten sie über Axone weiter. Künstliche neuronale Netze übernehmen dieses Prinzip in ähnlicher Form: Sie kombinieren Eingabewerte mittels gewichteter Summen, wenden eine Aktivierungsfunktion an und generieren daraus eine Aus­gabe.

Trotz dieser Ähnlichkeit bestehen grundlegende Unterschiede zwischen biologischen und künstlichen neuronalen Netzen in Bezug auf Funktionsweise, Struktur und Lernmechanismen.

Während biologische Neuronen über binäre Impulse kommunizieren, deren Frequenz variiert, arbeiten künstliche Neuronen mit kontinuierlichen Zahlenwerten und somit auf mathematischer Basis. Auch strukturell unterscheiden sich beide Systeme deutlich: Künstliche Neuronen sind in klar definierten Schichten organisiert, was eine transparente und kontrollierbare Architektur ermöglicht. Im Gegensatz dazu bilden biologische Neuronen ein hochgradig vernetztes, dyna­misches und nicht-linear organisiertes System, das eine außerordentliche Anpassungsfähigkeit erlaubt.

Ebenso unterscheiden sich die Lernprozesse beider Systeme erheblich. Während künstliche neuronale Netze durch überwachtes Lernen auf annotierten Datensätzen trainiert werden, er­folgt das Lernen biologischer Systeme über evolutionäre Entwicklungen und individuelle Er­fahrungen. Dies ermöglicht eine tiefgreifendere, kontextabhängige und flexibel anpassbare Form des Lernens. Angesichts dieser Unterschiede betrachten viele Forschende künstliche neu­ronale Netze als stark vereinfachte Abbildungen biologischer Strukturen und ziehen es vor, statt von neuronalen Netzen vom Konzept des „Deep Learning“ zu sprechen (Koehn, 2020: 30-31).

In der maschinellen Übersetzung kommen verschiedene Modellarten zum Einsatz. Lineare Mo­delle, wie sie in der statistischen maschinellen Übersetzung verwendet werden, bewerten po­tenzielle Übersetzungen anhand von gewichteten Features. Visuell können lineare Modelle als Netzwerke dargestellt werden, bei denen die Eingabeknoten die Feature-Werte und die Verbin­dungen die Gewichtungen repräsentieren.

Der zentrale Nachteil dieser Modelle liegt in ihrer Beschränkung auf lineare Beziehungen: Nichtlineare Abhängigkeiten oder Interaktionen zwischen Merkmalen können mit ihnen nicht erfasst werden. Zudem setzen sie voraus, dass die zu unterscheidenden Daten im Merkmals­raum linear trennbar sind - eine Bedingung, die in der Praxis, etwa im Kontext der maschinellen Übersetzung, selten erfüllt ist (Koehn, 2020: 67-68).

Abb. in Leseprobe nicht enthalten

Abbildung 1: Ein lineares Netzwerkmodell1(Koehn, 2020: 68).

Neuronale Netze erweitern diese linearen Modelle durch die Einbeziehung mehrerer, auch so­genannter „versteckter“ Schichten (Hidden Layers), die zwischen Eingabe- und Ausgabeschicht liegen und nicht direkt beobachtbar sind.

Die Informationsverarbeitung erfolgt dabei in zwei Schritten: Zunächst wird eine lineare Kom­bination der gewichteten Eingaben berechnet, um die Aktivierung der versteckten Neuronen zu erzeugen. Anschließend wird eine weitere gewichtete Kombination dieser versteckten Werte berechnet, um die Ausgabeneuronen zu aktivieren. Je nach Anwendung können Netze über mehrere Ausgabeknoten verfügen, auch wenn vereinfachte Darstellungen häufig nur einen ein­zigen Ausgabeknoten zeigen (Koehn, 2020: 68).

Abb. in Leseprobe nicht enthalten

Abbildung 2: Ein neuronales Netzwerk mit versteckten Schichten (Koehn, 2020: 69).

[1] Die Merkmale sind: Eingangsknoten, Gewichte in Form von Pfeilen und der Ausgangsknoten (Score)

Erst durch die Verwendung nichtlinearer Aktivierungsfunktionen ist es neuronalen Netzen mög­lich, komplexe Beziehungen zwischen Ein- und Ausgaben zu modellieren. Die versteckten Schichten erkennen dabei automatisch relevante Merkmale während des Trainings. Je mehr solcher Schichten ein Netzwerk umfasst, desto tiefer wird seine Architektur - ein Merkmal, das dem „Deep Learning“ seinen Namen verleiht. Tiefer geschichtete Netzwerke sind in der Lage, abstraktere und komplexere Muster zu erkennen und erzielen in vielen Anwendungsbereichen signifikant bessere Ergebnisse (Koehn, 2020: 69-70).

In der neuronalen maschinellen Übersetzung haben sich laut Mohamed et al. (2020: 15921) insbesondere drei Architekturtypen als besonders leistungsfähig erwiesen, die alle das Konzept der Attention nutzen:

1 . Stacked RNN with Attention
2 . Convolutional Models (ConvSeq2Seq)
3 . Self-attentional Transformer

3.2 Arten neuronaler Modelle

3.2.1 RNN (mit und ohne Attention)

Zu den frühesten Encoder-Decoder-Modellen auf der Basis rekurrenter neuronaler Netzwerke (RNN) zählen die Ansätze von Cho et al. (2014a) sowie von Bahdanau et al. (2015).

Im RNN-Encoder-Decoder-Modell von Cho et al. (2014a) kommt ein RNN sowohl im Encoder als auch im Decoder zum Einsatz. Der Encoder verarbeitet dabei eine Eingabesequenz variabler Länge, indem er die Wörter nacheinander einliest und in einen kompakten, festen Vektor - den sogenannten Kontextvektor - transformiert. Dieser Kontextvektor dient als komprimierte Dar­stellung des gesamten Satzes und enthält wesentliche semantische und kontextuelle Informati­onen. So wird dem Modell eine ganzheitliche Erfassung der Satzbedeutung ermöglicht, anstatt einzelne Wörter isoliert zu betrachten.

Anschließend übernimmt der Decoder die Aufgabe, ausgehend von einem speziellen Startsym­bol, den Zieltext Wort für Wort zu generieren. Dabei verwendet er den Kontextvektor als Grund­lage und bezieht zusätzlich den jeweils vorherigen Zustand sowie das zuletzt erzeugte Wort in die Vorhersage des nächsten Zielworts ein. Dieser Prozess wiederholt sich, bis ein Endsymbol das Ende der Übersetzung signalisiert. Auf diese Weise entsteht die Übersetzung schrittweise, wobei jedes Wort auf dem vorherigen aufbaut.

Ein zentrales Problem dieses Modells besteht jedoch darin, dass sämtliche Informationen der Eingabesequenz in einem einzigen Vektor gespeichert werden müssen. Vor allem bei längeren Sätzen führt dies zu Informationsverlusten und folglich zu einer sinkenden Übersetzungsquali­tät (Cho, 2014b: 107).

Um dieser Schwäche entgegenzuwirken, erweiterten Bahdanau et al. (2015) das klassische RNN-Encoder-Decoder-Modell um einen Aufmerksamkeitsmechanismus (Attention). In ihrem Modell besteht der Encoder aus einem bidirektionalen RNN, das die Eingabesequenz sowohl in Vorwärts- als auch in Rückwärtsrichtung verarbeitet. Dadurch entstehen für jedes Wort zwei Zustände, die kombiniert eine umfassende Annotation bilden. Diese Annotationsvektoren ent­halten somit Informationen über die jeweilige Wortumgebung im gesamten Satzkontext.

Der zentrale Innovationspunkt dieses Ansatzes ist der Attention-Mechanismus, der es dem De­coder erlaubt, sich während der Generierung der Zielsequenz gezielt auf unterschiedliche Teile der Eingabesequenz zu konzentrieren. Anstatt sich auf einen einzigen Kontextvektor zu stützen, berechnet das Modell für jedes Zielwort individuelle Gewichtungen, die angeben, welche Be­standteile der Ausgangssequenz besonders relevant sind. Diese dynamische Ausrichtung erlaubt eine kontextabhängige, flexible Übersetzung und verbessert die Modellleistung insbesondere bei langen und komplexen Sätzen (Bahdanau et al., 2015: 2).

Zu den Vorteilen von RNNs zählen neben der Möglichkeit des gemeinsamen Trainings aller Modellkomponenten auch ihre Erfolge in verschiedenen Anwendungsfeldern wie maschineller Übersetzung, Sentiment-Analyse oder Part-of-Speech-Tagging (Cho et al., 2014a; Mohamed et al., 2020: 15922). Insbesondere durch die Einführung des Attention-Mechanismus können län­gere Texte deutlich effizienter verarbeitet werden, da das Modell nicht länger auf einen kom­primierten Kontextvektor angewiesen ist. Dies ermöglicht ein präziseres Alignment zwischen Ausgangs- und Zieltext und steigert die Übersetzungsqualität erheblich (Bahdanau et al., 2015: 2).

Dem gegenüber stehen jedoch auch einige Nachteile. RNNs verarbeiten Eingabe- und Ausga­besequenzen sequentiell, was paralleles Training erschwert. Darüber hinaus muss das Modell für jedes Ausgabeelement erneut die gesamte Eingabesequenz durchlaufen, was die Verarbei­tung längerer Texte zeitaufwendig macht. Zudem sind RNN-Modelle für Echtzeitanwendun­gen, bei denen bereits mit der Übersetzung begonnen werden soll, bevor alle Eingabedaten vorliegen, nur bedingt geeignet (Mohamed et al., 2020: 15922-15923). Auch zeigt sich eine erhöhte Fehleranfälligkeit bei der Verarbeitung unbekannter Wörter (Cho et al., 2014b: 103).

3.2.2 Convolutional Models (ConvSeq2Seq)

Das von Gehring et al. (2017) vorgestellte Convolutional Sequence-to-Sequence-Modell stellt eine Abkehr von der rekurrenten Architektur dar und basiert vollständig auf Convolutional Neu­ral Networks (CNNs). Ziel dieses Ansatzes ist es, die sequentielle Verarbeitung von Textdaten effizienter zu gestalten und gleichzeitig die Leistung in Anwendungen wie maschineller Über­setzung oder Textzusammenfassung zu verbessern.

Im Gegensatz zu rekurrenten Netzwerken, die Eingabesequenzen Wort für Wort verarbeiten, modellieren CNNs lokale Abhängigkeiten, indem sie innerhalb eines fest definierten Kontext­bereichs arbeiten. Dieser Kontextbereich wird durch das Stapeln mehrerer konvolutionaler Schichten schrittweise erweitert, wodurch das Modell zunehmend größere Zusammenhänge in­nerhalb der Sequenz erfassen kann.

Ein wesentlicher Vorteil gegenüber RNNs liegt in der Parallelisierbarkeit von CNNs, wodurch eine deutlich schnellere Verarbeitung ermöglicht wird. Da CNNs jedoch keine inhärente Infor­mation über die Reihenfolge der Tokens enthalten, wird die Positionsinformation durch soge­nannte Positionsembeddings ergänzt: Jedes Token erhält einen zusätzlichen Vektor, der seine relative Position in der Sequenz kodiert, wodurch die Modellierung der Wortreihenfolge sicher­gestellt wird.

Die Modellarchitektur gliedert sich in einen Encoder und einen Decoder, die jeweils aus meh­reren konvolutionalen Blöcken bestehen. Diese Blöcke sind über sogenannte Residualverbin­dungen miteinander verbunden, was das Training tiefer Netzwerke erleichtert. Eine zentrale Rolle spielt die Anwendung von Gated Linear Units (GLUs) als Aktivierungsfunktion, die die Extraktion relevanter Informationen unterstützt und somit zur Leistungssteigerung des Modells beiträgt.

Ein zentrales Merkmal dieses Modells ist der Multi-Step-Attention-Mechanismus. Anders als bei klassischen Ansätzen ist jede Schicht des Decoders mit einem eigenen Attention-Mechanis- mus ausgestattet, der es dem Modell erlaubt, unterschiedliche Aspekte der Eingabesequenz auf verschiedenen Repräsentationsebenen zu gewichten. Die Kombination aus Convolution und Attention ermöglicht es dem System, sowohl lokale als auch globale Abhängigkeiten innerhalb der Sequenz effektiv zu erfassen.

Zu den wichtigsten Vorteilen konvolutionaler Modelle zählt ihre Fähigkeit zur parallelen Da­tenverarbeitung, was eine effiziente Ausnutzung moderner Hardware wie GPUs erlaubt (Mohamed et al., 2020: 15925). Zudem lassen sich diese Modelle problemlos auf große Daten­mengen skalieren, da jede konvolutionale Schicht mit einem festen Kontext arbeitet, der unab­hängig von der Gesamtlänge der Sequenz ist (Gehring et al., 2017: Abs. 1). Die Verwendung einer konstanten Anzahl von GLUs trägt darüber hinaus zu einer stabileren und effizienteren Optimierung bei (Mohamed et al., 2020: 15925).

Allerdings bringt diese Architektur auch gewisse Einschränkungen mit sich. So ist die Wirk­samkeit des Attention-Mechanismus eng an eine mehrschichtige konvolutionale Struktur ge­koppelt. Ohne eine solche Struktur nimmt der Einfluss der gewichteten Kontextinformationen deutlich ab (Mohamed et al., 2020: 15925). Darüber hinaus steigt der Rechenaufwand zur Mo­dellierung weit entfernter Wortbeziehungen linear mit der Distanz, was die Effizienz insbeson­dere bei sehr langen Sequenzen erheblich beeinträchtigen kann (Mohamed et al., 2020: 15925).

3.2.3 Self-Attention-Transformer

Das Transformer-Modell von Vaswani et al. (2017) revolutioniert die Verarbeitung von Sequen­zen, indem es vollständig auf rekurrente und konvolutionale Netzwerke verzichtet und stattdes­sen ausschließlich auf Aufmerksamkeitsmechanismen setzt. Diese Mechanismen ermöglichen es, globale Abhängigkeiten zwischen Eingabe- und Ausgabesequenzen zu modellieren (Vas- wani et al. 2023: 2).

Die Architektur des Transformers gliedert sich in zwei zentrale Komponenten: den Encoder und den Decoder. Der Encoder verarbeitet die Eingabesequenz und überführt sie mittels Word-Em­beddings sowie Positional Encodings in eine abstrakte Vektorrepräsentation, die semantische und syntaktische Relationen zwischen den Elementen abbildet. Dabei stellen die Positional En­codings - auf Sinus- und Kosinusfunktionen basierende Vektoren - sicher, dass die Modellar­chitektur die Wortreihenfolge erfassen kann (Krüger, 2021: 5-6; Vaswani et al., 2023: 6).

Die so vorbereitete Eingabesequenz durchläuft mehrere Encoder-Blöcke, in denen durch rekur­sive Anwendung von Aufmerksamkeitsmechanismen zunehmend kontextuelle Informationen integriert werden (Krüger, 2021: 9). Ein zentrales Element dieses Prozesses ist der Self-At- tention-Mechanismus, der für jedes Token die Relevanz aller anderen Tokens der Sequenz ge­wichtet. Auf diese Weise wird eine differenzierte, kontextualisierte Repräsentation jedes ein­zelnen Tokens erzeugt, was zu einer erheblichen Leistungssteigerung gegenüber früheren Mo­dellen führt (Krüger, 2021: 11-13).

Im Anschluss an die Encodierung beginnt der Decoder mit der Generierung der Zielsequenz. Anders als der Encoder arbeitet der Decoder nicht vollständig parallel, sondern generiert den Zieltext sequenziell: Jedes neu erzeugte Token wird unmittelbar in den nächsten Dekodier­schritt eingespeist. Dieser Prozess wiederholt sich, bis ein vordefiniertes Endsymbol erreicht wird (Krüger, 2021: 35-36).

Encoder und Decoder bestehen jeweils aus sechs Blöcken, die sich aus einer Multi-Head-At- tention-Schicht - als Implementierung des Self-Attention-Mechanismus - und einer Feed-For­ward-Schicht, die eine nichtlineare Funktion einführt, zusammensetzen. Diese Schichten wer­den durch eine Add-&-Norm-Schicht verbunden, bei denen die Ergebnisse der vorherigen Schichten mittels Residualverbindungen zusammengeführt und anschließend schichtnormali­siert werden (Krüger, 2021: 5; 11; 33-34). Zusätzlich beinhaltet ein Decoder-Block eine Mas- ked-Multi-Head-Attention-Schicht, die während der Trainingsphase des Transformers von Be­deutung ist, sowie eine lineare Schicht und eine Softmax-Schicht, welche die finale Ausgabe des Modells bestimmen. Durch die lineare Schicht wird der Output-Vektor des letzten Decoder­Blocks von einem 512-dimensionalen Vektor in einen Vektor transformiert, dessen Dimension der Größe des Zielvokabulars entspricht. Anschließend normalisiert die Softmax-Funktion die­sen Vektor, sodass eine Wahrscheinlichkeitsverteilung entsteht, bei der die Summe aller Werte 1 beträgt (Krüger, 2021: 36-41).

Ein prominentes Beispiel für ein auf dem Transformer-Modell basierendes Large Language Model ist ChatGPT (LTIMindtree, 2023: 4), das in der vorliegenden Arbeit im Rahmen der Evaluation maschineller Literaturübersetzung zum Einsatz kommt.

Der Self-Attention-Transformer bringt eine Reihe signifikanter Vorteile mit sich. Insbesondere ermöglicht der Verzicht auf sequentielle Verarbeitung eine parallele Berechnung sämtlicher Positionen innerhalb einer Sequenz, was die Trainingszeit gegenüber rekurrenten Modellen drastisch reduziert (Mohamed et al., 2020: 15924). Darüber hinaus erlaubt die explizite Model­lierung von Beziehungen zwischen beliebigen Positionen in der Eingabe eine effizientere Er­fassung von Abhängigkeiten, insbesondere über längere Distanzen hinweg (Mohamed et al., 2020: 15924).

Nichtsdestotrotz sind auch einige Einschränkungen zu beachten. Der Attention-Mechanismus weist jedem Token unabhängig von dessen semantischer Relevanz Gewichtungen zu, was dazu führen kann, dass irrelevante Informationen überbewertet und relevante Details vernachlässigt werden. Hinzu kommt, dass die Anzahl der Rechenoperationen quadratisch mit der Länge der Sequenz zunimmt, da für jedes Tokenpaar das Skalarprodukt berechnet werden muss. Dies kann insbesondere bei sehr langen Sequenzen zu einer erheblichen Reduktion der Effizienz führen (Mohamed et al., 2020: 15924).

3.3 LLMs in der maschinellen Übersetzung

3.3.1 Funktionen von LLMs für die maschinelle Übersetzung

Große Sprachmodelle wie ChatGPT bieten Übersetzenden Unterstützung in Bereichen, die klassische neuronale Übersetzungssysteme wie DeepL oder Google Translate nicht in gleicher Weise abdecken. Siu (2023) hebt hervor, dass LLMs insbesondere in folgenden Aspekten hilf­reich sein können:

• Sie ermöglichen eine präzisere Kontextualisierung mehrdeutiger Begriffe und unterstüt­zen die korrekte Interpretation von Ausdrücken innerhalb ihres spezifischen Bedeu­tungsrahmens.
• Sie liefern kulturelle und historische Erklärungen zu sprachlichen Wendungen, die für Personen aus anderen kulturellen Kontexten schwer verständlich sein können, etwa bei idiomatischen Redewendungen oder Sprichwörtern.
• Sie erleichtern das Verständnis fachspezifischer Terminologie und können komplexe In­halte in vereinfachter Sprache darstellen - ein Vorteil insbesondere bei juristischen oder medizinischen Texten, wie beispielsweise der Anforderung „Erkläre koronare Herz­krankheit in leicht verständlichen Worten“.
• Sie können erste Übersetzungsentwürfe generieren, die als Ausgangspunkt für die wei­terführende Bearbeitung durch menschliche Übersetzende dienen.
• Sie tragen zur Qualitätssicherung bei, indem sie Fehler oder Auslassungen identifizie­ren, grammatikalische Korrekturen vorschlagen und alternative Formulierungen bereit­stellen, die die stilistische und sprachliche Präzision der Übersetzung erhöhen.
• Sie ermöglichen Verbesserungen durch dialogische Interaktion: Übersetzende können gezielt Rückfragen stellen, Anpassungen vorschlagen oder Bewertungen einfordern, wodurch eine schrittweise Verfeinerung der Übersetzung erfolgt.

3.3.2 Stärken und Schwächen von LLMs

Die Integration von LLMs wie ChatGPT in den Übersetzungsprozess hat zu weitreichenden Veränderungen geführt. Aufgrund ihrer vielseitigen Einsatzmöglichkeiten tragen diese Modelle wesentlich zur Effizienzsteigerung in professionellen Übersetzungsabläufen bei (Amini et al., 2024). Besonders durch ihre dialogorientierte Funktionsweise unterstützen LLMs Überset­zende etwa mit alternativen Formulierungen, der Beantwortung von Rückfragen und der Kor­rektur fehlerhafter Annahmen. Dies verbessert nicht nur die Genauigkeit und Effizienz des Übersetzungsprozesses, sondern stellt herkömmliche neuronale Übersetzungssysteme wie DeepL oder Google Translate in den Schatten (Ruoqi et al., 2023).

Stärken von ChatGPT im Übersetzungskontext sind eine Produktivitätssteigerung durch Re­duktion des Arbeitsaufwands und Zeitersparnis für Übersetzende, Kosteneffizienz, kontextuelle Anpassungsfähigkeit, kreative Textgenerierung und ein branchenübergreifender Einsatz in Sek­toren wie Gesundheitswesen, Finanzwesen und E-Commerce.

Schwächen von ChatGPT im Übersetzungskontext sind Risiken für das Berufsbild des Über­setzenden durch einen Rollenwandel hin zu Post-Editoren und eine damit verbundene mögliche berufliche Entwertung, die Gefahr der Reduktion aktiver Sprachkompetenz durch zunehmende Abhängigkeit von maschinellen Lösungen, begrenzte Leistung bei hochspezialisierten oder ter­minologisch komplexen Texten sowie die Möglichkeit ungenauer oder fehlerhafter Ausgaben bei Themen außerhalb der Trainingsdaten (Ruoqi et al., 2023, Amini et al., 2024 und Siu, 2023).

Inwieweit ein Large Language Model wie ChatGPT aktuell dazu in der Lage ist, eine tatsäch­liche Bedrohung für das Berufsbild des Literaturübersetzenden darzustellen, soll in dieser Ar­beit untersucht werden.

4 Vergleich von NMÜ und LLMs

Wie genau unterscheiden sich klassische NMÜ-Systeme von modernen LLMs? Um dieser Frage nachzugehen, werden im Folgenden mehrere aktuelle Studien beleuchtet, die spannende Einblicke in das Übersetzungsverhalten beider Systemarten geben. Dabei stehen vier zentrale Elemente im Fokus: Erstens in Abgrenzung zur menschlichen Übersetzung, zweitens die jewei­ligen Fähigkeiten der Systeme, drittens deren Bewertung durch automatische und menschliche Evaluationsmethoden sowie viertens die spezifischen Herausforderungen im Kontext literarischer Übersetzung. Anhand dieser Grundlage lässt sich ein differenziertes Bild der Stär­ken und Schwächen von NMÜ und LLMs im Übersetzungsprozess darstellen.

4.1 In Abgrenzung zur menschlichen Übersetzung

Sizov et al. (2024) untersuchten, inwiefern Übersetzungen großer Sprachmodelle (LLMs), neu­ronaler maschineller Übersetzungssysteme (NMÜs) und menschlicher Übersetzungen (HTs) sich voneinander unterscheiden. Ziel war es, linguistische Merkmale zu identifizieren, anhand derer maschinell erzeugte Übersetzungen von ursprünglich in der Zielsprache verfassten Texten unterschieden werden können.

Dazu setzten die Autoren und Autorinnen zwei Verfahren ein: Leave-One-Out (LOO) und In­tegrated Gradients (IG). Beide Methoden dienen dazu, jene lexikalischen Elemente sichtbar zu machen, die besonders ausschlaggebend dafür sind, ob ein Satz als Originaltext oder als Über­setzung erkannt wird. Die Analyse verlief dabei zweistufig: Im ersten Schritt klassifizierte ein automatisiertes Verfahren Sätze danach, ob sie als originalsprachlich oder übersetzt einzustufen sind. Im zweiten Schritt wurden die auffälligsten sprachlichen Merkmale extrahiert und einge­hender analysiert. Als Datengrundlage diente der MPDE-Datensatz, der sowohl Originaltexte als auch deren Übersetzungen enthält. Untersucht wurden Übersetzungen von menschlichen Übersetzenden ebenso wie maschinelle Ergebnisse, darunter solche von DeepL, Google Trans­late sowie von großen Sprachmodellen wie TowerInstruct-7B-v0.2 und Gemma-7B.

Die Analyse zeigte, dass maschinelle Übersetzungen, sowohl von NMÜs als auch von LLMs, systematisch von menschlichen Übersetzungen und Originaltexten abweichen. NMÜs erzeugen tendenziell wörtlichere, strukturell homogenere Sätze, während LLMs stilistisch näher an menschliche Übersetzungen heranreichen, aber dennoch maschinell erkennbar bleiben. Insbe­sondere bei der Verwendung von Adverbien und Hilfsverben weisen LLMs eine deutlichere Annäherung an menschliche Muster auf als klassische NMÜ-Systeme.

Eine ähnliche Untersuchung von Jiang et al. (2024a) geht darüber hinaus, indem sie die stilis­tischen Unterschiede zwischen den drei Übersetzungsarten (HT, NMÜ und ChatGPT) genauer analysiert. Anhand eines Korpus diplomatischer Sprechertexte sowie maschineller Lernverfah­ren und multidimensionaler Analyse zeigte sich, dass ChatGPT-Übersetzungen stilistisch stär­ker an NMÜ-Ergebnisse als an HT heranreichen. Während menschliche Übersetzungen formel­ler, vorsichtiger und zurückhaltender im Ausdruck sind, neigen ChatGPT-Übersetzungen zu mehr Direktheit, evaluativer Sprache und einem informelleren Ton.

4.2 Fähigkeiten

Zeng & Liang (2024) untersuchten, ob große Sprachmodelle wie GPT-4 besser für maschinelle Übersetzung geeignet sind als klassische neuronale Übersetzungsmodelle wie Google Trans­late. Dabei lag der Fokus auf vier Kriterien: Übersetzungsqualität, interaktive Fähigkeiten, Ein­bindung externen Wissens sowie Domänenanpassung. Sie verglichen GPT-4 und Google Trans­late anhand der WMT-2019-Daten für Chinesisch-Englisch und Deutsch-Englisch.

Zunächst wurde die Übersetzungsqualität mithilfe des COMET-Scores bewertet. Dabei übertraf GPT-4 Google Translate bei Chinesisch-Englisch, lag aber zunächst bei Englisch-Chinesisch zurück. Durch ein „Refinement“-Prompt konnte GPT-4 jedoch auch dort Google Translate überholen.

Im Hinblick auf die Interaktivität zeigte sich, dass GPT-4 durch einfache natürliche Sprachein­gaben effektiv zur Verbesserung von Übersetzungen genutzt werden kann. Ein Beispiel zeigte, dass GPT-4 durch einen einfachen Refinement-Prompt „Please review and polish the translation result” (Zeng & Liang, 2024: 3) fehlerhafte Wortbedeutungen korrigieren und stilistische Ver­besserungen vornehmen konnte - ähnlich wie menschliche Übersetzende beim Überarbeiten ihrer Texte.

Die Fähigkeit zur Integration von externem Wissen wurde anhand von Named-Entity-Fehlern überprüft. In 20 Fällen fehlerhafter Übersetzungen von Eigennamen konnte GPT-4 durch ge­zielte Prompts „Please retranslate the sentence, and note that the [NE in source] should be trans­lated as [NE in target]“ (Zeng & Liang, 2024: 3) sämtliche Fehler korrigieren. Dies zeigt, dass GPT-4 durch einfache Benutzereingaben spezifisches Wissen übernehmen kann - eine Auf­gabe, die bei traditionellen NMÜ-Modellen mit erheblichem technischem Aufwand verbunden ist.

Auch im Bereich der Domänenanpassung lieferte GPT-4 überzeugende Ergebnisse. Anhand ei­nes deutsch-englischen Datensatzes aus den Bereichen Medizin und Recht (OPUS Multi-Do­main Dataset) konnte gezeigt werden, dass GPT-4 mit gezielten Prompts wie „You are an expert in [DOMAIN]...” (Zeng & Liang, 2024: 3) oder durch Beispiel-Sätze aus dem jeweiligen Fach­gebiet seine Übersetzungen deutlich verbessern konnte. Die besten Ergebnisse wurden jeweils durch unterschiedliche Strategien erzielt: Im medizinischen Bereich brachte die Nennung des Bereichs den größten Effekt, während im juristischen Bereich die Verwendung von Zielsatz­Beispielen besonders hilfreich war.

Zusammenfassend zeigten die Ergebnisse, dass große Sprachmodelle - insbesondere GPT-4 - herkömmliche NMÜ-Systeme in mehreren zentralen Bereichen übertreffen können, insbeson­dere wenn sie durch gezielte Prompts oder leichtes Finetuning angepasst werden.

4.3 Automatische vs. humane Evaluation

Jiang et al. (2024b) untersuchten in ihrer Studie, inwieweit sich automatische Bewertungsme­thoden und menschliche Qualitätsurteile bei maschinellen Übersetzungen decken. Ziel war es, mögliche Übereinstimmungen und Diskrepanzen zu identifizieren und zu ermitteln, welche As­pekte der Übersetzungsqualität durch automatische Metriken möglicherweise nicht erfasst wer­den.

Untersucht wurden Übersetzungen politisch-diplomatischer Texte, konkret 6.878 Redebeiträge von Pressesprecherinnen und Pressesprechern des chinesischen Außenministeriums, die pro­fessionell ins Englische übertragen wurden. Diese dienten als Grundlage für den Vergleich der Übersetzungsqualität von ChatGPT (GPT-3.5-Turbo) in drei unterschiedlichen Prompting-Sze- narien (0-shot, 1-shot und kontextbasiert) mit der Leistung dreier etablierter NMÜ-Systeme: Google Translate, Microsoft Translate und DeepL. Für die Evaluation kamen zum einen vier gängige automatische Metriken - BLEU, chrF, BERTScore und COMET - zum Einsatz, zum anderen wurde eine umfassende qualitative Bewertung anhand des DQF-MQM-Fehlerklassifi- kationssystems vorgenommen. Diese qualitative Analyse erfolgte durch professionelle Über­setzerinnen und Übersetzer im Rahmen eines systematisch dokumentierten Verfahrens.

Die Ergebnisse zeigen, dass ChatGPT insbesondere unter der 1-shot-Bedingung die qualitativ besten Ergebnisse erzielte - noch vor den getesteten NMÜ-Systemen. Bereits die Bereitstellung eines einzigen Übersetzungsbeispiels führt zu einer signifikanten Qualitätssteigerung. Beson­ders auffällig ist, dass diese Verbesserung primär in der menschlichen Evaluation sichtbar wurde, während sich in den Scores der automatischen Metriken kaum eine Veränderung zeigte. Die Studie legt damit offen, dass automatische Bewertungsverfahren vorrangig auf formale Kriterien wie N-Gramm-Übereinstimmungen fokussieren und semantische, kulturelle oder sti­listische Aspekte der Übersetzung kaum adäquat abbilden.

Jiang et al. (2024b) kommen zu dem Schluss, dass automatische Metriken zwar eine erste Ori­entierung bieten können, jedoch keinesfalls als alleinige Grundlage zur Qualitätsbewertung ma­schineller Übersetzungen dienen sollten. Für kontextuell, stilistisch oder kulturell anspruchs­volle Texte bleibt die menschliche Evaluation trotz ihres Aufwands unverzichtbar. Darüber hin­aus verdeutlichen die Ergebnisse das Potenzial gezielten Prompt Engineerings zur Optimierung von LLM-Übersetzungen - ein Potenzial, das durch aktuelle automatische Bewertungsmetho­den noch nicht adäquat erfasst werden kann.

4.4 Literarische Übersetzung als Herausforderung

Karabayeva & Kalizhanova (2024) widmeten sich in ihrer Studie der Frage, inwieweit KI-ge- stützte Übersetzungssysteme - konkret ChatGPT und DeepL - in der Lage sind, literarische Texte adäquat zu übertragen. Im Fokus standen dabei insbesondere kreative und rhetorische Elemente wie Metaphern, Reime und bildhafte Sprache, die hohe Anforderungen an die sprach­liche Sensibilität und stilistische Kompetenz von Übersetzenden stellen.

Als Untersuchungsgrundlage diente ein Korpus ausgewählter Textpassagen aus Neil Gaimans Roman Coraline, der eine Vielzahl stilistischer Mittel wie Metaphern, Alliterationen und bild­hafte Sprache enthält. Etwa fünfzehn kurze Passagen wurden jeweils mit der Standardfunktion von ChatGPT und DeepL ins Russische übersetzt. Die Auswertung erfolgte qualitativ anhand der Kriterien Genauigkeit (semantische Treue), Sprachflüssigkeit (Grammatik und Natürlich­keit) und Erhaltung rhetorischer Stilmittel. Zusätzlich wurde ChatGPT mithilfe gezielter Prompts auf die stilistischen Merkmale hingewiesen, um das Potenzial menschlicher Steuerung im Übersetzungsprozess zu erproben. Darüber hinaus wurden die Ergebnisse zudem mit pro­fessionellen menschlichen Übersetzungen verglichen.

Beide Systeme konnten unkomplizierte, beschreibende Passagen mit hinreichender Genauig­keit übertragen, stießen jedoch bei komplexeren, metaphorischen oder kulturell geprägten In­halten an ihre Grenzen. DeepL neigte dazu, Metaphern wörtlich zu übertragen, wodurch Be­deutungsnuancen verloren gingen. In einigen Fällen gelang ChatGPT eine sinngemäße Um­schreibung, wenngleich das Modell bei seltenen oder kulturell spezifischen Metaphern eben­falls an seine Grenzen stieß. Hinsichtlich der Sprachflüssigkeit überzeugte DeepL durch durch­gehend grammatikalisch korrekte Ausgaben, während ChatGPT mitunter kleinere grammatika­lische Unregelmäßigkeiten aufwies - jedoch die Fähigkeit zeigte, diese bei entsprechender Rückmeldung eigenständig zu korrigieren. Die größten Schwächen zeigten beide Systeme bei der Reproduktion literarischer Stilmittel wie Reim, Alliteration, bildhafte Sprache, Tonalität und emotionale Nuancen. Selbst bei gezielter menschlicher Steuerung gelang es ChatGPT nur in begrenztem Maße, die Qualität in diesen Bereichen zu verbessern.

Die Untersuchung verdeutlicht die gegenwärtigen Grenzen maschineller Übersetzung im lite­rarischen Bereich. Während ChatGPT und DeepL bei der Übertragung sachlicher Inhalte be­achtliche Ergebnisse liefern, fehlt es beiden Systemen an kreativem Ausdruck, stilistischer

Feinfühligkeit und kultureller Sensibilität. Besonders ChatGPT zeigt Potenzial für Optimierun­gen durch interaktive Anleitung, was hybride Arbeitsformen zwischen Mensch und Maschine als zukunftsweisend erscheinen lässt. Dennoch bleibt die kreative Leistung menschlicher Über­setzerinnen und Übersetzer im literarischen Kontext bislang unerreicht.

5 Evaluierung maschineller Übersetzung

5.1 Humane Evaluierungsmethoden

Chatzikoumi (2020) unterscheidet menschliche Bewertungsmethoden für maschinelle Überset­zungen danach, ob die Beurteilenden ihre Einschätzungen explizit äußern oder nicht. Dabei werden zwei grundlegende Typen identifiziert: explizit oder implizit geäußerte, urteilsbasierte Evaluationsverfahren.

Explizit geäußerte urteilsbasierte Evaluierungsverfahren (DEJ) basieren darauf, dass menschli­che Fachpersonen ihre Einschätzung zur Qualität der Übersetzung unmittelbar und subjektiv mitteilen. Dabei äußern sie ihre Bewertungen etwa durch Aussagen wie „gut“ oder „besser als“ und stützen sich dabei auf zwei wesentliche Kriterien: Angemessenheit und Flüssigkeit. In der Regel erfolgt die Bewertung durch einen Vergleich zwischen dem Ausgangstext und dem Ziel­text oder zwischen dem Zieltext und einer Referenzübersetzung. Am häufigsten kommt dabei eine Fünf-Punkte-Skala zum Einsatz, wobei auch Varianten mit vier oder sieben Stufen ver­wendet werden. Die Angemessenheit bezieht sich auf die inhaltliche Richtigkeit der Überset­zung, während die Flüssigkeit Aspekte wie Grammatik und natürliche Sprachverwendung um­fasst.

Eine weitere direkte Bewertungsmethode ist das Ranking mehrerer Übersetzungen nach Qua­lität. Dabei gibt es zwei Ansätze: Bei der „Quick Comparison“ wird die beste von drei Überset­zungen ausgewählt, während bei „Rank Translations“ mehrere Übersetzungen in eine Rang­folge gebracht werden.

Zusätzlich existiert das sogenannte „Direct Assessment“, bei dem Nutzer und Nutzerinnen die Qualität maschineller Übersetzungen auf einer kontinuierlichen Skala - etwa einer 100-Punkte- Skala - bewerten. Der Fokus liegt hierbei meist auf der Angemessenheit. Diese Methode kann entweder auf dem Ausgangs- oder dem Zieltext basieren und zielt darauf ab, den Grad der Übersetzungsqualität zu erfassen, anstatt lediglich eine Rangordnung zu erstellen (Chatziko- umi, 2020: 146-149).

Im Gegensatz zu expliziten Bewertungsmethoden basieren implizit geäußerte urteilsbasierte Evaluierungsverfahren (non-DEJ) auf indirekten Einschätzungen durch Menschen. Dazu zäh­len unter anderem halbautomatische Metriken sowie aufgabenbasierte Evaluierungen.

Halbautomatische Verfahren, auch als Human-in-the-Loop-Evaluierungen bekannt, kombinie­ren automatische Metriken mit menschlichem Urteil. Bekannte Beispiele sind HTER, HBLEU und HMETEOR. Diese Methoden nutzen maschinelle Voranalysen, die anschließend durch menschliche Bewertungen ergänzt oder überprüft werden.

Aufgabenbasierte Evaluierungen hingegen messen die Qualität maschineller Übersetzungen anhand konkreter Anwendungsaufgaben. Dazu gehören etwa: das Erkennen relevanter Infor­mationen, das Beantworten von Fragen zum Text, oder das Ausfüllen von Lücken in Referenz­übersetzungen.

In diesen Fällen bewerten die Teilnehmenden nicht direkt die Übersetzung, sondern führen Auf­gaben aus, die ein Verständnis oder eine Interaktion mit dem übersetzten Text erfordern. Bei­spiele sind Klassifizierungsaufgaben, Fehleranalysen oder Korrekturen maschineller Überset­zungen.

Ein weit verbreiteter Ansatz ist die Fehlerklassifikation und -analyse, bei der unter anderem das Multidimensional Quality Metrics (MQM)-Modell zum Einsatz kommt. Dieses wurde im Rah­men des QTLaunchPad-Projekts entwickelt und definiert Standards für die Qualitätsbewertung von Übersetzungen.

Der MQM-Ansatz umfasst: die Auswahl relevanter Qualitätsdimensionen, die Festlegung spe­zifischer Fehlerkategorien sowie die Annotation von Fehlern mithilfe von Tools wie translate5. Fehler werden auf einer vierstufigen Skala gewichtet: keine, geringfügig, schwerwiegend und kritisch.

Zu den zentralen MQM-Fehlerkategorien (MQM, 2025) zählen:

• Terminology, also Fehler, die entstehen, wenn Begriffe nicht den etablierten Standards entsprechen oder keine äquivalente Entsprechung in der Zielsprache sind.
• Accuracy, also Fehler, die aus Verzerrungen, Auslassungen oder Hinzufügungen resul­tieren, was zu einer Nichtübereinstimmung mit der Bedeutung des Ausgangstextes führt.
• Linguistic Conventions, also Grammatik-, Idiomatik- oder Rechtschreibfehler.
• Style, also Stilabweichungen oder unangemessener Sprachgebrauch.
• Locale Conventions, also die Missachtung regionaler oder formaler Vorgaben.
• Audience Appropriateness, also ungeeignete Inhalte für die Zielgruppe.
• Design and Markup, also Probleme bei Layout, Formatierung oder Medieneinbindung.
• Custom, also Fehler, die keiner der vorherigen Kategorien zugeordnet werden können.

Jede dieser Kategorien kann weiter untergliedert werden, um eine präzisere Fehleranalyse zu ermöglichen, deren detaillierte Auflistung jedoch den Rahmen dieser Darstellung sprengen würde.

Ein weiterer zentraler Evaluierungsansatz ist das Postediting, also die Nachbearbeitung maschi­nell erzeugter Übersetzungen. Dabei unterscheidet man: Full Postediting, das eine vollständige Angleichung an eine hochwertige menschliche Übersetzung anstrebt und Light Postediting, das sich auf minimale Korrekturen zur Verbesserung der Verständlichkeit beschränkt.

Der Postediting-Prozess umfasst typischerweise die Identifikation von Übersetzungsfehlern durch den Vergleich von Ausgangs- und Zieltext, die Erkennung sprachlicher Fehler in der Ziel­sprache, die Korrektur dieser Fehler, sowie abschließendes Korrekturlesen. Diese Schritte ver­laufen oft parallel und nicht strikt nacheinander.

Die Kombination von Postediting mit Fehlerklassifikation ermöglicht eine tiefgreifende Ana­lyse der Übersetzungsqualität: Fehler werden zunächst kategorisiert und anschließend durch geeignete Übersetzungsalternativen ersetzt. Dieser parallele Ablauf verbessert die Fehlererken­nung und unterstützt eine effiziente Annotation (vgl. Chatzikoumi, 2020: 149-155).

5.2 Maschinelle Evaluierungsmethoden

Die automatische Qualitätsbewertung (QE) ist ein zentrales Instrument zur Beurteilung maschi­neller Übersetzungen, da sie wichtige Hinweise auf die Verlässlichkeit automatisch erzeugter Inhalte liefert. Sie unterstützt Nutzerinnen und Nutzer dabei, die Qualität einer Übersetzung besser einzuschätzen, etwa um zu entscheiden, ob ein Text direkt verwendet oder nachbearbeitet werden sollte. Zudem ermöglicht sie die gezielte Kennzeichnung von Wörtern, die einer Über­arbeitung bedürfen.

QE kann auf zwei Ebenen erfolgen: Wort- und Satzebene. Auf Wortebene wird jedem übersetz­ten Wort ein Qualitätslabel wie „OK“ oder „BAD“ zugewiesen. Zusätzlich werden auch Zwi­schenräume zwischen Wörtern analysiert, um fehlenden Kontext zu identifizieren. Auch Wörter im Ausgangstext können markiert werden, wenn sie falsch übersetzt oder ausgelassen wurden. Auf Satzebene zielt die Bewertung darauf ab, die Gesamtqualität einer Übersetzung vorherzusagen. Dabei werden unter anderem Faktoren wie die geschätzte Bearbeitungszeit durch einen Menschen oder die Anzahl notwendiger Korrekturen berücksichtigt (Kepler et al., 2019: 117-118).

Im Folgenden werden verschiedene automatische Evaluierungsmethoden vorgestellt, bevor be­gründet wird, weshalb in dieser Arbeit die Wahl auf TransQuest fiel.

5.2.1 BLEU

BLEU, kurz für „ B i L ingual E valuation U nderstudy“ (Papineni et al., 2002) zählt zu den frü­hesten und am weitesten verbreiteten Metriken zur automatischen Bewertung maschineller Übersetzungen. Ziel dieser Methode ist es, eine schnelle, kostengünstige und sprachunabhän­gige Evaluierung zu ermöglichen, die möglichst gut mit menschlichen Urteilen übereinstimmt. Sie bietet Entwicklerinnen und Entwicklern eine effiziente Möglichkeit, Übersetzungsmodelle regelmäßig zu überprüfen und gezielt weiterzuentwickeln.

BLEU bewertet die Qualität einer maschinellen Übersetzung (Hypothese), indem sie mit einer oder mehreren Referenzübersetzungen verglichen wird. Grundlage ist der Vergleich von n­Grammen - also Wortfolgen unterschiedlicher Länge. Je mehr Übereinstimmungen zwischen Hypothese und Referenz auf verschiedenen n-Gramm-Ebenen bestehen, desto höher fällt der BLEU-Wert aus. Dadurch werden sowohl einzelne Wörter als auch längere Phrasen berück­sichtigt.

Die Metrik basiert auf dem Konzept der Precision, um die Übereinstimmung zwischen einer Hypothese und einer Referenz zu bestimmen. Dabei wird ermittelt, wie viele Wörter der Hypo­these auch in der Referenz vorkommen, wobei dieser Wert durch die Gesamtanzahl der Wörter in der Hypothese geteilt wird. Je höher die Anzahl der Übereinstimmungen, desto besser wird die Übersetzungsqualität eingeschätzt. Um jedoch Verzerrungen durch Wortwiederholungen in der Hypothese zu vermeiden, kommt das Prinzip der modified n-gram precision zum Einsatz: Übereinstimmende n-Gramme werden nur einmal gezählt, selbst wenn sie mehrfach auftreten.

Die Berechnungen der Metrik erfolgen nicht auf Satzebene, sondern über das gesamte Testkor­pus hinweg, wodurch ein ausgewogeneres Gesamtbild der Übersetzungsleistung entsteht. Da­bei liegt der BLEU-Score zwischen 0 und 1, wobei 1 eine perfekte Übereinstimmung mit der Referenz bedeutet.

Trotz alldem weist BLEU auch einige Einschränkungen auf. So berücksichtigt die Metrik kei­nen Recall, da ausschließlich erfasst wird, welche Bestandteile der Hypothese in der Referenz vorkommen - nicht jedoch, welche relevanten Elemente aus der Referenz in der Hypothese fehlen. Zudem kann es zu Verzerrungen kommen, wenn die Hypothese deutlich kürzer als die Referenz ist. In solchen Fällen greift die sogenannte Brevity Penalty, eine Strafkomponente, die aktiviert wird, sobald die Länge der Hypothese unter der der Referenz liegt; ist die Hypothese hingegen länger, bleibt dieser Strafwert bei 1 und hat keinen Einfluss. Dies kann dazu führen, dass kürzere, inhaltlich möglicherweise dennoch adäquate Übersetzungen schlechter bewertet werden. Eine weitere Schwäche besteht darin, dass BLEU die Wortreihenfolge lediglich anhand von n-Grammen beurteilt und damit die syntaktische Struktur oder kohärente Satzlogik nicht zuverlässig widerspiegelt (vgl. Papineni et al., 2002: 311-315).

Alles in allem fassen Papineni et al. (2002: 311) das Ziel von BLEU treffend zusammen: „The closer a machine translation is to a professional human translation, the better it is.“

5.2.2 BERTScore

BERTScore (Zhang et al., 2019) ist eine automatische Bewertungsmetrik für Textgenerierung, die sich deutlich von klassischen n-grammbasierten Verfahren unterscheidet. Statt auf reine Wortübereinstimmungen zu setzen, nutzt BERTScore kontextualisierte Worteinbettungen, um die semantische Ähnlichkeit zwischen einer maschinellen Übersetzung (Hypothese) und einer Referenz zu erfassen. Dabei zeigt sich eine höhere Korrelation mit menschlichen Bewertungen, sowohl auf System- als auch auf Segmentebene.

Die Ähnlichkeit wird durch die Summierung der Kosinusähnlichkeit zwischen den Einbet­tungsvektoren der Tokens beider Texte berechnet. Dabei berücksichtigt BERTScore den Kon­text, in dem ein Wort verwendet wird, was eine differenziertere Bewertung ermöglicht - insbe­sondere bei semantischen Verschiebungen oder syntaktisch komplexen Strukturen.

Ein zentrales Merkmal ist die gewichtete Bewertung der Tokens, wodurch wichtigere Wörter stärker in die Bewertung einfließen. Die Tokenisierung erfolgt auf Wortteil-Ebene, was auch die Verarbeitung unbekannter Wörter ermöglicht. Die Einbettungen werden mithilfe eines Transformer-Encoders erzeugt, der auf selbstaufmerksamen Mechanismen basiert.

Die finale BERTScore-Bewertung ergibt sich aus der Precision, den Anteil der Tokens in der Hypothese, der mit der Referenz übereinstimmt, und dem Recall, also dem Anteil der Tokens in der Referenz, der in der Hypothese wiederzufinden ist. Diese beiden Werte werden zu einer F1-Measure kombiniert, die einen Gesamtwert zwischen 0 und 1 liefert.

Obwohl BERTScore auf umfangreich vortrainierten Modellen basiert, ist die Berechnung ver­gleichsweise effizient. Selbst für große Test- und Validierungsdatensätze bleibt der Anstieg der Verarbeitungszeit gering, sodass sich die Metrik gut für den Einsatz in Evaluationsprozessen eignet (vgl. Zhang et al., 2019: 1-8).

BERTScore basiert auf dem Konzept der Worteinbettung, bei dem Wörter als numerische Vek­toren in einem mehrdimensionalen Raum dargestellt werden. Diese Vektoren erfassen seman­tische und grammatikalische Relationen zwischen Wörtern, wobei die Distanz zwischen zwei Vektoren ein Maß für ihre semantische Ähnlichkeit darstellt. Je näher sich zwei Wörter in die­sem Raum befinden, desto ähnlicher sind sie in ihrer Bedeutung. Die Vielzahl der Dimensionen ermöglicht es, verschiedene Beziehungen zwischen Wörtern gleichzeitig abzubilden, wodurch sowohl semantische als auch grammatikalische Muster erfasst werden können (vgl. Hirschle, 2022: 129-133; Fick, 2018: 35-37).

5.2.3 Hjerson

Hjerson (Popovic, 2011) ist ein Tool zur automatisierten Fehlerklassifikation in der maschinel­len Übersetzung. Es analysiert Übersetzungen auf Wortebene und ordnet erkannte Fehler in fünf Hauptkategorien ein: morphologische Fehler, Fehler in der Wortreihenfolge, fehlende Wörter, zusätzliche Wörter sowie lexikalische Fehler.

Die Fehlerklassifikation erfolgt durch den Vergleich einer maschinellen Übersetzung (Hypo­these) mit einer Referenzübersetzung. Dabei werden sowohl die Originalformen der Wörter als auch deren Basisformen berücksichtigt. Zusätzlich können weitere Informationen auf Wort­ebene integriert werden, um eine differenziertere Analyse zu ermöglichen.

Zur Identifikation von Fehlern nutzt Hjerson verschiedene Metriken, darunter die Edit-Dis­tance-Rate sowie die Word-Error-Rate (WER) zur Erfassung von Ersetzungen, Löschungen und Einfügungen sowie positionsunabhängige Metriken, die auf Precision und Recall basieren wie Reference Position-Independent Error Rate (RPer) zur Erfassung von Wörtern, die in der Re­ferenz vorkommen, aber in der Hypothese fehlen und Hypothesis Position-Independent Error Rate (HPer) zur Erfassung von Wörtern, die in der Hypothese vorkommen, aber nicht in der Referenz.

Um eine präzisere Fehlerklassifikation zu gewährleisten, ergänzt Hjerson die Analyse um die Basisformen der Wörter. Dies ermöglicht eine detailliertere Einteilung der Fehler. Morphologi­sche Fehler treten auf, wenn die Wortformen nicht übereinstimmen, die Basisformen jedoch schon. Fehler in der Wortreihenfolge treten auf, wenn die Wörter in beiden Texten vorhanden sind, aber an unterschiedlichen Positionen. Fehlende Wörter sind Löschungen, Wörter aus der Referenz, die in der Hypothese fehlen. Zusätzliche Wörter sind Einfügungen, Wörter in der Hypothese, die nicht in der Referenz vorkommen. Als lexikalische Fehler werden alle übrigen Fehler, die keiner der obigen Kategorien zugeordnet werden können, bezeichnet.

Hjerson liefert sowohl absolute Fehlerzahlen als auch normalisierte Fehlerquoten auf Satz- und Dokumentebene. Die Ergebnisse können als Text- oder HTML-Dateien ausgegeben werden, wobei die betroffenen Wörter farblich markiert sind. Das Tool ist grundsätzlich sprachunabhän­gig, setzt jedoch die Verfügbarkeit von Basisformen in der jeweiligen Zielsprache voraus. Feh­len diese, kann insbesondere die Erkennung morphologischer Fehler beeinträchtigt sein - ein Nachteil bei morphologisch komplexen Sprachen.

5.2.4 OpenKiwi

OpenKiwi (Kepler et al., 2019) ist ein auf PyTorch basierendes Open-Source-Framework zur automatischen Qualitätsbewertung maschineller Übersetzungen. Es unterstützt sowohl das Training als auch das Testen von Quality Estimation (QE)-Systemen auf Wort- und Satzebene und integriert mehrere leistungsstarke Modelle, die bei den WMT-Wettbewerben (2015-2018) erfolgreich eingesetzt wurden.

Zu den zentralen Merkmalen von OpenKiwi zählen die Integration von fünf QE-Modellen, da­runter QUETCH (Kreutzer et al., 2015), NUQE (Martins et al., 2016, 2017), Predictor-Estima­tor (Kim et al., 2017; Wang et al., 2018), APE-QE (Martins et al., 2017) sowie ein Stacked Ensemble (Martins et al. 2017), die Nutzung von PyTorch unter Python 3, eine benutzerfreund­liche API, die sich sowohl in bestehende Projekte integrieren als auch über die Kommandozeile ausführen lässt, die Möglichkeit zum Training eigener Modelle, die Bereitstellung vortrainierter Modelle (z. B. auf WMT 2018-Daten), die Verwendung von YAML-Konfigurationsdateien zur Dokumentation und Reproduzierbarkeit, sowie eine Open-Source-Lizenz (Affero GPL).

OpenKiwi integriert mehrere leistungsfähige Modelle zur automatischen Qualitätseinschätzung maschineller Übersetzungen, die auf unterschiedlichen Ansätzen basieren. Eines der frühesten Modelle ist QUETCH (Kreutzer et al., 2015), das auf einem mehrschichtigen Perzeptron mit einer einzigen versteckten Schicht und tanh -Aktivierungsfunktionen basiert. Es verwendet eine Wort-Einbettungsschicht, um Wörter in numerische Vektoren zu überführen, und berücksichtigt für jedes Zielwort ein festes Kontextfenster im Zieltext sowie einen entsprechenden Ausschnitt aus dem Ausgangstext, basierend auf Wortalignments. Die resultierenden Informationen werden kombiniert und über eine Softmax-Schicht klassifiziert, die die Wahrscheinlichkeit an­gibt, ob ein Wort korrekt (OK) oder fehlerhaft (BAD) ist. QUETCH wird separat für Zieltext, Ausgangstext und Lücken trainiert und verzichtet bewusst auf externe Trainingsdaten.

NuQE (Martins et al., 2016) ist ein neuronales Modell, das zur automatisierten Bewertung der Übersetzungsqualität auf Wortebene entwickelt wurde. Ziel ist es, jedes Wort in einem maschi­nell erzeugten Satz als entweder korrekt (OK) oder fehlerhaft (BAD) zu klassifizieren. Hierfür kombiniert das Modell Embeddings von Zielwörtern mit denen der jeweils zugeordneten Wör­ter im Ausgangstext. Diese kombinierten Repräsentationen werden anschließend durch zwei Feedforward-Schichten sowie eine bidirektionale Gated Recurrent Unit (GRU) verarbeitet. Die finale Entscheidung über die Wortklassifikation erfolgt über eine Softmax-Schicht, die Wahr­scheinlichkeiten für die beiden Klassen ausgibt. Ein besonderes Merkmal von NuQE ist, dass es verschiedene Arten von Wortpositionen separat behandelt: Wörter im Zieltext, Lücken zwi­schen diesen Wörtern sowie Wörter im Ausgangstext. Für jede dieser Kategorien wird ein ei­genes Modell trainiert - so können die spezifischen Eigenschaften der einzelnen Elemente ge­zielter erfasst werden. NuQE folgt dem sogenannten Blackbox-System, was bedeutet, dass es ausschließlich mit den offiziellen Daten aus der jeweiligen Aufgabe trainiert wird. Es greift also nicht auf zusätzliche Trainingsdaten oder externe Hilfsmittel zurück.

APE-QE (Martins et al. 2017) nutzt Automatic Post-Editing (APE) als Zwischenschritt zur Qua­litätseinschätzung. Dabei wird ein APE-System auf Grundlage menschlicher Korrekturen trai­niert. Die dabei entstehenden sogenannten Pseudo-Post-Edits dienen anschließend als Grund­lage zur Ableitung von Qualitätsbewertungen. Auf Basis dieser Ausgaben lassen sich sowohl Labels auf Wortebene als auch Bewertungen auf Satzebene generieren, wodurch eine differen­zierte Einschätzung der Übersetzungsqualität ermöglicht wird.

Das Predictor-Estimator-Modell (Kim et al., 2017) kombiniert zwei aufeinander abgestimmte Komponenten zur Bewertung der Übersetzungsqualität auf Wortebene. Die erste Komponente, der Predictor, prognostiziert für jedes Zielwort das wahrscheinlich folgende Wort, wobei so­wohl der Ausgangstext als auch der Kontext im Zieltext berücksichtigt werden. Die zweite Komponente, der Estimator, nutzt die vom Predictor erzeugten Informationen, um jedes Ziel­wort als korrekt (OK) oder fehlerhaft (BAD) zu klassifizieren.

Technisch basiert das Modell auf rekurrenten neuronalen Netzen: Der Ausgangstext wird durch ein bidirektionales Long Short-Term Memory (LSTM) verarbeitet, während der Zieltext von zwei unidirektionalen LSTMs gelesen wird - jeweils in Vorwärts- und Rückwärtsrichtung. Die daraus resultierenden Kontextrepräsentationen werden kombiniert und durch ein Attention-Mo- dul geleitet, das die finale Klassifikation unterstützt. Der Predictor wird mit umfangreichen Paralleltexten trainiert, die speziell für die WMT-Shared-Task bereitgestellt wurden. Der Esti­mator greift auf verschiedene Repräsentationen zurück, darunter die Vorhersagen des Predictors sowie die kombinierten Zustände der LSTMs nach der Verarbeitung des jeweiligen Zielworts. Darüber hinaus ist das Modell in der Lage, zusätzlich zu Wortklassifikationen auch Satzbewer­tungen in Form von HTER-Scores (Translation-Error-Rate) zu liefern. Es generiert Vorhersagen nicht nur für Zielwörter, sondern auch für Lücken im Zieltext sowie - über ein separat trainier­tes Modell - für Wörter im Ausgangstext.

Das Stacked Ensemble (Martins et al., 2017) stellt schließlich ein übergeordnetes Modell dar, das die Stärken der zuvor beschriebenen Modelle in einem gemeinsamen Framework vereint. Es kombiniert die Ausgaben der Einzelmodelle - und integriert zusätzlich lexikalische Merk­male, kontextuelle Informationen, syntaktische Strukturen sowie sprachmodellbasierte Zusatz­informationen. Ziel ist es, durch diese Kombination eine robustere und genauere Klassifikation zu ermöglichen. Das Ensemble-Modell wird ausschließlich zur Wortklassifikation in maschi­nellen Übersetzungen eingesetzt und profitiert dabei von der Vielfalt und Komplementarität der zugrunde liegenden Modelle (Kepler et al., 2019: 118-119).

5.2.5 TransQuest

TransQuest (Ranasinghe et al., 2020) ist ein Framework zur automatisierten Qualitätseinschät­zung maschineller Übersetzungen, das speziell dafür konzipiert wurde, ohne Referenzüberset­zungen auszukommen. Es fokussiert sich auf die satzbasierte Bewertung und nutzt dabei cross­linguale Transformer-Modelle und Einbettungen, um die Qualität einer Übersetzung direkt aus dem Vergleich mit dem Ausgangstext abzuleiten. Durch die gezielte Feinabstimmung dieser Modelle gelingt es TransQuest, sprachübergreifende Zusammenhänge zu erfassen, wodurch der Bedarf an großen parallelen Trainingskorpora reduziert wird. Dies macht das System besonders attraktiv für ressourcenschwache Sprachpaare und trägt zur Effizienzsteigerung bei.

Vor dem Training werden die Übersetzungen mit menschlich annotierten Qualitätslabels verse­hen, die als Zielwerte dienen. Die Grundlage von TransQuest bildet das XLM-R-Transformer- modell (Conneau et al., 2020), das Eingabesequenzen von bis zu 512 Tokens verarbeitet und sowohl eine globale Repräsentation der Sequenz (über das [CLS]-Token) als auch individuelle Wortrepräsentationen erzeugt. Diese Repräsentationen werden anschließend durch einfache Ausgabeschichten weiterverarbeitet, um einen Qualitätsscore zu berechnen. TransQuest bietet zwei Modellvarianten für die satzbasierte Qualitätsbewertung: MonoTransQuest und Siamese- TransQuest:

MonoTransQuest verwendet ein einzelnes XLM-R-Modell, dem Ausgangs- und Zieltext ge­meinsam übergeben werden, getrennt durch ein spezielles Trennzeichen (SEP). Für die Reprä­sentation der Eingabe kommen drei Strategien zum Einsatz: die CLS-Strategie, die den [CLS]- Token nutzt, die MEAN-Strategie, die den Mittelwert aller Token-Vektoren berechnet, sowie die MAX-Strategie, die das Maximum über alle Vektoren bildet. In empirischen Tests zeigte die CLS-Strategie die besten Ergebnisse. Die so gewonnene Repräsentation wird einer Soft- max-Schicht übergeben, die schließlich einen Qualitätsscore für die Übersetzung berechnet.

SiameseTransQuest hingegen verarbeitet Ausgangs- und Zieltext getrennt in zwei identischen XLM-R-Modellen. Auch hier wurden die drei Repräsentationsstrategien getestet, wobei sich in diesem Fall die MEAN-Strategie als am leistungsfähigsten erwies. Die resultierenden Vektoren beider Sätze werden anschließend über die Kosinusähnlichkeit verglichen, um die Überset­zungsqualität zu bestimmen.

Im Rahmen der WMT 2020 Sentence-Level Direct Assessment Shared Task erzielte TransQuest überdurchschnittlich gute Ergebnisse in allen untersuchten Sprachpaaren und übertraf dabei frühere Systeme wie OpenKiwi. Zudem setzt die Metrik auf eine Qualitätsbewertung ohne Re­ferenzübersetzung, weshalb sie als am besten geeignet für die folgende Studie ausgewählt wurde.

5.3 Kognitionswissenschaftliche Perspektive auf die Textbewertung

Inwiefern können Vorwissen und Erfahrung die Wahrnehmung von Übersetzungen beeinflus­sen? Im Allgemeinen ist davon auszugehen, dass Übersetzende, die über ein unzureichendes Maß an übersetzerischem Wissen verfügen, subtile Unterschiede, die eine Übersetzung in ihrer Qualität unterscheiden, nicht bemerken (Toral et al. 2018: 3). Da bislang jedoch Erkenntnisse zur Wahrnehmung von Übersetzungen durch Laien weitgehend fehlen, erscheint es sinnvoll, zunächst allgemeine Unterschiede zwischen professionellen Übersetzenden und weniger erfah­renen Personen systematisch herauszuarbeiten. Laut Ronowicz und Imanishi (2003: 27-28) las­sen sich die Leistungsunterschiede zwischen professionellen Übersetzenden und Übersetzungs­anfängern und Übersetzungsanfängerinnen in mehreren zentralen Bereichen verorten, darunter die Wortschatzkompetenz, das Lese- und Textverständnis, der Übersetzungsprozess sowie die Problemlösung und Nutzung von Ressourcen.

Professionelle Übersetzende verfügen über ein breites aktives und passives Vokabular, was ihnen eine präzisere und kontextadäquate Übersetzung ermöglicht. Angehende Übersetzende hingegen sind oft durch einen eingeschränkten Wortschatz limitiert, was sowohl das Textver­ständnis als auch die Qualität der Übersetzung beeinträchtigen kann.

Professionelle Übersetzende erfassen fachliche Texte meist bereits nach einmaligem Lesen, wodurch sie den übergeordneten Kontext sowie sprachliche und stilistische Feinheiten besser erkennen. Angehende Übersetzende benötigen hingegen mehr Zeit und kognitive Ressourcen, um komplexe Strukturen zu entschlüsseln.

Während professionelle Übersetzende größere Sinneinheiten (z. B. Absätze) analysieren und übertragen, arbeiten Anfänger und Anfängerinnen häufig linear und wortwörtlich. Dies kann zu Kohärenz- und Stilbrüchen führen, die bei einer ganzheitlichen Betrachtung des Textes auffal­len würden.

Erfahrene Übersetzende setzen gezielt Fachliteratur und Referenzmaterialien ein, wägen ver­schiedene Optionen ab und nutzen ihr sprachliches Wissen reflektiert. Weniger erfahrene Per­sonen hingegen verlassen sich oft unkritisch auf Wörterbücher und Standarddefinitionen, was die Fehleranfälligkeit erhöht.

Ein weiterer relevanter Aspekt ist das Post-Editing (PE) maschineller Übersetzungen. Eine Stu­die von Stasimioti und Sosoni (2021) zum Sprachpaar Englisch-Griechisch zeigt, dass sich der technische, zeitliche und kognitive Aufwand beim Post-Editing je nach Erfahrungsgrad deutlich unterscheidet. Unerfahrene Übersetzende zeigten eine grundsätzlich positivere Einstellung ge­genüber maschineller Übersetzung und PE, während erfahrene Übersetzende kritischer einge­stellt waren. Letztere gingen effizienter vor, führten gezieltere Korrekturen durch und waren eher bereit, unzureichende Formulierungen umzuarbeiten. Gleichzeitig neigten sie jedoch auch zu einer stärkeren Überarbeitung, was mitunter zu einer Überkorrektur führen konnte. Weniger erfahrene Übersetzende hingegen ließen häufiger Fehler im bearbeiteten Text bestehen und zeigten eine geringere Bereitschaft zur Umformulierung.

Die Fähigkeit, maschinell erzeugte literarische Übersetzungen von menschlichen zu unterschei­den, könnte maßgeblich vom Erfahrungsstand der Leserinnen und Leser abhängen. Besonders relevant ist dabei, ob Personen mit unterschiedlichem Hintergrund - etwa professionelle Über­setzende, Studierende der Übersetzungswissenschaft oder Laien - in der Lage sind, anonymi­sierte Übersetzungen korrekt zuzuordnen. In diesem Zusammenhang stellt sich die Frage, wel­che Rolle praktische Übersetzungserfahrung sowie der Umgang mit Technologien wie neuronalen maschinellen Übersetzungssystemen oder Large Language Models (LLMs) spielen. Ebenso könnte die allgemeine Lesefrequenz literarischer Texte Einfluss darauf haben, ob menschliche Stilmerkmale erkannt oder maschinelle Eigenheiten enttarnt werden.

6 Literarische Übersetzung und maschinelle Systeme

Dieses Kapitel befasst sich mit den Herausforderungen und Grenzen maschineller Übersetzung im Bereich literarischer Texte. Im Mittelpunkt stehen dabei drei zentrale Problemfelder: die kreative Dimension literarischer Übersetzung, die Übertragung sprachlicher Stilmittel sowie der Umgang mit kulturspezifischen Elementen. Anhand aktueller Studien wird aufgezeigt, in welchen Bereichen maschinelle Systeme an ihre Grenzen stoßen und welche Rolle menschliche Übersetzende weiterhin einnehmen. Abschließend erfolgt in Abschnitt 6.2 ein Vergleich zwi­schen fiktionalen und nicht-fiktionalen Texten, um den Unterschied in der Schwierigkeit der Übertragung herauszuarbeiten.

6.1 Probleme bei der maschinellen Übersetzung literarischer Texte

6.1.1 Kreativität

Kreativität wird allgemein als das Zusammenspiel von Neuheit und Effektivität verstanden. Sie zeigt sich in der Fähigkeit, etwas Neues zu schaffen oder bereits Bekanntes auf innovative Weise neu zu gestalten - stets unter Berücksichtigung des jeweiligen Kontexts und seiner An­forderungen. Im Bereich der Übersetzung bedeutet dies, dass Übersetzende kreative Lösungen finden müssen, die über eine rein wörtliche Übertragung hinausgehen und kulturell sowie situ­ativ angemessen sind. Besonders der gezielte Einsatz sogenannter Translation Shifts - bewuss­ter struktureller oder stilistischer Abweichungen vom Ausgangstext - ermöglicht es, den Sinn und die Wirkung eines Textes in der Zielsprache bestmöglich zu transportieren.

Der kreative Prozess im Übersetzen teilt sich in mehreren aufeinanderfolgenden Phasen: Er beginnt mit der Analyse und inhaltlichen Erschließung des Ausgangstextes (Vorbereitungs­phase), gefolgt von einer Phase der Lösungsfindung (Inkubation), in der verschiedene Übertra­gungsmöglichkeiten erwogen werden. Daraufhin wird eine geeignete kreative Lösung ausge­wählt und umgesetzt, ehe diese im letzten Schritt einer abschließenden Überprüfung unterzogen wird.

Zur Bewertung von Kreativität in Übersetzungen können vier zentrale Dimensionen herange­zogen werden: Akzeptabilität beschreibt, in welchem Maß die Übersetzung den Anforderungen des Übersetzungsauftrags entspricht und sprachlich korrekt ist. Flexibilität bezieht sich auf die Fähigkeit, kreativ vom Ausgangstext abzuweichen, anstatt diesen wortgetreu zu übertragen. Neuheit bewertet die Originalität der Lösung im Vergleich zu anderen Varianten. Flüssigkeit schließlich misst die Anzahl an kreativen Lösungen, die ein Übersetzer für eine bestimmte Her­ausforderung entwickelt (Guerberof-Arenas & Toral, 2022: 2-3).

Maschinelle Übersetzungssysteme stoßen insbesondere im Umgang mit der kreativen und ima­ginativen Dimension literarischer Texte an ihre Grenzen (Sharofova, 2024: 71). Studien bele­gen, dass maschinell erzeugte Übersetzungen in der Regel als weniger kreativ wahrgenommen werden. So zeigen beispielsweise die Ergebnisse von Guerberof-Arenas und Toral (2020), dass professionelle Literaturübersetzungen durchweg höhere Kreativitätsbewertungen erhielten als maschinell erzeugte oder nachbearbeitete Versionen. Insbesondere rein maschinell erzeugte Übersetzungen erzielten in Bezug auf Kreativität vergleichsweise schlechte Bewertungen - ein Befund, der unter anderem darauf zurückzuführen ist, dass maschinelle Systeme häufig wort­wörtliche Übertragungen bevorzugen. Diese Tendenz begrenzt die gestalterische Freiheit er­heblich und erschwert damit die Entwicklung innovativer, kontextspezifischer Übersetzungslö­sungen.

6.1.2 Übertragung von Stilmitteln

Ein literarisches Werk kann Metaphern, Wortspiele, Alliterationen oder andere sprachliche Stil­mittel enthalten, die in der Übersetzung möglicherweise nicht wortwörtlich übertragen werden können. Der Übersetzer muss kreative Lösungen finden, um diese Stilmittel in der Zielsprache wiederzugeben, wobei er den künstlerischen Wert des Originals berücksichtigt. (Abdelaty, 2024: 48).

Das adäquate Erfassen und Übertragen stilistischer Mittel erweist sich als eine besondere Her­ausforderung für maschinelle Übersetzungssysteme. Häufig ist eine nachträgliche Bearbeitung durch menschliche Übersetzende notwendig, um eine stimmige Übersetzung zu gewährleisten. Allerdings sind nicht alle Stilmittel gleichermaßen von einer potenziellen Unübersetzbarkeit betroffen, wie verschiedene Studien zeigen.

Crosbie et al. (2013) untersuchten, inwieweit automatische Übersetzungstools in der Lage sind, literarische Texte adäquat zu übertragen. Im Fokus stand dabei insbesondere die Frage, wie gut stilistische Merkmale bei der Übersetzung und anschließenden Rückübersetzung erhalten blei­ben. In der Studie wurden ein Prosatext und ein Gedicht aus dem Englischen in eine von 62 Zielsprachen übersetzt und anschließend ins Englische rückübersetzt. Die Ergebnisse zeigten, dass maschinelle Übersetzungen in der Lage sind, zahlreiche stilistische Elemente zu bewahren, während subtilere Aspekte häufig verloren gehen. Die Ähnlichkeitswerte zwischen Original und Rückübersetzung variierten erheblich: Die höchste Übereinstimmung lag bei 90 %, die geringste bei 32,9 %. Stilistische Elemente wie Alliteration, Anapher und Adjektivgebrauch konnten oftmals erhalten werden, während Metaphern und idiomatische Wendungen eine deut­lich höhere Fehleranfälligkeit aufwiesen. Die Studie legt nahe, dass maschinelle Übersetzungen als erstes Analyseinstrument durchaus hilfreich sein können, jedoch nicht alle stilistischen Fein­heiten eines literarischen Textes erfassen.

Digue und Campen (2022) widmeten sich gezielt der Frage, inwiefern Künstliche Intelligenz in der Lage ist, Wortspiele adäquat zu übersetzen. Untersucht wurde die Leistung verschiedener Übersetzungssysteme - darunter Google T5 und DeepL - bei der Übertragung englischer Wort­spiele ins Französische. Die Analyse differenzierte zwischen der Übersetzung isolierter Wort­spiele und ganzer Sätze, in denen Wortspiele eingebettet waren. Zur Bewertung wurden Krite­rien wie lexikalisches Feld, Sinnbewahrung und Verständlichkeit herangezogen. Von 254 Über­setzungen isolierter Wortspiele wurden 46,85 % als vollständig fehlerhaft eingestuft, da sie kei­nerlei Elemente des ursprünglichen Wortspiels enthielten. Lediglich zehn Übersetzungen er­füllten alle Bewertungskriterien und konnten sowohl Bedeutung als auch Form und humoristi­sche Wirkung des Ausgangstextes bewahren. Bei der Übersetzung ganzer Sätze fiel die Erfolgs­quote etwas höher aus: Von insgesamt 7893 Wortspielen wurden 1145 als gelungen eingestuft, das entspricht einer Erfolgsquote von etwa 14,51 %. Dabei stellten humoristisch gelungene Übersetzungen zwar keine absolute Mehrheit dar, doch lieferten viele Vorschläge zumindest auf inhaltlicher Ebene zufriedenstellende Ergebnisse: In 7442 Fällen blieb das thematische Wortfeld erhalten, und in 6217 Fällen wurde die ursprüngliche Bedeutung korrekt wiedergege­ben. 78,77 % konnten als angemessen eingestuft werden, unabhängig davon, ob der Wort­spielcharakter gewahrt wurde oder nicht. Die Studie verdeutlicht jedoch, dass die adäquate Übersetzung von Wortspielen ein tiefes Verständnis für Bedeutung und Kontext erfordert - Fä­higkeiten, die aktuellen KI-Systemen noch weitgehend fehlen. Besonders homographische Wortspiele konnten vergleichsweise gut übertragen werden, während komplexere Formen er­hebliche Schwierigkeiten bereiteten.

Ein weiteres zentrales Problemfeld für maschinelle Übersetzungen stellt die Übertragung me­taphorischer Sprache dar. Wang et al. (2024) entwickelten spezifische Evaluationskriterien, um die Qualität, Äquivalenz, emotionale Wirkung und Authentizität maschinell übersetzter Meta­phern zu analysieren. Grundlage der Untersuchung war das MOH-Dataset, das 315 metaphori­sche sowie 332 nicht-metaphorische Sätze umfasst, die ins Chinesische und Italienische übersetzt wurden. Zum Einsatz kamen vier maschinelle Übersetzungssysteme, darunter die Google Cloud Translation API, Youdao Cloud Translation API, Helsinki-NLP/opus-mt model sowie GPT-4o. Die Qualität der Übersetzungen wurde sowohl mittels automatisierter Metriken (BLEU/ROUGE, BertScore und GPT score) als auch durch manuelle Bewertungen von Mut­tersprachler und Muttersprachlerinnen der Zielsprachen beurteilt.

Die Ergebnisse zeigten, dass metaphorische Übersetzungen durch maschinelle Systeme durch­weg schlechter bewertet wurden als nicht-metaphorische. Besonders ausschlaggebend für die Qualität war die Bewahrung der metaphorischen Äquivalenz. Übersetzungen, die die metapho­rische Bedeutung vollständig bewahrten, erzielten signifikant bessere Bewertungen. Die Ergeb­nisse der Studie legen zudem nahe, dass die Bewahrung der metaphorischen Äquivalenz ent­scheidend ist, um die emotionale Wirkung des Ausgangstextes in der Übersetzung aufrechtzu­erhalten.

6.1.3 Kulturspezifik

Trotz erheblicher Fortschritte in der maschinellen Übersetzung zeigen sich weiterhin deutliche Grenzen, insbesondere bei der Übertragung kultureller Elemente. Diese Schwierigkeit ergibt sich aus der Komplexität und Vielschichtigkeit kultureller Konzepte, die ein tiefgehendes Ver­ständnis der jeweiligen Kulturen voraussetzen. Eine zentrale Herausforderung besteht darin, dass es für viele kulturspezifische Begriffe keine direkten Entsprechungen in der Zielsprache gibt. Jede Kultur verfügt über eigene, teils einzigartige Ausdrucksformen, die sich nicht ohne Bedeutungsverlust in eine andere Sprach- und Kulturgemeinschaft übertragen lassen. Zudem fungieren Sprachen nicht nur als Kommunikationsmittel, sondern spiegeln auch die Geschichte, Werte, Überzeugungen und Weltanschauungen ihrer Sprecher und Sprecherinnen wider. Die Übersetzung kultureller Elemente erfordert daher mehr als die bloße Übertragung von Wörtern; sie umfasst ebenso die Vermittlung von kulturellen Konzepten und Wertvorstellungen. Beson­ders herausfordernd ist in diesem Zusammenhang die Kontextabhängigkeit kultureller Ele­mente, deren Bedeutung je nach Situation, oder beteiligten Personen variieren kann. Dies er­schwert es, eine Übersetzung zu finden, die sowohl inhaltlich als auch emotional oder kulturell eine vergleichbare Wirkung entfaltet wie das Original. Ein weiterer zentraler Aspekt ist die Konnotation kulturspezifischer Elemente, die oftmals über die wörtliche Bedeutung hinaus­reicht. Diese Konnotationen beruhen häufig auf historischen Ereignissen, sozialen Normen oder kollektiven Erfahrungen, die mit bestimmten Begriffen assoziiert werden. Eine angemessene Übersetzung setzt daher nicht nur sprachliche Kompetenz, sondern auch ein tiefgehendes

Verständnis der kulturellen Bedeutungsnuancen voraus. Darüber hinaus erfordert die Überset­zung kulturell geprägter Inhalte eine besondere kulturelle Sensibilität. Begriffe oder Konzepte, die in einer Kultur neutral oder positiv konnotiert sind, können in einer anderen als sensibel oder gar tabu gelten. Eine unreflektierte Übersetzung birgt daher das Risiko von Missverständ­nissen oder unbeabsichtigten Beleidigungen. Schließlich ist die Dynamik kultureller Entwick­lungen zu berücksichtigen: Sprache und Kultur unterliegen einem kontinuierlichen Wandel. Ausdrucksformen, die heute geläufig sind, können morgen veraltet sein, während gleichzeitig neue kulturelle Phänomene entstehen, für die es in anderen Sprachgemeinschaften keine direk­ten Entsprechungen gibt. Diese kulturelle und sprachliche Dynamik stellt eine zusätzliche Her­ausforderung für Übersetzungssysteme dar, die nicht nur zeitlose, sondern auch gegenwartsbe­zogene Bedeutungen adäquat erfassen und übertragen müssen (Ait Lahcen 2023: 15-16).

In diesem Zusammenhang bietet die Klassifikation kultureller Referenzen nach Igareda (2011: 19-21) eine hilfreiche Grundlage für die Analyse literarischer Übersetzungen. Sie un­terscheidet unter anderem zwischen ökologischen und historischen Referenzen, sozialen Struk­turen, kulturellen Institutionen, dem gesellschaftlichen Umfeld, materieller Kultur sowie sprachlich-kulturellen Besonderheiten - einschließlich humoristischer Elemente. Diese Kate­gorien ermöglichen eine differenzierte Betrachtung der Herausforderungen, die mit der Über­setzung kulturell geprägter Inhalte verbunden sind.

Abb. in Leseprobe nicht enthalten

Tabelle 1: Kategorien zur Analyse kultureller Referenzen in der Übersetzung literarischer Texte (Igareda, 2011: 19-21)

6.2 Maschinelle Übersetzung: Fiction vs. non-fiction

Bereits 2014 untersuchte Salimi die Anwendbarkeit maschineller Übersetzungssysteme auf fik­tionale und nicht-fiktionale Texte. Im Rahmen der Studie wurden Texte beider Gattungen mit­hilfe von Google Translate aus dem Englischen ins Schwedische übersetzt. Die resultierenden Übersetzungen wurden anschließend anhand der BLEU-Metrik bewertet, um Rückschlüsse auf ihre Qualität zu ziehen. Ziel der Untersuchung war es, zu bestimmen, welche Textsorte besser für maschinelle Übersetzung geeignet ist.

Die Ergebnisse zeigten, dass nicht-fiktionale Texte mit einem BLEU-Wert von 32,16 deutlich besser abschnitten als fiktionale Texte, die lediglich einen Wert von 27,75 erreichten. Dies legt nahe, dass nicht-fiktionale Texte grundsätzlich besser für die automatisierte Übersetzung ge­eignet sind.

Die analysierten nicht-fiktionalen Texte umfassten unter anderem juristische Dokumente, Un­ternehmensberichte sowie sozialwissenschaftliche und medizinische Fachtexte. Obwohl diese Texte häufig durch komplexe und verschachtelte Satzstrukturen gekennzeichnet waren, stellte dies kein wesentliches Hindernis für die maschinelle Übersetzung dar. Ein möglicher Erklä­rungsansatz liegt in der Verwendung spezifischer Terminologie, die in der Regel wenig Inter­pretationsspielraum bietet und somit leichter von den Systemen verarbeitet werden kann.

Demgegenüber stellten fiktionale Texte eine deutlich größere Herausforderung dar, da sie häu­fig mehrere Bedeutungsebenen und sprachliche Nuancen enthalten, die eine differenzierte In­terpretation erfordern. Dies unterstreicht die anhaltende Relevanz menschlicher Übersetzung im Bereich literarischer Texte. Innerhalb der Studie wurden die fiktionalen Texte unterteilt in Kinderliteratur, Kriminalromane sowie allgemeine fiktionale Literatur, um eine differenzierte Analyse zu ermöglichen.

Besonders komplex gestaltet sich die Übertragung von Fantasy-Literatur, wie Berg­mann (2017: 28-40) hervorhebt. Neben sprachlichen Aspekten müssen hier auch kulturelle und stilistische Feinheiten berücksichtigt werden. Ein zentrales Merkmal dieses Genres ist der kul­turelle Transfer: Fantasy-Literatur entführt Leserinnen und Leser sowohl in der Ausgangs- als auch in der Zielkultur in fiktive Welten, die sich häufig weder zeitlich noch geografisch eindeu­tig verorten lassen und daher einen gewissen Grad an Entkulturalisierung aufweisen. Gleich­zeitig sind viele Fantasy-Welten eng mit realen historischen oder mythologischen Elementen verknüpft, sodass Übersetzende nicht nur mit den Genre-Konventionen vertraut sein müssen, sondern auch ein fundiertes Wissen über die kulturellen und historischen Hintergründe der Aus­gangssprache benötigen, um diese kreativ in die Zielsprache zu übertragen. Ein weiteres zent­rales Stilmerkmal vieler Fantasy-Texte ist ihr häufig archaischer Sprachgebrauch. Um die Au­thentizität der fiktiven Welt zu erhalten, ist eine präzise Wortwahl erforderlich, die Anachronis­men vermeidet und den charakteristischen Ton des Originals beibehält. Da viele Begriffe und Redewendungen auf historischen oder mythologischen Kontexten beruhen, wird ihre Übertra­gung zusätzlich durch die Notwendigkeit erschwert, sie in eine fiktive Sprachwelt mit eigener Logik einzubetten.

Auch Namen und Ortsbezeichnungen tragen wesentlich zur Weltenbildung in der Fantasy-Li­teratur bei. Sie sind oft so gestaltet, dass sie die Fremdheit und Eigenständigkeit der fiktionalen Welt unterstreichen. Übersetzende stehen hier vor der Entscheidung, ob sie Eigennamen in der Originalform belassen oder an die Zielsprachkultur anpassen - eine Wahl, die stark von den Konventionen der jeweiligen Sprachkultur abhängt. Während im Englischen häufig eine Bei­behaltung bevorzugt wird, ist im Französischen eine stärkere Adaption üblich. Für den deut­schen Sprachraum existieren keine festen Konventionen, sodass individuelle Entscheidungen notwendig sind. Oft nutzen Autoren und Autorinnen Namen gezielt zur Erzeugung bestimmter Assoziationen. Ein prominentes Beispiel ist „Sirius Black“ aus der Harry Potter-Reihe: Wäh­rend „Black“ Dunkelheit assoziiert, verweist „Sirius“, der hellste Stern am Nachthimmel, auf die wahre Natur der Figur.

Gedichte und Lieder, die häufig in Fantasy-Romanen eingebettet sind, tragen zur atmosphäri­schen Gestaltung der Erzählwelt bei und verstärken deren archaischen Charakter. Ihre Überset­zung verlangt eine sensible Abwägung zwischen inhaltlicher Präzision und poetischer Form, da eine vollständige Wiedergabe beider Aspekte meist nicht möglich ist. In der Praxis wird daher häufig eine freie Übertragung gewählt, um den Lesefluss und das immersive Leseerlebnis nicht zu stören.

Schließlich stellt die Verwendung erfundener Sprachen eine besondere Herausforderung dar. Während einige Autoren und Autorinnen lediglich einzelne Ausdrücke oder Phrasen zur sprach- liehen Differenzierung ihrer Welt einsetzen, haben nur wenige - wie etwa J.R.R. Tolkien - vollständige Sprachsysteme mit eigener Grammatik und Syntax entwickelt. Übersetzende müs­sen entscheiden, ob diese Sprachelemente in der Originalform erhalten bleiben oder an die Ziel­sprache angepasst werden sollen. Meist wird eine möglichst geringe Anpassung bevorzugt, um die Authentizität der Kunstsprache zu bewahren und gleichzeitig die Lesbarkeit für das Ziel­publikum sicherzustellen.

7 Verwendete Systeme

In diesem Kapitel werden die in dieser Studie verwendeten Systeme DeepL und ChatGPT kurz vorgestellt.

7.1 DeepL

DeepL ist ein neuronales maschinelles Übersetzungssystem, das aktuell 33 Sprachen unterstützt (Stand: März 2025), darunter zahlreiche europäische und asiatische Sprachen. Neben der klas­sischen Textübersetzung bietet DeepL eine Vielzahl zusätzlicher Funktionen. Nutzerinnen und Nutzer können Texte manuell eingeben oder per Copy-and-Paste einfügen. Darüber hinaus er­möglicht die Plattform die direkte Übersetzung von Dateien in den Formaten .docx, .pptx und .pdf, wobei die ursprüngliche Formatierung weitgehend erhalten bleibt. Für Unternehmen und Entwickelnde steht zudem eine API-Schnittstelle zur Verfügung, mit der sich DeepL in bestehende Anwendungen integrieren lässt. Die kostenpflichtige Version „DeepL Pro“ erwei­tert den Funktionsumfang unter anderem um eine unbegrenzte Zeichenanzahl, die vollständige

Dokumentenübersetzung ohne Beschränkungen, erweiterte Datenschutzoptionen sowie grö­ßere Flexibilität bei Glossarverwaltung und API-Nutzung. Ein besonderes Merkmal von DeepL ist die Anpassungsfähigkeit der Übersetzungen an individuelle sprachliche Präferenzen. So er­laubt die Pro-Version die Wahl zwischen formeller und informeller Ansprache, während in der kostenfreien Version die Ansprache automatisch bestimmt wird. Darüber hinaus bietet DeepL in der Basisversion kontextabhängige Synonymvorschläge an: Durch das Anklicken einzelner Wörter lassen sich alternative Übersetzungen anzeigen, um Ton und Stil zu variieren. Die Satz­struktur des Originaltexts bleibt dabei in der Regel erhalten oder wird minimal angepasst. Er­gänzend dazu können Nutzerinnen und Nutzer eigene Glossare erstellen, um die terminologi­sche Konsistenz zu gewährleisten. Weitere Funktionen betreffen die Interaktivität der Platt­form: Übersetzungen lassen sich bewerten, kopieren und speichern; zudem kann die Eingabe per Sprache erfolgen, wobei diese auch wiedergegeben werden kann.

Mit dem Tool „DeepL Write“ bietet das Unternehmen ein sprachoptimierendes Zusatzwerk­zeug an, das stilistische und grammatikalische Verbesserungen vornimmt. Nutzer und Nutze­rinnen können den Tonfall und Stil gezielt anpassen und zwischen Optionen wie „einfach“, „geschäftlich“, „akademisch“ oder „locker“ wählen. Zusätzlich stehen Tonalitäten wie „freund­lich“, „souverän“, „diplomatisch“ oder „enthusiastisch“ zur Verfügung. Die Funktion „Be­griffe“ erlaubt es, bestimmte Wörter oder Wendungen als unveränderlich zu kennzeichnen und in einer Liste festzuhalten, sodass sie bei stilistischer Überarbeitung unberührt bleiben. Dabei wird sowohl zwischen Deutsch und Englisch als auch zwischen Groß- und Kleinschreibung unterschieden. Darüber hinaus trägt die Software durch automatische Korrekturen von Recht- schreib-, Grammatik- und Zeichensetzungsfehlern zur Verbesserung der Textqualität bei. DeepL generiert flüssige, professionelle und stilistisch angepasste Formulierungen und schlägt alternative Wort- und Satzkonstruktionen zur Erhöhung der sprachlichen Präzision vor (DeepL, 2025).

Abb. in Leseprobe nicht enthalten

Abbildung 3: Aufbau von DeepL

7.2 ChatGPT

ChatGPT ist ein auf einem Large Language Model basierendes System, das eine interaktive, textbasierte Kommunikation mit Nutzerinnen und Nutzern ermöglicht. Die Interaktion erfolgt über eine benutzerfreundliche Chat-Oberfläche, in der Anfragen eingegeben und durch Drü­cken der Eingabetaste oder per Klick auf den „Senden“-Button übermittelt werden können. Der Verlauf der Konversation bleibt sichtbar und kann jederzeit nachvollzogen werden. Zusätzlich bietet das System eine Datei-Upload-Funktion, mit der hochgeladene Dokumente analysiert und verarbeitet werden können. Neben der klassischen Texterstellung umfasst ChatGPT erwei­terte Funktionen wie Code- und Bildgenerierung sowie die Möglichkeit zur Internetsuche. Dar­über hinaus können Nutzer und Nutzerinnen das Modell explizit auffordern, eine Aufgabe zu­nächst zu durchdenken, bevor eine Antwort generiert wird - ein Feature, das insbesondere bei komplexeren Problemstellungen zu besseren Ergebnissen führen kann. Mit der Funktion „GPTs erkunden“ können spezialisierte KI-Modelle entdeckt werden, die auf bestimmte Aufgabenbe­reiche wie Programmierung, wissenschaftliche Recherche oder kreative Textproduktion ausge­richtet sind. Diese individuellen Modelle ermöglichen eine gezielte Anpassung an spezifische Anwendungsbedarfe. Zusätzlich lassen sich Konversationen mit anderen teilen, individuelle Einstellungen vornehmen und Präferenzen zur Antwortgestaltung definieren - um Antworten an persönliche Bedürfnisse anzupassen (ChatGPT, 2025).

Abb. in Leseprobe nicht enthalten

Abbildung 4: Aufbau von ChatGPT

8 Wahrnehmung maschineller und humaner Übersetzungen

Im folgenden Kapitel werden zunächst zentrale Hypothesen formuliert. Anschließend werden der experimentelle Aufbau, die Zusammensetzung der Testgruppen sowie die von den Teilneh­menden angewandten Bewertungskriterien im Detail dargestellt. Schließlich werden die Ergeb­nisse der Studie präsentiert.

8.1 Hypothesen

H1: Laien haben größere Schwierigkeiten, maschinelle von menschlichen Übersetzungen zu unterscheiden als Personen mit einer Übersetzungsausbildung.

H2: Personen mit Übersetzungsausbildung bewerten die Qualität maschineller Übersetzungen kritischer als Laien.

H3: Laien bevorzugen maschinelle Übersetzungen, während Personen mit Übersetzungsaus­bildung menschliche Übersetzungen bevorzugen.

H4: Ob Laien oder Personen mit Übersetzungsausbildung eine maschinelle Übersetzung der menschlichen vorziehen, hängt davon ab, welches Übersetzungssystem verwendet wurde - Übersetzungen von ChatGPT werden häufiger als menschlich wahrgenommen als Überset­zungen von DeepL.

H5: Die automatische Bewertung mit Transquest tendiert dazu, menschliche Übersetzungen gegenüber maschinellen zu bevorzugen.

H6: Laien und Personen mit Übersetzungsausbildung, die regelmäßig Large Language Models (LLMs) oder neuronale maschinelle Übersetzungs-Systeme (NMÜ) nutzen oder eine höhere

Lesefrequenz aufweisen, erkennen maschinell erzeugte literarische Übersetzungen signifikant besser als Laien und Personen mit Übersetzungsausbildung, die selten oder gar nicht mit LLMs bzw. NMÜ interagieren oder wenig lesen.

8.2 Methodik

8.2.1 Experimenteller Aufbau

Für die Analyse maschineller und humaner Übersetzungen wurde der Roman The Mid­night Bargain von C. L. Polk als Ausgangstext gewählt. Die Auswahl erfolgte aus zwei zent­ralen Gründen: Zum einen vereint der Text Elemente der Regency-Ära mit Fantasy - eine Gen­rekombination, die aus übersetzungswissenschaftlicher Perspektive besonders reizvoll ist. Die Verflechtung historischer und magischer Komponenten stellt spezifische Herausforderungen an die Übersetzung, insbesondere in Bezug auf stilistische und kulturelle Übertragungen dar. Zum anderen wurde bewusst ein weniger stark rezipiertes Werk gewählt. Im Gegensatz zu vielfach analysierten Werken wie Harry Potter, Bridgerton oder Der Herr der Ringe steht The Midnight Bargain bislang nicht im Fokus wissenschaftlicher Untersuchungen. Dadurch wurde sicherge­stellt, dass keine Vorkenntnisse der Studienteilnehmenden die Beurteilung der Übersetzungen beeinflussen. Dies ermöglicht eine objektivere Bewertung der maschinellen und humanen Übersetzungen und trägt zu einer eigenständigen wissenschaftlichen Analyse bei. Als mensch­liche Vergleichsbasis diente die deutschsprachige Übersetzung von Judith C. Vogt, der Mitter­nachtspakt.

Da Leserinnen und Leser literarischer Texte in der Regel nur mit der Ziel- oder Ausgangsspra­che konfrontiert sind, wurden im Rahmen der Studie ausschließlich Übersetzungen präsentiert. Dies gewährleistet eine realitätsnahe Testumgebung und minimiert mögliche Verzerrungen durch den direkten Vergleich von Ausgangs- und Zieltext.

Die maschinellen Übersetzungen wurden mithilfe zweier Systeme erzeugt: ChatGPT und DeepL. Die Art und Weise, wie Eingaben an Modelle wie ChatGPT formuliert werden, wird als Prompting bezeichnet (Schulhoff et al., 2024: 4). Im Falle von ChatGPT kam zunächst das sogenannte Zero-Shot Prompting zum Einsatz (Sahoo et al., 2024: 2), bei dem das Modell eine Übersetzung auf Basis einer einmaligen Anweisung ohne weitere Kontexte oder Beispiele er­stellt. Die verwendete Eingabe lautete:

„Bitte übersetze folgenden literarischen fiktionalen Text ins Deutsche. Der Text enthält sowohl Fantasy- als auch Regency-Elemente. Die Übersetzung soll so wirken, als sei sie von einem Menschen erstellt worden.“

Anschließend kam eine Form des Self-Refine Prompting (Madaan et al. 2023) zum Einsatz. Dabei erstellte das Modell auf Basis der Anfrage zunächst eine Erstübersetzung. Im Unter­schied zum herkömmlichen Self-Refine-Ansatz erfolgte jedoch keine automatische Selbstbe­wertung der eigenen Übersetzung durch das Modell - stattdessen wurde die Beurteilung durch den Nutzer bzw. die Nutzerin vorgenommen. Diese gaben gezielt Hinweise zu Passagen, die einer Überarbeitung bedurften, während das Modell eigenständig eine verbesserte Version der Übersetzung generierte. Dieser Prozess wurde fortgesetzt, bis eine zufriedenstellende Überset­zung erreicht wurde.

Im Gegensatz dazu beschränkt DeepL sich auf die reine Übertragung des Ausgangstextes, wes­halb in der vorliegenden Arbeit bei den von diesem System erzeugten Übersetzungen eine Form des sogenannten Full Post-Editing (Chatzikoumi, 2020: 153) angewendet wurde. Um einen möglichst human-ähnlichen Zustand zu erzielen und gleichzeitig eine reine KI-Übersetzung anzustreben, wurden hierfür ausschließlich systemseitig vorgeschlagene Alternativen übernom­men, die durch Anklicken der zu überarbeitenden Wörter erzeugt wurden. Somit bleibt DeepL eingeschränkter in seinen Möglichkeiten der Überarbeitung, sodass davon auszugehen ist, dass ChatGPT in Übersetzungsaufgaben besser abschneidet und einer menschlichen Übersetzung näherkommt.

8.2.2 Testgruppen

Die Evaluation der Übersetzungen erfolgte sowohl automatisiert mithilfe von TransQuest als auch durch menschliche Bewertungen. Für die manuelle Evaluation wurden Teilnehmende mit unterschiedlichem Erfahrungsstand im Bereich Übersetzung rekrutiert, um eine differenzierte Analyse der Qualität und Unterscheidbarkeit von KI- und humanen Übersetzungen zu ermög­lichen. Durch die Kombination objektiver Metriken und subjektiver Wahrnehmungen ergibt sich ein umfassendes Bild der Übersetzungsqualität.

Die Datenerhebung erfolgte im Zeitraum vom 7. März bis 31. März 2025 über die Plattform empirio. Die Umfrage wurde über verschiedene Kanäle geteilt, darunter soziale Medien, uni­versitäre Verteiler sowie direkt über empirio. Insgesamt nahmen 58 Personen an der Befragung teil. Fünf Datensätze wurden jedoch von der Analyse ausgeschlossen:

• Vier Teilnehmende wurden entfernt, da ihre Bearbeitungszeit unter fünf Minuten lag, was eine sorgfältige Bearbeitung infrage stellte.
• Ein weiterer Datensatz wurde ausgeschlossen, da die betreffende Person unter 18 Jahre alt war.

Die finale Stichprobe umfasste somit 53 Personen, von denen 42 über den Direktlink und 11 über empirio zur Studie gelangten. Diese verteilten sich wie folgt auf die drei Gruppen:

• 23 Laien: Personen ohne formale Ausbildung im Bereich Übersetzung und ohne beruf­liche Tätigkeit in diesem Feld.
• 20 Übersetzungsstudierende: Personen, die ein übersetzungswissenschaftliches Stu­dium absolvieren, jedoch (noch) nicht im Übersetzungsberuf tätig sind.
• 10 professionelle Übersetzende: Personen mit einer abgeschlossenen Ausbildung oder einem Studium im Bereich Übersetzung, die zudem beruflich als Übersetzende tätig sind.

Von den 53 Teilnehmenden identifizierten sich 9 Personen (16,98 %) als männlich, 41 Personen (77,36 %) als weiblich und 3 Personen (5,66 %) als divers. Die Altersspanne der Teilnehmen­den reichte von 19 bis 59 Jahren. Der Altersdurchschnitt betrug ca. 29,72 Jahre. Die überwie­gende Mehrheit (96,23 %) gab Deutsch als Muttersprache an. Weitere Muttersprachen waren Polnisch (1,89 %) und Kurdisch (1,89 %).

Abb. in Leseprobe nicht enthalten

Tabelle 2: Sprachen mit fortgeschrittenen Kenntnissen

Mehr als die Hälfte der Teilnehmenden (56,60 %) gab an, eine Ausbildung oder ein Studium im Bereich Übersetzung oder Sprachwissenschaft absolviert zu haben oder derzeit in einem sol­chen Studiengang eingeschrieben zu sein. 43,40% verfügten hingegen über keine entspre­chende Qualifikation. Die Mehrheit der Teilnehmenden (41,51 %) verfügt über einen Bachelo­rabschluss, gefolgt von 32,08 %, die die allgemeine Hochschulreife als höchsten Bildungsab­schluss angaben. Ein Masterabschluss wurde von 16,98 % der Befragten erreicht. Personen mit Abschluss eines Promotionsstudiums waren in der Stichprobe nicht vertreten. Weitere 9,43 % gaben an, über einen anderen Bildungsabschluss zu verfügen. Der größte Anteil der Teilneh­menden befindet sich derzeit in einem Masterstudium (39,62 %), gefolgt von 33,96 %, die ak­tuell einen Bachelorstudiengang absolvieren. 1,89% der Befragten absolvieren ein Promoti­onsstudium, während sich niemand in einer Ausbildung befindet. 16,98 % haben ihr Studium bereits abgeschlossen, und 7,55 % eine Ausbildung erfolgreich beendet.

Die Mehrheit der Teilnehmenden (81,13 %) geht derzeit keiner beruflichen Tätigkeit im Be­reich Übersetzung nach. Drei Personen (5,66 %) sind als freiberufliche Übersetzer tätig, wäh­rend eine Person (1,89 %) angestellt in diesem Berufsfeld arbeitet. Zudem sind sechs Teilneh­mende (11,32 %) in einer anderen sprachbezogenen Tätigkeit wie Lektorat, Dolmetschen oder Terminologiearbeit beschäftigt.

Die berufliche Tätigkeit der Teilnehmenden, die nicht im Übersetzungsbereich arbeiten, verteilt sich auf eine Vielzahl unterschiedlicher Branchen. Mehrere befinden sich noch im Studium oder üben studentische Aushilfstätigkeiten aus. Andere sind in Bereichen wie Verwaltung, Personal­wesen, Marketing, Automobilindustrie, Gesundheitswesen, Steuerberatung, Ingenieurwesen oder IT tätig. Darüber hinaus wurden Berufe wie Lehrkraft für Deutsch als Fremdsprache, Soft­waretestung, Energieberatung oder Forschung in den Geisteswissenschaften genannt. Einige Teilnehmende gaben an, derzeit keiner beruflichen Tätigkeit nachzugehen.

Abb. in Leseprobe nicht enthalten

Tabelle 3: Nutzung maschineller Übersetzungssysteme/LLMs

Abb. in Leseprobe nicht enthalten

Tabelle 4: Lesefrequenz

8.2.3 Bewertungskriterien der Teilnehmenden

Die menschliche Evaluation der Übersetzungen erfolgte anhand eines im Anhang dieser Arbeit beigefügten Fragebogens, in dem die Teilnehmenden verschiedene Aspekte der Übersetzungs­qualität bewerteten.

Zunächst sollten die Teilnehmenden angeben, ob sie die jeweilige Übersetzung für eine menschliche oder maschinelle Übersetzung hielten. Auf diese Weise konnte ermittelt werden, wie überzeugend KI-gestützte Übersetzungen menschliche Übersetzungen nachahmen konn­ten. Zur Begründung ihrer Einschätzung sollten die Teilnehmenden in einem Freitextfeld Merk­male benennen, die aus ihrer Sicht auf eine maschinelle oder menschliche Herkunft der jewei­ligen Übersetzung hindeuteten, sodass qualitative Hinweise auf stilistische Besonderheiten, sprachliche Eigenheiten oder auffällige Strukturen gesammelt werden konnten.

Darüber hinaus wurden die Teilnehmenden gebeten, ihre Einschätzung zu folgenden Elementen der Texte zu geben:

• Übertragung der Stilmittel: Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?
• Wiedergabe kultureller Elemente: Wie gut wurden Ihrer Meinung nach kulturelle Ele­mente in diesen Übersetzungen übertragen?
• Übertragung der Fantasy-Elemente: Wie gut wurden Ihrer Meinung nach die Fantasy­Elemente übertragen?

Zusätzlich bewerteten die Teilnehmenden jede Übersetzung auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht), um eine differenzierte Einschätzung der allgemeinen Übersetzungsqualität zu ermöglichen.

Darüber hinaus bestand die Möglichkeit, freiwillige Zusatzkommentare abzugeben. In diesem offenen Feld konnten besonders gelungene oder problematische Passagen hervorgehoben und subjektive Eindrücke detaillierter geschildert werden.

8.3 Ergebnisse

8.3.1 Maschinelle Evaluation durch TransQuest

Abb. in Leseprobe nicht enthalten

Abbildung 5: Verteilung der predicted scores nach Übersetzungsart

In Abbildung 5 wird die Verteilung der von TransQuest vorhergesagten Qualitätswerte („pre- dicted scores“) für die drei Übersetzungsmethoden - menschliche Übersetzungen, DeepL und ChatGPT - dargestellt. Sie zeigt, in welchen Bereichen die Bewertungen besonders häufig lie­gen, und erlaubt Rückschlüsse auf mögliche Unterschiede in der wahrgenommenen Überset­zungsqualität.

Die Analyse zeigt, dass sich die Werte aller drei Methoden überwiegend in einem ähnlichen Bereich bewegen: Der Großteil der predicted scores liegt zwischen 0,71 und 0,73. Dies deutet darauf hin, dass die Qualität der Übersetzungen insgesamt als vergleichbar eingeschätzt wurde. Dennoch lassen sich feine Unterschiede erkennen: Die meisten Werte der menschlichen Über­setzungen liegen im Bereich zwischen 0,70 und 0,74, wobei sich zwischen 0,71 und 0,74 eine deutlich höhere Konzentration zeigt als bei DeepL und ChatGPT. DeepL- und ChatGPT-Über- setzungen hingegen weisen eine größere Streuung auf. Sie treten verstärkt sowohl im unteren Bereich (0,69-0,70) als auch im oberen Bereich (0,74-0,76) auf. Dies könnte darauf hinweisen, dass maschinelle Übersetzungen von TransQuest tendenziell differenzierter bewertet werden und sowohl über als auch unter dem Niveau menschlicher Übersetzungen liegen können.

Da es sich hierbei um eine Gesamtverteilung über alle neun Übersetzungen handelt, soll nun untersucht werden, wie die sich die Verteilung der vorhergesagten Qualitätswerte innerhalb der verschiedenen Gruppen gestaltet. Jede Gruppe umfasst drei Übersetzungen eines Ausgangstex­tes: eine von einem Menschen, eine von DeepL und eine von ChatGPT.

Abb. in Leseprobe nicht enthalten

Abbildung 6: Vergleich: Übersetzung 1-3

8.3.1.1 Ergebnisse Ausgangstext 1

In der ersten Gruppe wurden drei Übersetzungen von Ausgangstext 1 miteinander verglichen: eine menschliche Übersetzung (Übersetzung 1), eine von ChatGPT generierte Übersetzung (Übersetzung 2) sowie eine Übersetzung durch DeepL (Übersetzung 3). Die Verteilung der vor­hergesagten Qualitätswerte zeigt, dass alle drei Übersetzungen in einem sehr engen Bereich zwischen 0,71 und 0,73 liegen. Dies deutet darauf hin, dass die Qualität der Übersetzungen insgesamt als vergleichbar eingeschätzt wurde.

Unterschiede werden vor allem in der Streuung der Scores sichtbar. Die Übersetzung von Chat- GPT zeigt eine besonders schmale und hohe Verteilungskurve, was auf eine konstant gleich­bleibende Qualität hinweist. Die Verteilung der Scores von DeepL ist breiter, was auf eine etwas größere Varianz in der wahrgenommenen Qualität schließen lässt. Auch die menschliche Über­setzung weist eine gewisse Streuung auf, allerdings ist diese weniger ausgeprägt als bei DeepL.

8.3.1.2 Ergebnisse Ausgangstext 2

Abb. in Leseprobe nicht enthalten

Abbildung 7: Vergleich: Übersetzung 4-6

In der zweiten Gruppe wurden drei Übersetzungen von Ausgangstext 2 miteinander verglichen: eine DeepL-Übersetzung (Übersetzung 4), eine von ChatGPT erzeugte Version (Übersetzung 5) sowie eine menschliche Übersetzung (Übersetzung 6). Die vorhergesagten Qualitätswerte be­wegen sich bei allen drei Übersetzungen im Bereich zwischen 0,71 und 0,75. Dennoch zeigen sich Unterschiede in der Verteilung der Scores, die Rückschlüsse auf die wahrgenommene Übersetzungsqualität zulassen.

Die DeepL-Übersetzung weist eine relativ breite Streuung der Scores auf, was auf eine gewisse Varianz in der wahrgenommenen Qualität schließen lässt. Die Verteilung von ChatGPT fällt etwas schmaler aus, wobei die meisten Werte bei 0,73 liegen. Dies könnte auf eine tendenziell konstantere Übersetzungsqualität hindeuten. Die menschliche Übersetzung erreicht die höchs­ten vorhergesagten Scores innerhalb dieser Gruppe: Die meisten Werte konzentrieren sich hier zwischen 0,71 und 0,74. Damit wird der menschlichen Übersetzung in dieser Gruppe insgesamt eine konstant hohe Qualität zugeschrieben. ChatGPT folgt mit einer etwas geringeren, aber dennoch stabilen Konstanz der vorhergesagten Qualitätswerte, während DeepL in dieser Kons­tellation erneut am unteren Ende liegt. Dennoch bewegen sich alle drei Übersetzungen auf ei­nem insgesamt guten Qualitätsniveau.

8.3.1.3 Ergebnisse Ausgangstext 3

Abb. in Leseprobe nicht enthalten

Abbildung 8: Vergleich: Übersetzung 7-9

In der dritten Gruppe wurden drei Übersetzungen von Ausgangstext 3 miteinander verglichen: eine von ChatGPT (Übersetzung 7), eine menschliche Übersetzung (Übersetzung 8) sowie eine Version von DeepL (Übersetzung 9). Im Unterschied zu den vorherigen Gruppen zeigen sich hier deutlichere Unterschiede in der vorhergesagten Übersetzungsqualität.

Die von DeepL erzeugte Übersetzung erhält zahlreiche Qualitätswerte zwischen 0,71 und 0,72. Dies spricht für ein konstant gleichbleibendes Qualitätsniveau. Sowohl die von ChatGPT gene­rierte Übersetzung als auch die menschliche Übersetzung weisen im Vergleich dazu eine brei­tere Streuung auf, was auf eine größere Varianz in der wahrgenommenen Übersetzungsqualität hinweist. Bemerkenswert ist, dass bei der menschlichen Übersetzung ein Großteil der Scores zwischen 0,69 und 0,72 liegt, während bei ChatGPT die Mehrzahl der Bewertungen im Bereich von 0,71 bis 0,74 angesiedelt ist. Dies bedeutet, dass die menschliche Version tendenziell schlechter bewertet wurde als die beiden anderen. Zusammenfassend zeigt sich in dieser Gruppe ein deutlicher Qualitätsvorsprung für DeepL und ChatGPT. Die menschliche Überset­zung wird in dieser Konstellation als am schwächsten eingeschätzt.

Insgesamt zeigt sich, dass menschliche Übersetzungen, DeepL und ChatGPT insgesamt ver­gleichbare Qualitätswerte erzielen und je nach Kontext die menschliche Übersetzung oder ein bestimmtes System vorne liegt.

8.3.2 Menschliche Evaluation

Im Rahmen einer allgemeinen Einschätzung sollten die Teilnehmenden angeben, ob sie die je­weilige Übersetzung für menschlich oder maschinell erzeugt hielten. Dabei zeigten sich deut­liche Unterschiede in der Wahrnehmung der verschiedenen Übersetzungsarten, die auch in den frei formulierten Kommentaren zum Ausdruck kamen.

Insgesamt zeigte sich, dass ChatGPT-Übersetzungen in zwei von drei Fällen am ehesten mit menschlichen Übersetzungen verwechselt wurden, während DeepL-Übersetzungen überwie­gend korrekt als maschinell erzeugt erkannt wurden. Die menschlichen Übersetzungen wurden teilweise ebenfalls für maschinell gehalten, was sowohl auf die Annäherung maschineller Über­setzungsqualität an menschliche Ausdrucksformen als auch auf Unsicherheiten und unter­schiedliche Bewertungskriterien der Teilnehmenden schließen lässt. Die Kommentare unter­streichen, dass stilistische Merkmale, Tonalität und sprachliche Natürlichkeit zentrale Faktoren bei der Zuschreibung waren - und dass die Grenze zwischen menschlicher und maschineller Übersetzung zunehmend verschwimmt.

Abb. in Leseprobe nicht enthalten

Abbildung 9: Prozentuale Bewertung der Übersetzungen

Abbildung 9 veranschaulicht diese Tendenzen anhand konkreter Zahlen: ChatGPT-Übersetzun- gen wurden in 56% der Fälle als menschlich und in 42,1 % als maschinell erzeugt eingestuft. Übersetzungen von DeepL hingegen wurden mit 75,5 % überwiegend korrekt als maschinell erzeugt erkannt, lediglich 25,8 % hielten sie für menschlich. Bemerkenswert ist auch, dass die tatsächlichen Humanübersetzungen nur in 54,7 % der Fälle als solche erkannt wurden - 46,5 % der Bewertungen fielen fälschlicherweise in die maschinelle Kategorie. Diese Ergebnisse ma­chen deutlich, wie sehr sich maschinelle und menschliche Übersetzungen inzwischen annähern und wie schwierig eine klare Unterscheidung selbst für aufmerksame Leserinnen und Leser geworden ist.

Im Folgenden werden die Ergebnisse der menschlichen Evaluation wie bereits bei TransQuest sortiert nach Gruppen dargestellt.

8.3.2.1 Ergebnisse Ausgangstext 1

Abb. in Leseprobe nicht enthalten

Abbildung 10: Einschätzung der Übersetzungen Ausgangstext 1

Die Auswertung der Bewertungen zeigt deutliche Unterschiede in der Wahrnehmung der drei Übersetzungen: Übersetzung 1 wurde von einer menschlichen Übersetzerin, Übersetzung 2 von ChatGPT und Übersetzung 3 von DeepL erstellt. Den Teilnehmenden gelang es häufig nicht, die richtige Herkunft zu erkennen.

Nur 30,19 % der Teilnehmenden hielten die menschlich erstellte Übersetzung für menschlich, während 71,70 % sie als maschinell erstellt einstuften. Kritische Kommentare bezogen sich vor allem auf die Lesbarkeit und Kohärenz: „Übersetzung 1 war schwer zu lesen, mit unklaren Begriffen und einem unflüssigen Stil.“ „Der Lesefluss war stockend und einige Begriffe wirk­ten deplatziert.“

Darüber hinaus wurden offensichtliche Fehler festgestellt, wie die falsche Schreibweise von „weise“ in „vorgeschriebene weiße Luft“ statt „vorgeschriebene Weise Luft“. Solche Fehler

führten zu Unsicherheiten über die Herkunft: „Fehler ,weiße‘ statt ,Weise‘ ließ mich zweifeln, ob es eventuell ein menschlicher und kein maschineller Fehler ist.“1

Die Einschätzung der Kreativität bestätigt diese Wahrnehmung: 39,62 % empfanden die Über­setzung als „eher unkreativ“, und 22,64 % bewerteten sie als „überhaupt nicht kreativ“. Eine mögliche Erklärung dafür könnte die Wortwahl sein, denn „Übersetzung 1 verwendete weniger bekannte Begriffe und klang teilweise sehr wörtlich.“ Dennoch empfanden einige die kreative Wortwahl als positiv: „Die erste Übersetzung war sehr kreativ und gut verständlich.“

Die Übertragung der Stilmittel wurde ebenfalls kritisch gesehen, wobei 35,85 % die Umsetzung als „eher schlecht“ und 24,53 % als „sehr schlecht“ beurteilten. Jedoch merkte ein Teilnehmen­der an, dass „eine typische Lexik für literarische Texte verwendet wurde (z. B. Sigille), während sich Übersetzung 2 und 3 näher am Ausgangstext orientierten.“ Ein Teilnehmender bemerkte: „Die Syntax in Übersetzung 1 war anders, und zum Beispiel wurde ,Dazwischen‘ kursiv ge­setzt, was für eine menschliche Übersetzung spricht.“

Bei der Übertragung kultureller Elemente schnitt die menschliche Übersetzung nichtsdestotrotz schwach ab: 33,96 % bewerteten sie als „eher schlecht“, 11,32 % sogar als „sehr schlecht“. Bei den Fantasy-Elementen zeigte sich ein ähnliches Bild: 32,08 % gaben an, dass sie „eher schlecht“ übertragen wurden, und 22,64 % beurteilten die Umsetzung als „sehr schlecht“. Die Gesamtbewertung fiel entsprechend negativ aus: 30,19 % vergaben die schlechteste Note (5).

Im Gegensatz dazu hielten 67,92 % der Befragten die von ChatGPT erstellte Übersetzung für menschlich. Sie wurde als besonders flüssig und natürlich gelobt: „Übersetzung 2 war sehr flüssig und zog mich in den Bann“, schrieb ein Teilnehmender. Besonders die idiomatischen Formulierungen wurden positiv bewertet: „Die Ausschmückungen in Übersetzung 2 sind ext­rem menschlich - es fühlt sich an, als ob nicht nur die Worte, sondern auch die Stimmung des Textes übernommen wurden.“ „Übersetzung 2 beschreibt die Situation am verständlichsten und nachvollziehbarsten. Außerdem werden idiomatische Formulierungen verwendet.“ Auch die stilistische Umsetzung wurde gelobt: „Übersetzung 2 war literarischer und harmonischer.“ Ins­gesamt empfanden 24,53 % die Übersetzung als „sehr kreativ“, 41,51 % als „eher kreativ“.

Auch die Übertragung von Stilmitteln wurde bei Übersetzung 2 deutlich positiver beurteilt: 30,19 % der Teilnehmenden empfanden sie als „sehr gut“, 24,53 % als „eher gut“. Auch die Übertragung kultureller Elemente wurde positiver wahrgenommen: 32,08 % bewerteten sie als „eher gut“, während kein Teilnehmender die Note „sehr schlecht“ vergab. Ebenso war die Um­setzung der Fantasy-Elemente mit 33,96 % für „sehr gut“ überzeugender als in den anderen Übersetzungen. In der Gesamtbewertung erhielt die ChatGPT-generierte Übersetzung die bes­ten Noten: 28,30 % vergaben die Bestnote 1, 32,08 % eine 2.

Ein Teilnehmender fasste treffend zusammen, was wohl für viele galt: „Mein Sprachgefühl sagt mir, die Übersetzung wurde von einem Menschen angefertigt“. Dies zeigt, dass KI-gestützte Systeme zunehmend natürliche und kohärente Texte generieren können. Interessant jedoch ist, dass eine Person vermutete, dass diese Übersetzung ein Post-Editing einer maschinellen Über­setzung sein könnte. 73,58 % der Teilnehmenden erkannten die von DeepL erstellte Übersetzung korrekt als maschi­nell. Begründet wurde dies häufig mit der kompakten Textlänge: „Übersetzung 3 ist kürzer, was ich mit MÜ assoziiere.“ Hinsichtlich der Kreativität erhielt sie gemischte Bewertungen: 5,66 % empfanden sie als „sehr kreativ“, während 32,08 % sie als „eher kreativ“ einstuften. 45,28 % gaben jedoch eine neutrale Einschätzung ab, was darauf hindeutet, dass die Übersetzung als weniger stilistisch ausgereift wahrgenommen wurde als die von ChatGPT generierte. „Überset­zung 3 würde ich dazwischen anordnen: Sie klingt natürlicher als Übersetzung 1, aber nicht so literarisch wie Übersetzung 2.“

Dies zeigt sich ebenfalls bei der weiteren Bewertung der Übersetzung. Die Übertragung der Stilmittel wurde von 37,74 % als „eher gut“ bewertet, jedoch fanden 24,53 % die Umsetzung „eher schlecht“. Auch kulturelle Elemente wurden größtenteils neutral wahrgenommen (66,04 %). Die Übertragung von Fantasy-Elementen wurde besser bewertet als bei der mensch­lichen Übersetzung: 45,28 % empfanden sie als „eher gut“, 30,19 % als „neutral“. Ein Teilneh­mer merkte jedoch an: „Übersetzung 3 hatte wenig Fantasy-Atmosphäre.“

Somit fiel die Gesamtbewertung mittel aus: 11,32 % vergaben die Bestnote 1, 28,30 % eine 2, während 39,62 % eine 3 vergaben. Dies zeigt, dass die DeepL-Übersetzung insgesamt als so­lide, aber nicht herausragend angesehen wurde. Sie liegt noch vor der menschlichen, aber hinter der ChatGPT-Übersetzung. „Es scheint, als ob der Text erst von einer Maschine übersetzt und dann von einem Menschen angepasst wurde, der kein deutscher Muttersprachler ist, aber die Sprache auf hohem Niveau beherrscht.“

Abb. in Leseprobe nicht enthalten

Abbildung 11: Einschätzung der Übersetzungen Ausgangstext 2

Auch bei der Auswertung der Ergebnisse der Übersetzungen des zweiten Ausgangstextes zeigt sich, dass die tatsächliche Herkunft der Übersetzungen (Übersetzung 4: DeepL, Übersetzung 5: ChatGPT, Übersetzung 6: Mensch) von den Teilnehmenden häufig nicht korrekt identifiziert wurde. Besonders auffällig ist, dass die von ChatGPT erstellte Übersetzung am häufigsten für eine menschliche Übersetzung gehalten wurde, während die menschliche Übersetzung in gut einem Drittel der Fälle als maschinell erstellt eingestuft wurde.

Die von DeepL erstellte Übersetzung wurde von 77,36 % der Teilnehmenden korrekt als ma­schinell identifiziert. Die häufigsten Kritikpunkte bezogen sich auf mangelnde Idiomatik, eine stockende Syntax und unnatürliche, wörtliche oder schwer verständliche Formulierungen. So schrieb ein Teilnehmender etwa: „Die Übersetzung wirkt sperrig und entspricht nicht dem na­türlichen Sprachfluss.“

Diese Einschätzungen spiegeln sich auch in der Bewertung der Stilmittelübertragung wider, die von 47,17 % als „eher schlecht“ oder „sehr schlecht“ eingestuft wurde. Auch die kreative Um­setzung wurde kritisch bewertet: 81,13 % beurteilten die Übersetzung als „neutral“ bis „überhaupt nicht kreativ“. Die Übertragung der kulturellen und der Fantasy-Elemente fiel eben­falls wenig überzeugend aus. So stuften 54,72 % die Übertragung der Fantasy-Elemente als „neutral“ oder schlechter ein. Die Gesamtbewertung fiel entsprechend negativ aus: 55,67 % der Teilnehmenden vergaben eine mittlere bis schlechte Note (3, 4 oder 5).

Die von ChatGPT generierte Übersetzung wurde in 69,81 % der Fälle als menschlich wahrge­nommen. Besonders gelobt wurden ihre idiomatische Ausdrucksweise, stilistische Kohärenz und literarisch ansprechenden Formulierungen. Ein Kommentar lautete: „Übersetzung 5 hatte die elegantesten Formulierungen.“

Diese Wahrnehmung spiegelt sich auch in den weiteren Bewertungen wider: 71,70 % bewerte­ten die Übertragung der Stilmittel als „eher gut“ oder „sehr gut“. Auch in Bezug auf Kreativität wurde die Übersetzung positiv eingeschätzt - 62,27 % stuften sie als „eher kreativ“ oder „sehr kreativ“ ein. Die kulturellen Elemente wurden von 56,60 % als gelungen bewertet, die Fantasy­Elemente sogar von 73,58 % als „eher gut“ oder „sehr gut“.

Insgesamt erhielt die von ChatGPT generierte Übersetzung die beste Gesamtbewertung, wobei 83,02 % der Teilnehmenden eine 1 oder 2 vergaben.

Die menschliche Übersetzung wurde von 64,15 % der Befragten korrekt als menschlich erstellt erkannt und spaltete die Meinungen. Während einige Teilnehmende die kreative Gestaltung und Ausdruckskraft positiv hervorhoben - 49,06 % bewerteten sie als „sehr kreativ“ -, äußerten andere Kritik daran, dass sich die Übersetzung zu weit vom Original entferne. Positiv wurde hingegen gewürdigt, dass die Übersetzung bewusst stilistisch verändert wurde und erklärende Elemente enthielt, die im Originaltext nicht vorkamen. Ein Teilnehmender lobte die sprachliche Ausgewogenheit: „Übersetzung 6 war am flüssigsten und harmonischsten.“

Die Bewertung der Stilmittelübertragung zeigt ein differenziertes Bild: 58,49 % bewerteten sie als „eher gut“ oder „sehr gut“, 28,30 % hingegen als „eher schlecht“ oder „sehr schlecht“. Die Übertragung kultureller Elemente wurde von 45,28 % als „eher gut“ bzw. „sehr gut“ einge­schätzt, während 33,96 % eine neutrale Haltung einnahmen. Die Umsetzung der Fantasy-Ele­mente wurde von 50,94 % als gelungen wahrgenommen („eher gut“ oder „sehr gut“), während 24,52 % sie kritisch bewerteten („eher schlecht“ bis „sehr schlecht“). In der Gesamtbewertung erhielt die menschliche Übersetzung gemischte Ergebnisse: 49,06 % vergaben eine 1 oder 2, 28,30 % bewerteten sie mit einer 4 oder 5.

Abb. in Leseprobe nicht enthalten

Abbildung 12: Einschätzung der Übersetzungen Ausgangstext 3

Auch bei Ausgangstext 3 stammten die untersuchten Übersetzungen aus unterschiedlichen Quellen: Übersetzung 7 wurde von ChatGPT generiert, Übersetzung 8 von einer menschlichen Übersetzerin erstellt und Übersetzung 9 mithilfe von DeepL angefertigt.

Die von ChatGPT erstellte Übersetzung wurde von 67,92 % der Teilnehmenden korrekt als ma­schinell erstellt erkannt. Diese Einschätzung wurde durch zahlreiche Kommentare untermauert. Kritisiert wurden unter anderem „grammatikalische Unstimmigkeiten im ersten Satz“ sowie ungewöhnliche Wortverbindungen wie „Ärmel erblühen in Spitze“. Stilistisch wurde der Text häufig als „zu starr“ empfunden, was auf eine fehlende idiomatische Anpassung an die Ziel­sprache hinweist.

Trotz dieser Kritik wurde die Übersetzung vereinzelt als „lebendig und detailgetreu“ sowie „stimmig“ wahrgenommen. Im Hinblick auf Kreativität fiel die Bewertung jedoch überwiegend neutral bis kritisch aus: Lediglich 16,98 % stuften die Übersetzung als „sehr kreativ“ ein, wäh­rend 39,62 % eine neutrale Einschätzung abgaben. Die Stilmittelübertragung wurde unterschiedlich beurteilt - 47,17 % vergaben ein positives Urteil („eher gut“ oder „sehr gut“), 26,41 % hingegen ein negatives („eher schlecht“ oder „sehr schlecht“).

Kritisch wurde auch die Übertragung kultureller- und Fantasy-spezifischer Elemente betrachtet: Nur 37,73% empfanden die kulturelle Übertragung als gelungen, während 28,30% eine schlechte Umsetzung anmerkten. Auch bei den Fantasy-Elementen zeigte sich ein ähnliches Bild: Nur 39,62 % gaben an, diese seien sehr oder eher gut übertragen worden. Ein Kommentar fasst die Problematik zusammen: „Die Krone der Zauberei um Beatrices Kopf - unklare Be­deutung.“

Besonders schwer wog ein inhaltlicher Fehler: So wurde ein Kleidungsstück als „Mantua“ be­zeichnet - „Mantua ist kein Kleidstück [sic], sondern eine Stadt in Italien“, so ein Teilnehmen­der, was auf fehlendes Weltwissen schließen lässt. Insgesamt wurde die Qualität dieser Über­setzung als mittelmäßig bewertet: Die meisten Befragten (35,85 %) vergaben die Note 3, wäh­rend jeweils 16,98 % eine 1 bzw. 2 vergaben. Auffällig ist jedoch der hohe Anteil negativer Bewertungen mit Note 4 (15,09 %) und 5 (13,21 %).

Die von einer menschlichen Übersetzerin erstellte Version wurde in 69,81 % der Fälle korrekt als menschlich erkannt und insgesamt am positivsten bewertet.

Besonders positiv bewertet wurde sie hinsichtlich ihrer Kreativität und Stilmittelübertragung: 77,36 % der Teilnehmenden stuften die Übersetzung als „eher kreativ“ oder „sehr kreativ“ ein. Die stilistische Umsetzung wurde ebenfalls überdurchschnittlich positiv bewertet - 67,93 % sahen die Stilmittel als gelungen übertragen.

Ein Teilnehmender lobte „typische lyrische Merkmale“ sowie „kreative und idiomatische Lö­sungen“. Auch bei der Übertragung der Fantasy-Elemente schnitt diese Übersetzung am besten ab: 69,81 % bewerteten diese als „eher gut“ oder „sehr gut“. Die kulturellen Elemente wurden von 60,37 % als gelungen eingestuft. Besonders positiv hervorgehoben wurden die „romanti­sche Wortwahl“, der „zusammenfassende Satzbau“ sowie der freie Umgang mit dem Ausgangs­text - „Ü8 wirkt sehr frei übersetzt“ und „es gibt starke Abweichungen zu den beiden anderen Texten.“ Ein Detail, das auf eine menschliche Übersetzung schließen lässt, war die erklärende Einfügung von Kontext - beispielsweise wurde „Beatrice’“ als erläuternder Einschub genutzt. Dieser Eingriff wurde teils kritisch, teils positiv im Sinne der Verständlichkeit bewertet. Trotz der insgesamt sehr positiven Einschätzungen wurden kleinere Mängel benannt. So wurde der Satz „Was tat Sie hier?“ als grammatikalisch fehlerhaft und untypisch markiert. Zudem fiel auf, dass im ersten Absatz ein ganzer Satz ausgelassen wurde. Insgesamt wurde Übersetzung 8 je­doch klar favorisiert: 64,16 % der Befragten vergaben die Schulnote 1 oder 2.

Die DeepL-Übersetzung wurde von 75,47 % der Teilnehmenden korrekt als maschinell erstellt erkannt. Die Bewertungen spiegeln eine ambivalente Haltung wider. Einerseits wurde die gute Lesbarkeit und der emotionale Zugang positiv hervorgehoben - „Der Text klingt natürlich, es entsteht ein schöner Lesefluss.“ Andererseits wurde die Übersetzung als zu wörtlich und tech­nisch empfunden.

Besonders kritisiert wurden syntaktische Strukturen: „Viel zu lange Sätze. Ein Mensch hätte das gekürzt“, oder auch: „Die Syntax unterschied sich massiv von den anderen beiden.“ Die stilistische und kulturelle Umsetzung wurde nur bedingt als gelungen bewertet - jeweils 41,51 % der Teilnehmenden vergaben hier eine positive Einschätzung.

Die Umsetzung der Fantasy-Elemente wurde von 47,17 % als gelungen angesehen, während 20,76 % sie als „eher schlecht“ oder „sehr schlecht“ einstuften. Wiederholt wurde die Formu­lierung „Konnte sie das?“ kritisiert - eine wenig idiomatische Entsprechung zu „Could she?“. Auch unpassende Begriffe wie „Vermögen“ oder die nicht korrekt übersetzte Referenz „Man­tua“ wurden negativ bewertet - „Ein Mensch hätte das gemerkt“, so ein Kommentar.

In der Gesamtbewertung schnitt die DeepL-Übersetzung mittelmäßig ab: Die Mehrheit bewer­tete sie mit einer 3 (35,85 %), gefolgt von einer 2 (28,3 %).

8.4 Überprüfung der Forschungshypothesen

Nach der deskriptiven Analyse der Bewertungen wird im folgenden Abschnitt untersucht, ob sich aus den erhobenen Daten signifikante Zusammenhänge in Bezug auf die aufgestellten For­schungshypothesen ableiten lassen. Ziel der Untersuchung ist es herauszufinden, in welchem Maß individuelle Eigenschaften der Teilnehmenden - wie etwa der Umgang mit maschinellen Übersetzungssystemen oder LLMs, ihre Lesefrequenz oder ihre fachliche Qualifikation - die Fähigkeit beeinflussen, maschinelle Übersetzungen zu erkennen. Für die statistische Auswer­tung wurde das Programm R (R Core Team, 2025) verwendet, unterstützt durch die Packages effects (Fox & Weisberg, 2019) und tidyverse (Wickham et al., 2019).

H1: Laien haben größere Schwierigkeiten, maschinelle von menschlichen Übersetzungen zu unterscheiden als Personen mit einer Übersetzungsausbildung.

Abb. in Leseprobe nicht enthalten

Abbildung 13: Mittlere Gesamtrichtigkeitsrate nach Gruppe

Zur Überprüfung von H1 wurde ein lineares Regressionsmodell verwendet. Dabei diente die Gesamtrichtigkeitsrate als abhängige Variable. Diese erfasste, wie häufig die Teilnehmenden korrekt beurteilten, ob es sich bei einer Übersetzung um eine menschliche oder eine maschinelle Variante handelte. Die Skala reichte von 0 bis 9 richtigen Einschätzungen. Als unabhängige Variable diente die Gruppenzugehörigkeit, wobei zwischen Laien, Übersetzungsstudierenden und professionellen Übersetzenden unterschieden wurde.

Die Analyse ergab, dass die mittlere Richtigkeitsrate der Laien bei etwa 4,91 lag. Im Vergleich dazu schnitten die Übersetzungsstudierenden mit einem leichten Anstieg (+0,44) minimal bes­ser ab, während die Profis sogar etwas schlechter abschnitten (-0,41). Allerdings waren diese Unterschiede statistisch nicht signifikant (ß = 0.4370, SE = 0.4793, t = 0.912, p = 0.366 für die Übersetzungsstudierenden, ß = -0.4130, SE = 0.5938, t = -0.696, p = 0.490 für die Profis). Damit lässt sich die Hypothese nicht bestätigen.

Eine mögliche Erklärung für das Ausbleiben signifikanter Unterschiede zwischen den Gruppen liegt in der zunehmenden Qualität maschineller Übersetzungen. Large Language Models wie ChatGPT sind inzwischen in der Lage, kohärente, stilistisch ansprechende Texte zu produzie­ren, die nicht mehr ohne Weiteres als maschinell erzeugt erkennbar sind. Dies erschwert selbst fachlich geschulten Personen die Unterscheidung. Zweitens könnte das gewählte Textmaterial in beiden Varianten ähnlich sprachlich überzeugend gewesen sein, was eine Differenzierung erschwerte. Drittens scheint die Fähigkeit zur Unterscheidung möglicherweise nicht allein von der Ausbildung abhängig zu sein, sondern auch von anderen Faktoren wie Erfahrung im Um­gang mit maschinellen Übersetzungen, das regelmäßige Arbeiten mit Sprachmodellen oder aber auch das regelmäßige Lesen von Literatur. Dies soll im Laufe der weiteren Analyse untersucht werden.

H2: Personen mit Übersetzungsausbildung bewerten die Qualität maschineller Übersetzungen kritischer als Laien.

Abb. in Leseprobe nicht enthalten

Abbildung 14: Durchschnittliche Bewertung maschineller Übersetzungen nach Gruppenzugehörigkeit

Zur Überprüfung von H2 wurde ein lineares Regressionsmodell verwendet. Dabei wurde ana­lysiert, ob die Gruppenzugehörigkeit (Laien, Übersetzungsstudierende, professionelle Überset­zende) einen Einfluss auf die Bewertung maschineller Übersetzungen hat. Berücksichtigt wur­den ausschließlich maschinell erzeugte Texte, also Übersetzungen durch ChatGPT und DeepL. Die Bewertung erfolgte auf einer dreistufigen Skala (1 = unkritisch, 2 = neutral, 3 = kritisch) und wurde als abhängige Variable modelliert. Als unabhängige Variable diente erneut die Grup­penzugehörigkeit.

Die durchschnittliche Bewertung der Laien lag bei 2,10. Im Vergleich dazu bewerteten Über­setzungsstudierende die maschinellen Übersetzungen tendenziell um 0,20 Punkte kritischer (ß = 0.19855, SE = 0.11507, t = 1.725, p = 0.0854). Professionelle Übersetzende äußerten sich im Schnitt sogar um 0,27 Punkte kritischer (ß = 0.26522, SE = 0.14256, t = 1.860, p = 0.0638). Beide Unterschiede waren jedoch nur marginal signifikant.

Dennoch lässt sich ein Trend erkennen: Mit zunehmender Übersetzungserfahrung steigt die Wahrscheinlichkeit, maschinelle Übersetzungen kritischer zu bewerten. Damit kann H2 zwar nicht eindeutig bestätigt werden, doch die beobachtete Tendenz stützt die theoretische An­nahme, dass eine höhere Sensibilität für sprachliche Qualität mit Übersetzungserfahrung ein­hergeht.

H3: Laien bevorzugen maschinelle Übersetzungen, während Personen mit Übersetzungsaus-bildung menschliche Übersetzungen bevorzugen.

Abb. in Leseprobe nicht enthalten

Abbildung 15: Bewertung nach Gruppe und Übersetzungsherkunft

Zur Überprüfung von H3 wurde ein lineares Regressionsmodell verwendet. Ziel war es heraus­zufinden, ob die Herkunft der Übersetzung (menschlich vs. maschinell) und die Gruppenzuge­hörigkeit der Teilnehmenden (Laien, Übersetzungsstudierende, professionelle Übersetzende) sowie deren Interaktion einen Einfluss auf die Bewertung der Übersetzungen haben. Als abhän­gige Variable diente die Bewertung auf einer dreistufigen Skala (1 = unkritisch, 2 = neutral, 3 = kritisch). Die unabhängigen Variablen waren die Gruppenzugehörigkeit sowie die Herkunft der Übersetzung, wobei maschinelle Übersetzungen (ChatGPT und DeepL) gemeinsam be­trachtet und der menschlichen Übersetzung gegenübergestellt wurden.

Die Analyse ergab, dass sich in den Einzelvergleichen weder für die Gruppenzugehörigkeit noch für die Übersetzungsherkunft signifikante Ergebnisse zeigten. Die Bewertungen maschi­neller Übersetzungen unterschieden sich insgesamt nicht signifikant von der menschlichen Übersetzung (ß = 0.01449, SE = 0.13901, t = 0.104, p = 0.9170). Auch zwischen Laien und Personen mit Übersetzungsausbildung traten keine signifikanten Unterschiede auf (ß = 0.08696, SE = 0.16642, t = -0.523, p = 0.6016 für Studierende; ß = - 0.22029, SE = 0.20618, t = -1.068, p = 0.2859 für Profis). In der Interaktion zeigte sich jedoch ein Trend: Die Gruppe der professionellen Übersetzenden bewertete maschinelle Übersetzungen tenden­ziell kritischer als menschliche, verglichen mit den Laien (ß = 0.48551, SE = 0.25252, t = 1.923, p = 0.0551). Dieser Effekt war marginal signifikant, was darauf hindeutet, dass eine unter­schiedliche Wahrnehmung durchaus existiert. Übersetzungsstudierende zeigten ebenfalls eine leicht kritischere Bewertung maschineller Übersetzungen allerdings ohne statistische Signifi­kanz (ß = 0.28551, SE = 0.20383, t = 1.401, p = 0.1620).

Diese Ergebnisse deuten darauf hin, dass sich die grundsätzliche Einstellung gegenüber ma­schinellen und menschlichen Übersetzungen zwischen den Gruppen nicht stark unterscheidet. Es zeigt sich jedoch ein leichter Trend, dass ausgebildete Übersetzende maschinelle Überset­zungen tendenziell kritischer bewerten als Laien - was H3 teilweise stützt. Dies legt nahe, dass fachliche Vorkenntnisse die Wahrnehmung und Bewertung von Übersetzungen maßgeblich be­einflussen. Dieser Unterschied könnte sich bei einer größeren Stichprobe oder in einem geziel­teren Vergleich maschineller Systeme noch deutlicher zeigen. Im Folgenden soll daher unter­sucht werden, ob ein Unterschied zwischen den Bewertungen von ChatGPT und DeepL exis­tiert.

H4: Ob Laien oder Personen mit Übersetzungsausbildung eine maschinelle Übersetzung der menschlichen vorziehen, hängt davon ab, welches Übersetzungssystem verwendet wurde - Übersetzungen von ChatGPT werden häufiger bevorzugt als Übersetzungen von DeepL.

Abb. in Leseprobe nicht enthalten

Abbildung 16: Bewertung der Übersetzungen nach Gruppe und System

Zur Überprüfung von H4 wurde ein lineares Regressionsmodell verwendet. Ziel war es heraus­zufinden, ob das verwendete maschinelle Übersetzungssystem (ChatGPT oder DeepL) in Kom­bination mit der Gruppenzugehörigkeit (Laien, Übersetzungsstudierende, professionelle Über­setzende) einen Einfluss auf die Bewertung der Übersetzungen hatte. Als abhängige Variable diente die Übersetzungsbewertung auf einer dreistufigen Skala (1 = unkritisch, 2 = neutral, 3 = kritisch). Die unabhängigen Variablen waren das verwendete System (Mensch, ChatGPT oder DeepL) sowie die Gruppenzugehörigkeit. Zudem wurde die Interaktion zwischen beiden Fak­toren untersucht, um zu prüfen, ob sich bestimmte Gruppen gegenüber einem System besonders kritisch oder wohlwollend zeigten.

Die Analyse ergab, dass sich in den Einzelvergleichen keine signifikanten Unterschiede zwi­schen den Gruppen zeigten, wenn es um die Bewertung menschlicher oder ChatGPT-Überset- zungen ging. Die Bewertungen von Laien unterschieden sich damit nicht deutlich von denen der Übersetzungsstudierenden (ß = -0.08696, SE = 0.15805, t = -0.550, p = 0.58246) oder der Profis (ß = -0.22029, SE = 0.19581, t = -1.125, p = 0.26115). Auch ChatGPT-Übersetzungen wurden im Vergleich zu menschlichen Übersetzungen nicht signifikant anders bewertet (ß = - 0.15942, SE = 0.15244, t = -1.046, p = 0.29619). Dies galt sowohl für Laien als auch für Übersetzungsstudierende (ß = 0.00942, SE = 0.22352, t = 0.042, p = 0.96640) sowie pro­fessionelle Übersetzende (ß = 0.15942, SE = 0.27692, t = 0.576, p = 0.56509). Auffällig war jedoch die Bewertung von DeepL-Übersetzungen: Zwar ergab sich im Gesamteffekt kein sig­nifikanter Unterschied gegenüber den menschlichen Übersetzungen (ß = 0.18841, SE = 0.15244, t = 1.236, p = 0.21709), in der Interaktion mit der Gruppenzugehörigkeit zeigten sich jedoch signifikante Unterschiede. Übersetzungsstudierende bewerteten DeepL-Überset- zungen signifikant kritischer als Laien (ß = 0.56159, SE = 0.22352, t = 2.513, p = 0.01232), ebenso wie professionelle Übersetzende (ß = 0.81159, SE = 0.27692, t = 2.931, p = 0.00355).

Diese Ergebnisse deuten darauf hin, dass sich die Einschätzungen maschineller Übersetzungen nicht zwingend zwischen den Gruppen unterscheiden, sondern stark vom eingesetzten System abhängen. Während ChatGPT offenbar Übersetzungen liefert, die auch bei fachlich geschulten Personen nicht auf stärkere Kritik stoßen, scheint DeepL - zumindest in den gewählten Bei­spielen - weniger zu überzeugen. Möglicherweise liegt dies an Unterschieden in Stil, Kohärenz oder in der Sensibilität für bestimmte sprachliche Merkmale, die vor allem von geschulten Le­senden erkannt werden. Dass menschliche und ChatGPT-Übersetzungen vergleichbar bewertet wurden, könnte wiederum ein Hinweis auf die zunehmend hohe Qualität KI-gestützter Systeme wie ChatGPT sein. Damit bestätigt sich H4 teilweise: Zwar wurden ChatGPT-Übersetzungen nicht explizit bevorzugt, doch DeepL wurde im Vergleich deutlich kritischer beurteilt - und zwar vor allem von den Personen mit Übersetzungsausbildung.

H5: Die automatische Bewertung mit Transquest tendiert dazu, menschliche Übersetzungen gegenüber maschinellen zu bevorzugen.

Abb. in Leseprobe nicht enthalten

Abbildung 17: Durchschnittliche TransQuest-Scores nach Übersetzungsart

Zur Überprüfung von H5 wurde ein lineares Regressionsmodell verwendet, um herauszufinden, ob die Art der Übersetzung (Mensch, ChatGPT, DeepL) einen Einfluss auf die TransQuest- Vorhersagewerte hat. Die abhängige Variable war der vorhergesagte Qualitätswert (predic- ted_score), der von TransQuest automatisch generiert wird. Als unabhängige Variable diente die Übersetzungsart. Ziel war es, zu prüfen, ob menschliche Übersetzungen durch das Modell systematisch höher bewertet werden als maschinelle.

Das Regressionsmodell zeigte, dass die durchschnittliche Bewertung für menschliche Überset­zungen bei 0.718871 lag. Weder ChatGPT-Übersetzungen (ß = 0.002371, SE = 0.002926, t = 0.810, p = 0.420) noch DeepL-Übersetzungen (ß = 0.002481, SE = 0.002926, t = 0.848, p = 0.399) wichen in statistisch signifikanter Weise von diesem Mittelwert ab.

Diese Ergebnisse sprechen gegen die Hypothese, dass TransQuest menschliche Übersetzungen systematisch bevorzugt. TransQuest wurde speziell für die Qualitätseinschätzung maschineller Übersetzungen konzipiert. So lagen die Bewertungen für maschinelle Übersetzungen leicht über denen der menschlichen. Dennoch ist dieser Unterschied statistisch nicht signifikant und zeigt so keine klare Benachteiligung menschlicher Übersetzungen. Vielmehr deuten die Ergeb­nisse darauf hin, dass TransQuest keine signifikanten Unterschiede zwischen menschlichen und maschinellen Übersetzungen macht. Das könnte darauf zurückzuführen sein, dass TransQuest bei allen Systemen ähnliche Merkmale bewertet. Insgesamt kann H5 nicht bestätigt werden. TransQuest scheint im gegebenen Datensatz neutral gegenüber der Herkunft der Übersetzung zu bewerten.

H6: Laien und Personen mit Übersetzungsausbildung, die regelmäßig Large Language Models (LLMs) oder neuronale maschinelle Übersetzungs-Systeme (NMÜ) nutzen oder eine höhere Lesefrequenz aufweisen, erkennen maschinell oder menschlich erzeugte literarische Übersetzungen signifikant besser als Laien und Personen mit Übersetzungsausbildung, die selten oder gar nicht mit LLMs bzw. NMÜ interagieren oder wenig lesen.

Abb. in Leseprobe nicht enthalten

Abbildung 18: Gesamtrichtigkeitsraten nach MÜ- und LLM-Nutzung sowie Lesefrequenz nach Gruppen

Zur Überprüfung von H6 wurde ein lineares Regressionsmodell verwendet, um zu untersuchen, ob Laien und Personen mit Übersetzungsausbildung, die regelmäßig Large Language Models (LLMs) oder neuronale maschinelle Übersetzungs-Systeme (NMÜ) nutzen oder eine höhere Lesefrequenz aufweisen, maschinell erzeugte literarische Übersetzungen signifikant besser er­kennen können als solche, die selten oder gar nicht mit diesen Systemen interagieren oder wenig lesen. Die abhängige Variable war die Gesamtrichtigkeitsrate der Übersetzungen, und die un­abhängigen Variablen waren die Nutzungshäufigkeit von LLMs bzw. NMÜ sowie die Lesefre­quenz.

Die Ergebnisse zeigen, dass es Unterschiede in den Effekten der Nutzung von LLMs bezie­hungsweise NMÜ sowie der Lesefrequenz zwischen den Gruppen (Laien, Übersetzungsstudierende, Profis) gab. Insbesondere für Laien zeigte das Modell keinen signi­fikanten Einfluss der Häufigkeit der Nutzung von NMÜ und LLM oder der Lesefrequenz auf die Gesamtrichtigkeitsrate (ß = - 1.2799, SE = 1.0482, t = -1.221, p = 0.239 für wöchentlichen Gebrauch und ß = - 0.8147, SE = 1.0978, t = -0.742, p = 0.468 für seltenen Gebrauch von LLMs/NMÜ. Für die Lesefrequenz ergaben sich folgende Werte: ß = - 0.5932, SE = 1.3090, t = -0.453, p = 0.656 für wöchentliches Lesen, ß = -1.0770, SE = 1.2258, t = - 0.879, p = 0.392 für seltenes Lesen und ß = -0.5463, SE = 2.1080, t = -0.259, p = 0.799 für die Lesefrequenz „nie“.

Im Gegensatz dazu zeigte das Modell für Übersetzungsstudierende signifikante Ergebnisse. So­wohl die Nutzung von LLMs bzw. NMÜ auf wöchentlicher (ß = 2.5205, SE = 0.7344, t = 3.432, p = 0.00371) als auch auf seltener Basis (ß = 3.1058, SE = 0.7723, t = 4.021, p = 0.00111) sowie die Lesefrequenz hatten einen positiven Effekt auf die Gesamtrichtigkeitsrate. Übersetzungs­studierende, die regelmäßig wöchentlich (ß = -1.4266, SE = 0.5608, t = -2.544, p = 0.02247) oder selten (ß = -1.9846, SE = 0.6040, t = -3.286, p = 0.00500) lasen, erkannten maschinelle oder menschliche Übersetzungen signifikant besser.

Die Analyse der professionellen Übersetzenden zeigte, dass die Lesefrequenz einen signifikan­ten positiven Einfluss auf die Erkennungsrate hatte, insbesondere für Teilnehmende, die wö­chentlich (ß = 3.35294, SE = 0.98149, t = 3.416, p = 0.0189) oder selten (ß = 3.76471, SE = 0.93970, t = 4.006, p = 0.0103) lasen. Im Gegensatz dazu hatte die Nutzung von LLMs bzw. NMÜ keinen signifikanten Einfluss auf die Erkennungsrate. Die wöchentliche Nutzung von LLMs bzw. NMÜ zeigte keinen signifikanten Effekt (ß = 0.05882, SE = 0.69402, t = 0.085, p = 0.9357), ebenso wenig wie die seltene Nutzung (ß = 1.70588, SE = 0.88470, t = 1.928, p = 0.1117).

Zusammenfassend zeigt die Analyse, dass die Fähigkeit zur Erkennung maschineller oder menschlicher Übersetzungen von der Nutzungshäufigkeit von LLMs bzw. NMÜ und der Le­sefrequenz abhängt, dies jedoch auf einem gewissen Erfahrungsstand beruht. Somit bestätigen die Ergebnisse H6 teilweise, da der Effekt der Nutzung von LLMs bzw. NMÜ und der Lesefre­quenz besonders für geschulte Gruppen signifikant war.

9 Diskussion

9.1 Bedeutung der Ergebnisse für die Übersetzungsforschung

Die Ergebnisse dieser Studie liefern wichtige Hinweise auf den aktuellen Stand der maschinel­len Übersetzung im literarischen Bereich - insbesondere im Vergleich zur menschlichen Über­setzung. Dabei zeigt sich ein vielschichtiges Bild, das sowohl den Einfluss technologischer Fortschritte als auch die Mechanismen menschlicher Wahrnehmung zum Ausdruck bringt.

Zunächst wird deutlich, dass die Fähigkeit, maschinelle und menschliche Übersetzungen von­einander zu unterscheiden, nicht eindeutig an den Grad der Ausbildung oder Berufserfahrung im Übersetzungsbereich gekoppelt ist. Die Annahme, dass Fachpersonen grundsätzlich bessere Urteile treffen, konnte nicht bestätigt werden. Dies legt nahe, dass moderne Systeme wie Chat- GPT mittlerweile Übersetzungen erzeugen, die auch für geübte Lesende schwer erkennbar sind. Dies zeigte sich auch in den Arbeiten von Sizov et al. (2024) und Jiang et al. (2024 a). Moderne LLMs reichten stilistisch deutlich näher an menschliche Übersetzungen heran als klassische NMÜ-Systeme. Die Ergebnisse dieser Arbeit bestätigen dies: ChatGPT-Übersetzungen wurden in knapp 70 % der Fälle als menschlich eingeschätzt, während DeepL deutlich häufiger als Maschine erkannt wurde. Dies verdeutlicht, dass aktuelle LLMs mittlerweile so gut sind, dass selbst Übersetzungsexperten und -expertinnen im Blindtest Schwierigkeiten haben, sie zuver­lässig zu unterscheiden.

Zugleich zeigen sich Hinweise darauf, dass mit zunehmender Übersetzungserfahrung die Sen­sibilität für Unterschiede wächst - insbesondere in der Bewertung, nicht unbedingt in der reinen Erkennung. Fachpersonen tendieren tendenziell zu kritischeren Einschätzungen maschineller Übersetzungen, was darauf hinweist, dass professionelle Bewertung andere Maßstäbe anlegt als die bloße Identifikation der Herkunft. Dies ist für die Praxis der Übersetzungsforschung relevant, weil es nahelegt, dass Bewertungen stärker kontext- und gruppenspezifisch interpre­tiert werden sollten.

Die Tatsache, dass ChatGPT-Übersetzungen im Schnitt ähnlich bewertet wurden wie die menschlichen, während DeepL deutlich kritischer beurteilt wurde - vor allem von fachlich ge­schulten Teilnehmenden -, zeigt, dass nicht maschinelle Übersetzung als solche, sondern die Wahl des Systems entscheidend ist. Dies unterstreicht die Notwendigkeit, maschinelle Überset­zung nicht pauschal zu beurteilen, sondern differenziert nach Technologie, Kontext (wie bspw. Fiction und Non-Fiction) und Anwendungszweck zu bewerten.

Auch die Bewertung durch automatische Metriken wie TransQuest liefert interessante Einsich­ten: Entgegen der Hypothese bevorzugte TransQuest menschliche Übersetzungen nicht syste­matisch. Vielmehr bewertete das System alle Übersetzungsarten auf einem vergleichbaren Ni­veau - ein Befund, der die Kritik von Jiang et al. (2024b) an der begrenzten Aussagekraft auto­matischer Metriken bei stilistisch und kulturell komplexen Texten bestätigt. Automatische Met­riken wie TransQuest dienen also weiterhin nur als erster Indikator. Empirische Studien sollten menschliche Rezeption stärker einbeziehen und gegebenenfalls neue, darauf abgestimmte Met­riken entwickeln.

Ein weiterer zentraler Aspekt ist die Bedeutung der individuellen Nutzererfahrung. Während Laien kaum von häufiger Nutzung maschineller Übersetzung oder häufigem Lesen profitierten, zeigte sich bei Übersetzungsstudierenden und Profis ein positiver Zusammenhang zwischen diesen Faktoren und der Fähigkeit, Übersetzungen korrekt zuzuordnen. Dies deutet darauf hin, dass maschinelle Übersetzungskompetenz - ähnlich wie Sprachkompetenz - nicht allein durch technische Affinität, sondern durch gezielte Erfahrung und reflektierten Umgang mit Texten entsteht.

Besonders relevant ist auch die Rolle des Prompt Engineerings. Die in dieser Arbeit eingesetzte Self-Refine-Strategie führte zu deutlich besseren Ergebnissen bei ChatGPT - ein Befund, der die Studienlage (z. B. Zeng & Liang, 2024) stützt und das Potenzial interaktiver Steuerung un­terstreicht. DeepL hingegen blieb in seiner Funktionalität begrenzt, was sich in den Bewertun­gen widerspiegelte.

Besonders aufschlussreich sind die Ergebnisse im Hinblick auf die Bewertung der Übertragung literarisch relevanter Merkmale wie Kreativität, Stilmittel, kulturelle Elemente und Fantasy­Elemente:

Kreativität wurde in den menschlichen Übersetzungen insgesamt am höchsten bewertet - ins­besondere bei Übersetzung 6 und 8, die von über 70 % der Teilnehmenden als „eher“ oder „sehr kreativ“ eingestuft wurden. ChatGPT-Übersetzungen schnitten ebenfalls sehr gut ab und wur­den in zwei von drei Fällen als kreativer wahrgenommen als DeepL. DeepL hingegen wurde durchweg als am wenigsten kreativ bewertet, was auf eine stärkere Tendenz zur wörtlichen und strukturell konservativen Übertragung hinweist. Diese Ergebnisse stehen im Einklang mit Guerberof-Arenas & Toral (2020), die menschlichen Übersetzungen eine höhere kreative Qua­lität zuschreiben. ChatGPT zeigte jedoch Potenzial, insbesondere bei gezielter Steuerung durch Prompts.

Stilmittel wurden in den menschlichen Übersetzungen (v. a. Ü6 und Ü8) am besten bewertet. ChatGPT konnte hier ebenfalls überzeugen, insbesondere bei Übersetzung 5, die von über 70 % der Teilnehmenden als stilistisch gelungen eingeschätzt wurde. DeepL hingegen wurde in die­sem Bereich meist neutral oder leicht negativ bewertet - ein Befund, der die in der Literatur beschriebene strukturelle Starrheit klassischer NMÜ-Systeme bestätigt. So zeigten Studien von Crosbie et al. (2013) und Wang et al. (2024), dass Maschinen bei komplexen Stilmitteln häufig scheitern oder diese nur oberflächlich übertragen.

Kulturelle Elemente wurden in den menschlichen Übersetzungen am besten übertragen, was sich in den höchsten Zustimmungswerten für Übersetzung 6 und 8 zeigt. ChatGPT konnte auch hier solide Ergebnisse erzielen, während DeepL-Übersetzungen häufig als zu neutral oder kon­textfern wahrgenommen wurden. Dies bestätigt die Annahme, dass kulturelle Sensibilität wei­terhin eine Schwäche maschineller Systeme darstellt - insbesondere ohne gezielte Steuerung, wie auch schon bei Karabayeva & Kalizhanova (2024) aufgezeigt wurde.

Fantasy-Elemente, die in der gewählten Textsorte besonders zentral sind, wurden in den menschlichen Übersetzungen (v. a. Ü8) am überzeugendsten übertragen. ChatGPT konnte in zwei von drei Fällen ebenfalls hohe Bewertungen erzielen, insbesondere bei Übersetzung 5. DeepL zeigte hier zwar solide, aber weniger konsistente Leistungen. Die Ergebnisse bestätigen Bergmanns (2017) These, dass Fantasy-Literatur besonders anspruchsvolle stilistische, kreative und kulturelle Übertragungsleistungen erfordert - Anforderungen, die LLMs wie ChatGPT zwar immer besser erfüllen, klassische NMÜ-Systeme wie DeepL jedoch weiterhin nur bedingt meistern und bei denen eine menschliche Nachbearbeitung unverzichtbar bleibt.

Insgesamt zeigen die Ergebnisse, dass die Grenzen zwischen menschlicher und maschineller Übersetzung durch Systeme wie ChatGPT zunehmend verschwimmen - sowohl in ihrer Qua­lität als auch in ihrer Wahrnehmung. Für die Übersetzungsforschung bedeutet dies, dass tradi­tionelle Bewertungskriterien überdacht werden müssen und neue, empirisch fundierte Perspek­tiven erforderlich sind, die sowohl technologische Entwicklungen als auch menschliche Rezep­tionsmuster berücksichtigen. Die Differenzierung nach Systemtyp, Textsorte und Nutzergruppe wird dabei ebenso zentral sein wie die Integration von Prompting-Strategien und hybriden Ar­beitsformen zwischen Mensch und Maschine.

9.2 Limitationen der Studie

9.2.1 Begrenzungen der Methodik und Datenanalyse

Wie bei jeder empirischen Untersuchung gibt es auch in dieser Studie methodische Einschrän­kungen, die bei der Interpretation der Ergebnisse berücksichtigt werden müssen. Die Auswahl von drei Textausschnitten stellt nur einen kleinen Ausschnitt aus dem Spektrum literarischer Sprache dar. Die Übertragbarkeit der Ergebnisse auf andere Textsorten, Genres oder längere Passagen ist daher nur bedingt möglich.

Auch die gewählten Analysemethoden - sowohl bei der automatischen als auch bei der mensch­lichen Bewertung - bilden nur einen Teil möglicher Evaluationsstrategien ab. Andere Metriken oder experimentelle Designs hätten gegebenenfalls zu abweichenden Ergebnissen geführt oder zusätzliche Einsichten ermöglicht. Ebenso kann nicht ausgeschlossen werden, dass sich be­stimmte Einflüsse - etwa durch die Reihenfolge der Texte oder die Präsentationsform - auf das Antwortverhalten ausgewirkt haben.

9.2.2 Mögliche Verzerrungen durch die Testgruppen

Auch bei der Zusammensetzung der Testgruppen können Verzerrungen auftreten. So ist es mög­lich, dass die Teilnehmenden nicht repräsentativ für die Zielgruppe literarischer Übersetzungen sind. Faktoren wie Bildungshintergrund, Interesse an Literatur oder Vorerfahrung mit und Ein­stellung zu Übersetzungstools könnten unbewusst das Urteil beeinflusst haben.

Zudem beruhte die Einteilung in Laien und Fachpersonen auf Selbstauskünften, ohne objektive Überprüfung der tatsächlichen Übersetzungskompetenz. Auch individuelle Lesestrategien, per­sönliche Vorlieben oder Erwartungshaltungen gegenüber maschinellen Texten können das Er­gebnis mitgeprägt haben, ohne dass diese Einflüsse kontrolliert oder gemessen wurden.

Diese Einschränkungen relativieren die Aussagekraft der Ergebnisse nicht grundsätzlich, zei­gen aber, dass weiterführende Studien mit breiterer Datenbasis, alternativen Methoden und kon- trollierteren Bedingungen sinnvoll und notwendig wären, um das Potenzial maschineller Lite­raturübersetzung noch differenzierter bewerten zu können.

10 Fazit und Ausblick

10.1 Zusammenfassung der wichtigsten Erkenntnisse

Die vorliegende Arbeit widmete sich der Frage, inwieweit maschinelle Übersetzungssysteme - insbesondere ChatGPT und DeepL - in der Lage sind, literarische Texte auf einem mit mensch­lichen Übersetzungen vergleichbaren Niveau wiederzugeben. Im Zentrum stand dabei nicht nur die technische Qualität der Übersetzungen, sondern auch deren Wahrnehmung durch unter­schiedliche Zielgruppen - von Laien bis hin zu professionellen Übersetzenden. Inwieweit konn­ten diese maschinelle und menschliche Übersetzungen literarischer Texte voneinander unter­scheiden, wenn sie ihnen anonymisiert vorgelegt wurden? Die Ergebnisse zeigen ein vielschich­tiges Bild, das sowohl die Leistungsfähigkeit aktueller Systeme als auch die Herausforderungen bei der Bewertung literarischer Übersetzungen deutlich macht.

Zunächst wurde deutlich, dass moderne Large Language Models wie ChatGPT Übersetzungen erzeugen können, die stilistisch und sprachlich so überzeugend sind, dass sie selbst von Fach­personen häufig nicht mehr eindeutig als maschinell erkannt werden. In knapp 70 % der Fälle wurden ChatGPT-Übersetzungen für menschlich gehalten - ein Wert, der die zunehmende An­näherung maschineller Systeme an menschliche Ausdrucksformen eindrucksvoll belegt. DeepL hingegen wurde deutlich häufiger korrekt als maschinell identifiziert und insgesamt kritischer bewertet. Dies legt nahe, dass die Qualität maschineller Übersetzungen stark vom verwendeten System abhängt und nicht pauschal beurteilt werden kann.

Interessanterweise zeigte sich, dass die Fähigkeit zur Unterscheidung zwischen menschlichen und maschinellen Übersetzungen nicht signifikant mit der Ausbildung oder Berufserfahrung im Übersetzungsbereich zusammenhängt. Fachpersonen konnten maschinelle Übersetzungen nicht verlässlicher erkennen als Laien. Allerdings bewerteten sie diese tendenziell kritischer. Besonders deutlich wurde dies bei DeepL, dessen Übersetzungen von Fachpersonen signifikant negativer beurteilt wurden als von Laien. ChatGPT hingegen wurde über alle Gruppen hinweg ähnlich positiv bewertet wie die menschlichen Übersetzungen.

Auch die automatische Bewertung durch TransQuest ergab keine systematische Bevorzugung menschlicher Übersetzungen. Die Scores lagen für alle Systeme auf vergleichbarem Niveau, was die Grenzen automatischer Metriken bei der Bewertung literarischer Texte unterstreicht. Stilistische, kulturelle und kreative Aspekte, die für literarische Übersetzungen zentral sind, werden von solchen Metriken nur unzureichend erfasst. Dies bestätigt die Notwendigkeit, menschliche Bewertungen auch künftig als unverzichtbaren Bestandteil der Qualitätsevaluation zu betrachten.

Ein weiterer zentraler Befund betrifft die Rolle individueller Erfahrung. Während bei Laien kein signifikanter Zusammenhang zwischen Nutzungshäufigkeit maschineller Übersetzungs­systeme oder Lesefrequenz und der Erkennungsleistung festgestellt werden konnte, zeigte sich bei Übersetzungsstudierenden und professionellen Übersetzenden ein klarer positiver Effekt. Wer regelmäßig mit LLMs oder NMÜ-Systemen arbeitet oder häufig literarische Texte liest, konnte Übersetzungen signifikant besser zuordnen. Dies unterstreicht die Bedeutung prakti­scher Erfahrung und literarischer Kompetenz für die Bewertung maschineller Übersetzungen.

Besonders hervorzuheben ist das Potenzial von Prompt Engineering. Die in dieser Arbeit ein­gesetzte Self-Refine-Strategie bei ChatGPT führte zu besseren Ergebnissen als einfache Zero­Shot-Prompts. Dies zeigt, dass die Qualität maschineller Übersetzungen nicht nur vom Modell selbst, sondern auch von der Art der Interaktion abhängt. DeepL hingegen blieb in seiner Funk­tionalität begrenzt, was sich in den Bewertungen widerspiegelte.

Insgesamt lässt sich festhalten, dass die Grenzen zwischen menschlicher und maschineller Li­teraturübersetzung zunehmend verschwimmen. ChatGPT hat ein Niveau erreicht, das in vielen Fällen mit menschlichen Übersetzungen konkurrieren kann - insbesondere bei gezielter Steue­rung durch Prompts. Dennoch bleibt die kreative Leistung menschlicher Übersetzender in vie­len Bereichen - etwa bei der Übertragung komplexer Stilmittel, kultureller Referenzen oder emotionaler Nuancen - bislang unerreicht.

Die Ergebnisse dieser Arbeit legen nahe, dass die Zukunft der Literaturübersetzung nicht in einem Entweder-oder, sondern in einem Sowohl-als-auch liegt: Hybride Modelle, in denen Mensch und Maschine kooperieren, könnten neue Wege eröffnen, um literarische Texte effi­zient, kreativ und kultursensibel zu übertragen.

10.2 Implikationen für zukünftige Forschung und Praxis

Für die zukünftige Forschung ergeben sich daraus mehrere zentrale Implikationen:

Erstens sollte die Rolle von Prompt Engineering systematisch untersucht und in die Ausbildung von Übersetzenden integriert werden. Die Erkenntnis, dass Fachwissen strengere Maßstäbe setzt, legt nahe, Module zu KI-Technologien ins Übersetzungsstudium zu integrieren. Überset­zende sollten im Umgang mit LLMs geschult werden. Praktische Übungen im Prompt­Engineering, systematisches Post-Editing und kritische Reflexion maschineller Outputs sollten fester Bestandteil der Lehre werden.

Zweitens bedarf es neuer Evaluationsmetriken, die literarische Qualität adäquat erfassen kön­nen. Bestehende automatische Verfahren wie BLEU oder TransQuest erfassen vor allem for­male Übereinstimmungen, vernachlässigen jedoch stilistische, kulturelle und emotionale Di­mensionen. Es bedarf daher neuer Bewertungsansätze, die literarische Qualität differenzierter abbilden können - idealerweise in Kombination mit menschlicher Rezeption.

Drittens sollten weitere Studien unterschiedliche Textsorten, Sprachpaare und kulturelle Kon­texte einbeziehen, um die Generalisierbarkeit der Ergebnisse zu prüfen. Zukünftige Studien sollten weitere literarische Genres wie Lyrik und Drama sowie längere Textpassagen einbezie­hen. Ebenso sollte untersucht werden, wie maschinelle Übersetzungssysteme kulturelle Anspie­lungen und stilistische Mittel in verschiedenen Zielkulturen verarbeiten - idealerweise im Rah­men multilingualer Vergleichsstudien.

Viertens beeinflusst die Wahl des Systems (z. B. DeepL vs. ChatGPT) die Wahrnehmung stark. Zukünftige Studien sollten kontextspezifisch bewerten indem verschiedene Systemtypen und Prompting-Strategien miteinander verglichen werden. Inwiefern können unterschiedliche Prompt-Formulierungen die Qualität und Erkennbarkeit von maschinellen Übersetzungen be­einflussen?

Fünftens ist auch die gesellschaftliche Akzeptanz maschineller Literaturübersetzungen ein loh­nendes Forschungsfeld - insbesondere im Hinblick auf die Frage, wie Leserinnen und Leser ohne Übersetzungshintergrund maschinell erzeugte Literatur wahrnehmen und bewerten.

Die vorliegende Arbeit leistet einen Beitrag zur aktuellen Diskussion über die Rolle maschinel­ler Übersetzung im literarischen Bereich. Sie zeigt, dass maschinelle Systeme wie ChatGPT nicht nur technisch leistungsfähig, sondern auch stilistisch überzeugend sein können - und dass ihre Bewertung differenzierter ausfallen muss als bisher. Die Herausforderung besteht nun da­rin, diese Entwicklung kritisch zu begleiten, neue Bewertungsmaßstäbe zu entwickeln und die Potenziale hybrider Übersetzungsprozesse gezielt zu nutzen. Mit diesen Ansätzen kann die For­schung einen differenzierteren Einblick in das komplexe Zusammenspiel von Technik, Text und Rezeption gewinnen und praxisrelevante Handlungsempfehlungen für den literarischen Übersetzungsmarkt entwickeln.

Literaturverzeichnis

Primärliteratur

Polk, C. L. (2020). The midnight bargain. New York, Erewhon Books.

Polk, C. L. (2023). Der Mitternachtspakt. Roman. München, Piper.

Sekundärliteratur:

Abdelaty, Ragab (2024). Kompetenzen und Herausforderungen für Übersetzer im Zeitalter der Künstlichen Intelligenz. Beni-Suef University International Journal of Humanities and Social Sciences 6, 31-54. https://doi.org/10.21608/buijhs.2024.270423.1135.

Ait Lahcen, Ayoub (2023). The Impact of Machine Translation on Cultural Transfer in Literary Texts 2023.

Amini, Mansour/Ravindran, Latha/Lee, Kam-Fong (2024). Implications of using AI in transla­tion studies: Trends, challenges, and future direction. Asian Journal of Research in Edu­cation and Social Sciences e-ISSN 6 (1,740-754).

Bahdanau, Dzmitry/Cho, Kyunghyun/Bengio, Yoshua (2015). Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473 [Titel anhand die­ser ArXiv-ID in Citavi-Projekt übernehmen].

Bergmann, Alexandra (2017). The challenges of translating fantasy fiction from English into German: Tolkien’s "The Lord of the Rings: The Fellowship of the Ring", Rowling’s "Harry Potter and the Philosopher’s Stone", and Martin’s "A Song of Ice and Fire: A Game of Thrones. Master’s Thesis. Graz, Universität Graz. Online verfügbar unter https://unipub.uni-graz.at/urn:nbn:at:at-ubg:1-114542.

Chatzikoumi, Eirini (2020). How to evaluate machine translation: A review of automated and human metrics. Natural Language Engineering 26 (2), 137-161. https://doi.org/10.1017/S1351324919000469.

Cho, Kyunghyun/van Merrienboer, Bart/Bahdanau, Dzmitry/Bengio, Yoshua (2014a). On the Properties of Neural Machine Translation: Encoder-Decoder Approaches. Online ver­fügbar unter http://arxiv.org/pdf/1409.1259.

Cho, Kyunghyun/van Merrienboer, Bart/Gulcehre, Caglar/Bahdanau, Dzmitry/Bougares, Fethi/Schwenk, Holger/Bengio, Yoshua (2014b). Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation. Online verfügbar unter http://arxiv.org/pdf/1406.1078.

Conneau, Alexis/Khandelwal, Kartikay/Goyal, Naman/Chaudhary, Vishrav/Wenzek, Guil- laume/Guzman, Francisco/Grave, Edouard/Ott, Myle/Zettlemoyer, Luke/Stoyanov, Veselin (2020). Unsupervised Cross-lingual Representation Learning at Scale. In: Dan Jurafsky/Joyce Chai/Natalie Schluter et al. (Hg.). Proceedings of the 58th Annual Meet­ing of the Association for Computational Linguistics. Online, Association for Computa­tional Linguistics, 8440-8451.

Crosbie, Tess/French, Tim/Conrad, Marc (2013). Stylistic Analysis Using Machine Translation as a Tool. International Journal for Infonomics Special 1, 835-843. https://doi.org/10.20533/iji.1742.4712.2013.0099.

Cvetkovic, Daniela (2020). Wahrnehmung der Qualität von maschineller Übersetzung durch professionelle ÜbersetzerInnen und LaiInnen. Wien. https://doi.org/10.25365/the- sis.65245.

Digue Albin/Campen, Paul (2022). Automatic Translation of Wordplay. In: Working Notes of CLEF 2022 - Conference and Labs of the Evaluation Forum. Bologna, Italy, CEUR- WS.org.

Ed-Dali, Rachid (2024). Comparative Analysis of Copilot 4 and Chatgpt 4 for Literary Trans­lation: A Comprehensive Evaluation 2024.

Fick, Sabine Ute (2017/2018). Neuronal=optimal? : Eine Qualitätsstudie zu neuronalen ma­schinellen Übersetzungssystemen. Masterarbeit. Mainz, Johannes Gutenberg-Universität Mainz.

Fox, John; Weisberg, Sanford (2019). An R Companion to Applied Regression. 3. Auflage. Thousand Oaks, CA: SAGE Publications.

Gehring, Jonas/Auli, Michael/Grangier, David/Yarats, Denis/Dauphin, Yann N. (2017). Con­volutional sequence to sequence learning. In: International conference on machine learn­ing, 1243-1252.

Guerberof-Arenas, Ana/Toral, Antonio (2020). The impact of post-editing and machine trans­lation on creativity and reading experience. Translation Spaces 9 (2), 255-282. https://doi.org/10.1075/ts.20035.gue.

Guerberof-Arenas, Ana/Toral, Antonio (2022). Creativity in translation. Translation Spaces 11 (2), 184-212. https://doi.org/10.1075/ts.21025.gue.

Hirschle, Jochen (2022). Deep Natural Language Processing. Einstieg in Word Embedding, Sequence-to-Sequence-Modelle und Transformers mit Python. München, Hanser; Hanser eLibrary.

Hutchins, W. John (1995). Machine translation: A brief history. In: Concise history of the lan­guage sciences. Elsevier, 431-445.

Igareda, Paula (2011). Categorización temática del análisis cultural: una propuesta para la tra­ducción / Thematic Categorization of Cultural Analysis: A Proposal for Translation. Ikala: Revista de Lenguaje y Cultura 0.

Jiang, Zhaokun/Lv, Qianxi/Zhang, Ziyin/Lei, Lei (2024a). Distinguishing translations by hu­man, nmt, and chatgpt: A linguistic and statistical approach. arXiv preprint ar- Xiv:2312.10750

Jiang, Zhaokun/Lv, Qianxi/Zhang, Ziyin/Lei, Lei (2024b). Convergences and Divergences be­tween Automatic Assessment and Human Evaluation: Insights from Comparing ChatGPT-Generated Translation and Neural Machine Translation. arXiv preprint arXiv:2401.05176

Jiao, Wenxiang/Wang, Wenxuan/Huang, Jen-tse/Wang, Xing/Shi, Shuming/Tu, Zhaopeng (2023). Is ChatGPT A Good Translator? Yes With GPT-4 As The Engine. Online verfüg­bar unter http://arxiv.org/pdf/2301.08745.

Karabayeva, Irina/Kalizhanova, Anna (2024). Evaluating machine translation of literature through rhetorical analysis. Journal of Translation and Language Studies 5 (1), 1-9. https://doi.org/10.48185/jtls.v5i1.962.

Kepler, Fabio/Trénous, Jonay/Treviso, Marcos/Vera, Miguel/Martins, André F. T. (2019). OpenKiwi: An Open Source Framework for Quality Estimation. In: Marta R. Costa- jussà/Enrique Alfonseca (Hg.). Proceedings of the 57th Annual Meeting of the Associa­tion for Computational Linguistics: System Demonstrations. Florence, Italy, Association for Computational Linguistics, 117-122.

Kim, Hyun/Lee, Jong-Hyeok/Na, Seung-Hoon (2017). Predictor-Estimator using Multilevel Task Learning with Stack Propagation for Neural Quality Estimation. In: Ondrej Bojar/Christian Buck/Rajen Chatterjee et al. (Hg.). Proceedings of the Second Confer­ence on Machine Translation. Copenhagen, Denmark, Association for Computational Linguistics, 562-568.

Koehn, Philipp (2020). Neural Machine Translation. GB, Cambridge University Press.

Kreutzer, Julia/Schamoni, Shigehiko/Riezler, Stefan (2015). QUality Estimation from ScraTCH (QUETCH): Deep Learning for Word-level Translation Quality Estimation. In: Ondrej Bojar/Rajan Chatterjee/Christian Federmann et al. (Hg.). Proceedings of the Tenth Workshop on Statistical Machine Translation. Lisbon, Portugal, Association for Compu­tational Linguistics, 316-322.

Krüger, Ralph (2021). Die Transformer-Architektur für Systeme zur neuronalen maschinellen Übersetzung-eine popularisierende Darstellung. trans-kom 14 (2), 278-324.

LTIMindtree (2023). ChatGPT-An-AI-NLP-Model-POV-lastpage. Online verfügbar unter https://www.ltimindtree.com/wp-content/uploads/2023/02/ChatGPT-An-AI-NLP-Mo- del-POV.pdf (abgerufen am 26.05.2025).

Madaan, Aman/Tandon, Niket/Gupta, Prakhar/Hallinan, Skyler/Gao, Luyu/Wiegreffe, Sa- rah/Alon, Uri/Dziri, Nouha/Prabhumoye, Shrimai/Yang, Yiming/Gupta, Shashank/Ma- jumder, Bodhisattwa Prasad/Hermann, Katherine/Welleck, Sean/Yazdanbakhsh, Amir/Clark, Peter (2023). Self-Refine: Iterative Refinement with Self-Feedback. Online verfügbar unter http://arxiv.org/pdf/2303.17651.

Martins, André F. T./Astudillo, Ramon/Hokamp, Chris/Kepler, Fabio (2016). Unbabel’s Par­ticipation in the WMT16 Word-Level Translation Quality Estimation Shared Task. In: Ondrej Bojar/Christian Buck/Rajen Chatterjee et al. (Hg.). Proceedings of the First Con­ference on Machine Translation: Volume 2, Shared Task Papers. Berlin, Germany, Asso­ciation for Computational Linguistics, 806-811.

Martins, André F. T./Junczys-Dowmunt, Marcin/Kepler, Fabio N./Astudillo, Ramon/Hokamp, Chris/Grundkiewicz, Roman/Lee, Lillian/Johnson, Mark/Toutanova, Kristina (2017). Pushing the Limits of Translation Quality Estimation. Transactions of the Association for Computational Linguistics 5, 205-218. https://doi.org/10.1162/tacl_a_00056.

Mohamed, Shereen A./Elsayed, Ashraf A./Hassan, Y. F./Abdou, Mohamed A. (2021). Neural machine translation: past, present, and future. Neural Computing and Applications 33, 15919-15931.

Papineni, Kishore/Roukos, Salim/Ward, Todd/Zhu, Wei-Jing (2002). Bleu: a Method for Au­tomatic Evaluation of Machine Translation. In: Pierre Isabelle/Eugene Charniak/Dekang Lin (Hg.). Proceedings of the 40th Annual Meeting of the Association for Computational Linguistics. Philadelphia, Pennsylvania, USA, Association for Computational Linguis­tics, 311-318.

Popovic, Maja (2011). Hjerson: An Open Source Tool for Automatic Error Classification of Machine Translation Output. The Prague Bulletin of Mathematical Linguistics 96 (1). https://doi.org/10.2478/v10108-011-0011-4.

R Core Team (2025). R: A Language and Environment for Statistical Computing. Vienna, Aus­tria 2025. Online verfügbar unter https://www.R-project.org/.

Ranasinghe, Tharindu/Orasan, Constantin/Mitkov, Ruslan (2020). TransQuest: Translation Quality Estimation with Cross-lingual Transformers. Online verfügbar unter http://ar- xiv.org/pdf/2011.01536.

Ronowicz, Eddie/Imanishi, Kyoko (2003). A Comparison of task management and lexical search mechanisms in novice and professional translators/interpreters. Interpretation Studies 3, 16-34.

Ruoqi, Shi/Yuan, Xiong/Gochuico, Maria Theresa (2023). Translators and their use of ChatGPT. Academia Lasalliana Journal of Education and Humanities 5 (1), 49-59.

Sahoo, Pranab/Singh, Ayush Kumar/Saha, Sriparna/Jain, Vinija/Mondal, Samrat/Chadha, Aman (2024). A Systematic Survey of Prompt Engineering in Large Language Models: Techniques and Applications. Online verfügbar unter http://arxiv.org/pdf/2402.07927.

Salimi, Jonni (2014). Machine Translation Of Fictional And Non-fictional Texts : An exami­nation of Google Translate’s accuracy on translation of fictional versus non-fictional texts 2014.

Schulhoff, Sander/Ilie, Michael/Balepur, Nishant/Kahadze, Konstantine/Liu, Amanda/Si, Chenglei/Li, Yinheng/Gupta, Aayush/Han, HyoJung/Schulhoff, Sevien/Dulepet, Pranav Sandeep/Vidyadhara, Saurav/Ki, Dayeon/Agrawal, Sweta/Pham, Chau/Kroiz, Gerson/Li, Feileen/Tao, Hudson/Srivastava, Ashay/Da Costa, Hevander/Gupta, Saloni/Rogers, Me­gan L./Goncearenco, Inna/Sarli, Giuseppe/Galynker, Igor/Peskoff, Denis/Carpuat, Ma- rine/White, Jules/Anadkat, Shyamal/Hoyle, Alexander/Resnik, Philip (2024). The Prompt Report: A Systematic Survey of Prompt Engineering Techniques. Online ver­fügbar unter http://arxiv.org/pdf/2406.06608.

Sharofova, Shakhnoza (2024). FROM BOTS TO BOOKS: UNDERSTANDING THE INTER­SECTION OF AI AND LITERARY TRANSLATION. American Journal of Interdisci­plinary Research and Development 26, 68-75. Online verfügbar unter https://www.ajird.journalspark.org/index.php/ajird/article/view/1035.

Siu, Sai Cheong (2023). ChatGPT and GPT-4 for Professional Translators: Exploring the Po­tential of Large Language Models in Translation. SSRN Electronic Journal. https://doi.org/10.2139/ssrn.4448091.

Sizov, Fedor/Espana-Bonet, Cristina/van Genabith, Josef/Xie, Roy/Chowdhury, Koel Dutta (2024). Analysing Translation Artifacts: A Comparative Study of LLMs, NMTs, and Hu­man Translations. In: Proceedings of the Ninth Conference on Machine Translation, 1183-1199.

Stahlberg, Felix (2020). Neural Machine Translation: A Review. Journal of Artificial Intelligence Research 69, 343-418. https://doi.org/10.1613/jair.1.12007.

Stasimioti, Maria/Sosoni, Vilelmini (2021). Investigating post-editing: A mixed-methods study with experienced and novice translators in the English-Greek language pair. Translation, Interpreting, cognition: The way out of the box 15, 79.

Stein, Daniel (2009). Maschinelle Übersetzung-ein Überblick. Journal for Language Techno­logy and Computational Linguistics 24 (3), 5-18.

Toral, Antonio/Castilho, Sheila/Hu, Ke/Way, Andy (2018). Attaining the Unattainable? Reas­sessing Claims of Human Parity in Neural Machine Translation. In: Ondrej Bojar/Rajen Chatterjee/Christian Federmann et al. (Hg.). Proceedings of the Third Conference on Ma­chine Translation: Research Papers. Brussels, Belgium, Association for Computational Linguistics, 113-123.

Vaswani, Ashish/Shazeer, Noam/Parmar, Niki/Uszkoreit, Jakob/Jones, Llion/Gomez, Aidan N./Kaiser, Lukasz/Polosukhin, Illia (2023). Attention Is All You Need. Online verfügbar unter http://arxiv.org/pdf/1706.03762.

Vaswani, Ashish/Shazeer, Noam/Parmar, Niki/Uszkoreit, Jakob/Jones, Llion/Gomez, Aidan N./Kaiser, Lukasz/Polosukhin, Illia (2017). Attention is all you need. Advances in neural information processing systems 30.

Wang, Jiayi/Fan, Kai/Li, Bo/Zhou, Fengming/Chen, Boxing/Shi, Yangbin/Si, Luo (2018). Alibaba Submission for WMT18 Quality Estimation Task. In: Ondrej Bojar/Rajen Chat- terjee/Christian Federmann et al. (Hg.). Proceedings of the Third Conference on Machine Translation: Shared Task Papers. Belgium, Brussels, Association for Computational Lin­guistics, 809-815.

Wang, Shun/Zhang, Ge/Wu, Han/Loakman, Tyler/Huang, Wenhao/Lin, Chenghua (2024). MMTE: Corpus and Metrics for Evaluating Machine Translation Quality of Metaphorical Language. Online verfügbar unter http://arxiv.org/pdf/2406.13698v2.

Wickham, Hadley; Averick, Mara; Bryan, Jennifer; Chang, Winston; McGowan, Lucy D’Ago­stino; François, Romain; Grolemund, Garrett; Hayes, Alex; Henry, Lionel; Hester, Jim; Kuhn, Max; Pedersen, Thomas Lin; Miller, Evan; Bache, Stephan Milton; Müller, Kirill; Ooms, Jeroen; Robinson, David; Seidel, Dana Paige; Spinu, Vitalie; Takahashi, Kohske; Vaughan, Davis; Wilke, Claus; Woo, Kara; Yutani, Hiroaki (2019). Welcome to the ti- dyverse. Journal of Open Source Software, 4(43), 1686. https://doi.org/10.21105/joss.01686

Yan, Jianhao/Yan, Pingchuan/Chen, Yulong/Li, Judy/Zhu, Xianchao/Zhang, Yue (2024). GPT- 4 vs. Human Translators: A Comprehensive Evaluation of Translation Quality Across Languages, Domains, and Expertise Levels. Online verfügbar unter http://ar- xiv.org/pdf/2407.03658.

Zeng, Zhaohan/Liang, Zhibin (2024). Large Language Models are Good Translators. Journal of Emerging Investigators. https://doi.org/10.59720/24-020.

Zhang, Tianyi/Kishore, Varsha/Wu, Felix/Weinberger, Kilian Q./Artzi, Yoav (2019). BERT- Score: Evaluating Text Generation with BERT. Online verfügbar unter http://ar- xiv.org/pdf/1904.09675.

Internetquellen:

ChatGPT (2025). ChatGPT. Online verfügbar unter https://chatgpt.com/ (abgerufen am 26.05.2025).

DeepL (2025). DeepL Übersetzer: Der präziseste Übersetzer der Welt. Online verfügbar unter https://www.deepl.com/de/translator (abgerufen am 26.05.2025).

MQM (2025). The MQM Error Typology - MQM (Multidimensional Quality Metrics). Online verfügbar unter https://themqm.org/error-types-2/typology/ (abgerufen am 26.05.2025).

Anhang

Fragebogen zur Umfrage „Mensch oder Maschine? Ein Qualitätsvergleich maschineller und menschlicher Literaturübersetzung“

Wie identifizieren Sie sich?

• männlich
• weiblich
• divers

Wie alt sind Sie?

• Freitext-Antwort

Welche Muttersprache haben Sie?

• Freitext-Antwort

Welche weiteren Sprachen beherrschen Sie auf einem fortgeschrittenen Niveau?

(Mehrfach-Auswahl möglich)

• Deutsch
• Englisch
• Französisch
• Spanisch
• Italienisch
• Russisch
• Andere

Haben Sie eine Ausbildung oder ein Studium im Bereich Übersetzung/Sprachwissen- schaft absolviert oder sind Sie aktuell in einem solchen Studiengang eingeschrieben?

• Ja
• Nein

Welcher ist Ihr höchster Abschluss?

• Allgemeine Hochschulreife
• Bachelor
• Master
• Promotionsstudium
• Anderes

In welchem Studiengang studieren Sie aktuell?

• Bachelor
• Master
• Promotionsstudium
• Ausbildung
• Ich habe mein Studium abgeschlossen
• Ich habe meine Ausbildung abgeschlossen

Gehen Sie derzeit einer beruflichen Tätigkeit im Bereich Übersetzung nach?

• Ja, als freiberufliche(r) Übersetzer(in)
• Ja, als angestellte(r) Übersetzer(in)
• Ja, in einer anderen sprachbezogenen Tätigkeit (z. B. Lektorat, Dolmetschen, Termi­nologiearbeit)
• Nein

Falls nein, in welchem Bereich sind Sie beruflich tätig?

• Freitext-Antwort

Wie oft nutzen Sie maschinelle Übersetzungssysteme und/oder Large Language Models (z. B. DeepL, Google Translate, ChatGPT)?

• Täglich
• Wöchentlich
• Selten
• Nie

Wie oft lesen Sie literarische Texte?

• Täglich
• Wöchentlich
• Selten
• Nie

Informationsseite

Informationsseite

Welche Übersetzung wurde Ihrer Meinung nach von einem Menschen/einer Maschine erstellt?

(Mehrfach-Auswahl möglich)

• Übersetzung 1 = Mensch
• Übersetzung 1 = Maschine
• Übersetzung 2 = Mensch
• Übersetzung 2 = Maschine
• Übersetzung 3 = Mensch
• Übersetzung 3 = Maschine

Welche Merkmale haben Sie zu dieser Einschätzung kommen lassen?

• Freitext-Antwort

Wie kreativ wirken die Übersetzungen auf Sie?

(Mehrfach-Auswahl möglich)

• Übersetzung 1 = Sehr kreativ
• Übersetzung 1 = Eher kreativ
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher unkreativ
• Übersetzung 1 = Überhaupt nicht kreativ
• Übersetzung 2 = Sehr kreativ
• Übersetzung 2 = Eher kreativ
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher unkreativ
• Übersetzung 2 = Überhaupt nicht kreativ
• Übersetzung 3 = Sehr kreativ
• Übersetzung 3 = Eher kreativ
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher unkreativ
• Übersetzung 3 = Überhaupt nicht kreativ

Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 1 = Sehr gut
• Übersetzung 1 = Eher gut
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher schlecht
• Übersetzung 1 = Sehr schlecht
• Übersetzung 2 = Sehr gut
• Übersetzung 2 = Eher gut
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher schlecht
• Übersetzung 2 = Sehr schlecht
• Übersetzung 3 = Sehr gut
• Übersetzung 3 = Eher gut
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher schlecht
• Übersetzung 3 = Sehr schlecht

Wie gut wurden Ihrer Meinung nach kulturelle Elemente in diesen Übersetzungen über­tragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 1 = Sehr gut
• Übersetzung 1 = Eher gut
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher schlecht
• Übersetzung 1 = Sehr schlecht
• Übersetzung 2 = Sehr gut
• Übersetzung 2 = Eher gut
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher schlecht
• Übersetzung 2 = Sehr schlecht
• Übersetzung 3 = Sehr gut
• Übersetzung 3 = Eher gut
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher schlecht
• Übersetzung 3 = Sehr schlecht

Wie gut wurden Ihrer Meinung nach die Fantasy-Elemente übertragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 1 = Sehr gut
• Übersetzung 1 = Eher gut
• Übersetzung 1 = Neutral
• Übersetzung 1 = Eher schlecht
• Übersetzung 1 = Sehr schlecht
• Übersetzung 2 = Sehr gut
• Übersetzung 2 = Eher gut
• Übersetzung 2 = Neutral
• Übersetzung 2 = Eher schlecht
• Übersetzung 2 = Sehr schlecht
• Übersetzung 3 = Sehr gut
• Übersetzung 3 = Eher gut
• Übersetzung 3 = Neutral
• Übersetzung 3 = Eher schlecht
• Übersetzung 3 = Sehr schlecht

Bewerten Sie die Qualität der Übersetzungen auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht).

(Mehrfach-Auswahl möglich)

• Übersetzung 1 = 1
• Übersetzung 1 = 2
• Übersetzung 1 = 3
• Übersetzung 1 = 4
• Übersetzung 1 = 5
• Übersetzung 2 = 1
• Übersetzung 2 = 2
• Übersetzung 2 = 3
• Übersetzung 2 = 4
• Übersetzung 2 = 5
• Übersetzung 3 = 1
• Übersetzung 3 = 2
• Übersetzung 3 = 3
• Übersetzung 3 = 4
• Übersetzung 3 = 5

Gibt es etwas, das Ihnen an diesen Übersetzungen besonders positiv oder negativ aufge­fallen ist?

• Freitext-Antwort

Informationsseite

Welche Übersetzung wurde Ihrer Meinung nach von einem Menschen/einer Maschine erstellt?

(Mehrfach-Auswahl möglich)

• Übersetzung 4 = Mensch
• Übersetzung 4 = Maschine
• Übersetzung 5 = Mensch
• Übersetzung 5 = Maschine
• Übersetzung 6 = Mensch
• Übersetzung 6 = Maschine

Welche Merkmale haben Sie zu dieser Einschätzung kommen lassen?

Wie kreativ wirken die Übersetzungen auf Sie?

(Mehrfach-Auswahl möglich)

• Übersetzung 4 = Sehr kreativ
• Übersetzung 4 = Eher kreativ
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher unkreativ
• Übersetzung 4 = Überhaupt nicht kreativ
• Übersetzung 5 = Sehr kreativ
• Übersetzung 5 = Eher kreativ
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher unkreativ
• Übersetzung 5 = Überhaupt nicht kreativ
• Übersetzung 6 = Sehr kreativ
• Übersetzung 6 = Eher kreativ
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher unkreativ
• Übersetzung 6 = Überhaupt nicht kreativ

Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 4 = Sehr gut
• Übersetzung 4 = Eher gut
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher schlecht
• Übersetzung 4 = Sehr schlecht
• Übersetzung 5 = Sehr gut
• Übersetzung 5 = Eher gut
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher schlecht
• Übersetzung 5 = Sehr schlecht
• Übersetzung 6 = Sehr gut
• Übersetzung 6 = Eher gut
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher schlecht
• Übersetzung 6 = Sehr schlecht

Wie gut wurden Ihrer Meinung nach kulturelle Elemente in diesen Übersetzungen über­tragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 4 = Sehr gut
• Übersetzung 4 = Eher gut
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher schlecht
• Übersetzung 4 = Sehr schlecht
• Übersetzung 5 = Sehr gut
• Übersetzung 5 = Eher gut
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher schlecht
• Übersetzung 5 = Sehr schlecht
• Übersetzung 6 = Sehr gut
• Übersetzung 6 = Eher gut
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher schlecht
• Übersetzung 6 = Sehr schlecht

Wie gut wurden Ihrer Meinung nach die Fantasy-Elemente übertragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 4 = Sehr gut
• Übersetzung 4 = Eher gut
• Übersetzung 4 = Neutral
• Übersetzung 4 = Eher schlecht
• Übersetzung 4 = Sehr schlecht
• Übersetzung 5 = Sehr gut
• Übersetzung 5 = Eher gut
• Übersetzung 5 = Neutral
• Übersetzung 5 = Eher schlecht
• Übersetzung 5 = Sehr schlecht
• Übersetzung 6 = Sehr gut
• Übersetzung 6 = Eher gut
• Übersetzung 6 = Neutral
• Übersetzung 6 = Eher schlecht
• Übersetzung 6 = Sehr schlecht

Bewerten Sie die Qualität der Übersetzungen auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht).

(Mehrfach-Auswahl möglich)

• Übersetzung 4 = 1
• Übersetzung 4 = 2
• Übersetzung 4 = 3
• Übersetzung 4 = 4
• Übersetzung 4 = 5
• Übersetzung 5 = 1
• Übersetzung 5 = 2
• Übersetzung 5 = 3
• Übersetzung 5 = 4
• Übersetzung 5 = 5
• Übersetzung 6 = 1
• Übersetzung 6 = 2
• Übersetzung 6 = 3
• Übersetzung 6 = 4
• Übersetzung 6 = 5

Gibt es etwas, das Ihnen an diesen Übersetzungen besonders positiv oder negativ aufge­fallen ist?

• Freitext-Antwort

Informationsseite

Welche Übersetzung wurde Ihrer Meinung nach von einem Menschen/einer Maschine erstellt?

(Mehrfach-Auswahl möglich)

• Übersetzung 7 = Mensch
• Übersetzung 7 = Maschine
• Übersetzung 8 = Mensch
• Übersetzung 8 = Maschine
• Übersetzung 9 = Mensch
• Übersetzung 9 = Maschine

Welche Merkmale haben Sie zu dieser Einschätzung kommen lassen?

• Freitext-Antwort

Wie kreativ wirken die Übersetzungen auf Sie?

(Mehrfach-Auswahl möglich)

• Übersetzung 7 = Sehr kreativ
• Übersetzung 7 = Eher kreativ
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher unkreativ
• Übersetzung 7 = Überhaupt nicht kreativ
• Übersetzung 8 = Sehr kreativ
• Übersetzung 8 = Eher kreativ
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher unkreativ
• Übersetzung 8 = Überhaupt nicht kreativ
• Übersetzung 9 = Sehr kreativ
• Übersetzung 9 = Eher kreativ
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher unkreativ

Wie gut wurden Ihrer Meinung nach die Stilmittel in diesen Übersetzungen übertragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 7 = Sehr gut
• Übersetzung 7 = Eher gut
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher schlecht
• Übersetzung 7 = Sehr schlecht
• Übersetzung 8 = Sehr gut
• Übersetzung 8 = Eher gut
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher schlecht
• Übersetzung 8 = Sehr schlecht
• Übersetzung 9 = Sehr gut
• Übersetzung 9 = Eher gut
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher schlecht
• Übersetzung 9 = Sehr schlecht

Wie gut wurden Ihrer Meinung nach kulturelle Elemente in diesen Übersetzungen über­tragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 7 = Sehr gut
• Übersetzung 7 = Eher gut
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher schlecht
• Übersetzung 7 = Sehr schlecht
• Übersetzung 8 = Sehr gut
• Übersetzung 8 = Eher gut
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher schlecht
• Übersetzung 8 = Sehr schlecht
• Übersetzung 9 = Sehr gut
• Übersetzung 9 = Eher gut
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher schlecht
• Übersetzung 9 = Sehr schlecht

Wie gut wurden Ihrer Meinung nach die Fantasy-Elemente übertragen?

(Mehrfach-Auswahl möglich)

• Übersetzung 7 = Sehr gut
• Übersetzung 7 = Eher gut
• Übersetzung 7 = Neutral
• Übersetzung 7 = Eher schlecht
• Übersetzung 7 = Sehr schlecht
• Übersetzung 8 = Sehr gut
• Übersetzung 8 = Eher gut
• Übersetzung 8 = Neutral
• Übersetzung 8 = Eher schlecht
• Übersetzung 8 = Sehr schlecht
• Übersetzung 9 = Sehr gut
• Übersetzung 9 = Eher gut
• Übersetzung 9 = Neutral
• Übersetzung 9 = Eher schlecht
• Übersetzung 9 = Sehr schlecht

Bewerten Sie die Qualität der Übersetzungen auf einer Skala von 1 (sehr gut) bis 5 (sehr schlecht).

(Mehrfach-Auswahl möglich)

• Übersetzung 7 = 1
• Übersetzung 7 = 2
• Übersetzung 7 = 3
• Übersetzung 7 = 4
• Übersetzung 7 = 5
• Übersetzung 8 = 1
• Übersetzung 8 = 2
• Übersetzung 8 = 3
• Übersetzung 8 = 4
• Übersetzung 8 = 5
• Übersetzung 9 = 1
• Übersetzung 9 = 2
• Übersetzung 9 = 3
• Übersetzung 9 = 4
• Übersetzung 9 = 5

Gibt es etwas, das Ihnen an diesen Übersetzungen besonders positiv oder negativ aufge­fallen ist?

Originaltexte und Übersetzungen

Ausgangstext 1

She held her palm over each chalked symbol, breathing in the accepted pattern to infuse each mark with her will. She drew in the correct breath, held and vibrated exactly the right way to activate her circle and put her between the realms of flesh and spirit. Every mark had to be charged with the cor­rect breath, the exact vibration, shaped by the positions of her fingers held just so—and as she worked the air shifted, pressing against her skin as the summoning built itself, mark by mark, breath by breath, sign by sign.

The energy flickered and built just at the corner of her eye, bluer than candlelight, shot through with iridescent flashes of gold, rose, green. It made the air fuzzy and alive as her actions unmoored her from the world of the flesh, rubbing against the realm of spirit.

She held down the urge to stare at it, to gasp in wonder like a child. But magic tingled all through her. She touched the aether and held power in her hands, her breath, her body —it was better than the sweetest music, the finest meal. Knowing power, drawing nearer to the mysteries, nothing was its match. Nothing was its equal.

She breathed in magic, shaped it with her need, and charged the circle closed. She was between. Her body felt bigger than it was. Her awareness had expanded to the skin of her aetheric form, the body that spirits and magicians could see, glowing softly within the circle spun of her mortal life. But she trembled, her hands shaking as she gathered more power within herself, more and more until she was full as a waterskin, preparing herself for the ritual.

Übersetzung 1 (Mensch)

Beatrice ließ die Hände über den Kreidesymbolen schweben und atmete nach dem erforderlichen Prin­zip, um jedes Zeichen in ihrem Willen aufzuladen. Sie holte auf die vorgeschriebene weiße Luft, hielt den Atem zunächst an und ließ ihn dann mit exakten, vibrierenden Stößen entweichen, um so den Kreis zu aktivieren und sich ins Reich zwischen Leib und Geist zu versetzen. Jedes Zeichen musste mit dem korrekten Atem und einer bestimmten Schwingung aufgeladen werden, musste von der Stellung ihrer Finger auf die richtige Weise geformt werden. Unterdessen veränderte sich die Luft um sie herum, presste sich an sie, während die Herbeirufung stärker wurde, Sigille um Sigille, Atemzug um Atemzug, Handzeichen um Handzeichen.

Die Energie ballte sich flackernd am Rand ihres Sichtfelds zusammen, blauer als die Kerzenflamme, durchzuckt von irisierenden Blitzen aus Gold, Rosa und Grün. Die Luft flirrte und mutete geradezu lebendig an, als Beatrice‘ Tun sie aus der körperlichen Welt löste und zu den Gefilden der Geister trieb.

Sie verbot es sich, die Augen aufzureißen wie ein staunendes Kind. Magie kribbelte in ihrem ganzen Körper. Sie berührt den Äther und hielt diese Macht in ihren Händen, in ihrem Atem, in ihrem Körper - es war schöner als die süßeste Musik oder die erlesenste Speise. Nichts kam diesem Gefühl wissender Macht, dieser Annäherung an die Mysterien gleich.

Beatrice atmete Magie ein, formte sie nach ihren Wünschen und schloss den Kreis. Nun war sie im Dazwischen. Ihr Leib fühlte sich größer an, als er war. Ihr Bewusstsein dehnte sich bis an die Haut ihrer Ätherform aus, diesem Körper, den nur Geister und Magiebegabte sehen konnten und der sanft in dem Kreis glomm, den ihr sterbliches Leben bildete. Zitternd und mit bebenden Händen verleibte sie sich noch mehr Macht ein, bis sie voll war wie ein Wasserschlauch, vorbereitet für das Ritual.

Übersetzung 2 (ChatGPT)

Sie hielt ihre Handfläche über jedes der mit Kreide gezeichneten Symbole, atmete im vorgeschriebenen Rhythmus ein, um jede Markierung mit ihrem Willen zu durchdringen. Sie zog den richtigen Atemzug ein, hielt ihn, ließ ihn in exakt der richtigen Weise vibrieren, um ihren Kreis zu aktivieren und sich zwischen die Reiche von Fleisch und Geist zu versetzen. Jede Markierung musste mit dem passenden Atem aufgeladen sein, mit der exakten Schwingung, geformt durch die präzise Position ihrer Finger - und während sie arbeitete, veränderte sich die Luft, drängte gegen ihre Haut, als sich die Beschwörung aufbaute, Zeichen für Zeichen, Atemzug für Atemzug, Symbol für Symbol.

Die Energie flackerte am Rand ihres Blickfelds auf, blauer als Kerzenlicht, durchzogen von irisierenden Blitzen aus Gold, Rosé und Grün. Sie machte die Luft weich und lebendig, als ihre Handlungen sie von der Welt des Fleisches loslösten und sie mit dem Reich der Geister in Berührung kam.

Sie zwang sich, nicht hinzustarren, sich nicht vor Staunen wie ein Kind die Hand vor den Mund zu schlagen. Doch die Magie prickelte in ihr, durchströmte sie. Sie berührte das Ätherische, hielt Macht in ihren Händen, in ihrem Atem, in ihrem Körper - es war besser als die süßeste Musik, köstlicher als das erlesenste Mahl. Macht zu kennen, den Mysterien näherzukommen, nichts kam dem gleich. Nichts war dem ebenbürtig.

Sie atmete Magie ein, formte sie mit ihrem Verlangen und schloss den Kreis mit ihrer Energie. Sie war dazwischen. Ihr Körper fühlte sich größer an, als er war. Ihr Bewusstsein hatte sich auf die Haut ihrer ätherischen Gestalt ausgedehnt, jener Form, die Geister und Magier wahrnehmen konnten, sanft leuch­tend innerhalb des Kreises, der aus ihrem sterblichen Leben gesponnen war. Doch sie zitterte, ihre Hände bebten, als sie mehr Kraft in sich sammelte, mehr und mehr, bis sie sich prall und schwer anfühlte wie ein randvoll gefüllter Wasserschlauch, bereit für das Ritual.

Übersetzung 3 (DeepL)

Sie hielt ihre Handfläche über jedes der Kreidesymbole und atmete nach dem vorgegebenen Muster, um jedes Zeichen mit ihrem Willen zu erfüllen. Sie atmete auf die richtige Weise ein, hielt die Luft an und vibrierte auf die richtige Weise, um ihren Kreis zu aktivieren und sich zwischen die Reiche des Fleisches und des Geistes zu begeben. Jedes Zeichen musste mit dem richtigen Atem aufgeladen werden, mit der exakten Schwingung, geformt durch die richtige Position ihrer Finger - und während sie arbeitete, be­wegte sich die Luft, drückte gegen ihre Haut, während die Beschwörung sich aufbaute, Zeichen für Zeichen, Atemzug für Atemzug, Symbol für Symbol.

In ihrem Augenwinkel flackerte die Energie und baute sich auf, blauer als Kerzenlicht, durchzogen von schillernden Blitzen in Gold, Rosa und Grün. Sie machte die Luft schwammig und lebendig, während ihre Handlungen sie von der Welt des Fleisches lösten und sie gegen das Reich des Geistes stieß.

Sie unterdrückte den Drang, hinzustarren und wie ein Kind zu staunen. Aber die Magie kribbelte in ihr. Sie berührte den Äther und hielt die Macht in ihren Händen, ihrem Atem, ihrem Körper - es war besser als die süßeste Musik, die feinste Mahlzeit. Sie kannte die Macht, kam den Geheimnissen näher, nichts war ihr gleich. Nichts war ihr ebenbürtig.

Sie atmete Magie ein, formte sie nach ihrem Bedürfnis und schloss den Kreis. Sie war dazwischen. Ihr Körper fühlte sich größer an, als er war. Ihr Bewusstsein hatte sich bis zur Haut ihrer ätherischen Form ausgedehnt, dem Körper, den Geister und Magier sehen konnten und der in dem von ihrem sterblichen Leben gesponnenen Kreis sanft glühte. Aber sie bebte, ihre Hände zitterten, als sie mehr und mehr Kraft in sich sammelte, bis sie voll war wie ein Wasserschlauch und bereit für das Ritual.

Ausgangstext 2

The doorbell jingled as Beatrice crossed into the bookkeeper’s domain. Harriman’s! O dust and ink and leather binding, O map-scrolls and star-prints and poetry chapbooks—and the grimoire, some­where within! She directed her smile at the clerk in shirtsleeves and weskit waiting at the front coun­ter.

“Just having a browse,” she said, and moved past without inviting further conversation. Beatrice fol­lowed her prickling thumbs between stacks of books and laden shelves. She breathed in old paper and the thin rain-on-green-stones scent of magic, looking not for respectable novels or seemly poetry, but for the authors certain young women never even dared whisper to each other in the powder rooms and parlors of society—the writers of the secret grimoires.

It was here! But it wouldn’t do to be too hasty, to follow the pull of her senses toward the stack where the volume rested, its spine bearing an author name like John Estlin Churchman, or J. C. Everworth, or perhaps E. James Curtfield. The authors always bore those initials on all of the books in her modest collection, stored away from curious eyes. The clerk might wonder at how she knew exactly where to find the book she wanted in all this jumble. She browsed through literature, in history, and even in the occult sections where other patrons would eye her with disapproval, because the realm of magic was not suitable territory for a woman of a certain youth.

Übersetzung 4 (DeepL)

Die Türklingel läutete, als Beatrice den Bereich des Buchhalters betrat. Harriman's! O Staub und Tinte und Ledereinband, o Landkartenrollen und Sterndrucke und Gedichtbände - und das Grimoire, irgendwo darin! Sie lächelte dem Angestellten in Hemdsärmeln und Weste zu, der am Tresen wartete.

„Ich stöbere nur ein wenig“, sagte sie und ging an ihm vorbei, ohne ein weiteres Gespräch anzuregen. Beatrice folgte ihren kribbelnden Daumen zwischen Bücherstapeln und beladenen Regalen. Sie atmete altes Papier und den dünnen Regen-auf-grünen-Steinen-Duft der Magie ein, nicht auf der Suche nach angesehenen Romanen oder anständiger Poesie, sondern nach den Autoren, über die manche junge Frauen nicht einmal wagten, in den Puderzimmern und Salons der Gesellschaft miteinander zu flüstern - den Verfassern der geheimen Grimoires.

Es war hier! Aber sie sollte nicht zu voreilig sein und dem Drang ihrer Gefühle zu dem Stapel nachgeben, auf dem der Band lag, dessen Buchrücken einen Autorennamen wie John Estlin Churchman oder J. C. Everworth oder vielleicht E. James Curtfield trug. Die Autoren trugen immer diese Initialen auf allen Büchern in ihrer bescheidenen Sammlung, die sie vor neugierigen Blicken geschützt aufbewahrte. Der Angestellte würde sich wundern, woher sie in diesem Durcheinander genau wusste, wo sie das ge­wünschte Buch finden konnte. Sie stöberte in der Literatur, in der Geschichte und sogar in den okkulten Abteilungen, wo sie von anderen Kunden missbilligend beäugt wurde, weil das Reich der Magie kein geeignetes Pflaster für eine Frau von gewisser Jugend war.

Übersetzung 5 (ChatGPT)

Die Ladenglocke bimmelte, als Beatrice das Reich des Buchhändlers betrat. Harriman’s! O Staub und Tinte und Ledereinbände, o Landkartenrollen und Sternendrucke und Gedichtbändchen - und das Grimoire, irgendwo hier verborgen! Mit einem höflichen Lächeln wandte sie sich an den Verkäufer, der in Hemdsärmeln und Weste am vorderen Tresen wartete.

„Ich sehe mich nur ein wenig um“, sagte sie und glitt an ihm vorbei, ohne eine Unterhaltung zu ermuti­gen. Beatrice folgte dem Prickeln in ihren Daumen zwischen Bücherstapeln und überladenen Regalen. Sie sog den Duft alten Papiers ein, vermischt mit der feinen Note von Regen auf grünen Steinen - dem Geruch der Magie. Doch sie suchte weder angesehene Romane noch anständige Poesie, sondern jene Autoren, deren Namen junge Damen in den Puderräumen und Salons der Gesellschaft nicht einmal zu flüstern wagten - die Verfasser geheimer Grimoires.

Es war hier! Doch es wäre unklug, sich zu eilig dorthin zu begeben, zu offensichtlich dem Ruf ihrer Sinne zu folgen, der sie zu jenem Stapel zog, wo der Band ruhte. Sein Buchrücken trug vermutlich einen jener Namen - John Estlin Churchman, oder J. C. Everworth, oder vielleicht E. James Curtfield. Alle Bücher ihrer bescheidenen, vor neugierigen Blicken verborgenen Sammlung wiesen diese Initialen auf. Der Angestellte könnte sich wundern, wie sie in diesem Durcheinander genau das Werk fand, das sie suchte. Also schlenderte sie durch die Literaturabteilung, durchstöberte die Geschichtsbände und ver­weilte sogar in der okkulten Abteilung - dort, wo andere Kunden sie missbilligend beäugten, denn das Reich der Magie war kein angemessener Ort für eine junge Dame ihres Standes.

Übersetzung 6 (Mensch)

Die Türklingel schellte, als Beatrice in den Herrschaftsbereich derer trat, die kein Buch wegwarfen. Harriman’s! O Staub und Tinte und Lederbindung, o Landkarten, Sternenbilder und Balladenbüchlein! Und irgendwo mittendrin das Grimoire! Dem Angestellten in Hemd und Weste, der an der Kasse stand, schenkte sie ein entwaffnendes Lächeln.

„Ich sehe mich nun mal um!“ Sie stapfte schnurstracks an dem Mann vorbei. Mit kribbelndem Daumen strich sie über Bücherstapel und vollgestopfte Regale. Sie atmete den Geruch von altem Papier und jenen zarten Regen auf-moosbewachsenen-Steinen-Duft ein, den ihre Magie mit sich brachte. Sie suchte weder nach seriösen Romanen noch nach sittsamer Lyrik, sondern nach jenen Werken, von denen junge Frauen in ihren Boudoirs oder Salons kaum zu flüstern wagten: nach Grimoires.

Das begehrte Buch befand sich hier irgendwo! Doch sie durfte die Suche nicht überstürzen, durfte sich von ihren Sinnen nicht zu jenem Stapel ziehen lassen, in dem sich der Band eines John Estlin Church­man, J. C. Everworth oder vielleicht auch eines E. James Curtfield befand. Diese Initialen, J.E.C., zierten alle Titel ihrer bescheidenen und gut versteckten Sammlung. Hielte sie geradenwegs auf ihr Ziel zu, würde sich der Angestellte womöglich wundern, dass sie in dem Chaos so rasch fündig geworden war. Deshalb stöberte sie in der Abteilung für schöngeistige Literatur, für Geschichte und sogar für Okkul­tismus. Letzteres hatte ihr schon oft missbilligende Blicke eingetragen, da sich für eine junge Damen nicht schickte, sich ins Reich der Magie vorzuwagen.

Ausgangstext 3

Beatrice beheld a Llanandari woman who stood tall and slim in a saffron satin-woven cotton mantua, the under-gown scattered all over with vibrant tropical flowers, the elbow-length sleeves erupting in delicate, hand-hooked lace. Hooked lace, on a day gown! She was beautiful, surpassing even the fa­mous reputation of the women of Llanandras. She was blessed with wide brown eyes and deep brown skin, a cloud of tight black curls studded with golden beads, matching a fortune in gold piercing the young woman’s ears and even the side of her nose. But what was she doing here? She couldn’t be in this affluent seaside retreat away from the capital to hunt a husband just as Beatrice was supposed to be doing. Could she?

She stared at Beatrice with an ever-growing perplexity. Beatrice knew what the young lady found so arresting—the crown of sorcery around Beatrice’s head, even brighter than the veil of shimmering light around the woman’s. Another sorceress attracted to the call of the grimoire Beatrice clutched to her chest.

Übersetzung 7 (ChatGPT)

Beatrice erblickte eine Frau aus Llanandras, die groß und schlank in einer aus Safran gefärbter, satiniert gewebter Baumwolle gefertigten Mantua dastand. Das Unterkleid war über und über mit leuchtenden tropischen Blumen bestickt, die ellbogenlangen Ärmel erblühten in filigraner, handgeklöppelter Spitze. Geklöppelte Spitze - an einem Tageskleid! Sie war atemberaubend schön, übertraf selbst den legendären Ruf der Frauen von Llanandras.

Ihre großen braunen Augen und ihre tiefbraune Haut wurden von einer Wolke aus dichten schwarzen Locken umrahmt, in die goldene Perlen eingearbeitet waren - passend zu einem Vermögen in Gold, das ihre Ohren und sogar die Seite ihrer Nase zierte. Aber was tat sie hier? Sie konnte doch nicht in dieses wohlhabende Seebad fernab der Hauptstadt gekommen sein, um sich - genau wie Beatrice - einen Ehe­mann zu suchen. Oder etwa doch?

Mit wachsender Verwunderung starrte sie Beatrice an. Beatrice wusste genau, was die junge Frau so fesselte - die Krone der Zauberei, die über ihrem Kopf leuchtete, noch strahlender als der Schleier aus schimmerndem Licht, der die Fremde umgab. Eine weitere Zauberin, angelockt vom Ruf des Grimoires, das Beatrice an ihre Brust gepresst hielt.

Übersetzung 8 (Mensch)

Beatrice musterte die Frau, eine große, schlanke Llanandari, in einem Manteau aus safrangelben Baum­wollsatin und einem Kleid mit leuchtenden tropischen Blumen. Die Halbärmel ihrer Robe explodierten schier in feiner, handgeklöppelter Spitze. Wie musste diese Frau erst in einem Abendkleid aussehen?

Sie war noch schöner, als es der Ruf verhieß, der den Frauen aus Llanandras vorauseilte, gesegnet mit großen braunen Augen und tiefbrauner Haut, die Wolke eng gelockter schwarzer Haare, von goldenen Perlen geziert, und dazu Goldschmuck von beachtlichem Wert, der ihre Ohren und sogar einen Flügel ihrer Nase zierte. Was tat Sie hier? Denn ganz sicher suchte sie ja wohl in einem reichen Küstenort fernab der Hauptstadt nicht nach einem Ehemann, so wie es Beatrice eigentlich tun sollte. Oder etwa doch?

Die Frau starrte Beatrice mit wachsender Verwirrung an. Beatrice wusste genau, was die junge Dame so in Erstaunen versetzte: Die Aura der Zaubermacht um ihren, Beatrice’, Kopf schimmerte sogar noch ein wenig heller als ihr eigenes Licht. War also eine weitere Zauberin dem Ruf des Grimoires gefolgt, das Beatrice inzwischen an sich gedrückt hielt?

Übersetzung 9 (DeepL)

Beatrice erblickte eine Llanandari-Frau, die groß und schlank in einem safranfarbenen, aus Satin ge­webten Baumwollmantua dastand, dessen Unterkleid über und über mit leuchtenden tropischen Blumen übersät war und dessen ellenbogenlange Ärmel mit zarter, handgehäkelter Spitze besetzt waren. Gehä­kelte Spitze, auf einem Tageskleid! Sie war wunderschön und übertraf sogar den berühmten Ruf der Frauen von Llanandras.

Sie hatte große braune Augen und dunkelbraune Haut, eine Wolke dichter schwarzer Locken, die mit goldenen Perlen besetzt waren, passend zu einem Vermögen in Gold, das die Ohren der jungen Frau und sogar die Seite ihrer Nase zierte. Aber was hatte sie hier zu suchen? Sie konnte doch nicht an diesem wohlhabenden Ort am Meer sein, weit weg von der Hauptstadt, um sich einen Ehemann zu suchen, wie es Beatrice eigentlich tun sollte. Konnte sie das?

Sie starrte Beatrice mit immer größer werdender Ratlosigkeit an. Beatrice wusste, was die junge Frau so anziehend fand - die Krone der Zauberei um Beatrices Kopf, die noch heller leuchtete als der Schleier aus schimmerndem Licht um den der Frau. Eine weitere Zauberin, die von dem Ruf des Grimoire ange­zogen wurde, das Beatrice an ihre Brust drückte.

[...]


1 Bei der Übertragung der Übersetzungen wurden versehentlich kleine Fehler in die Texte eingebaut. Sie stam­men nicht von der professionellen Übersetzerin.

Excerpt out of 111 pages  - scroll top

Buy now

Title: Mensch vs. Maschine. Ein Qualitätsvergleich maschineller und menschlicher Literaturübersetzung

Master's Thesis , 2025 , 111 Pages , Grade: 1,7

Autor:in: Corinna Schuff (Author)

Interpreting / Translating
Look inside the ebook

Details

Title
Mensch vs. Maschine. Ein Qualitätsvergleich maschineller und menschlicher Literaturübersetzung
College
Johannes Gutenberg University Mainz  (FTSK)
Grade
1,7
Author
Corinna Schuff (Author)
Publication Year
2025
Pages
111
Catalog Number
V1618838
ISBN (PDF)
9783389154083
ISBN (Book)
9783389154090
Language
German
Tags
Maschinelle Übersetzung (MÜ) Neuronale maschinelle Übersetzung (NMÜ) Large Language Models (LLMs) Literaturübersetzung Übersetzungsqualität Translation Quality Estimation Human Evaluation Leserwahrnehmung
Product Safety
GRIN Publishing GmbH
Quote paper
Corinna Schuff (Author), 2025, Mensch vs. Maschine. Ein Qualitätsvergleich maschineller und menschlicher Literaturübersetzung, Munich, GRIN Verlag, https://www.grin.com/document/1618838
Look inside the ebook
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
  • Depending on your browser, you might see this message in place of the failed image.
Excerpt from  111  pages
Grin logo
  • Grin.com
  • Payment & Shipping
  • Contact
  • Privacy
  • Terms
  • Imprint