Linguistischer Vergleich statischer und regelbasierter maschineller Übersetzung. "Google translate" gegen den "Systran Onlinetranslator"


Bachelorarbeit, 2016
44 Seiten, Note: 1,7

Leseprobe

Inhaltsverzeichnis

Tabellen

1. Einleitung

2. Die Geschichte der Maschinenübersetzung

3. Ziel der Maschinenübersetzung

4. Arten der maschinellenübersetzung

5. Ansätze der maschinellenübersetzung
5.1 Regelbasierte Ansätze
5.1.1 Direkte Systeme
5.1.2 Indirekte Systeme
5.1.2.1 Interlingua Systeme
5.1.2.2 Transfersysteme
5.2 Korpusbasierte Systeme
5.2.1 Beispielbasierte maschinelleübersetzung
5.2.2 Statistisch maschinelleübersetzung
5.3 Hybridsysteme
5.4 Weitere Ansätze

6. Auswahl der maschinellenübersetzungssysteme

7. Auswahl des Textes

8. Evaluation des Textes
8.1 Evaluation nach dem Thomas J. Watson Research Center
8.2 Evaluation nach Koehn
8.3 Evaluation nach Calude
8.4 Kombinierte Evaluation

9. Analyse und Fehlerauswertung
9.1 Google translate
9.1.1 Der Sprachfluss
9.1.2 Adäquater Ausdruck
9.2 Systran Online-translator
9.2.1 Der Sprachfluss
9.1.2 Adäquater Ausdruck
9.3 Die Ergebnisse im Vergleich

10. Fazit und Zukunftsprognose

Literaturverzeichnis

Internetquellen

Tabellen

Tabelle 1überblicküber die Ansätze der MÜ (Carstensen 2012, 190)

Tabelle 2 Beispiel: Fehleranalyse

Tabelle 3 Bewertungsspiegel: Adäquater Ausdruck und Sprachfluss (vgl. Koehn 2010, 219)

Tabelle 4 Fehlerkategorien (vgl. Calude 2002, 10)

Tabelle 5überarbeitete Tabelle von Calude

Tabelle 6 Der Bezug von Fehlerquotient und Sprachfluss

Tabelle 7 Fehlerauswertung Google translate

Tabelle 8 Fehlerauswertung Systran

Tabelle 9 Fehler im Vergleich

Abkürzungsverzeichnis

Abbildung in dieser Leseprobe nicht enthalten

1. Einleitung

Seit Anbeginn der Zeit will der Mensch Abläufe vereinfachen und beschleunigen. Während der Bau von Gebäuden im Mittelalter teils Jahrhunderte in Anspruch genommen hat, können heute innerhalb weniger Tage Fertighäuser gebaut werden. Auch wurde die Automobilindustrie durch die Erfindung des Fließbands durch Henry Ford revolutioniert und die mühsame Einzelproduktion wurde durch die Massenfertigung abgelöst. Derübersetzungsbereich bleibt hier nicht außen vor und entwickelt sich stetig weiter. Angefangen beiübersetzungen mit Wörterbüchern,über die Nutzung von Onlinewörterbüchern und Translation-Memory-Systemen bis hin zur maschinellenübersetzung (MÜ). Heute dient die MÜ demübersetzer als Werkzeug, obwohl sie ursprünglich den Humanübersetzer ersetzen sollte. Dieser Umstand ist vergleichbar mit dem Tempomat im Auto. Er kann zwar nach dem Aktivieren die Geschwindigkeit halten, aber er kann niemanden ans Ziel bringen. Er dient also nur als Werkzeug und nicht als Lösung, wie die MÜ. Wie der Titel schon andeutet, wird hierbei der Fokus auf dem Vergleich zwischen der statistischen MÜ (SMÜ) und der regelbasierten MÜ (RBMÜ) liegen. Stellvertretend für die SMÜ wird Google translate dienen und für die RBMÜ der Online-translator von der Firma Systran. Da MÜ im stetigen Wandel ist und sich ständig weiterentwickelt, könnte ein und dieselbe Arbeit jedes Jahr neue Ergebnisse liefern. Allein schon deswegen, weil die statistischenübersetzungsmaschinen mit immer mehr Daten gespeist werden. Anhand eines juristischen Fachtextes soll herausgefunden werden, welche Maschinenübersetzungsmethode qualitativ hochwertiger ist. Ziel der Forschungsarbeit soll es auch sein, den aktuellen Stand derübersetzungsmaschinen Google translate und dem Online-translator hinsichtlich der Sprachrichtung Englisch-Deutsch festzuhalten. Diese Arbeit konzentriert sich in erster Linie auf dieübersetzung auf Knopfdruck. Denn umso besser das Endergebnis ist, desto weniger muss einübersetzer den Text nachbearbeiten. Auch sollen Fehler der MÜ aufgezeigt werden, sowie die Bereiche, in denen die meisten Fehler auftreten. Dadurch wird deutlich wo konkreter Verbesserungsbedarf besteht. Durch den Vergleich zwei verschiedener Technologien kann auch gezeigt werden, welche besser für den vorliegenden Fachtext geeignet ist.

Die vorliegende Arbeit bietet zuerst einen Einblick in die Geschichte der MÜ, gefolgt von den Zielen. Danach werden die Ansätze behandelt. Anschließend wird auf die Auswahl des Textes und die Evaluationskriterien für dieübersetzung eingegangen. Dabei werden drei Evaluationsmethoden vorgestellt, die als Basis der eigenen Kriterien dienen. Darauf folgen die Analyse derübersetzungen und die Fehlerauswertung. Am Ende schließt die Arbeit mit einem Fazit und einer Zukunftsprognose hinsichtlich der MÜ.

2. Die Geschichte der Maschinenübersetzung

Ursprünglich war das Ziel der Maschinenübersetzung, den deutschen Enigma Code im zweiten Weltkrieg mit Computern zu entschlüsseln. Man glaubte, eine künstliche Intelligenz innerhalb kürzester Zeit erschaffen zu können und investierte weiter in die Maschinenübersetzung. Später im Georgetown Experiment präsentierte man dieübersetzung vom Russischen ins Englische und sprach davon, dass die MÜ bald perfektioniert sein werde. Allerdings war die Skepsis groß und die Äußerung wurde laut, dass semantische Probleme unmöglich durch Automatismus gelöst werden können. Nach dem ALPAC (Automatic Language Processing Advisory Committee) Report 1966, der nach einer Studieüber die Maschinenübersetzung erschien, wurde die Finanzierung eingestellt (vgl. Koehn 2010, 14-16). Aus dem ALPAC Report (1966, 28-33) geht hervor, dass Maschinenübersetzungen bzw. maschinenunterstützteübersetzungen zu teuer waren und qualitativ minderwertigere Ergebnisse lieferten. Koehn führt weiter aus, dass in den 1980ern und 1990ern der aktuelle Forschungstrend interlingua (siehe Kapitel 5.1.2.1) hieß. In dieser Zeit waren Syntax und umkehrbare Grammatik die Forschungsschwerpunkte. Im Folgenden wuchsen die Forschungen für künstliche Intelligenz und die Computerlinguistik immer mehr zusammen. Daraus entstanden die Projekte CATALYST, eineübersetzungsmaschine für Bedienungsanleitungen für Raupentraktoren, und das deutsche Verbmobil Projekt (vgl. Koehn 2010, 16-17). Letzteres dient zurübersetzung von Spontansprache (vgl. Carstensen 2012, 29). In den 1990ern haben sich Forscher immer noch auf syntaxbasierte Systeme und interlingua Systeme konzentriert, die jetzt verstärkt die Semantik einfließen ließen. In den 1990ern entwickelten sich auch die Systeme von Trados, die den menschlichenübersetzer bis heute unterstützen, ihm aber dieübersetzungstätigkeit nicht abnehmen. Der 11. September 2001 ließ das Interesse an statistischer Maschinenübersetzung, vor allem für Arabisch wieder wachsen. Auch die erhöhte Datenspeicherung und das Wachstum des Internets trugen ihren Teil dazu bei. Heute werdenüber 50 Millionen Webseiten pro Tag durchübersetzungssysteme von Google, Yahoo, Microsoft und andere Firmenübersetzt (vgl. Koehn 2010, 16-18). Die charakteristischen Merkmale der Maschinenübersetzung wurde von Schwarzl (2001, 19) wie folgt zusammengefasst: In den 1950ern hatte man sich auf Wort-für-Wort-Übersetzungen konzentriert, in den 1960ern auf syntaktisch richtigeübersetzungen, in den 1970ern auf semantisch richtigeübersetzungen und ab den 1980ern versuchte man künstliche Intelligenz zu entwickeln und einzubinden.

3. Ziel der Maschinenübersetzung

Laut der Zeitschrift Kern Global+, von der Firma Kern, unterscheidet man zwischen informativen und qualitativenübersetzungen. Informativeübersetzungen sind bei kurzlebigen Texten, wie E-Mails, wegen des schnellen Verstehens und der schnell geforderten Antwort notwendig. Daher ist nur der Sinn des Inhalts aber keine akkurateübersetzung entscheidend. Im Gegensatz dazu stehen langlebige Texte, wie Kataloge oder Anleitungen, bei denen die Informationen so genau wie möglich wiedergegeben werden müssen, um ein Verstehen für Muttersprachler der Zielsprache zu ermöglichen (vgl. Kern AG 2016, 1-2). Entscheidend ist also der Verwendungszweck. Bei einer rein informativenübersetzung kann manüber orthografische und grammatikalische Fehler hinwegsehen, solange man den Sinn des Geschriebenen versteht. Allerdings ist der Anspruch wesentlich höher, wenn man ein perfektes und sofort nutzbares Ergebnis erwartet und der Text fehlerfrei sein muss. Denn hier muss man Missverständnisse vermeiden, um als Unternehmen einen seriösen Eindruck auf Kunden zu machen.

4. Arten der maschinellenübersetzung

MÜ kann auf unterschiedliche Art und Weise genutzt werden, von daher versteht man nicht nur dieübersetzung auf Knopfdruck. Schwarzl führt dazu drei Typen an: MAHT (machine aided human translation), HAMT (human aided machine translation) und FA(HQ)MT (full automatic (high quality) machine translation). Diese haben folgende Bedeutung: MAHT ist die gängige Vorgehensweise professionellerübersetzer, die u.a. mit Programmen wie Across, Trados etc. arbeiten (vgl. Schwarzl 2001, 13). Derübersetzer wird durch diese Programme bei derübersetzung unterstützt, indem sie direkten Zugriff auf ältereübersetzungen, Translation Memorys, eigene oder spezifische Terminologie und eingebundene Terminologie-Management-Systeme haben. HAMT wiederum ist laut Carstensen, eine MÜ, die durch Vor- oder Nachbereitung durch einen menschlichenübersetzer funktioniert. Bei der Vorbereitung wird der Text eindeutiger gemacht und bei der Nachbereitung werden Fehler korrigiert (vgl. Carstensen 2012, 195). Letztlich erwähnt Schwarzl (2001, 13) noch die FA(HQ)MT, die fertigeübersetzung auf Knopfdruck ohne jegliches weitere Einwirken von Menschen, doch stellt dies laut Carstensen (2012, 195-196) noch eine Utopie dar und deshalb sollte die Bewertung einer Maschinenübersetzung auf realistischen Kriterien basieren. Koehn wiederrum erwähnt, dass das Ziel der FAHQMT in eingeschränkten Bereichen bereits erreicht wurde. Als Beispiele führt er Wettervorhersagen und Zusammenfassungen von Sportereignissen an, da die Möglichkeiten der zu bildenden Sätzeüberschaubar sind und klareübersetzungsregeln für die MÜ erstellt werden können (vgl. Koehn 2010, 20-21).

5. Ansätze der maschinellenübersetzung

5.1 Regelbasierte Ansätze

Nach Schwarzl können regelbasierte Ansätze der MÜ in zwei Systeme eingeteilt werden: Direkte Systeme und indirekte Systeme. Wobei die indirekten Systeme in interlingua Systeme und Transfersysteme unterteilt werden (vgl. Schwarzl 2001, 27). Diese unterscheiden sich nach Werthmann und Witt in verschiedenen Ausgangspunkten:

Zahl der Sprachpaare, die bei derübersetzung berücksichtigt werden; Art und Weise, wie die gewonnenen Informationen aus der Quellsprache analysiert werden; und anschließend wie diese für dieübersetzung abstrakt repräsentiert werden. (Werthmann und Witt 2014, 87)

Je nach eingesetzter Technologie kann es einfacher bzw. schwerer sein, weitere Sprachen zu ergänzen. Dadurch ergeben sich für ein Sprachenpaar zwar qualitativ hochwertige Ergebnisse, doch ein weiteres zu ergänzen, nimmt zu viel Arbeit in Anspruch. Zusätzlich sind die Bedürfnisse des Kunden relevant, die das entsprechende System rechtfertigen (vgl. Carstensen 2012, 185).

5.1.1 Direkte Systeme

Direkte Systeme zählen zu den ältesten Systemen, die oft eine Wort-für-Wort-Übersetzung vornehmen (vgl. Carstensen 2012, 189). Direkte Systeme sind leicht programmierbar, da sie die Wörter von einer Sprache in die andereübersetzen, ohne auf den Gesamtkontext zu achten und passen diese morphologisch an (vgl. Schwarzl 2001, 28). Carstensen (2012, 191) erwähnt, dass die Nachteile der direkten Systeme an den mangelnden Regeln für die Umsetzung liegen und dieübersetzungen sich zu sehr an den Quelltext anlehnen.

5.1.2 Indirekte Systeme

Wie bereits am Anfang dieses Kapitels erwähnt, gibt es zwei Typen von indirekten Systemen. Das interlingua System nutzt eine sprachneutrale Repräsentationsebene (vgl. Carstensen 2012, 191), die sprachunabhängig ist, im Gegensatz zum Transfersystem, das sprachabhängig ist (vgl. Schwarzl 2001, 28).

Abbildung in dieser Leseprobe nicht enthalten

Tabelle 1überblicküber die Ansätze der MÜ (Carstensen 2012, 190)

5.1.2.1 Interlingua Systeme

Die Interlingua ist eine abstrakte Form der Satzdarstellung (vgl. Schwarzl 2001, 28). Wie in Tabelle 1 zu sehen ist, werden bei dem interlingua System zuerst die Worte analysiert, dann die Syntax und die Semantik und schließlich wird esüber eine sprachunabhängige Zwischeninstanz in die Zielspracheübertragen. Laut Werthmann und Witt (2014, 90-91) liegen die Vorteile darin, andere Sprachen leichter zu ergänzen, allerdings ist es schwierig eine Universalsprache zu finden. Zudem sind die Ansätze für interlingua Systeme rein experimentell.

5.1.2.2 Transfersysteme

Im Gegensatz zu direkten Systemen analysieren Transfersysteme den Quelltext nicht in Form von Worteinheiten, sondern in Satzeinheiten. Zusätzlich dazu wird auch verstärkt auf die Syntaxanalyse gesetzt, die stark sprachabhängig ist (vgl. Schwarzl 2001, 29). Teilweise kann auch ein semantischer Transfer stattfinden (vgl. Tabelle 1). Carstensen (2012, 191) macht auf die Nachteile aufmerksam und betont vor allem die Fehleranfälligkeit, wenn ein Teil der Analyse fehlschlägt, wird der weitereübersetzungsprozess davon ebenso beeinträchtigt.

5.2 Korpusbasierte Systeme

Korpusbasierte Systeme setzen laut Carstensen auf gesammelte Daten vonübersetzungen, die unter anderem mit den Texten von mehrsprachigen Staaten und multinationalen Organisationen gespeist werden. Durch das so genannte Alignment werden die Textteile der Quell- und Zielsprache einander zugeordnet. Man unterscheidet hier zwischen der beispielbasierten MÜ und der statistisch-basierten MÜ. Die Abhängigkeit korpusbasierter Systeme von bilingualen Daten ist ein Nachteil, denn das Alignment ist mit extremem Aufwand verbunden oder falls es automatisch erfolgt, hat es einen Qualitätsverlust zur Folge (vgl. Carstensen 2012, 193-194).

5.2.1 Beispielbasierte maschinelleübersetzung

Die beispielbasierte MÜ wurde seit den 1980ern hauptsächlich in Japan entwickelt (vgl. Koehn 2010, 17). Sie vergleicht bereitsübersetzte Sätze mit dem vorliegenden Satz. Diese Art derübersetzung kann man bereits in Form von Translation-Memory-Systemen im Alltag desübersetzers sehen (vgl. Schwarzl 2001, 202). Auch bei TM-Systemen wird ein Vergleich der Sätze vorgenommen und demübersetzer wird angezeigt, ob er diesen Satz oder ähnliche Sätze bereitsübersetzt hat. Danach wird demübersetzer meist prozentual dieübereinstimmung des bereitsübersetzten Satzes mit den vorliegenden Sätzen angezeigt.

5.2.2 Statistisch maschinelleübersetzung

Diese Systeme arbeitenüberwiegend mit Wahrscheinlichkeiten. Einerseits mit den Wahrscheinlichkeiten, wie ein Wort in die Zielspracheübersetzt wurde, und andererseits, welches Wort in der Zielsprache auf ein anderes folgt (vgl. Carstensen 2012, 193). Google translate zählt u.a. zu diesen Systemen. Es erarbeitet sich selbst die Sprachen anhand von Analysen zahlreicher Texte und Daten (vgl. Google Videos 2010). Shterionov betont den Vorteil von SMÜ. Die Etablierung eines SMÜ-Systems kann zwischen ein paar Stunden und ein paar Tagen dauern, wohingegen ein Mensch Jahre braucht, um eine Sprache zu erlernen und zu beherrschen (Shterionov 2016, 32).

5.3 Hybridsysteme

Bei hybriden Systemen werden regelbasierte und korpusbasierte Systeme miteinander verbunden, um die Stärken beider Systeme zu kombinieren. Dadurch verbessert sich die Analyse des Quelltexts, der Transfer und die Zieltexterzeugung. Das zu anfangs erwähnte Projekt Verbmobil ist ein solches hybrides MÜ-System (vgl. Carstensen 2012, 194).

5.4 Weitere Ansätze

Zusätzlich zu den drei genannten Ansätzen gibt es auch noch viele andere Ansätze, die bisher allerdings nur begrenzt zum Einsatz kamen. Dazu zählen der wissensbasierte und der neuronale Ansatz. Laut Schwarzl, soll eineübersetzung nach dem wissensbasierten Ansatz auf einer nicht-linguistischen Darstellung basieren und der Text soll verstanden werden, denn schließlich arbeitet einübersetzer auch mit seinem Weltwissen. Der neuronale Ansatz verfolgt das Ziel, das menschliche Neuronale Netzwerk nachzuahmen (vgl. Schwarzl 2001, 199-200). Die Firma Systran arbeitet bereits an einer neuronalen MÜ, die denselben Regeln wie die regelbasierte MÜ folgt. Die beiden Systeme unterscheiden sich nur in der Herangehensweise (vgl. Systransoft).

[...]

Ende der Leseprobe aus 44 Seiten

Details

Titel
Linguistischer Vergleich statischer und regelbasierter maschineller Übersetzung. "Google translate" gegen den "Systran Onlinetranslator"
Hochschule
Ruprecht-Karls-Universität Heidelberg  (IUED)
Note
1,7
Autor
Jahr
2016
Seiten
44
Katalognummer
V352622
ISBN (eBook)
9783668390546
ISBN (Buch)
9783668390553
Dateigröße
703 KB
Sprache
Deutsch
Schlagworte
Maschinelle Übersetzung, Kommunikation, moderne Kommunikation, Google, translate, modern translation, Systran, Calude, Koehn, Evaluation, Geschichte der, Maschinenübersetzung, Interlingua, Transfersysteme, regelbasierte Ansätze, Hybridsysteme, Sprachfluss, Textevaluation, Übersetzungswissenschaft, Germanistik
Arbeit zitieren
Julien Appler (Autor), 2016, Linguistischer Vergleich statischer und regelbasierter maschineller Übersetzung. "Google translate" gegen den "Systran Onlinetranslator", München, GRIN Verlag, https://www.grin.com/document/352622

Kommentare

  • Noch keine Kommentare.
Im eBook lesen
Titel: Linguistischer Vergleich statischer und regelbasierter maschineller Übersetzung. "Google translate" gegen den "Systran Onlinetranslator"


Ihre Arbeit hochladen

Ihre Hausarbeit / Abschlussarbeit:

- Publikation als eBook und Buch
- Hohes Honorar auf die Verkäufe
- Für Sie komplett kostenlos – mit ISBN
- Es dauert nur 5 Minuten
- Jede Arbeit findet Leser

Kostenlos Autor werden