QUELLENVERZEICHNIS
Inhaltsverzeichnis
Seite
Begriffe und Abkürzungen II
Abbildungsverzeichnis III
Tabellenverzeichnis IV
Anlagenverzeichnis V
1 Einleitung 1
2 MÜ-Systeme 5
3 Polnisch in der MÜ 8
3.1 Aufbau der Systeme 15
3.2 Multilinguale Systeme und Tools 16
4 Forschung in Polen 19
4.1 Hochschulen 20
4.1.1 Warschau 21
4.1.2 Posen 24
4.1.3 Krakau 26
4.1.4 Breslau 26
4.1.5 Danzig 27
4.1.6 Gleiwitz 28
4.2 Firmen 28
4.3 Internationale Forschung Projekte 34
5 Zusammenfassung und Ausblick 36
Quellenverzeichnis 37
Stichwortverzeichnis 41
Anhang 42
Maschinelle Übersetzung in Polen: Ein Überblick
I
Begriffe und Abkürzungen
CL Computerlinguistik
DCG
E Englisch
ED electronic dictionary ‚Elektronisches Wörterbuch’
FAHQT Fully Automatic High Quality Translation (auch MT, s. Bild 1)
HAMT Human Aided Machine Translation
HLT Human Language Technologies
HPSG Head-Driven Phrase Structure Grammar
IE Information Extraction
Information Extraction ist eine Technologie zum automatischen
Information Extrahieren strukturierter Informationen aus Texten.[…] (Harms
Extraction & Luckardt (2005) (IE)
KBN Polnisches Staatskomitee für Wissenschaftsforschung
MAHT Machine Aided Human Translation
MLL Multilinguale(s) Lexika/on
MÜ Maschinelle Übersetzung (engl. ‚Machine Translation’ (MT))
NLP Natural Language Processing (verwandter Begriff zu HLT, ST)
PL Polnisch
QS Quellsprache
ST Sprachtechnologien (Oberbegriff zu IE, CL, MÜ, etc.)
Trunkierung
Usability
ZS Zielsprache
Abbildungsverzeichnis
Bild 1: Maschinelle Übersetzung (aus Von Hahn, 2001)........................................ 5 Bild 2: Komponenten eines Transfer-Systems (aus Arnold et al.,
1994:72) ...................................................................................... 45 Bild 3: Vergleich Transfer vs. Interlingua (aus Arnold et al., 1994:81)................. 46 Bild 4: Komponenten eines Interlingua-Systems (aus Arnold et al.,
QUELLENVERZEICHNIS
Tabellenverzeichnis
Seite
Tabelle 1: Morphologie polnischer Pronomen (In Anlehnung an
Beispiele aus Przepiorkowski 2003:2) 11
Tabelle 3: Polnisch 9 Genera 13
Tabelle 3: Korpora (ausgewählt aus Zasoby leksykalne IFP U Wr ’
(2005) sowie IPI PAN (2005)) 14
Tabelle 4: PL Ressourcen: Wörterbücher (ausgewählt aus Zasoby
leksykalne IFP U Wr ’ (2005)) 14
Tabelle 5: Forschung in Warschau PAN: Language Engineering 21
Tabelle 6: Forschung in Warschau PAN: Computerlinguistik ZJK 23
Tabelle 7: Forschung in Warschau UW: Formale Linguistik KLF 23
Tabelle 8: Forschung in Warschau PJWSTK: Mathematik
statistische Datenanalyse 24
Tabelle 9: Forschung in Posen: UAM Computerlinguistik und KI 25
Tabelle 10: Forschung in Krakau: Lehrstuhl für Computerlinguistik 26
Tabelle 11: Forschung in Breslau: quantitative Linguistik und
Digitalisierung 26
Tabelle 12: Forschung in Danzig: Mathematische Linguistik 27
Tabelle 13: Forschung in Danzig: Wissenstechnologie 27
Tabelle 14: Forschung in Schlesien: Computerlinguistik 28
Tabelle 15: Forschende Unternehmen 29
Tabelle 16: Internationale Forschung Projekte 34
Tabelle 17: Stichproben LINGVOSOFT vs TRANSLATICA 44
Maschinelle Übersetzung in Polen: Ein Überblick IV
Anlagenverzeichnis
Anlage 1: Übersetzungsbeispiele TRANSLATICA & LINGVOSOFT ........................ 43
Anlage 2: MÜ-Systeme: Grafiken....................................................................... 45
1 Einleitung
„Machine Translation – a disappointing past and a disappointing present?” – Der Aufsatz von Martin Kay (In: Cole et al. 1997:248f) fasst mit diesen Worten die Ergebnisse der vergangenen Forschung und die Ernüchterung, die daraus erfolgte, pointiert zusammen (vgl. Arnold et al., 1994:3). Die maschinelle Übersetzung hat eine schwere und arbeitsreiche Vergangenheit hinter sich und nicht das erreicht, was man sich zu Anfang erhofft hat. Der Blick auf den Stand der Forschung muss aber gar nicht so pessimistisch sein. Nach ernüchternden Einsichten kann man heute doch zahlreiche Errungenschaften aufweisen. Gerade im Hinblick auf die Herausbildung der Informationsgesellschaft (Cole et al., 1997:xi, xvi) oder die politischen Änderungen in Europa mit der Osterweiterung kann die maschinelle Übersetzung wertvolle Dienste leisten. Polen, als eines der neuen EU-Länder, liefert viele Beispiele für aktuellen Bedarf und für Forschungsinteressen bezüglich der ‚linguistischen Integration’ (Euromap Final Report, 2003).
Mit dem Wissen um die Komplexität der Aufgabe, einen von Menschen erstellten Text automatisch zu übersetzen, weiß man die Leistung der heutigen Systeme zu würdigen. Zusätzlich wird in der Literatur ein grundsätzlicher Zuwachs an (zu übersetzenden) Publikationen betont, wovon große Mengen gleichförmig sind und demnach für den menschlichen Übersetzer keine befriedigende und oft auch nicht zu bewältigende Arbeit darstellen (Cole, 1997:251f; Hutchins, 2003). Man ist sich heute sicher, dass Tools/Systeme, die dem Menschen bei der Übersetzung eben solcher Texte als nützliches Werkzeug zur Verfügung stehen (z.B.: Machine Aided Human Translation, MAHT), sehr gute
Ergebnisse aufweisen und zu einer interessanteren, effektiveren Arbeitsweise beitragen. Alternativ sollen auch Lösungen, bei denen der Mensch während des Übersetzungsprozesses oder vorher/nachher eingreift (Human Aided Machine Translation, HAMT; Vor-/Nachbereitung, Authoring, kontrollierte Sprache, vgl. Hutchins, 2003), viel versprechende Resultate liefern (Arnold et al., 1994:3, Dorr et al., 1999:2; Cole et al., 1997:248). Die Eingrenzung der Quelltexte bezüglich ihrer Domänenzugehörigkeit, die nicht nur die Lexik, sondern auch die Syntax und andere sprachlichen Ebenen beeinflussen kann, verbessert zusätzlich die Leistung eines Übersetzungssystems. Eines der Beispiele hierfür sind die hervorragenden Erfolge mit METEO (University of Montreal, Kanada), einem System, das zwischen englischen und französischen meteorologischen Texten übersetzt. Die in METEO verwendeten Texte sind in ihrer Form und ihren Inhalten stark eingegrenzt (Kilbury, p.c. 2004; Cole et al., 1997:248).
Zu den guten Ergebnissen, die heute zumindest im Bereich ‚westlicher’ Sprachen, vor Allem Englisch, erzielt werden konnten, hat sicherlich auch der Austausch zwischen Disziplinen, Forschungsstätten und Ländern geführt. Im Bezug auf slawische Sprachen war dieser Austausch und auch Fortschritt aus verschiedenen Gründen gestört. Viele dieser Gründe wurden mittlerweile eliminiert und konnten zur Überwindung der Kluft beitragen. Hierzu gehört auch, dass vor Allem die Länder im Osten über zunehmend gute Fremdsprachenkenntnisse verfügen und nicht nur in ihren „low-density“ Sprachen (Euromap Final Report, 2003) publizieren.
Im Rahmen dieser Arbeit wurde eine Recherche zur Maschinellen Übersetzung (MÜ) bzw. zu Sprachtechnologien in Polen durchgeführt. Im Zentrum standen MÜ-Forschung, die polnische Sprache und Text-zu-TextÜbersetzung. Diese vorläufige Recherche wurde auf der Grundlage von aktuellen Internetquellen durchgeführt. Im vorliegenden Dokument werden alle zentralen URL-Adressen der forschenden Institutionen gegeben. Darüber hinaus wurde die Arbeit dieser Einrichtungen kurz anhand von dort genannten Fakten, wie Forschungszielen, forschenden
Personen, durchgeführten Projekten und eventuell existierenden Systemen skizziert. Es werden 10 universitäre, 7 kommerzielle Organisationen sowie ca. 7 internationale Projekte genannt, davon wurden einige Organisationen aufgrund bestehender oder auch vergangener Relevanz genauer behandelt.
Der Forschungsstand der polnischen MÜ kann im Rahmen dieser Arbeit nicht beurteilt werden. Aber die polnische Sprache gehört zu den am besten erforschten Sprachen in Europa (Vetulani et al., 1998), was sich auch im Vorhandensein
Wörterbücher widerspiegelt. Die meisten existierenden Systeme haben die Sprachen Englisch und Französisch als die jeweils andere QS oder ZS implementiert. Die Qualität ist zwar sehr variabel, aber an vorhandenen Problemen wird rasch gearbeitet. Die Betonung liegt häufig bei Rohübersetzungen und zunehmend auf stabilen Systemen. Hier zeigt sich auch eine starke Tendenz zur Anwendungsorientiertheit in der Forschung und Entwicklung von MÜ-Systemen. Aktuell werden einige der vorhandenen Systeme um andere KI-Aspekte erweitert und/oder die innerhalb der MÜ erreichten Ergebnisse, z.B. bei Mensch-Maschine-Technologien, verwendet (z.B.: Forschung in Posen & Warschau). Schnittstellen mit anderen Domänen sind auch in der polnischen Forschung nicht so scharf gezeichnet, so dass Sprachsynthese, Information Extraction (IE)
Anwendungsgebiete oder Komponenten von Systemen und Projekten eingebunden sind.
Da es sich hier um eine Überblicksarbeit handelt, werden einige Begriffe als Überbegriffe verwendet, um die inhomogene Terminologie, die für ein solches Vorhaben nicht untypisch ist, auszugleichen. Das Ziel ist, im Speziellen Orte und Projekte, die mit MÜ assoziiert sind, aufzudecken und zu nennen. Pure MÜ lässt sich entsprechend einschlägiger Prognosen (Cole, Hutchins) aber auch in Polen kaum finden, so dass der Rahmen zu recherchierender Institutionen auf Sprachtechnologien (ST) erweitert, jedoch der besondere Fokus auf MÜ beibehalten wird.
Es wird ferner darauf hingewiesen, dass es bis auf skizzenhafte Zusammenstellungen polnischer ST-Institutionen oder die Erwähnung in der HLT-Survey mit
Überblicksarbeiten zur MÜ in Polen gibt, so dass die hier vorliegende Arbeit keinen Anspruch auf Vollständigkeit erhebt.
2 MÜ-Systeme
Bild 1: Maschinelle Übersetzung (aus von Hahn, 2001)
MÜ-Systeme können nach verschiedenen Kriterien unterteilt werden. Eines der wichtigeren Kriterien, vor Allem in der Geschichte der MÜ/ST, ist der Grad der Automatisierung des Übersetzungsvorgangs. Die obige Grafik gibt eine mögliche Illustration der einzelnen Kategorien und ihrer Zusammenhänge (für eine detaillierte Erläuterung s. von Hahn, 2001; vgl. z.B. Arnold et al. 1994). Die einzelnen Kategorien haben keine klaren Grenzen und bilden ein Kontinuum (Arnold et al., 1994:35). Kilbury (p.c., 2005) übersetzt die drei wichtigsten Einteilungen wie folgt 1 :
• menschengesteuert –MAHT,
• halbautomatisch –HAMT,
1 FAHQT entspricht der Abkürzung MT auf der Grafik, die hier mit der deutschen Übersetzung MÜ für Maschinelle Übersetzung steht und als Bezeichnung für die Forschungsrichtung verwendet wird.
Quote paper:
Martha Barbara Waclawczyk, 2005, Maschinelle Übersetzung in Polen: Ein Überblick, Munich, GRIN Publishing GmbH
This text can be quoted and accessed from this url:
Embed
DOI
Die Wahrnehmung von Raumrelationen und die Interpretation raumrelation...
Scholarly Paper (Advanced Seminar), 30 Pages
Bedeutung, Möglichkeiten und Grenzen der Ausspracheschulung im Englisc...
English - Pedagogy, Didactics, Literature Studies
Scholarly Paper (Advanced Seminar), 22 Pages
German - German as a Foreign Language / Second Language
Scholarly Paper (Advanced Seminar), 25 Pages
Evolutionäre Algorithmen in der Spracherkennung
Computer Science - Programming
Scholarly Paper (Advanced Seminar), 11 Pages
Das Zustands- oder sein-Passiv im Deutschen
Scholarly Paper (Advanced Seminar), 21 Pages
Overview of Translation Tools - Benefits of Translation Memory Managem...
Diploma Thesis, 89 Pages
Zur Vielfalt der Relationen zwischen Anaphern und Antezedenten
German - Grammar, Style, Working Technique
Scholary Paper (Seminar), 21 Pages
Derivation von Substantiven im Deutschen
Scholarly Paper (Advanced Seminar), 26 Pages
Ungesteuerter und gesteuerter Zweitspracherwerb
German - Pedagogy, Didactics, Literature Studies
Termpaper, 16 Pages
Die Derivation im Deutschen und das Suffix -lich
Scholary Paper (Seminar), 15 Pages
Wortbildungslehre nach Erben und Naumann - ein kontrastiver Vergleich
Scholarly Paper (Advanced Seminar), 34 Pages
Die Laute der deutschen Sprache und ihre Besonderheiten
Termpaper, 21 Pages
Martha Barbara Waclawczyk has published the text Maschinelle Übersetzung in Polen: Ein Überblick
Martha Barbara Waclawczyk has uploaded a new text
Martha Barbara Waclawczyk has commented on the text Maschinelle Übersetzung in Polen: Ein Überblick
Maschinelle Übersetzung und XML im Übersetzungsprozess
Prozesse der Translation und L...
Michael Krenz, Markus Ramlow
Gastronomisches Wörterbuch zur Übersetzung und Erklärung der Speisekar...
Kommunikation in Restaurant un...
Elisabeth Neiger
Abitur-Training Englisch. Übersetzung
Grundlagen und Texte mit Muste...
Mary Schäfer, Wolfgang Schäfer
Abitur-Training Französisch Sprachmittlung - Übersetzung
Deutsch - Französisch / Franzö...
Bianca-Maria Zimmermann
Technische Bildverarbeitung - Maschinelles Sehen
Bernd Jähne, Harald Scharfenberg, Bertram Nickolay, Robert Massen
Martha Barbara Waclawczyk
Feedback.
Das Thema und die Inhalte meiner Arbeit können schlecht diskutiert werden... Dennoch würde ich mich über Feedback freuen.
Wen interessiert meine Arbeit und wofür? Waren meine Zusammenstellungen hilfreich?
Die vorliegende Arbeit besteht aus Zusammenstellungen von Forschungsfakten zum Thema Sprachtechnologien.
Abgesehen davon interessiere ich mich grundsätzlich für die Thematik 'polnische Sprache', Sprachtechnologien im Zusammenhang damit, Übersetzung (auch menschliche) etc.; Ein weitefühendes Thema, das mich interessiert ist 'der Informationsverlust' bei Übersetzung, der sich bei Rechtstexten u.ä. besonders negativ auswirken kann - und somit auch Rolle des Übersetzers oder des Übersetzungsprogramms, der in einem solchen Falle eine große Verantwortung zukommt.
Ich freue mich also über Beiträge, die auch diese weiterführenden Themen, nicht nur direkt meine Arbeit ansprechen.
MBW
on Tuesday, October 25, 2005-