Überlegungen zum Thema maschinelle Übersetzung
Liebe Kollegen, ich möchte mit Ihnen über die Probleme und Herausforderungen sprechen, die mit der maschinellen Übersetzung (MÜ) einhergehen, sowie über die Möglichkeiten und Meilensteine rund um das Thema MÜ.
Das erste Problem, auf das ich eingehen möchte, ist die Tatsache, dass es einige weit verbreitete Sprachen gibt (z. B. Arabisch, Koreanisch, Japanisch und Chinesisch), für die nur selten trainierte, benutzerdefinierte MÜ-Modelle eingesetzt werden. Bei einem trainierten MÜ-Modell handelt es sich um ein System, das anhand umfassender zweisprachiger Texte trainiert und optimiert wurde. Im Gegensatz dazu steht das untrainierte MÜ-Modell, das sich nur auf einen Grundbestand an Texten stützt. Bei Sprachen, nach denen die Nachfrage eher mittelgroß ist, sieht es sogar noch schlechter aus. Dazu kommt, dass nur wenige Firmen ihren Kunden qualitativ hochwertiges MÜ-Training anbieten können. Außerdem gibt es nur wenige Firmen, die durch die Verwendung von untrainierten MÜ-Modellen, also Systemen, die sich nur auf einen Grundbestand an Texten stützen (z. B. Google Translate), eine akzeptable Qualität liefern können.
Schlechte MÜ-Ergebnisse sind meiner Ansicht nach vor allem darauf zurückzuführen, dass die meisten Firmen über keinen ausreichenden Textspeicher verfügen – also einem umfangreichen Bestand an zweisprachigen Texten, die nach bestimmten Kriterien ausgewählt und übersetzt wurden. Diese Texte dienen als Grundlage für die Erstellung einer maschinellen Übersetzung. Das bedeutet wiederum, dass diese MÜ-Modelle basierend auf einer verschwindend geringen Anzahl an Daten erstellt werden. Bis heute gibt es nur wenige Firmen, die im Laufe der Jahre solche nützlichen Daten aus verschiedenen Quellen gesammelt haben und mit professionellen und qualifizierten Linguisten zusammenarbeiten. Für junge Unternehmen ist es sehr schwierig, mit den großen und etablierten Unternehmen zu konkurrieren und an große Textspeicher zu kommen.
Es gibt einige Firmen, die ihren Kunden mit einer trainierten maschinellen Übersetzung eine bessere Qualität anbieten können, als die bekannteren Anbieter. Diese Firmen werden jedoch nicht groß beworben und sind nur wenigen Personen bekannt. Das Ganze schadet auch dem Ruf der maschinellen Übersetzung, da Menschen ihre Meinung zu MÜ auf den Ergebnissen bekannter MÜ-Anbieter stützen. Allerdings kann auch eine suboptimale Qualität in manchen Situationen die Anforderungen an eine Übersetzung erfüllen. Entsprechend könnte man also sagen, dass es keine schlechte maschinelle Übersetzung gibt, sondern nur Fälle, in denen eine maschinelle Übersetzungsmethode ausgewählt wurde, die nicht die Anforderungen erfüllt. Nur wenige Personen kennen die Feinheiten, auf die es bei der Auswahl ankommt. Die Experten bei Janus kennen sich allerdings bestens aus. Viele bekannte Anbieter von maschineller Übersetzung haben nur wenig Interesse daran, diese Informationen zu teilen oder Anwender in diesem Bereich weiterzubilden. Das liegt nicht zuletzt daran, dass sie dadurch die Anwender unweigerlich über die eigenen Mängel und die Vorzüge der Konkurrenten informieren würden. Daraus ergibt sich ein weiteres Problem: Aufgrund dieser Unkenntnis haben viele Menschen hohe Erwartungen an die maschinelle Übersetzung und erwarten von ihr einen vollwertigen Ersatz für die menschliche Übersetzung. Die Qualität der MÜ ist jedoch stark abhängig von der Art des Textes und dem jeweiligen Fachgebiet, sowie von der Arbeitsweise des Anbieters.
Für einige Sprachen gibt es quasi nur einen einzigen (!) Anbieter von maschineller Übersetzung, der in der Lage ist, eine einigermaßen gute Qualität zu liefern. Das hält jedoch andere Anbieter nicht davon ab, ihre Dienstleistungen mit Erfolg zu bewerben und zu verkaufen. Für eine hochqualitative Übersetzung benötigt man gute MÜ-Modelle (für den technischen Teil) sowie große und korrekt aufbereitete Textspeicher (für den sprachlichen Teil). Als Workaround für den fehlenden Textspeicher können auch frei und öffentlich verfügbare Texte verwendet werden, die nicht durch das Urheberrecht geschützt sind. Dafür eigenen sich zum Beispiel mehrsprachige Websites, wissenschaftliche Artikel, Anwendungsbeispiele von Wörtern und Redewendungen aus Wörterbüchern, Nachschlagewerke und andere Textarten. Anhand dieser Methode kann zwar keine generische Engine erstellt werden, aber es ist möglich, die MÜ-Modelle für bestimmte Themen und Branchen zu trainieren. Wenn sich mehr Menschen dazu bereit erklären würden, Texte aus verschiedenen Genres und Stilrichtungen in verschiedenen Sprachen freiwillig auszutauschen, würde das der Entwicklung der maschinellen Übersetzung im Allgemeinen weiterhelfen. Die meisten MÜ-Systeme können mit den Produkten der großen und bekannten Anbieter nicht verglichen werden. Mehrsprachige Texte können aber auch von technischen Redakteuren erstellt werden. Die Hauptaufgabe eines technischen Redakteurs liegt darin, Dokumente zu verfassen, die bestimmte Kriterien erfüllen. Bei Janus bieten wir Ihnen maschinelle Übersetzungen, die durch fachspezifisch entwickelte MÜ-Modelle erstellt werden.
Ein weiteres Problem ist, dass für viele Sprachen, darunter auch einige sehr gefragte Sprachen, nicht genügend Studien durchgeführt wurden. Einer der Hauptgründe für die geringe Anzahl der veröffentlichten Studien und Artikel ist, dass es nur wenige gute Anbieter gibt. Dazu kommt, dass die Qualität zwischen den bekannten Anbietern variiert und die Anbieter nicht für alle Sprachen gleich hochwertige maschinelle Übersetzung liefern können.
Das nächste Problem ist der Mangel an zuverlässigen Informationen in Analyseberichten zur maschinellen Übersetzung, die von den großen und bekannten Firmen der Branche zusammengestellt wurden. Qualitätsindikatoren für maschinelle Übersetzungen können aus kommerziellen Gründen unter- oder überbewertet werden. Wir können für Sie mithilfe verschiedener MÜ-Anbieter eine zuverlässige Analyse über die Qualität des zu übersetzenden Textes erstellen. Um die Qualität der maschinellen Übersetzung zu bewerten, nutzen wir verschiedene Methoden, einschließlich automatischer technischer Evaluierungen und menschlicher Evaluierungen. Bei der technischen Evaluierung werden die Zeichen der maschinellen Übersetzung mit dem maschinell übersetzten Text nach der Revision vergleichen, um die Qualität basierend auf den Unterschieden zwischen dem maschinell übersetzten Text und dem revidierten Text zu evaluieren. Die Qualität der MÜ wird in Prozent angegeben. Eine fachliche und korrekte menschliche Übersetzung oder eine revidierte maschinelle Übersetzung gemäß den Anforderungen des Kunden dienen als 100 %-Richtwert. Bei der menschlichen Evaluierung werden der Stil und andere ähnliche Anforderungen an die Übersetzung berücksichtigt sowie andere Feinheiten, die bei der Qualitätskontrolle nicht automatisiert geprüft werden können.