Veröffentlichungen

Integration von TM und Glossar: Höchste Qualität für KI-Übersetzungen

Das Janus KI-Ökosystem unterstützt nun das Hochladen von Translation Memories (TMs) und Glossaren zur Verwendung im KI-gestützten Übersetzungsprozess. Mit dieser neuen Funktionalität analysiert das System den Text in der Originalsprache und vergleicht ihn mit Daten aus dem Translation Memory und dem Glossar. Darüber hinaus werden alle grammatikalischen Formen der Wörter (Deklination, Konjugation, Kasus) berücksichtigt. Tritt also ein Glossarbegriff in irgendeiner Form im Text auf, erkennt ihn das System. Im Ergebnis werden nur diejenigen Begriffe, die direkt im Text vorkommen, und diejenigen Übersetzungsspeichersegmente, die den Sätzen im Text am ähnlichsten sind, zur Anfrage hinzugefügt. Das reduziert die Menge der übertragenen Daten, beschleunigt die Übersetzung und erhöht die Genauigkeit.

Bild 1 - Veröffentlichung - TM Glossary integration

Es ist schwierig zu bestimmen, was für die Maximierung der Übersetzungsqualität wichtiger ist: die Verwendung eines Translation Memorys oder eines Glossars. Das hängt von zahlreichen Faktoren ab: von der Art des Textes, der Durchsetzung mit Begriffen oder Floskeln, dem Prozentsatz an Überschneidungen zwischen Originaltext, TM und Glossar usw. Untersuchungen haben allerdings gezeigt, dass das Hinzufügen eines TMs und eines Glossars zu einer Übersetzung, sowohl zusammen als auch getrennt, die Qualität der Übersetzung durchweg verbessert. Dies lässt sich anhand der untenstehenden Grafik nachvollziehen. Die gleichzeitige Integration eines Translation Memorys und eines Glossars sorgt für die größte Qualitätssteigerung, wodurch der Zeitaufwand für die nachfolgende Nachbearbeitung des Textes reduziert und die Konsistenz von Terminologie, Integrität und Stil gewahrt wird.

Wie bereits erwähnt, hängen Qualitätssteigerungen hauptsächlich davon ab, wie viele TM-Segmente oder Glossarbegriffe direkt im Text vorkommen. Bei der Übersetzung vom Englischen ins Japanische zeigte das System beispielsweise eine Übereinstimmung zwischen dem Textsegment und dem TM-Segment von 85,88 Prozent. Darüber hinaus erhöhte sich die Übersetzungsqualität durch die Hinzunahme von TM von 66 auf 95. Die HLEPOR-Metrik dient zur Bewertung der Übersetzungsqualität. Sie erstellt eine Bewertung basierend auf der Ähnlichkeit der maschinellen Übersetzung mit der von einem professionellen Übersetzer erstellten und vom Kunden genehmigten Referenzübersetzung.

Bild 2 - Veröffentlichung - TM Glossary integration

Es ist jedoch wichtig zu beachten, dass bei der Arbeit mit neuen Funktionen mithilfe eines CAT-Tools berücksichtigt werden muss, wie das CAT-Tool den Text in Segmente unterteilt und dass das Translation Memory entsprechend dieser Prinzipien zusammengesetzt werden muss. memoQ teilt Texte beispielsweise anhand von Satzzeichen oder Zeilenumbrüchen in Segmente auf. Wenn man ein Translation Memory in ein Ökosystem lädt, in dem Segmente nicht nach demselben Prinzip, sondern beispielsweise nach semantischen Absätzen unterteilt werden, können Probleme wie nachfolgend geschildert auftreten. Im folgenden Beispiel kann man sehen, dass das Originalsegment eine 100-prozentige TM-Übereinstimmung aufweist. Bei der Verarbeitung der Datei teilte memoQ dieses jedoch in drei separate Segmente auf und sendete diese separat an das System, was zu einem Fehler bei der Berechnung der Textähnlichkeiten führte.

Bild 3 - Veröffentlichung - TM Glossary integration

Die Integration von Translation Memory und Glossar stellt einen bedeutenden Schritt für die Entwicklung maschineller Übersetzung dar, da die beiden Schlüsselressourcen linguistische Konsistenz (TM) und terminologische Genauigkeit (Glossar) kombiniert werden. Die gleichzeitige Verwendung beider Werkzeuge sorgt für größtmögliche Effektivität. Dies gewährleistet sowohl eine verbesserte Übersetzungsqualität als auch die nahtlose Beibehaltung von Stil und Terminologie. Allerdings ist eine entscheidende Voraussetzung dafür die technische Synchronisierung mit CAT-Tools: Eine Diskrepanz der Segmentierungsregeln (zum Beispiel in memoQ) kann das Potenzial selbst eines perfekt vorbereiteten Translation Memorys erheblich mindern.

Spezialistin für maschinelle Übersetzung

Ksenia Dmitrijewa

Ksenia ist seit 2024 als MT-Spezialistin in der Forschungs- und Entwicklungsabteilung von Janus tätig. Sie hat einen Bachelor in Übersetzungswissenschaft der Staatlichen Pädagogischen Herzen-Universität und absolviert derzeit ihren Masterstudiengang im Fachbereich „Digitale Linguistik“. Ksenia ist spezialisiert auf das Training von maschinellen Übersetzungssystemen (MT) und LLM (KI) zur Verbesserung der Übersetzungsqualität und Anpassung der Lösungen an die Anforderungen einer bestimmten Branche sowie auf die Bewertung der Übersetzungsqualität mithilfe automatischer Metriken (wie BLEU, TER, BERTScore).