Proprietäre Tools, von der F&E-Abteilung im Rahmen der aktuellen Forschung entwickelt
Die Forschung an und Entwicklung von Software zur Rationalisierung bzw. Beschleunigung der Produktion gehören zu den Hauptaufgaben der F&E-Abteilung. Manchmal steht unsere Abteilung aber auch vor der Aufgabe, im Rahmen der aktuellen Forschung technische Lösungen für den internen Einsatz zu entwickeln. Der Bereich der Maschinellen Übersetzung (MT) hat sich in letzter Zeit zu einem der aktivsten Forschungsbereich entwickelt. Wir möchten Ihnen daher einige Einblicke in die Tools geben, die uns bei der Durchführung relevanter Studien helfen.
Während der Forschungsarbeiten im Bereich MT wurden viele Skripte geschrieben, die einige unserer internen Arbeiten automatisiert haben. In den meisten Fällen handelte es sich dabei um Skripte für die Erstellung bestimmter Berichte. Daneben gibt es auch Skripte für die Massenübersetzung von segmentierten Texten durch Anbieter für Maschinelle Übersetzung unter Verwendung ihrer REST-APIs (immer dann, wenn sie vom Anbieter nicht mit CAT-Tools übersetzt werden konnten), Skripte für die Format-Umwandlung von Analysedaten, Skripte für die Arbeit mit neuronalen Netzen usw. Für all diese verschiedenen Anwendungen greifen wir auf unsere Kenntnisse in verschiedenen Programmiersprachen zurück und werten Bibliotheken von Drittanbietern aus.
Da es nicht möglich ist, alle diese proprietären Tools in einem kurzen Text zu behandeln, werden wir größere Entwicklungen und Tools sprechen, die bei uns am häufigsten zum Einsatz kommen. Wir haben zwei Tools ausgewählt – eins, das eine automatische Bewertung von Übersetzungen anhand einer Reihe von Metriken ermöglicht, und ein weiteres, mit dem die Qualität der TM-Datenbanken zwecks Durchführung von Modelltrainings verbessert werden kann.
In Fällen, in denen eine frühere Übersetzung als Referenz verfügbar ist (sei es eine durch menschliche Übersetzer angefertigte oder eine nachbearbeitete maschinelle Übersetzung), kann diese jederzeit mit der MT abgeglichen und die Qualität der maschinellen Übersetzung bewertet werden. Dies ist notwendig, um festzustellen, welches der MT-Systeme für den jeweiligen Kunden, das jeweilige Sprachpaar und das jeweilige Thema die qualitativ besten Ergebnisse liefert. Zu diesem Zweck nutzen wir eine Reihe von Metriken, die von uns zuvor getestet und zur Nutzung eingeführt wurden.
In der Tat gibt es eine große Anzahl von computergestützten Modellen, mit denen Übersetzungen analysiert und bewertet werden können. So verwenden wir derzeit beispielsweise die Metriken HLepor, NLepor, BLEU, NIST, RIBES, METEOR, RougeL, TER und ChrF. Wir können mehrere Metriken für die Bewertung auswählen und sie dann alle gleichzeitig anwenden. Es hängt alles von der Dringlichkeit der Anfrage, vom Sprachpaar und vom jeweiligen Themengebiet ab. Je mehr Analysen wir durchführen und je mehr Daten des jeweiligen Kunden wir in unseren Datenbanken haben, desto leichter gestaltet sich die Bewertung.
Das Problem in diesem Zusammenhang besteht jedoch darin, dass diese Metriken von verschiedenen Personen oder Unternehmen entwickelt wurden, sodass sich dadurch unterschiedliche Datenformate bei der Eingabe als auch bei der Ausgabe ergeben. Zusätzlich kommt dazu, dass die Entwicklung und Implementierung der auf die Bearbeitung dieser Metriken ausgelegten Algorithmen äußerst kostspielig und kompliziert sein kann und dass bereits existierende Anwendungen für derartige Berechnungen in unterschiedlichen Programmiersprachen geschrieben wurden. Aus diesem Grund haben wir ein Tool entwickelt, das es uns ermöglicht, all diese Bibliotheken von Drittanbietern so weit wie möglich in einem einzigen Dienstprogramm zu konsolidieren, das auf die Arbeit mit dem für uns am besten geeigneten Datenformat zugeschnitten ist.
Das Tool heißt MTScore. Es kann die Qualität der Übersetzungen anhand von mehreren der oben genannten Metriken analysieren. Dieses Desktop-Tool greift auf eine einfache Tabellenkalkulation zurück. Die Datei enthält drei Spalten mit Segmenten, für die die entsprechenden Berechnungen durchgeführt werden. Als Ergebnis bekommen wir einen Bericht, mit dem wir Informationen hinsichtlich der Qualität der Übersetzung an unsere Kollegen in der Produktion übermitteln oder Einblicke in die Effektivität des Trainings unseres Modells gewinnen können.
Bei der Arbeit mit MTScore wurden wir mit einem Problem konfrontiert: Viele Bibliotheken verwenden Frameworks für maschinelles Lernen, die nicht ohne Weiteres in die Windows-basierte Desktop-Version des Tools integriert werden können. Deshalb sind wir gerade dabei, dieses Dienstprogramm für die neue Serverversion zu rekonfigurieren, die unter Linux OS läuft. Dies wird den Umfang an Metriken wesentlich erweitern, die wir nutzen können, ohne auf Dienste Dritter zurückgreifen zu müssen. Wir erwarten ebenfalls, dass dies positive Auswirkungen auf die Qualität der Analyseergebnisse haben wird.
Das andere Tool ist das Janus TMX-Tool. Es handelt sich ebenfalls um ein Desktop-Tool, mit dem wir eine Translation Memory-Datei (*.tmx) für das Training von MT-Modellen vorbereiten können. Eine Translation Memory-Datei kann Segmente enthalten, die aus mehreren Sätzen bestehen. Diese müssen dann in einzelne Sätze segmentiert werden, um das System richtig trainieren zu können. Für das Training sollte eine klare Beziehung zwischen dem Ausgangstext und dem übersetzten Text hergestellt werden können, und dieses Dienstprogramm kann eine solche Segmentierung auf verschiedene Weise vornehmen.
Das Programm kann zudem Segmente von einer *.tmx-Datei herausrechnen, die mit denen einer anderen *.tmx-Datei übereinstimmen, so dass die Segmente für eine Testübersetzung schnell auf der Grundlage der Segmente des ersten *.tmx ermittelt werden können. Dies kann die Bewertungsleistung des Modells nach dem Training verbessern, da dies Segmente für den jeweiligen Kunden, das jeweilige Sprachpaar und das jeweilige Themengebiet als ein Testdatensatz dienen.
Janus TMX kann ein Translation Memory auch nach einer Reihe von regulären Ausdrücken durchsuchen und einen entsprechenden Ergebnisbericht generieren, um so schnell beschädigte Segmente, Segmente mit falscher Schreibrichtung, falscher Sprache oder mit anderen Daten zu identifizieren, die vor dem Trainieren eines neuen Modells mit dieser Translation Memory-Datei entfernt werden müssen. Dies erleichtert eine grundlegende Bereinigung der Translation Memory-Datei. Die Wahrscheinlichkeit, dass es Segmente gibt, die für den jeweiligen Trainingszweck ungeeignete Daten enthalten, ist bei der Arbeit mit großen Translation Memory-Dateien deutlich höher.
In diesem Zusammenhang gibt es noch viele weitere Schwierigkeiten, da die Segmentierung aus der Perspektive der Algorithmus-Entwicklung keine einfache Aufgabe ist. Im Grunde genommen werden Segmente vom Programm anhand bestimmter Zeichen aufgetrennten, die sich an verschiedenen Stellen im Quelltext wie auch in dem übersetzten Text befinden können. Auch wenn menschliches Eingreifen weiterhin notwendig ist, bietet dieses proprietäre Tool große Vorteile bei unserer Forschungsarbeit im Bereich der Maschinellen Übersetzung und beim Trainieren von kundenspezifischen Modellen.
Abschließend möchten wir darauf hinweisen, dass unser Team kontinuierlich an neuen MT-Lösungen arbeitet. Diese Innovationen bringen für das Unternehmen zweifellos Wettbewerbsvorteile mit sich. Janus Worldwide verzichtet fast vollständig auf Lösungen von Drittanbietern. Wir arbeiten daran, gänzlich auf proprietäre Lösungen umzusteigen, was viele unserer Kunden sehr positiv aufnehmen.