Neuigkeiten aus dem Bereich der Maschinellen Übersetzung
Lassen Sie uns über die Neuigkeiten aus dem Bereich der Maschinellen Übersetzung sprechen. Ich habe hier für Sie die meiner Meinung nach wichtigsten Entwicklungen zusammengefasst:
SLAIT verlagert seinen Augenmerk immer mehr von der Übersetzung von Gebärdensprache auf KI-gestützten interaktiven Unterricht
Millionen von Menschen verständigen sich mittels Gebärdensprache. Die Unterrichtsmethoden zum Erlernen dieser komplexen und subtilen Fähigkeit haben allerdings keine so schnelle Entwicklung erfahren, wie dies bei gesprochenen Sprachen und deren schriftlichen Wiedergabe der Fall ist. Bei SLAIT School möchte man dies durch den Einsatz eines interaktiven Tutors ändern, der auf Bilderkennungsalgorithmen basiert und es angehenden Anwendern der Amerikanischen Gebärdensprache (ASL) ermöglicht, wie in jeder anderen Sprachlern-App in ihrem eigenen Tempo zu lernen. Im System sind ein Echtzeit-Video-Chat und ein Übersetzungstool implementiert, das die häufigsten Zeichen erkennen kann und ASL-Sprechern dabei hilft, die Kommunikation mit jemandem, der die Sprache nicht beherrscht, zu erleichtern. Weitere Informationen erhalten Sie unter https://slait.school.
Nach den ersten Erfolgen flaute die Aufbruchsstimmung jedoch ab. Das Team erkannte, dass mehr Zeit, Geld und Daten benötigt würden, als voraussichtlich zur Verfügung stand. Evgeny Fomin, CEO und Mitbegründer von SLAIT, erklärte: „Wir haben in den Anfängen unserer Arbeit großartige Ergebnisse erzielen können, mussten dann aber nach mehreren Anläufen realisieren, dass es derzeit einfach nicht genügend Daten gibt, um eine vollwertige Sprachübersetzung bereitzustellen. Wir hatten keine Möglichkeit, Investitionen zu tätigen, keine Chance, Unterstützer in unserer Sache zu finden, weil wir ohne Produkteinführung nur auf der Stelle traten – wir befanden uns in der Schwebe. Kapitalismus ist hart … Wir stehen im regen Austausch mit den Nutzern und versuchen, die besten Preise und passendes Geschäftsmodell zu finden, so dass wir erschwingliche Abonnements anbieten können. Wir würden die Plattform in der Tat gerne kostenlos zur Verfügung stellen, haben aber bisher noch keine Möglichkeit dafür gefunden. Da wir hierbei an einem echten Nischenprodukt arbeiten, müssen wir lediglich ein stabiles Geschäftsmodell aufbauen, das im Großen und Ganzen funktioniert.“ Jede Anstrengung dient dabei auch zum Vorantrieben der Technologie-Kompetenzen und Themeninhalte des Unternehmens. Durch das Zusammentragen von Informationen (mit ausdrücklicher Zustimmung, die von der Community gerne erteilt wird) können die Schulungsinhalte erweitert und verbessert und das Gestenerkennungssystem weiter verfeinert werden.
Google schickt PaLM 2 als seine Antwort auf GPT-4 ins Rennen
Laut Google kann PaLM 2 besser Codes generieren, übersetzen und schlussfolgern als GPT-4. Weitere Informationen finden Sie unter https://ai.google/discover/palm2.
PaLM 2 stellt eine Familie von grundlegenden Sprachmodellen zusammen, die mit GPT-4 von OpenAI vergleichbar ist. Auf dem Google I/O Mountain View-Event in Kalifornien gab Google bekannt, dass PaLM 2 seinerseits bereits für die Sicherstellung der Einsatzfähigkeit von 25 Produkten, darunter auch bei seinem KI-gestützten Kommunikationsassistenten Bard, genutzt wird. PaLM 2 wurde auf Grundlage einer enormen Menge an Daten trainiert und kann das jeweils folgende Wort vorhersagen, indem es sich auf menschlichen Eingaben stützt und so den wahrscheinlichsten Wortlaut generiert. PaLM 2 unterstützt über 100 Sprachen und kann „schlussfolgern“, Code generieren und mehrsprachige Übersetzungen anfertigen. In seiner Eröffnungsrede bei der Google I/O 2023 teilte Google CEO Sundar Pichai mit, dass PaLM 2 in vier Paketgrößen verfügbar ist: Gecko, Otter, Bison und Unicorn. Gecko ist vom Umfang her das kleinste Paket und kann auf einem mobilen Gerät betrieben werden. Neben Bard steht PaLM 2 auch hinter den KI-Features in Docs, Sheets und Slides.
Obwohl PaLM 2 sehr beeindruckende Leistungen liefert, lohnt es sich näher anzusehen, wie es im Vergleich zu GPT-4 abschneidet. Laut Informationen aus dem technischen Bericht zu PaLM 2 übertreffen seine Leistungen die von GPT-4 in einigen Disziplinen wie Mathematik, Übersetzung und Schlussfolgern. Es ist jedoch zu berücksichtigen, dass große Datensätze, die in Sprachmodellen – und somit auch in PaLM 2 – benutzt werden, möglicherweise urheberrechtlich geschütztes Material enthalten, welches gegebenenfalls ohne Genehmigung verwendet wird, sowie möglicherweise schädliche Inhalte aus dem Internet. Zu Trainingszwecken genutzte Daten haben erheblichen Einfluss auf die Ergebnisse jedes KI-Modells. Aus diesem Grund plädieren einige Experten für die Verwendung öffentlich zugänglicher Datensätze, was eine Form der wissenschaftlichen Reproduzierbarkeit gewährleisten und die Möglichkeiten für ethische Überprüfungen bieten könnte.
Google enthüllt auf der Developer Conference den „Universal Translator“ für Nachvertonungsaufgaben
Im Vortrag auf der live gestreamten Google-Jahreskonferenz Google I/O 2023 am 10. Mai 2023 wurden im Großen und Ganzen die erwarteten Themen erörtert, einschließlich Bard, Search, Cloud, Android und Hardware. Weitere Informationen finden Sie https://slator.com/google-teases-universal-translator-dubbing-developer-conference/.
Während der Präsentation zum Thema „Responsible AI“ stellte James Manyika, Senior VP für Technology and Society, die neueste Wunderwaffe für Aufgaben im Bereich der Nachvertonung vor – den Universal Translator. Manyika beschrieb den Universal Translator als „einen experimentalen KI-gestützten Service für die Nachvertonung von Videos, mit dem Experten die Sprecherstimmen leichter übersetzen und gleichzeitig die Lippenbewegung abgleichen können“. Er ging jedoch nicht näher darauf ein, welche Experten in welcher Funktion involviert sein könnten. Manyika demonstrierte das Tool, anhand eines Clips aus einem Online-College-Kurs in der Originalsprache Englisch, gefolgt von demselben Clip, der in Spanisch nachvertont worden war. Die Lippen des Sprechers bewegten sich dabei im Einklang mit dem übersetzten Text. Neben der atemraubenden Schlagzeilen über Universal Translator haben sich auch Unternehmen mit besonderen Kompetenzen und Fähigkeiten wie AppTek und Konkurrenten von Google, darunter Amazon, mit dieser Herausforderung – auch als automatische Synchronisation, maschinelle Synchronisation oder KI-Synchronisation bezeichnet – beschäftigt. Für den Augenblick scheint die neue Funktion des Universal Translator die fortgeschrittenste Entwicklung im Bereich „lip matching“ zu sein.