Aktuelle Neuigkeiten aus dem Bereich der Sprachdienstleistungen
Lassen Sie uns über aktuelle Neuigkeiten aus dem Bereich der Sprachdienstleistungen besprechen. Ich habe hier für Sie die meiner Meinung nach wichtigsten Entwicklungen zusammengefasst:
Echo-Zuschauer können zukünftig neue Marvel-Serien sehen, die in der Choctaw-Sprache synchronisiert sind
https://ew.com/disney-made-choctaw-language-dub-echo-marvel-series-8421456
In der kommenden Miniserie von Marvel spielt Alaqua Cox die Söldnerin Maya Lopez. Da Maya eine indianische Figur ist, haben sich Regisseurin Sydney Freeland und ihr Team mit der Choctaw Nation über die Geschichte, Kostüme und Charaktere beraten. Doch die Zusammenarbeit ging noch weit darüber hinaus. EW gibt in einer exklusiven Enthüllung bekannt, dass das Echo-Team einen vollständigen Audio-Dub der Serie in der Choctaw-Sprache produziert hat.
Im exklusiven Video (verlinkt) können Sie Freeland und seinem Berater Terry Billy bei der Aufnahme der Synchronisation zusehen. Sie können auch einige Aufnahmen von Echo sehen, die verdeutlichen, wie sehr sich die Show an der Geschichte und Kultur von Choctaw orientiert. Bei international veröffentlichten Filmen sind Tonaufnahmen in verschiedenen Sprachen üblich. Hayao Miyazakis neuer Animationsfilm The Boy and the Heron (Der Junge und der Reiher) beispielsweise ist sowohl in der japanischen Originalversion als auch in einer englischen Sprachversion weit verbreitet. Die Choctaw-Sprache ist im Vergleich zu diesen beiden Sprachen nicht so weit verbreitet, was die Synchronisation zu einer Herausforderung machte – aber auch äußerst lohnend.
Das kleine Sprachmodell von Microsoft
https://www.infoworld.com/article/3712200/inside-phi-2-microsoft-s-small-language-model.html
Kleine Sprachmodelle bieten mehrere Vorteile. Sie können viel einfacher portabel genutzt werden, wir können nicht immer mit der Cloud verbunden sein und gleichzeitig möchten wir möglicherweise kein Modell auf öffentlichen Daten trainieren. Es dauert mehrere Monate, ein LLM der GPT-Klasse mit einem Supercomputer zu trainieren. Durch den Aufbau von Sprachmodellen auf kleineren Sätzen privater oder domänenspezifischer Daten ist es möglich, kleinere und gleichzeitig spezialisiertere Modelle bereitzustellen. Microsoft Research hat beim Trainieren seiner Phi-SLMs einen Ansatz verwendet, der sich auf die Inhalte aus Lehrbüchern und Fachlektüre beschränkt. Die Idee besteht darin, das Modell mithilfe verlässlicher Quellen strategisch zu trainieren, um klare und prägnante Antworten zu liefern. Für die neueste Version, Phi 2, umfassten die Trainingsdaten von Microsoft eine Mischung aus synthetischen Inhalten und aus dem Internet bezogenen Informationen. Synthetische Daten werden verwendet, um dem Modell grundlegendes Wissen zur Unterstützung grundlegender Überlegungen sowie allgemeines Wissen zu vermitteln, sodass die Ausgaben nicht auf Lehrbuchinhalte beschränkt sind und effektiver auf den Kontext des Benutzers reagieren können. Die Ergebnisse sprechen für sich: Phi 2 hat Modelle, die größer und wesentlich komplexer sind, ebenso gut und manchmal besser als diese bewertet.
Microsoft Research weist darauf hin, dass die Qualität der verwendeten Trainingsdaten der Schlüssel zur Erzielung guter Ergebnisse ist, sowie zum Erreichen eines Verhaltens, wie es bei viel größeren Modellen zu beobachten ist. Anstatt das Modell anhand einer großen Sammlung von Webdaten zu trainieren, die von Natur aus zufällig sind, legt das Team bei den Trainingsdaten für die Phi-Modelle den Fokus auf die Qualität der Inhalte. Das Team hat auch vorhandenes Wissen aus früheren Phi-Modellen genutzt, um Phi 2 einen schnellen Start zu ermöglichen und so das Training zu beschleunigen. Phi-Modelle erhalten kein durch menschliches Feedback gesteuertes verstärkendes Lernen, da die Kuratierung der Trainingsdaten dieses verstärkende Lernen unnötig macht. Dadurch ist es auch weniger wahrscheinlich, dass das Modell toxische oder voreingenommene Ergebnisse liefert.
Ein wesentlicher Vorteil besteht darin, dass SLMs aufgrund ihrer Größe und ihres Ressourcenbedarfs wirtschaftlich attraktiv für Aufgaben sind, deren Ausführung mit LLMs zu kostspielig wäre. Der Einsatz von SLMs wie Phi in gängigen Arbeitsabläufen, etwa zur schnellen Bereitstellung lesbarer und verständlicher Zusammenfassungen wichtiger Daten, könnte sich als sehr nützlich erweisen. Eine Gruppe von SLMs wie Phi, von denen jedes einen intelligenten Agenten antreibt und eine Schnittstelle zwischen uns und einem riesigen Pool von unstrukturierten Daten bereitstellt, könnte eine Möglichkeit bieten, die kontextbasierte, adaptive Computerumgebung bereitzustellen, die sich die ersten Forscher des Ubiquitous Computing vorgestellt hatten.
Chinesische Wissenschaftler kombinieren erstmals militärische KI mit kommerziellen großen Sprachmodellen, um mehr über Menschen zu erfahren
Chinesische Wissenschaftler bringen einer experimentellen militärischen künstlichen Intelligenz mit Hilfe von Technologien, die ChatGPT ähneln, bei, wie sie sich besser auf die Unvorhersehbarkeit menschlicher Feinden einstellen kann. Ein Forschungslabor der Strategic Support Force der Volksbefreiungsarmee, die für Weltraum-, Cyber- und elektronische Kriegsführung sowie für Aufklärung zuständig ist, hat sein KI-System auf Baidus Ernie und iFlyTeks Spark getestet, bei denen es sich um große Sprachmodelle handelt, die mit ChatGPT vergleichbar sind. Die militärische KI kann große Mengen an Sensordaten und Informationen, die von Fronteinheiten gemeldet werden, in beschreibende Sprache oder Bilder umwandeln und diese an die kommerziellen Modelle weiterleiten. Nachdem diese verstanden wurden, generiert die militärische KI automatisch Aufforderungen für einen vertieften Austausch zu verschiedenen Aufgaben wie Kampfsimulationen. Dies ist das erste Mal, dass das chinesische Militär öffentlich die Verwendung kommerzieller großer Sprachmodelle bestätigt. Aus Sicherheitsgründen sind militärische Informationseinrichtungen in der Regel nicht direkt an zivile Netzwerke angeschlossen. Das Team gibt in dem Artikel keine Einblicke in die eine mögliche Verbindung der beiden Systemen, betont jedoch, dass es sich bei dieser Arbeit um Vorarbeiten und Forschung handelt. Die meisten existierenden militärischen KI basieren auf traditionellen Kriegsspielsystemen. Obwohl sich die Fähigkeiten dieser Systeme stark weiterentwickelt haben, fühlen es sich für Benutzer oft immer noch so an, als würden sie gegen einen Computer und nicht gegen menschliche Gegner spielen. Kommerzielle große Sprachmodelle können der militärischen KI dabei helfen, ein tieferes Verständnis von Menschen zu erlangen.
Das Team wies darauf hin, dass es immer noch einige Probleme bei der Kommunikation zwischen dem militärischen und dem kommerziellen Modell gebe, da letztere nicht speziell für die Kriegsführung entwickelt worden seien. Das Team experimentierte mit multimodalen Kommunikationsmethoden. Die militärische KI erstellt eine detaillierte Militärkarte, die dann zur tieferen Analyse an iFlyTeks Spark übergeben wird. Die Forscher haben herausgefunden, dass dieser illustrative Ansatz die Leistung der großen Sprachmodelle erheblich verbessert und es ihnen ermöglicht, Analyseberichte und Vorhersagen zu erstellen, die den Anforderungen für eine praktische Anwendung entsprechen. Das Team räumt in dem Artikel ein, dass die vorgestellten Erkenntnissen nur die Spitze des Eisbergs dieses ehrgeizigen Projekts darstellen.
China ist dabei nicht das einzige Land, das Forschungen in diesem Bereich durchführt. Zahlreiche hochrangigen Offiziere aus verschiedenen Bereichen des US-Militärs haben öffentlich ihr Interesse an ChatGPT und ähnlichen Technologien bekundet und entsprechende militärische Forschungseinrichtungen und Verteidigungsunternehmen damit beauftragt, die möglichen Anwendungen generativer KI bei US-Militäroperationen zu untersuchen, z. B. in der nachrichtendienstlichen Analyse, der psychologischen Kriegsführung, der Drohnenkontrolle und der Entschlüsselung verschlüsselter Kommunikation. Ein in Peking ansässiger Informatiker warnte jedoch davor, dass der militärische Einsatz von KI zwar unvermeidlich sei, dabei aber äußerste Vorsicht geboten sei.
Wie gut schneidet Google Gemini in der maschinellen Übersetzung ab?
https://slator.com/is-google-gemini-good-at-machine-translation/
Syeda Nahida Akter, Zichun Yu, Aashiq Muhamed, Tianyue Ou, Alex Bäuerle, Ángel Alexander Cabrera, Krish Dholakia, Chenyan Xiong und Graham Neubig von der Carnegie Mellon University und BerriAI haben die Übersetzungsfähigkeiten von Google Gemini untersucht und es als „wertvolles Tool“ bewertet. Die Forscher erklärten, dass die kürzlich eingeführten Google Gemini-Modelle die ersten sind, die umfassende Ergebnisse liefern, welche mit der GPT-Reihe von OpenAI bei verschiedenen Aufgaben konkurrieren. Es gibt jedoch einen erheblichen Nachteil: Das Fehlen veröffentlichter Bewertungsdetails und Modellvorhersagen. Um dieses Problem anzugehen, haben die Forscher einen „objektiven Vergleich durch Dritte“ zwischen den GPT-Modellen von OpenAI und den Gemini-Modellen von Google durchgeführt, um „reproduzierbaren Code und vollständig transparente Ergebnisse“ zu erzielen. Neben der Übersetzung umfasst die Bewertung weitere Aufgaben wie Argumentation, eine wissensbasierte Beantwortung von Fragen, die Lösung mathematischer Probleme, Generierung von Code sowie das Befolgen von Anweisungen. Die Forscher verglichen Gemini Pro, GPT-3.5 Turbo und GPT-4 Turbo mit etablierten Systemen wie Google Translate und verglichen sie mit NLLB-MoE, einem Open-Source-Modell für maschinelle Übersetzung, das für seine umfassende Sprachabdeckung bekannt ist.
Diese Modelle wurden in 20 Sprachen mit unterschiedlicher Ressourcenverfügbarkeit und Übersetzungsschwierigkeit bewertet, wobei insbesondere darauf geachtet wurde, wie gut die Modelle bei Übersetzungen aus dem Englischen in andere Sprachen funktionierten. Zur Auswertung der Ergebnisse werden Standardmetriken wie BLEU und chrF2++ verwendet. Während Google Translate andere Modelle in zehn Sprachen übertraf, zeigten die Sprachmodelle eine konkurrenzfähige Leistung, blieben jedoch bei der Übersetzung in nicht-englische Sprachen zurück. GPT-4 Turbo zeigte im Vergleich zu GPT-3.5 Turbo und Gemini Pro Abweichungen in der Leistung. Insbesondere zeigte GPT-4 Turbo deutliche Überlegenheit für Sprachen mit geringen Ressourcen, während die Leistung der großen Sprachmodelle für Sprachen mit hohen Ressourcen ähnlich war. Gemini Pro übertraf sowohl GPT-3.5 Turbo als auch GPT-4 Turbo in fünf von 20 Sprachen und erzielte in drei Sprachen Spitzenleistungen. Allerdings zeigte sich bei etwa 10 Sprachpaaren eine Tendenz, Antworten in Szenarien mit geringerem Vertrauen zu blockieren. Gemini Pro übertraf GPT-3.5 Turbo und GPT-4 Turbo geringfügig bei nicht blockierten Stichproben, wo es ein höheres Vertrauen zeigte. Konkret übertraf es GPT-4 Turbo um 1,6 chrF in 5-Shot- und 2,6 chrF in 0-Shot-Einstellungen und übertraf GPT-3.5 Turbo um 2,7 chrF bzw. 2 chrF in 5-Shot- bzw. 0-Shot-Einstellungen. Den Code und die Daten finden Sie unter folgendem Link: https://github.com/neulab/gemini-benchmark