Aktuelle Neuigkeiten aus dem Bereich der Sprachdienstleistungen
Lassen Sie uns mal wieder über aktuelle Neuigkeiten aus dem Bereich der Sprachdienstleistungen sprechen. Ich habe für Sie hier die meiner Meinung nach wichtigsten Entwicklungen zusammengefasst:
Der KI-basierte Sprachübersetzer DeepL sammelt über 100 Millionen US-Dollar, bei einer Bewertung von über 1 Milliarde US-Dollar
https://techcrunch.com/2023/01/11/deepl-the-ai-based-language-translator-raises-over-100m-at-a-1b-valuationKI-Startups und insbesondere solche, die persönliche Kommunikation unterstützen, stoßen bei Investoren auf großes Interesse. Heute kündigt der neueste Akteur in diesem Bereich eine große Finanzierungsrunde an. DeepL, ein Startup, das sowohl Unternehmen als auch Privatpersonen Sofortübersetzungen als Dienstleistung anbietet – und damit mit Google, Bing und anderen Online-Tools konkurriert – hat eine Finanzierungsrunde mit einem Wert von 1 Milliarde Euro (etwas mehr als 1 Milliarde US-Dollar zum heutigen Wechselkurs) bestätigt. DeepL gibt den gesammelten Gesamtbetrag nicht bekannt – auf diesen Aspekt möchte man sich nicht konzentrieren, sagte CEO und Gründer Jaroslaw Kutylowski in einem Interview – es wurden jedoch einige Zahlen genannt.
Das Startup bestätigt oder veröffentlicht auch keine anderen Finanzdaten. Eine Investorenquelle behauptet jedoch, dass die Bewertung von 1 Milliarde US-Dollar auf einem 20-fachen des Jahresumsatzes von DeepL basiert: 50 Millionen US-Dollar zum Ende des letzten Jahres. Im aktuellen Fundraising-Klima ist dies ein ziemlich optimistischer Wert. Er spricht aber auch über das Wachstum des Unternehmens, das laut Investor derzeit bei 100 % liegt, und für die Tatsache, dass DeepL die Gewinnschwelle erreicht und kurz davor steht, profitabel zu sein. Trotz des hohen Drucks auf Deep Learning-Anwendungen – Investoren wollen Renditen und kommerzielle Endpunkte – bleiben letztere, die Moonshots, eine Priorität für das Unternehmen. DeepL konnte dies durch den Ausbau seiner wichtigsten Übersetzungsservices realisieren. Viele Startups hatten Schwierigkeiten, am Ball zu bleiben, und diejenigen, die dies geschafft haben, sagen, dass dadurch ein großer Druck auf die Bewertungen entstanden sei. Kutylowski sagte aber auch, dass die steigende Beliebtheit von KI-basierten Sprachservices DeepL hierbei geholfen habe. Das Unternehmen konkurriert seit langem mit Giganten wie Google und Microsoft an der Übersetzungsfront, wobei der kleinere Senkrechtstarter im Vergleich zu diesen Schwergewichten oft positiv bewertet wird. Bemerkenswert ist, dass es sich bei beiden nicht um Investoren handelt. Kutylowski lehnte es strikt ab, sich dazu zu äußern, ob einer von ihnen oder ein anderes großes Technologieunternehmen wie Amazon sich jemals mit Angeboten zu Investitionen, Partnerschaften oder Übernahmen an das Startup gewandt hat.
Spotify testet eine KI-gestützte Podcast-Sprachübersetzung, die die Stimme des Podcasters nachahmt
Spotify testet eine Möglichkeit für Podcaster, Hörer in verschiedenen Sprachen zu erreichen, indem mithilfe einer KI-Technologie die Stimme des Podcasters nachgeahmt wird. Im Rahmen des Pilotprojekts arbeitete Spotify mit einer „ausgewählten Gruppe“ von Podcastern zusammen – Dax Shepard und Monica Padman („Armchair Expert“), Lex Fridman, Steven Bartlett („The Diary of a CEO“) und Bill Simmons von Spotifys „The Ringer“ – um KI-gestützte Sprachübersetzungen mehrerer Episoden in anderen Sprachen zu erstellen, darunter Spanisch, Französisch und Deutsch. Weitere Sendungen, die voraussichtlich in den Sprachübersetzungstest von Spotify einbezogen werden, sind „eff won with DRS“ von Dax Shepard, „The Rewatchables“ von „The Ringer“ und Trevor Noahs neuer Original-Podcast, der noch in diesem Jahr erscheinen soll. Das intern entwickelte Spotify-Tool nutzt die kürzlich veröffentlichte Sprachgenerierungstechnologie von OpenAI, um den Stil des Originalsprechers nachzuahmen. Dies führt laut Spotify zu einem „authentischeren Hörerlebnis“, das „persönlicher und natürlicher als herkömmliche Synchronisation“ klingt. Die sprachübersetzten Episoden der Entwickler des Spotify-Pilotprojekts werden auf der Plattform weltweit verfügbar sein.
Mittlerweile gibt es Optionen für Übersetzungen in nahezu Echtzeit
https://techwireasia.com/2023/09/is-realtime-translation-ready-for-mainstream-use/Die Möglichkeit einer Echtzeitübersetzung ist seit langem ein transnationaler Tagtraum. Wir alle kennen das Gefühl: Wir sitzen irgendwo im Ausland in einem netten Restaurant, um zu bestellen – vielleicht am letzten Abend eines Urlaubs oder am Abend nach einem wichtigen Geschäftstreffen – und erleben, wie der Kellner versucht, zu verstehen, was wir bestellen möchten. Die Zeiten der Sprachführer scheinen lange vorbei zu sein. Okay, Sie haben vielleicht im Internet nachgeschlagen, um den Namen des gewünschten Gerichts zu finden, oder sich sogar eine roboterhaft klingende Aussprachehilfe angehört – aber wenn Sie in Echtzeit darauf angewiesen sind, reicht das einfach nicht aus. Wenn es doch nur so einfach wäre, wie Untertitel einzuschalten.
Das neue Cotopat-Übersetzungstool besteht aus einem transparenten Bildschirm, der Sprache in Echtzeit in Text umwandelt und eine bidirektionale Übersetzung zwischen zwei Sprechern anzeigt. Es erkennt gesprochene Wörter in Echtzeit und zeigt den übersetzten Text und die dazugehörigen visuellen Elemente an: also Live-Untertitel. Momentan kann zwischen Japanisch und fünf anderen Sprachen übersetzt werden: Vereinfachtes Chinesisch, traditionelles Chinesisch, Englisch, Portugiesisch, Koreanisch und Vietnamesisch. Cotopat ist darauf ausgelegt, die Stimme jedes Sprechers und Synonyme, Homophone und Wortgrenzen zu identifizieren – Dinge, bei denen Google Translate Schwierigkeiten hat. Wie fast alle neuen Technologien verwendet es eine vorab trainierte KI, um gesprochene Wörter zu übersetzen. Aber auch wenn Cotopat für Aufsehen sorgt, ist es nicht der einzige Live-Übersetzungsservice auf dem Markt. App-Stores listen mehrere Angebote zu diesem Thema auf, jedes mit unterschiedlichen Anwendungsfällen und Spezialisierungen. Zu den verfügbaren Angeboten gehören:
- Languageio – „Eine automatische Übersetzungssoftware für textbasierte Live-Konversationskanäle.“
- Boostlingo – Ermöglicht Benutzern die Übersetzung „jederzeit, überall und in jede Sprache“.
- Kudo – Bietet Live-Webinar-Übersetzungen mit über „200 gesprochenen Sprachen und Gebärdensprachen“ an.
- Stenomatic – Stenomatic ist in über 70 Sprachen verfügbar und bietet „Live-Übersetzungs- und Dolmetschertechnologie“ an.
- ModernMT – „Lernt in Echtzeit aus den Korrekturen der Linguisten“ und „verbessert sich durch Korrekturen und passt sich dem Kontext des Dokuments an. Also wie ein menschlicher Übersetzer.“
Meta veröffentlicht das Multilingual Translation Foundation Model SeamlessM4T als Open-Source-Lösung
https://www.infoq.com/news/2023/09/meta-seamless-translation/
Meta hat kürzlich seine Massively Multilingual and Multimodal Machine Translation (SeamlessM4T) als Open-Source-Lösung veröffentlicht, eine mehrsprachige Übersetzungs-KI, die sowohl Sprach-Audio- als auch Textdaten in fast 100 Sprachen übersetzen kann. SeamlessM4T ist auf 1 Million Stunden Audiodaten trainiert und übertrifft das aktuelle, hochmoderne Sprach-Text-Übersetzungsmodell. SeamlessM4T ist ein multimodales Modell, das sowohl Text- als auch Audiodaten als Eingabe und Ausgabe verarbeiten kann und so die Durchführung automatischer Spracherkennung, Text-zu-Text-Übersetzung, Sprache-zu-Text-Übersetzung, Text-zu-Sprache-Übersetzung (T2ST) und Sprache-zu-Sprache-Übersetzung ermöglicht. Das Modell wurde unter der nichtkommerziellen CC BY-NC 4.0-Lizenz veröffentlicht. Meta veröffentlicht außerdem seinen Schulungsdatensatz SeamlessAlign, der 270.000 Stunden Audiodaten mit entsprechenden Texttranskriptionen sowie den Code zum Auslesen der Daten aus dem Internet enthält. SeamlessM4T basiert auf der neuronalen Netzwerkarchitektur UnitY, die aus einer Pipeline von drei Komponenten besteht. Die erste ist ein Encoder, der sowohl Sprach-, Audio- als auch Textdateneingaben verarbeiten und die Bedeutung der Eingabe erkennen kann. Die Audio-Unterkomponente basiert auf w2v-BERT und die Textkomponente basiert auf NLLB. Als nächstes kommt ein Decoder, ebenfalls auf NLLB-Basis, der diese Bedeutung in eine Textausgabe in der Zielsprache umwandelt. Schließlich gibt es einen Text-zu-Akustik-Decoder, der den Zieltext in Sprache umwandelt. Der SeamlessM4T-Code und die Modelle sind auf GitHub verfügbar. Darüber ist von Huggingface auch eine interaktive Übersetzungsdemo verfügbar.
Der Markt für große Sprachmodelle wird bis zum Jahr 2029 um 40,8 Milliarden US-Dollar wachsen, mit einer jährlichen Wachstumsrate von 21,4 %
Der Bedarf an Technologien zur Verarbeitung natürlicher Sprachen für eine Vielzahl von Anwendungen, darunter Chatbots, virtuelle Assistenten, Inhaltsproduktion, Übersetzungsdienste und mehr, ist der wichtigste Treiber für die Erweiterung des Marktes für Sprachmodelle. Große Sprachmodelle, die menschenähnlichen Text verstehen und generieren können, stehen bei diesem Trend an vorderster Stelle. Sie werden von Unternehmen und Organisationen genutzt, um Kundeninteraktionen zu verbessern, Prozesse zu automatisieren, umfangreiche Textdatenanalysen durchzuführen und Innovationen im Spektrum an Branchen voranzutreiben. Die Beliebtheit großer Sprachmodelle wird mit zunehmender Leistungsfähigkeit der Modelle immer weiter zunehmen und so die Entwicklung des Marktes vorantreiben. Der wachsende Bedarf an NLP-Anwendungen ist der Haupttreiber des großen Marktes für Sprachmodelle. Diese Programme führen eine Vielzahl von Funktionen aus, darunter Textzusammenfassung, Stimmungsanalyse, Inhaltserstellung, Sprachübersetzung, Chatbots und virtuelle Assistenten. Große Sprachmodelle sind im Zeitalter der Konversations-KI und der datengesteuerten Entscheidungsfindung von entscheidender Bedeutung. Sie ermöglichen diese Anwendungen, indem sie die zugrunde liegende Fähigkeit bereitstellen, menschenähnlichen Text zu interpretieren, zu analysieren und zu synthetisieren.
Große Sprachmodelle spielen eine entscheidende Rolle bei der Erstellung von Inhalten. Diese Modelle werden zunehmend von Unternehmen genutzt, um die Erstellung von Marketingmaterialien, Journalismus und Werbeinhalten zu automatisieren. Durch diese Automatisierung sind große Sprachmodelle für inhaltsorientierte Unternehmen wichtig geworden, was nicht nur Zeit und Geld spart, sondern auch eine konsistente und qualitativ hochwertige Ausgabe garantiert. Aufgrund der Fülle an digitalen Daten, einschließlich textbasierter Daten aus sozialen Medien, Websites und Dokumenten, sind jetzt leistungsstarke Sprachmodelle erforderlich, die ihre Eingabedaten verarbeiten und verstehen können. Große Sprachmodelle können jetzt einfacher und erfolgreicher trainiert werden, was zu genaueren und kontextbezogenen Antworten führt.
Dazu gehören: Meta, AI21 Labs, Tencent, Yandex, DeepMind, Naver, Open AI, Google, Microsoft, Amazon, Baidu, Deepmind, Anthropic, Alibaba, Huawei.