Jetzt in 103 Sprachen übersetzen — Mit KI-Stimme in 74

Mai 2026

Live Translate Live hat gerade ein umfassendes Engine-Update erhalten. Wir haben unseren Spracherkennungs-Stack von Deepgram auf ElevenLabs Scribe v2 Realtime umgestellt, unsere Übersetzungsschicht von Google Cloud Translation auf Google Gemini 2.5, und haben Live-KI-Sprachausgabe im Audio-Modus hinzugefügt, angetrieben von ElevenLabs v3. Die wichtigste Zahl: Wir sind live in 103 Sprachen für Echtzeit-Sprache, mit KI-Stimme in 74 davon, und Übersetzung in jede Richtung zwischen je zwei Sprachen.

Wer den alten Beitrag zu unterstützten Sprachen gelesen hat, als wir mit 47 gestartet sind – die Zahl hat sich seitdem ungefähr verdoppelt. Dieser Beitrag wurde aktualisiert, um die neue Realität widerzuspiegeln; dieser Beitrag hier ist die Ankündigung, was sich geändert hat und warum das wichtig ist, wenn man das Telefon für ein echtes Gespräch zur Hand nimmt.

Was jetzt möglich ist, was vorher nicht möglich war

Die sichtbarste Änderung für Nutzer ist in der Sprachauswahl. Scrollen Sie nach unten und Sie sehen doppelt so viele Einträge. Die hinzugekommenen Sprachen sind nicht obskur — es sind Sprachen, nach denen viele von Ihnen gefragt haben: Persisch, Bengalisch, Tamil, Telugu, Marathi, Hindi in höherer Qualität, Kantonesisch als eigenständiger Eintrag neben Mandarin, Birmanisch, Khmer, Laotisch, Mongolisch, Hausa, Swahili, Yoruba, Zulu, Walisisch, Irisch, Hebräisch und viele mehr.

Die zweite Änderung ist schwerer zu erkennen, aber Sie werden sie im Gespräch spüren: Die Übersetzungsqualität ist spürbar besser, besonders bei längeren oder nuancierteren Gesprächsbeiträgen. Gemini 2.5 trägt Gesprächskontext über mehrere Beiträge hinweg, anstatt jeden Satz isoliert zu übersetzen. Pronomen erhalten den richtigen Bezug. Genuskongruenz bleibt über eine Sequenz hinweg erhalten. Redewendungen werden in das nächste Äquivalent der Zielsprache übertragen, anstatt wörtlich übersetzt zu werden. Das Marquee fühlt sich mehr wie ein Übersetzer an und weniger wie ein Wörterbuch.

Die dritte Änderung ist brandneu: Audio-Modus spielt die Übersetzung jetzt laut in einer natürlichen KI-Stimme ab. Sie sprechen, tippen auf Übersetzen, und Ihr Telefon spricht den übersetzten Satz in der Sprache des Zuhörers. Dies ist der Modus für Taxis, Marktständen, Krankenhauswartezimmer — Orte, an denen das Lesen einer scrollenden Anzeige unpraktisch ist und man das Telefon natürlich hin und her reichen würde.

Wie genau ist die Spracherkennung?

ElevenLabs veröffentlicht ein vierstufiges Genauigkeitsraster für Scribe v2 basierend auf Wortfehlerrate-Benchmarks (WER). Wir zeigen diese Stufen als farbige Punkte neben jeder Sprache in der In-App-Auswahl an, und wir haben die Gruppierung hier reproduziert, damit Sie Ihre Sprache auf einen Blick finden können. Eine niedrigere WER bedeutet, dass mehr Wörter korrekt erkannt werden.

Stufe	WER	Sprachen
Ausgezeichnet	≤ 5%	Belarussisch, Bosnisch, Bulgarisch, Katalanisch, Kroatisch, Tschechisch, Dänisch, Niederländisch, Englisch, Estnisch, Finnisch, Französisch, Galizisch, Deutsch, Griechisch, Ungarisch, Isländisch, Indonesisch, Italienisch, Japanisch, Kannada, Lettisch, Mazedonisch, Malaiisch, Malayalam, Norwegisch, Polnisch, Portugiesisch, Rumänisch, Russisch, Slowakisch, Spanisch, Schwedisch, Türkisch, Ukrainisch, Vietnamesisch (36)
Hoch	5–10%	Armenisch, Aserbaidschanisch, Bengalisch, Kantonesisch, Filipino, Georgisch, Gujarati, Hindi, Kasachisch, Litauisch, Maltesisch, Mandarin-Chinesisch, Marathi, Nepalesisch, Odia, Persisch, Serbisch, Slowenisch, Swahili, Tamil, Telugu (21)
Gut	10–15%	Afrikaans, Arabisch, Assamesisch, Asturisch, Birmanisch, Hausa, Hebräisch, Javanisch, Koreanisch, Kirgisisch, Luxemburgisch, Māori, Okzitanisch, Punjabi, Tadschikisch, Thailändisch, Usbekisch, Walisisch (18)
In Entwicklung	15%+	Amharisch, Ganda, Igbo, Irisch, Khmer, Kurdisch, Laotisch, Mongolisch, Nord-Sotho, Paschtu, Shona, Sindhi, Somali, Urdu, Wolof, Xhosa, Yoruba, Zulu (18)

WER-Bereiche stammen aus ElevenLabs’ veröffentlichten Scribe v2-Benchmarks. In der Praxis sind Mikrofonposition und Umgebungsgeräusche wichtiger als der Unterschied zwischen den beiden obersten Stufen; in einem ruhigen Raum mit einem guten Mikrofon sind eine “Ausgezeichnet”- und eine “Hoch”-Sprache im Gespräch kaum zu unterscheiden.

Eine hilfreiche Art, die Tabelle zu lesen: Wenn Ihr Sprachpaar in den oberen zwei Stufen liegt, verschwindet die Erkennungsschicht praktisch — die Wörter, die Sie sagen, erscheinen auf dem Bildschirm, während Sie sie sagen. Wenn eine Seite des Paares in der Gut-Stufe liegt, werden Sie gelegentlich Verwechslungen bei ungewöhnlichen Wörtern sehen, besonders bei Eigennamen. Wenn eine Seite in der Stufe „In Entwicklung" liegt, funktioniert die Sprache, aber Transkripte sind rauer; in diesen Fällen kann der Audio-Modus angenehmer sein, weil Sie das Transkript überprüfen können, bevor Sie auf Übersetzen tippen.

Live-KI-Sprachausgabe in 74 Sprachen

Der Audio-Modus ist die größere Produktänderung. Das Marquee war immer das richtige Werkzeug für zwei Personen, die sich einen Bildschirm an einem Tisch teilen. Der Audio-Modus ist für den Rest der Zeit — ein Telefon, eine Hand, zwei Personen, die einander hören müssen, anstatt zu lesen.

Wenn Sie auf Jetzt übersetzen tippen, generiert ElevenLabs v3 (oder sein schnelleres Geschwister Flash v2.5, je nach Sprache) die gesprochene Übersetzung und das Telefon gibt sie wieder. Es klingt wie eine Person, nicht wie ein Roboter. Sie können auf Wiederholen tippen, so oft Sie möchten, ohne weitere Credits zu verbrauchen. Wenn Ihr Zuhörer es nicht verstanden hat, tippen Sie einfach auf Wiederholen.

Von den 103 Sprachen, die wir erkennen, haben heute 74 KI-Sprachunterstützung. Sprachen außerhalb dieser Gruppe funktionieren weiterhin im Audio-Modus — Sie sehen den übersetzten Text auf dem Bildschirm — nur ohne die gesprochene Wiedergabe. Die Sprachliste wächst, wenn ElevenLabs Coverage-Updates liefert; die App prüft beim Start erneut und nimmt neue Sprachen automatisch auf.

Wenn Sie den Audio-Modus noch nicht ausprobiert haben, finden Sie die ausführliche Beschreibung in unserem Audio-Modus-Beitrag und die kanonische Referenz unter /languages.

Übersetzung umfasst alle 103 Sprachen in jede Richtung

Gemini 2.5 übernimmt die Übersetzungsschicht, und es ist jede-zu-jeder. Sie können Japanisch sprechen und es direkt auf Portugiesisch ausgeben lassen, ohne Englisch als Zwischensprache. Hindi nach Arabisch. Koreanisch nach Swahili. Vietnamesisch nach Polnisch. Mit 103 Sprachen sind das 10.506 einzigartige Paare, jedes davon gleichzeitig im bidirektionalen Gesprächsmodus unterstützt.

Das Besondere an Gemini 2.5 ist der Gesprächskontext. Ältere Übersetzungs-Engines behandeln jeden Satz als unabhängige Zeichenkette. Deshalb werden Pronomen manchmal falsch übersetzt, oder Formalitätsstufen wechseln mitten im Gespräch, oder Redewendungen kommen als wörtlicher Unsinn heraus. Gemini 2.5 sieht die vorherigen paar Gesprächsbeiträge und übersetzt den nächsten mit diesem Kontext. Das Ergebnis fühlt sich weniger wie eine satzweise Nachschlagetabelle an und mehr wie ein Übersetzer, der das ganze Gespräch über wirklich im Raum dabei war.

Was das für die besten Sprachpaare bedeutet

Alle 10.506 Paare funktionieren. Manche fühlen sich flüssiger an als andere. Drei Faktoren bestimmen die Erfahrung mit einem bestimmten Paar in der Praxis:

Beide Seiten in der obersten Stufe. Wenn beide Sprachen Ausgezeichnet oder Hoch sind, fließt das Gespräch. Beispiele: Englisch ↔ Spanisch, Englisch ↔ Französisch, Englisch ↔ Japanisch, Spanisch ↔ Portugiesisch, Deutsch ↔ Niederländisch.
Eine Seite in Gut oder In Entwicklung. Funktioniert trotzdem, aber Transkripte sind auf der niedrigeren Stufe rauer — rechnen Sie mit gelegentlichen Verwechslungen bei ungewöhnlichen Wörtern und Eigennamen. Der Audio-Modus kann dies abmildern, weil Sie das Transkript sehen, bevor Sie die Übersetzung bestätigen.
Unterschiedliche Schriften. Lateinisch ↔ nicht-lateinische Paare (Englisch ↔ Japanisch, Arabisch ↔ Französisch, Hindi ↔ Koreanisch) funktionieren alle; das Marquee muss mitten im Satz einen kleinen Schriftwechsel vornehmen, was 2026 praktisch nicht wahrnehmbar ist, aber der einzige Punkt ist, an dem das Rendering sich wie Arbeit anfühlen kann.

Warum wir die Engines gewechselt haben

Die Kurzversion: Die Sprachabdeckung und Qualität, die wir früher von Deepgram + Google Cloud Translation bekamen, war beim Start ausgezeichnet, hörte aber auf zu skalieren, sobald wir mehr von der Welt abdecken wollten. Scribe v2 liefert breitere Streaming-Abdeckung bei geringerer Latenz, Gemini 2.5 trägt Kontext über Gesprächsbeiträge hinweg, und ElevenLabs v3 hat die Sprachausgabe freigeschaltet, die wir für den Audio-Modus benötigten. Die Langversion steht in einem separaten Beitrag mit Latenzen, Benchmarks und den architektonischen Entscheidungen hinter dem Wechsel.

Jetzt ausprobieren

Wählen Sie Ihre zwei Sprachen und starten Sie ein Echtzeit-zweisprachiges Gespräch. Keine App zum Herunterladen. Übersetzungsguthaben beginnen bei 1 $ für 15 Minuten im Marquee; im Audio-Modus ist die Transkription kostenlos, bis Sie auf Übersetzen tippen.

Im Marquee starten · Audio-Modus ausprobieren · Vollständige Sprachreferenz · Preise ansehen

Live Translate Live ausprobieren

Beginnen Sie noch heute mit der Echtzeit-Übersetzung zweisprachiger Gespräche.

Kostenlos loslegen