Warum wir Deepgram + Google Translate gegen ElevenLabs Scribe v2 + Gemini 2.5 ausgetauscht haben

Mai 2026

Dieser Beitrag ist der Blick hinter die Kulissen als Begleitung zur Ankündigung des Launches in 103 Sprachen. Wenn jener Beitrag sagte „hier ist, was sich geändert hat", dann sagt dieser: „hier ist, warum wir die Anbieter gewählt haben, die wir gewählt haben." Das Hauptergebnis: ungefähr doppelte Sprachabdeckung, spracherkennung mit geringerer Latenz, kontextbewusste Übersetzung im Gesprächsverlauf und Live-KI-Sprachausgabe in 74 Sprachen.

Warum wir die Anbieter gewechselt haben

Der alte Stack bestand aus Deepgram für die Spracherkennung und Google Cloud Translation für die Übersetzungsschicht. Er war beim Launch solide. Die Grenze war die Sprachabdeckung. Deepgrams Streaming-Modell unterstützte rund 40–50 Sprachen in Produktionsqualität, und die Liste wuchs nicht schnell genug, um mit Nutzern Schritt zu halten, die nach Bengali, Tamil, Telugu, Marathi, Kantonesisch als eigenem Eintrag neben Mandarin, Birmanisch, Khmer, Walisisch, Hebräisch und mehr fragten.

Der zweite Druck kam von der Ausgabeseite. Wir wollten den Audio mode einführen — rundenbasierte Übersetzung, bei der das Ergebnis in der Sprache des Zuhörers laut vorgelesen wird. Das bedeutete, eine TTS-Schicht hinzuzufügen, die der alte Stack nicht hatte. Wenn man bereits einen Anbieter für einen Teil der Pipeline einbindet, lohnt es sich zu fragen, ob man nicht gleich konsolidieren sollte.

Warum Scribe v2 für die Spracherkennung

ElevenLabs veröffentlichte Scribe v2 Realtime im Januar 2026. Die Hauptaussagen von ElevenLabs: ~150 ms Streaming-Latenz, 5,8 % mehrsprachige Wortfehlerrate auf dem FLEURS-Benchmark und 93,5 % Genauigkeit über die 30 Benchmark-Sprachen, die gegen branchenübliche ASR-Modelle evaluiert wurden. Die unterstützte Sprachliste umfasst rund 100 Sprachen, mit einem veröffentlichten vierstufigen Genauigkeitsraster, das Excellent (≤5 % WER), High (5–10 %), Good (10–15 %) und Developing (15 %+) umfasst.

Wir haben einen eigenen Vergleichstest gegen Deepgram für die Sprachen durchgeführt, die wir bereits betrieben haben. Die Latenzangabe hat sich bestätigt — transkribierte Wörter erscheinen fast Schlag für Schlag unter der Stimme des Sprechers, schnell genug, dass der wahrgenommene Engpass auf den Übersetzungsschritt verlagert wird. Die direkte Transkriptionsqualität war bei den bereits unterstützten Sprachen gleichwertig oder besser, mit den größten Verbesserungen bei Sprachen, die zuvor schwach waren: Hindi wechselte von „funktioniert, aber holprig" zu „funktioniert sauber", Bengali und Tamil wechselten von „nicht in Produktion" zu „in Produktion auf High-Tier."

Was uns außerdem gefiel: Scribe wird mit nativer Sprachidentifikation pro Segment geliefert, was unsere Zwei-Sprecher-Verarbeitung erheblich vereinfachte und bedeutete, dass wir die Sprachliste erweitern konnten, ohne für jede Ergänzung zusätzlichen Integrationsaufwand zu erzeugen.

Warum Gemini 2.5 für die Übersetzung

Zustandslose satzweise maschinelle Übersetzung hat bekannte Fehlermuster. Pronomen werden ohne ihre Bezugswörter übersetzt, Genussprachen driften im Gesprächsverlauf, Formalitätsniveaus kippen, und Redewendungen kommen als wörtlicher Unsinn heraus. All das hat eine gemeinsame Ursache: Der Übersetzer sieht nur den aktuellen Satz.

Gemini 2.5 trägt den Gesprächskontext über Gesprächsrunden hinweg. Das Modell sieht die jüngste Geschichte des Gesprächs, wenn es die nächste Äußerung übersetzt, was die meisten dieser Driftprobleme behebt, ohne dass wir etwas Besonderes obendrauf bauen müssen. In der Praxis fühlen sich die Übersetzungen weniger wie Wörterbuchnachschlagen an und mehr wie die Arbeit von jemandem, der das ganze Gespräch über im Raum dabei war. Der Kompromiss ist eine etwas höhere Latenz pro Aufruf als beim alten zustandslosen MT — im niedrigen dreistelligen Millisekundenbereich statt im zweistelligen — aber Ende-zu-Ende von „Sprecher hört auf zu reden" bis „Zuhörer sieht die Übersetzung" liegt bei den gemessenen Sprachen noch deutlich unter einer Sekunde.

Der andere Grund, warum wir Gemini dafür mögen: Die Sprachabdeckung auf der Übersetzungsseite ist keine Einschränkung mehr. Gemini 2.5 deckt jede Sprache ab, die Scribe erkennt, in jede Richtung, was die Behauptung von 10.506 beliebigen Sprachpaaren wahr statt nur angestrebt macht.

Warum ElevenLabs v3 für den Audio mode TTS

Der Audio mode führte eine neue Pipeline-Stufe ein: den übersetzten Text in gesprochenes Audio in der Sprache des Zuhörers umzuwandeln. Wir haben uns für ElevenLabs v3 entschieden wegen der Sprachabdeckung (~74 Sprachen heute) und der Sprachqualität. Die Stimmen klingen wie Menschen, nicht wie Diktiersoftware, und die mehrsprachige Unterstützung bedeutet, dass dieselbe Produktoberfläche über die gesamte obere Hälfte unserer unterstützten Sprachliste funktioniert. Für die Sprachen, bei denen ElevenLabs Flash v2.5 verfügbar ist, bevorzugen wir es: Es ist schneller und günstiger, mit einer Qualität, die im direkten Vergleich kaum zu unterscheiden ist.

Die Liste der Sprachen mit Live-Sprachausgabe wächst, wenn ElevenLabs Abdeckungsupdates veröffentlicht; die App übernimmt neue Sprachen automatisch, sobald sie verfügbar werden.

Was Nutzer bemerken

Mehr Sprachen in der Auswahl. 103 Einträge, ungefähr doppelt so viele wie zuvor, einschließlich der meisten am häufigsten gewünschten Ergänzungen.
Übersetzungen fühlen sich natürlicher an. Pronomen werden korrekt aufgelöst, Formalität bleibt über Gesprächsrunden hinweg erhalten, Redewendungen werden sinnvoll entschlüsselt. Das ist der Effekt des Gesprächskontexts.
Audio mode gibt die Übersetzung laut wieder. 74 Sprachen mit KI-Stimme heute; die übrigen funktionieren im Audio mode weiterhin mit reiner Textausgabe.
Tier-Punkte in der Sprachauswahl. Ein kleiner farbiger Punkt neben jeder Sprache signalisiert die erwartete Spracherkennungsgenauigkeit — grün Excellent, gelb High, orange Good, rot Developing — basierend auf ElevenLabs’ veröffentlichten WER-Benchmarks.
Zweiseitige Gespräche fühlen sich weiterhin zweiseitig an. Beide Seiten werden gleichzeitig übersetzt, kein Abwechseln, keine unangenehmen Pausen.

Zahlen

Sprachen (STT): 103, gegenüber 47
Sprachen (Live-TTS): 74
Sprachpaare (Übersetzung): 10.506 (gegenüber 2.162)
Scribe v2 Streaming-Latenz: ~150 ms (ElevenLabs veröffentlicht)
Mehrsprachige WER auf FLEURS: 5,8 % (ElevenLabs veröffentlicht)
Abrechnung: pro Zeichen, gleichmäßig auf Transkription, Übersetzung und TTS angewendet — ein Credit pro verarbeitetem Zeichen; im Audio mode ist die Transkription kostenlos, bis Sie auf Übersetzen tippen

Wenn Sie die nutzerorientierte Version möchten

Der Launch-Ankündigungsbeitrag behandelt dieselbe Änderung aus Nutzersicht — was in der Sprachauswahl neu ist, was von jedem Genauigkeitstier zu erwarten ist und wie sich der Audio mode in der Praxis anfühlt. Die vollständige kanonische Sprachreferenz finden Sie unter /languages. Und wenn Sie es ausprobieren möchten, ist das marquee hier und der Audio mode ist hier.

Live Translate Live ausprobieren

Beginnen Sie noch heute mit der Echtzeit-Übersetzung zweisprachiger Gespräche.

Kostenlos loslegen