Waarom we Deepgram + Google Translate hebben ingeruild voor ElevenLabs Scribe v2 + Gemini 2.5
Mei 2026
Dit bericht is de achter-de-schermen-aanvulling op de aankondiging van de lancering in 103 talen. Als dat bericht “hier is wat er veranderd is” was, dan is dit bericht “hier is waarom we de leveranciers hebben gekozen die we hebben gekozen.” Het belangrijkste resultaat: ruwweg dubbele taaldekking, spraakherkenning met lagere latentie, vertaling met conversatiecontext, en live AI-stemweergave in 74 talen.
Waarom we van leverancier zijn gewisseld
De oude stack bestond uit Deepgram voor spraakherkenning en Google Cloud Translation voor de vertaallaag. Die was solide bij de lancering. Het plafond was de taaldekking. Het streamingmodel van Deepgram verwerkte ongeveer 40–50 talen op productiekwaliteit en de lijst groeide niet snel genoeg om bij te houden wat gebruikers vroegen: Bengaals, Tamil, Telugu, Marathi, Kantonees als aparte vermelding naast Mandarijn, Birmees, Khmer, Welsh, Hebreeuws en meer.
De tweede druk lag aan de uitvoerkant. We wilden Audio mode lanceren — beurtgebaseerde vertaling waarbij het resultaat hardop wordt voorgelezen in de taal van de luisteraar. Dat betekende het toevoegen van een TTS-laag die de oude stack niet had. Zodra je een leverancier inschakelt voor één onderdeel van de pipeline, is het de moeite waard om te overwegen of je net zo goed kunt consolideren.
Waarom Scribe v2 voor spraakherkenning
ElevenLabs bracht Scribe v2 Realtime uit in januari 2026. De aangekondigde specificaties van ElevenLabs: ~150 ms streaminglatentie, 5,8% meertalige woordfoutrate op de FLEURS-benchmark, en 93,5% nauwkeurigheid over de 30 benchmarktalen die ze hebben geëvalueerd ten opzichte van industriestandaard ASR-modellen. De lijst met ondersteunde talen telt ongeveer 100, met een gepubliceerd nauwkeurigheidsraster in vier niveaus: Uitstekend (≤5% WER), Hoog (5–10%), Goed (10–15%) en In ontwikkeling (15%+).
We hebben onze eigen vergelijkende test gedaan met Deepgram op de talen die we al gebruikten. De latentieclaim klopte — getranscribeerde woorden verschijnen bijna woord voor woord onder de stem van de spreker, snel genoeg dat het waargenomen knelpunt verschuift naar de vertaalstap. De transcriptiekwaliteit was gelijkwaardig of beter voor de talen die we al ondersteunden, met de grootste verbeteringen voor talen die zwak waren: Hindi ging van “werkt maar ruw” naar “werkt vloeiend,” Bengaals en Tamil gingen van “niet in productie” naar “in productie op Hoog niveau.”
Wat we ook waardeerden: Scribe wordt geleverd met native taalidentificatie per segment, wat onze verwerking van twee sprekers aanzienlijk vereenvoudigde en betekende dat we de talenlijst konden uitbreiden zonder dat elke toevoeging extra integratiewerk met zich meebracht.
Waarom Gemini 2.5 voor vertaling
Staatloze machinale vertaling per zin heeft een bekende reeks faalpatronen. Voornaamwoorden worden vertaald zonder hun antecedenten, gegenderde talen drijven af tijdens een gesprek, formaliteitsniveaus wisselen, en idiomen komen eruit als letterlijke onzin. Al deze problemen hebben dezelfde oorzaak: de vertaler ziet alleen de huidige zin.
Gemini 2.5 behoudt de conversatiecontext over beurten heen. Het model ziet de recente geschiedenis van het gesprek wanneer het de volgende uiting vertaalt, wat de meeste van die afdriftproblemen oplost zonder dat we iets speciaals bovenop hoeven te bouwen. In de praktijk voelen de vertalingen minder aan als woordenboekopzoekingen en meer als het werk van iemand die het hele gesprek in de kamer aanwezig is geweest. De afweging is een iets hogere latentie per aanroep dan de oude staatloze MT — in de lage honderden milliseconden in plaats van tientallen — maar van “spreker stopt met praten” tot “luisteraar ziet de vertaling” is end-to-end nog steeds ruim onder een seconde voor de talen die we hebben gemeten.
De andere reden waarom we Gemini hiervoor verkiezen: taaldekking aan de vertaalkant is niet langer de beperkende factor. Gemini 2.5 dekt elke taal die Scribe herkent, in elke richting, wat de claim van 10.506 any-to-any-taalparen waar maakt in plaats van aspirationeel.
Waarom ElevenLabs v3 voor Audio mode TTS
Audio mode introduceerde een nieuwe pipelinefase: de vertaalde tekst omzetten naar gesproken audio in de taal van de luisteraar. We kozen voor ElevenLabs v3 vanwege de taaldekking (~74 talen vandaag) en stemkwaliteit. De stemmen klinken als mensen, niet als dicteersofte, en de meertalige ondersteuning betekent dat hetzelfde productoppervlak werkt voor de hele bovenste helft van onze ondersteunde talenlijst. Voor de talen waarvoor ElevenLabs Flash v2.5 beschikbaar is, geven we daar de voorkeur aan: het is sneller en goedkoper, met een kwaliteit die zo dicht bij die van v3 ligt dat een zij-aan-zij-vergelijking moeilijk is.
De lijst met talen met live stemweergave groeit naarmate ElevenLabs dekkingsupdates uitbrengt; de app pikt nieuwe talen automatisch op zodra ze beschikbaar worden.
Wat gebruikers merken
- Meer talen in de kiezer. 103 vermeldingen, ruwweg het dubbele van de vorige lijst, inclusief de meest gevraagde toevoegingen.
- Vertalingen voelen natuurlijker aan. Voornaamwoorden worden correct opgelost, formaliteit blijft consistent over beurten heen, idiomen worden begrijpelijk weergegeven. Dit is het effect van de conversatiecontext.
- Audio mode speelt de vertaling hardop af. 74 talen met AI-stem vandaag; de overige talen werken nog steeds in Audio mode met alleen tekstuitvoer.
- Niveaupunten in de taalkiezer. Een klein gekleurd puntje naast elke taal geeft de verwachte spraakherkenningsnauwkeurigheid aan — groen Uitstekend, geel Hoog, oranje Goed, rood In ontwikkeling — gebaseerd op de gepubliceerde WER-benchmarks van ElevenLabs.
- Tweerichtingsgesprek voelt nog steeds tweerichtings aan. Beide kanten worden gelijktijdig vertaald, zonder beurtwisseling, zonder ongemakkelijke pauzes.
Cijfers
- Talen (STT): 103, omhoog van 47
- Talen (live TTS): 74
- Taalparen (vertaling): 10.506 (omhoog van 2.162)
- Scribe v2 streaminglatentie: ~150 ms (gepubliceerd door ElevenLabs)
- Meertalige WER op FLEURS: 5,8% (gepubliceerd door ElevenLabs)
- Facturering: per teken, gelijkmatig verdeeld over transcriptie, vertaling en TTS — één credit per verwerkt teken; in Audio mode is transcriptie gratis totdat u op Vertalen tikt
Als u de gebruikersgerichte versie wilt
Het aankondigingsbericht van de lancering behandelt dezelfde wijziging vanuit het perspectief van de gebruiker — wat er nieuw is in de taalkiezer, wat u kunt verwachten van elk nauwkeurigheidsniveau, en hoe Audio mode in de praktijk aanvoelt. De volledige canonieke taalreferentie staat op /languages. En als u het wilt uitproberen, de marquee is hier en Audio mode is hier.
Probeer Live Translate Live
Begin vandaag met het realtime vertalen van tweetalige gesprekken.
Gratis aan de slag