Pourquoi nous avons remplacé Deepgram + Google Translate par ElevenLabs Scribe v2 + Gemini 2.5

Mai 2026

Cet article est le pendant coulisses de l'annonce du lancement en 103 langues. Si celui-là expliquait “ce qui a changé”, celui-ci explique “pourquoi nous avons choisi ces fournisseurs”. Le résultat phare : une couverture linguistique environ deux fois plus grande, une reconnaissance vocale à latence réduite, une traduction avec contexte conversationnel, et une lecture vocale IA en direct dans 74 langues.

Pourquoi nous avons changé de fournisseurs

L'ancienne pile utilisait Deepgram pour la reconnaissance vocale et Google Cloud Translation pour la couche de traduction. Elle était solide au lancement. La limite était la couverture linguistique. Le modèle de streaming de Deepgram gérait environ 40–50 langues en qualité de production, et la liste ne s'étoffait pas assez vite pour répondre aux demandes des utilisateurs concernant le bengali, le tamoul, le télougou, le marathi, le cantonais en tant qu'entrée distincte du mandarin, le birman, le khmer, le gallois, l'hébreu, et bien d'autres.

La deuxième pression venait du côté de la sortie. Nous voulions lancer le mode Audio — une traduction en alternance avec le résultat lu à voix haute dans la langue de l'auditeur. Cela impliquait d'ajouter une couche TTS que l'ancienne pile ne possédait pas. Dès lors qu'on intègre un fournisseur pour une partie du pipeline, il vaut la peine de se demander si autant vaut tout consolider.

Pourquoi Scribe v2 pour la reconnaissance vocale

ElevenLabs a publié Scribe v2 Realtime en janvier 2026. Les annonces phares d'ElevenLabs : ~150 ms de latence en streaming, 5,8 % de taux d'erreur sur les mots multilingues sur le benchmark FLEURS, et 93,5 % de précision sur les 30 langues de référence évaluées face aux modèles ASR standards du secteur. La liste des langues prises en charge avoisine les 100, avec une grille de précision publiée en quatre niveaux : Excellent (≤5 % WER), Élevé (5–10 %), Bon (10–15 %), et En développement (15 %+).

Nous avons effectué notre propre comparaison face à Deepgram sur les langues que nous utilisions déjà. L'annonce sur la latence s'est confirmée — les mots transcrits apparaissent presque en temps réel sous la voix du locuteur, assez rapidement pour que le goulot d'étranglement perçu se déplace vers l'étape de traduction. La qualité de transcription en face-à-face était à parité ou supérieure sur les langues déjà prises en charge, avec les plus grands gains sur les langues qui étaient faibles : l'hindi est passé de “ça marche mais c'est approximatif” à “ça marche proprement”, le bengali et le tamoul sont passés de “pas en production” à “en production au niveau Élevé”.

L'autre point que nous avons apprécié : Scribe intègre nativement l'identification de la langue par segment, ce qui a considérablement simplifié notre gestion à deux locuteurs et nous a permis d'élargir la liste des langues sans alourdir le travail d'intégration à chaque ajout.

Pourquoi Gemini 2.5 pour la traduction

La traduction automatique phrase par phrase sans état présente un ensemble connu de défaillances. Les pronoms sont traduits sans leurs antécédents, les langues à genre dérivent en cours de conversation, les registres de politesse basculent, et les expressions idiomatiques donnent des absurdités littérales. Tout cela partage une cause commune : le traducteur ne voit que la phrase en cours.

Gemini 2.5 conserve le contexte conversationnel d'un tour à l'autre. Le modèle voit l'historique récent de la conversation lorsqu'il traduit l'énoncé suivant, ce qui corrige la plupart de ces problèmes de dérive sans que nous ayons à greffer quoi que ce soit de spécial par-dessus. En pratique, les traductions ressemblent moins à des recherches dans un dictionnaire et davantage au travail de quelqu'un qui a été présent dans la pièce avec vous pendant toute la conversation. La contrepartie est une latence par appel légèrement plus élevée que l'ancienne MT sans état — de l'ordre de quelques centaines de millisecondes plutôt que de dizaines — mais le délai de bout en bout entre “le locuteur cesse de parler” et “l'auditeur voit la traduction” reste bien en dessous d'une seconde sur les langues que nous avons mesurées.

L'autre raison pour laquelle nous apprécions Gemini pour cela : la couverture linguistique côté traduction n'est plus la contrainte. Gemini 2.5 couvre toutes les langues reconnues par Scribe, dans n'importe quelle direction, ce qui rend la revendication des 10 506 paires dans tous les sens réelle plutôt qu'aspirationnelle.

Pourquoi ElevenLabs v3 pour le TTS du mode Audio

Le mode Audio a introduit une nouvelle étape dans le pipeline : convertir le texte traduit en audio parlé dans la langue de l'auditeur. Nous avons choisi ElevenLabs v3 pour sa couverture linguistique (~74 langues aujourd'hui) et la qualité des voix. Les voix sonnent comme des personnes, pas comme un logiciel de dictée, et la prise en charge multilingue signifie que la même surface produit fonctionne sur toute la moitié supérieure de notre liste de langues prises en charge. Pour les langues où ElevenLabs Flash v2.5 est disponible, nous lui donnons la préférence : il est plus rapide et moins coûteux, avec une qualité suffisamment proche pour que la comparaison côte à côte soit difficile.

La liste des langues avec lecture vocale en direct s'élargit au fur et à mesure qu'ElevenLabs publie des mises à jour de couverture ; l'application intègre automatiquement les nouvelles langues dès qu'elles deviennent disponibles.

Ce que les utilisateurs remarquent

Plus de langues dans le sélecteur. 103 entrées, environ le double de la liste précédente, incluant la plupart des ajouts les plus demandés.
Les traductions semblent plus naturelles. Les pronoms se résolvent correctement, la politesse se maintient d'un tour à l'autre, les expressions idiomatiques sont décodées de façon sensée. C'est l'effet du contexte conversationnel.
Le mode Audio lit la traduction à voix haute. 74 langues avec voix IA aujourd'hui ; les autres fonctionnent toujours en mode Audio avec une sortie texte uniquement.
Des points de niveau dans le sélecteur de langues. Un petit point coloré à côté de chaque langue indique la précision de reconnaissance vocale attendue — vert Excellent, jaune Élevé, orange Bon, rouge En développement — basé sur les benchmarks WER publiés par ElevenLabs.
La conversation bidirectionnelle reste bidirectionnelle. Les deux côtés sont traduits simultanément, sans alternance de tours, sans pauses gênantes.

Chiffres

Langues (STT) : 103, contre 47 auparavant
Langues (TTS en direct) : 74
Paires de langues (traduction) : 10 506 (contre 2 162 auparavant)
Latence de streaming Scribe v2 : ~150 ms (publié par ElevenLabs)
WER multilingue sur FLEURS : 5,8 % (publié par ElevenLabs)
Facturation : par caractère, appliquée uniformément sur la transcription, la traduction et le TTS — un crédit par caractère traité ; en mode Audio, la transcription est gratuite jusqu'à ce que vous appuyiez sur Traduire

Si vous souhaitez la version destinée aux utilisateurs

L'article d'annonce du lancement couvre le même changement du point de vue de l'utilisateur — ce qui est nouveau dans le sélecteur de langues, ce à quoi s'attendre de chaque niveau de précision, et ce que donne le mode Audio en pratique. La référence complète et canonique des langues se trouve sur /languages. Et si vous souhaitez l'essayer, le marquee est ici et le mode Audio est ici.

Essayez Live Translate Live

Commencez à traduire des conversations bilingues en temps réel dès aujourd'hui.

Commencer gratuitement