Désormais disponible en 103 langues — Avec voix IA dans 74

Mai 2026

Live Translate Live vient de bénéficier d'une importante mise à jour de son moteur. Nous avons remplacé notre pile de reconnaissance vocale de Deepgram par ElevenLabs Scribe v2 Realtime, notre couche de traduction de Google Cloud Translation par Google Gemini 2.5, et ajouté la lecture vocale IA en direct en mode audio, propulsée par ElevenLabs v3. Le chiffre phare : nous sommes disponibles dans 103 langues pour la parole en temps réel, avec voix IA dans 74 d'entre elles, et la traduction dans n'importe quelle direction entre deux langues quelconques.

Si vous avez lu l'ancien article sur les langues prises en charge lors de notre lancement à 47 langues, le nombre a à peu près doublé. Cet article a été mis à jour pour refléter la nouvelle réalité ; le présent article annonce ce qui a changé et pourquoi cela compte lorsque vous décrochez le téléphone pour une vraie conversation.

Ce que vous pouvez faire maintenant que vous ne pouviez pas faire avant

Le changement le plus visible pour les utilisateurs se trouve dans le sélecteur de langue. Faites défiler vers le bas et vous verrez deux fois plus d'entrées. Les langues qui ont rejoint la liste ne sont pas obscures — ce sont des langues que beaucoup d'entre vous réclamaient : le persan, le bengali, le tamoul, le télougou, le marathi, l'hindi en qualité supérieure, le cantonais comme entrée distincte du mandarin, le birman, le khmer, le laotien, le mongol, le haoussa, le swahili, le yoruba, le zoulou, le gallois, l'irlandais, l'hébreu, et bien d'autres encore.

Le deuxième changement est plus difficile à repérer, mais vous le ressentirez dans la conversation : la qualité de la traduction est nettement meilleure, en particulier pour les échanges plus longs ou plus nuancés. Gemini 2.5 conserve le contexte conversationnel d'un tour à l'autre au lieu de traduire chaque phrase de manière isolée. Les pronoms reçoivent le bon antécédent. L'accord en genre se maintient tout au long d'une séquence. Les expressions idiomatiques sont rendues par l'équivalent le plus proche dans la langue cible plutôt que traduites mot à mot. Le marquee ressemble davantage à un traducteur qu'à un dictionnaire.

Le troisième changement est entièrement nouveau : le mode audio lit désormais la traduction à voix haute dans une voix IA naturelle. Vous parlez, vous appuyez sur Traduire, votre téléphone prononce la phrase traduite dans la langue de votre interlocuteur. C'est le mode idéal pour les taxis, les étals de marché, les salles d'attente des hôpitaux — des endroits où lire un affichage défilant est peu pratique et où vous passeriez naturellement le téléphone d'une main à l'autre.

Quelle est la précision de la reconnaissance vocale ?

ElevenLabs publie une grille de précision à quatre niveaux pour Scribe v2, basée sur des benchmarks de taux d'erreur par mot (WER). Nous affichons ces niveaux sous forme de points colorés à côté de chaque langue dans le sélecteur intégré à l'application, et nous avons reproduit le regroupement ici pour que vous puissiez trouver votre langue en un coup d'œil. Un WER plus faible signifie que davantage de mots sont correctement reconnus.

Niveau	WER	Langues
Excellent	≤ 5%	Biélorusse, Bosnien, Bulgare, Catalan, Croate, Tchèque, Danois, Néerlandais, Anglais, Estonien, Finnois, Français, Galicien, Allemand, Grec, Hongrois, Islandais, Indonésien, Italien, Japonais, Kannada, Letton, Macédonien, Malais, Malayalam, Norvégien, Polonais, Portugais, Roumain, Russe, Slovaque, Espagnol, Suédois, Turc, Ukrainien, Vietnamien (36)
Élevé	5–10%	Arménien, Azerbaïdjanais, Bengali, Cantonais, Filipino, Géorgien, Gujarati, Hindi, Kazakh, Lituanien, Maltais, Chinois mandarin, Marathi, Népalais, Odia, Persan, Serbe, Slovène, Swahili, Tamoul, Télougou (21)
Bon	10–15%	Afrikaans, Arabe, Assamais, Asturien, Birman, Haoussa, Hébreu, Javanais, Coréen, Kirghiz, Luxembourgeois, Māori, Occitan, Pendjabi, Tadjik, Thaï, Ouzbek, Gallois (18)
En développement	15%+	Amharique, Ganda, Igbo, Irlandais, Khmer, Kurde, Laotien, Mongol, Sotho du Nord, Pachto, Shona, Sindhi, Somali, Ourdou, Wolof, Xhosa, Yoruba, Zoulou (18)

Les plages de WER proviennent des benchmarks publiés par ElevenLabs pour Scribe v2. En pratique, la position du microphone et le bruit ambiant importent davantage que l'écart entre les deux premiers niveaux ; dans une pièce calme avec un bon micro, une langue « Excellente » et une langue « Élevée » sont difficiles à distinguer en conversation.

Une façon utile de lire le tableau : si votre paire se situe dans les deux premiers niveaux, la couche de reconnaissance disparaît en pratique — les mots que vous prononcez s'affichent à l'écran au fur et à mesure. Si l'un des côtés de la paire est dans le niveau Bon, vous verrez des substitutions occasionnelles sur des mots peu courants, notamment les noms propres. Si un côté est dans le niveau En développement, la langue fonctionne mais les transcriptions sont plus approximatives ; dans ces cas, le mode audio peut être plus pratique, car vous pouvez relire la transcription avant d'appuyer sur Traduire.

Lecture vocale IA en direct dans 74 langues

Le mode audio est le changement produit le plus important. Le marquee a toujours été l'outil idéal pour deux personnes partageant un même écran à une table. Le mode audio est fait pour tout le reste du temps — un téléphone, une main, deux personnes qui ont besoin de s'entendre plutôt que de lire.

Lorsque vous appuyez sur Traduire maintenant, ElevenLabs v3 (ou son homologue plus rapide Flash v2.5, selon la langue) génère la traduction parlée et le téléphone la restitue. Cela ressemble à une personne, pas à un robot. Vous pouvez appuyer sur Rejouer autant de fois que vous le souhaitez sans dépenser de crédits supplémentaires. Si votre interlocuteur n'a pas bien entendu, appuyez simplement sur Rejouer.

Sur les 103 langues que nous reconnaissons, 74 bénéficient aujourd'hui d'une couverture vocale IA. Les langues en dehors de cet ensemble fonctionnent toujours en mode audio — vous verrez le texte traduit à l'écran — simplement sans la lecture vocale. La liste des voix s'enrichit au fur et à mesure qu'ElevenLabs publie des mises à jour de couverture ; l'application vérifie au démarrage et prend en charge automatiquement les nouvelles langues.

Si vous n'avez pas encore essayé le mode audio, l'analyse approfondie se trouve dans notre article sur le mode audio et la référence canonique est disponible sur /languages.

La traduction couvre les 103 langues dans toutes les directions

Gemini 2.5 gère la couche de traduction, et c'est de n'importe quelle langue vers n'importe quelle autre. Vous pouvez parler japonais et obtenir une traduction directement en portugais, sans passer par l'anglais. Hindi vers arabe. Coréen vers swahili. Vietnamien vers polonais. Avec 103 langues, cela représente 10 506 paires uniques, toutes prises en charge simultanément en mode conversation bidirectionnelle.

Ce qui distingue particulièrement Gemini 2.5, c'est le contexte conversationnel. Les anciens moteurs de traduction traitent chaque phrase comme une chaîne indépendante. C'est pourquoi vous obtenez parfois des pronoms traduits avec le mauvais référent, ou des registres de politesse qui changent en cours de conversation, ou des expressions idiomatiques qui donnent un résultat littéralement absurde. Gemini 2.5 prend en compte les quelques tours précédents et traduit le suivant avec ce contexte en mémoire. Le résultat ressemble moins à une recherche phrase par phrase et davantage à un traducteur qui a été présent dans la pièce avec vous tout au long de la conversation.

Ce que cela signifie pour les paires les plus fluides

Les 10 506 paires fonctionnent. Certaines semblent plus fluides que d'autres. Trois facteurs influencent l'expérience d'une paire donnée en pratique :

Les deux côtés dans le niveau supérieur. Lorsque les deux langues sont Excellentes ou Élevées, la conversation coule naturellement. Exemples : Anglais ↔ Espagnol, Anglais ↔ Français, Anglais ↔ Japonais, Espagnol ↔ Portugais, Allemand ↔ Néerlandais.
Un côté dans le niveau Bon ou En développement. Fonctionne quand même, mais les transcriptions sont plus approximatives du côté du niveau inférieur — attendez-vous à des substitutions occasionnelles sur des mots peu courants et des noms propres. Le mode audio peut atténuer ce problème, car vous voyez la transcription avant de valider la traduction.
Systèmes d'écriture différents. Les paires Latin ↔ non-Latin (Anglais ↔ Japonais, Arabe ↔ Français, Hindi ↔ Coréen) fonctionnent toutes ; le marquee doit effectuer un petit changement de police en milieu de phrase, ce qui est pratiquement imperceptible en 2026, mais c'est le seul endroit où le rendu peut sembler laborieux.

Pourquoi nous avons changé de moteurs

En résumé : la couverture linguistique et la qualité que nous obtenions avec Deepgram + Google Cloud Translation étaient excellentes au lancement, mais ont cessé de s'adapter à l'échelle dès lors que nous voulions couvrir davantage de régions du monde. Scribe v2 offre une couverture de streaming plus large avec une latence plus faible, Gemini 2.5 conserve le contexte d'un tour à l'autre, et ElevenLabs v3 a rendu possible la lecture vocale dont nous avions besoin pour le mode audio. La version longue se trouve dans un article séparé avec les latences, les benchmarks et les décisions architecturales derrière ce changement.

Essayez-le

Choisissez vos deux langues et démarrez une conversation bilingue en temps réel. Aucune application à télécharger. Les crédits de traduction commencent à 1 $ pour 15 minutes dans le marquee ; en mode audio, la transcription est gratuite jusqu'à ce que vous appuyiez sur Traduire.

Démarrer dans le marquee · Essayer le mode audio · Référence complète des langues · Voir les tarifs

Essayez Live Translate Live

Commencez à traduire des conversations bilingues en temps réel dès aujourd'hui.

Commencer gratuitement