Ahora traduciendo en 103 idiomas — Con voz IA en 74

Mayo 2026

Live Translate Live acaba de recibir una importante actualización de motor. Hemos reemplazado nuestro sistema de reconocimiento de voz de Deepgram por ElevenLabs Scribe v2 Realtime, nuestra capa de traducción de Google Cloud Translation por Google Gemini 2.5, y hemos añadido reproducción de voz IA en vivo en el modo de audio impulsado por ElevenLabs v3. El dato principal: estamos en vivo en 103 idiomas para voz en tiempo real, con voz IA en 74 de ellos, y traducción en cualquier dirección entre cualquier par.

Si leíste la antigua publicación sobre idiomas compatibles cuando lanzamos con 47, el número se ha duplicado aproximadamente. Esa publicación ya está actualizada para reflejar la nueva realidad; esta publicación es el anuncio de qué cambió y por qué importa cuando estás teniendo una conversación real.

Lo que ahora puedes hacer que antes no podías

El cambio más visible para los usuarios está en el selector de idiomas. Desplázate hacia abajo y verás el doble de entradas. Los idiomas que se incorporaron no son oscuros — son idiomas que muchos de vosotros habéis estado pidiendo: persa, bengalí, tamil, telugu, marathi, hindi con mayor calidad, cantonés como entrada distinta del mandarín, birmano, jemer, lao, mongol, hausa, suajili, yoruba, zulú, galés, irlandés, hebreo y muchos más.

El segundo cambio es más difícil de notar, pero lo sentirás en la conversación: la calidad de la traducción es notablemente mejor, especialmente en turnos más largos o con más matices. Gemini 2.5 mantiene el contexto conversacional entre turnos en lugar de traducir cada oración de forma aislada. Los pronombres obtienen el antecedente correcto. La concordancia de género se mantiene a lo largo de una secuencia. Los modismos se adaptan al equivalente más cercano en el idioma de destino en lugar de traducirse palabra por palabra. El marquee se parece más a un traductor y menos a un diccionario.

El tercer cambio es completamente nuevo: el modo de audio ahora reproduce la traducción en voz alta con una voz IA natural. Hablas, pulsas Traducir, y tu teléfono pronuncia la oración traducida en el idioma del oyente. Este es el modo para taxis, puestos de mercado, salas de espera de hospitales — lugares donde leer una pantalla con texto desplazándose es poco práctico y lo natural sería pasar el teléfono de mano en mano.

¿Qué tan preciso es el reconocimiento de voz?

ElevenLabs publica una cuadrícula de precisión de cuatro niveles para Scribe v2 basada en benchmarks de tasa de error de palabras (WER). Mostramos esos niveles como puntos de colores junto a cada idioma en el selector de la aplicación, y hemos reproducido la agrupación aquí para que puedas encontrar tu idioma de un vistazo. Un WER más bajo significa que más palabras se reconocen correctamente.

Nivel	WER	Idiomas
Excelente	≤ 5%	Bielorruso, Bosnio, Búlgaro, Catalán, Croata, Checo, Danés, Neerlandés, Inglés, Estonio, Finlandés, Francés, Gallego, Alemán, Griego, Húngaro, Islandés, Indonesio, Italiano, Japonés, Kannada, Letón, Macedonio, Malayo, Malayalam, Noruego, Polaco, Portugués, Rumano, Ruso, Eslovaco, Español, Sueco, Turco, Ucraniano, Vietnamita (36)
Alto	5–10%	Armenio, Azerbaiyano, Bengalí, Cantonés, Filipino, Georgiano, Gujarati, Hindi, Kazajo, Lituano, Maltés, Chino mandarín, Marathi, Nepalés, Odia, Persa, Serbio, Esloveno, Suajili, Tamil, Telugu (21)
Bueno	10–15%	Afrikáans, Árabe, Asamés, Asturiano, Birmano, Hausa, Hebreo, Javanés, Coreano, Kirguís, Luxemburgués, Māori, Occitano, Punjabi, Tayiko, Tailandés, Uzbeko, Galés (18)
En desarrollo	15%+	Amhárico, Ganda, Igbo, Irlandés, Jemer, Kurdo, Lao, Mongol, Sotho del Norte, Pastún, Shona, Sindhi, Somalí, Urdu, Wolof, Xhosa, Yoruba, Zulú (18)

Los rangos de WER provienen de los benchmarks publicados de Scribe v2 de ElevenLabs. En la práctica, la posición del micrófono y el ruido ambiental importan más que la diferencia entre los dos niveles superiores; en una habitación silenciosa con un buen micrófono, un idioma “Excelente” y uno “Alto” son difíciles de distinguir en conversación.

Una forma útil de leer la tabla: si tu par se encuentra en los dos niveles superiores, la capa de reconocimiento desaparece efectivamente — las palabras que dices aparecen en pantalla mientras las dices. Si uno de los lados del par está en el nivel Bueno, verás sustituciones ocasionales en palabras poco comunes, especialmente nombres propios. Si un lado está en el nivel En desarrollo, el idioma funciona pero las transcripciones son más imprecisas; en esos casos, el modo de audio puede ser más cómodo porque puedes revisar la transcripción antes de pulsar Traducir.

Reproducción de voz IA en vivo en 74 idiomas

El modo de audio es el cambio de producto más importante. El marquee siempre fue la herramienta adecuada para dos personas que comparten una pantalla en una mesa. El modo de audio es para el resto del tiempo — un teléfono, una mano, dos personas que necesitan escucharse en lugar de leer.

Cuando pulsas Traducir ahora, ElevenLabs v3 (o su versión más rápida Flash v2.5, según el idioma) genera la traducción hablada y el teléfono la reproduce. Suena como una persona, no como un robot. Puedes pulsar Repetir tantas veces como quieras sin gastar más créditos. Si tu interlocutor no lo captó, simplemente pulsa Repetir.

De los 103 idiomas que reconocemos, 74 tienen cobertura de voz IA hoy. Los idiomas fuera de ese conjunto siguen funcionando en el modo de audio — verás el texto traducido en pantalla — simplemente sin la reproducción hablada. La lista de voces crece a medida que ElevenLabs lanza actualizaciones de cobertura; la aplicación lo comprueba al iniciarse y detecta los nuevos idiomas automáticamente.

Si aún no has probado el modo de audio, el análisis detallado está en nuestra publicación sobre el modo de audio y la referencia canónica está en /languages.

La traducción cubre los 103 idiomas en cualquier dirección

Gemini 2.5 gestiona la capa de traducción, y es de cualquier idioma a cualquier otro. Puedes hablar en japonés y que llegue directamente en portugués, sin inglés de por medio. Hindi a árabe. Coreano a suajili. Vietnamita a polaco. Con 103 idiomas, eso son 10.506 pares únicos, todos ellos compatibles simultáneamente en el modo de conversación bidireccional.

Lo que diferencia a Gemini 2.5 en particular es el contexto conversacional. Los motores de traducción más antiguos tratan cada oración como una cadena independiente. Por eso a veces los pronombres se traducen con el sustantivo incorrecto, o los registros de formalidad cambian a mitad de conversación, o los modismos resultan en un sinsentido literal. Gemini 2.5 ve los turnos anteriores y traduce el siguiente con ese contexto en cuenta. El resultado se parece menos a una búsqueda frase por frase y más a un traductor que ha estado en la sala contigo durante toda la conversación.

Qué significa esto para qué pares funcionan mejor

Los 10.506 pares funcionan. Algunos se sienten más fluidos que otros. Tres factores determinan la experiencia de un par dado en la práctica:

Ambos lados en el nivel superior. Cuando ambos idiomas son Excelente o Alto, la conversación fluye. Ejemplos: Inglés ↔ Español, Inglés ↔ Francés, Inglés ↔ Japonés, Español ↔ Portugués, Alemán ↔ Neerlandés.
Un lado en Bueno o En desarrollo. Sigue funcionando, pero las transcripciones son más imprecisas en el lado de nivel inferior — espera sustituciones ocasionales en palabras poco comunes y nombres propios. El modo de audio puede mitigar esto porque ves la transcripción antes de confirmar la traducción.
Escrituras diferentes. Los pares latino ↔ no latino (Inglés ↔ Japonés, Árabe ↔ Francés, Hindi ↔ Coreano) funcionan todos; el marquee tiene que hacer un pequeño cambio de fuente a mitad de oración, lo cual es prácticamente imperceptible en 2026, pero es el único lugar donde el renderizado puede requerir algo de trabajo.

Por qué cambiamos de motores

La versión corta: la cobertura de idiomas y la calidad que obteníamos de Deepgram + Google Cloud Translation era excelente al lanzamiento, pero dejó de escalar cuando quisimos cubrir más partes del mundo. Scribe v2 ofrece una cobertura de streaming más amplia con menor latencia, Gemini 2.5 mantiene el contexto entre turnos, y ElevenLabs v3 desbloqueó la reproducción de voz que necesitábamos para el modo de audio. La versión larga está en una publicación aparte con latencias, benchmarks y las decisiones arquitectónicas detrás del cambio.

Pruébalo

Elige tus dos idiomas e inicia una conversación bilingüe en tiempo real. Sin aplicación que descargar. Los créditos de traducción comienzan en $1 por 15 minutos en el marquee; en el modo de audio, la transcripción es gratuita hasta que pulsas Traducir.

Empezar en el marquee · Probar el modo de audio · Referencia completa de idiomas · Ver precios

Prueba Live Translate Live

Empieza a traducir conversaciones bilingües en tiempo real hoy mismo.

Comenzar Gratis