Por qué cambiamos Deepgram + Google Translate por ElevenLabs Scribe v2 + Gemini 2.5

Mayo de 2026

Esta entrada es el complemento entre bastidores del anuncio de lanzamiento en 103 idiomas. Si aquel era «esto es lo que cambió», este es «esto es por qué elegimos los proveedores que elegimos». El resultado principal: aproximadamente el doble de cobertura de idiomas, reconocimiento de voz con menor latencia, traducción con contexto conversacional y reproducción de voz con IA en directo en 74 idiomas.

Por qué cambiamos de proveedores

La pila anterior usaba Deepgram para el reconocimiento de voz y Google Cloud Translation para la capa de traducción. Era sólida en el lanzamiento. El techo era la cobertura de idiomas. El modelo de streaming de Deepgram gestionaba aproximadamente 40–50 idiomas con calidad de producción, y la lista no crecía lo suficientemente rápido para satisfacer a los usuarios que pedían bengalí, tamil, telugu, maratí, cantonés como entrada distinta del mandarín, birmano, jemer, galés, hebreo y más.

La segunda presión venía del lado de la salida. Queríamos lanzar el modo Audio — traducción por turnos con el resultado hablado en voz alta en el idioma del oyente. Eso implicaba añadir una capa de TTS que la pila anterior no tenía. Una vez que incorporas un proveedor para una parte del pipeline, vale la pena preguntarse si conviene consolidar.

Por qué Scribe v2 para el reconocimiento de voz

ElevenLabs lanzó Scribe v2 Realtime en enero de 2026. Las cifras publicadas por ElevenLabs: ~150 ms de latencia en streaming, 5,8 % de tasa de error de palabras multilingüe en el benchmark FLEURS y 93,5 % de precisión en los 30 idiomas del benchmark evaluados frente a modelos ASR estándar del sector. La lista de idiomas compatibles ronda los 100, con una cuadrícula de precisión de cuatro niveles publicada que abarca Excelente (≤5 % WER), Alto (5–10 %), Bueno (10–15 %) y En desarrollo (15 %+).

Realizamos nuestra propia comparativa frente a Deepgram en los idiomas que veníamos usando. La afirmación sobre la latencia se confirmó — las palabras transcritas aparecen casi al ritmo de la voz del hablante, lo suficientemente rápido como para que el cuello de botella percibido se desplace al paso de traducción. La calidad de transcripción cara a cara estaba a la par o por encima en los idiomas que ya teníamos, con las mayores mejoras en idiomas que habían sido débiles: el hindi pasó de «funciona pero con dificultades» a «funciona con fluidez», y el bengalí y el tamil pasaron de «no en producción» a «en producción en nivel Alto».

Otro aspecto que nos gustó: Scribe incluye identificación de idioma nativa por segmento, lo que simplificó considerablemente nuestro manejo de dos hablantes y significó que podíamos ampliar la lista de idiomas sin acumular trabajo de integración por cada adición.

Por qué Gemini 2.5 para la traducción

La traducción automática sin estado por oración tiene un conjunto conocido de fallos. Los pronombres se traducen sin sus antecedentes, los idiomas con género gramatical derivan a mitad de conversación, los registros de formalidad cambian y los modismos resultan en un sinsentido literal. Todos comparten una causa raíz: el traductor solo ve la oración actual.

Gemini 2.5 mantiene el contexto conversacional entre turnos. El modelo ve el historial reciente de la conversación cuando traduce el siguiente enunciado, lo que soluciona la mayoría de esos problemas de deriva sin que tengamos que añadir nada especial encima. En la práctica, las traducciones se sienten menos como búsquedas en un diccionario y más como el trabajo de alguien que ha estado en la sala contigo durante toda la conversación. La contrapartida es una latencia por llamada ligeramente mayor que la antigua MT sin estado — en el orden de unos pocos cientos de milisegundos en lugar de decenas —, pero el tiempo total de extremo a extremo desde «el hablante deja de hablar» hasta «el oyente ve la traducción» sigue siendo claramente inferior a un segundo en los idiomas que hemos medido.

La otra razón por la que nos gusta Gemini para esto: la cobertura de idiomas en el lado de la traducción ya no es la restricción. Gemini 2.5 cubre todos los idiomas que Scribe reconoce, en cualquier dirección, lo que hace que la afirmación de 10.506 pares en cualquier combinación sea real y no aspiracional.

Por qué ElevenLabs v3 para el TTS del modo Audio

El modo Audio introdujo una nueva etapa en el pipeline: convertir el texto traducido de vuelta a audio hablado en el idioma del oyente. Elegimos ElevenLabs v3 por la cobertura de idiomas (~74 idiomas hoy) y la calidad de voz. Las voces suenan como personas, no como software de dictado, y el soporte multilingüe significa que la misma superficie de producto funciona en toda la mitad superior de nuestra lista de idiomas compatibles. Para los idiomas en los que Flash v2.5 de ElevenLabs está disponible, lo preferimos: es más rápido y económico, con una calidad tan cercana que la comparación lado a lado es difícil.

La lista de idiomas con reproducción de voz en directo crece a medida que ElevenLabs publica actualizaciones de cobertura; la aplicación incorpora los nuevos idiomas automáticamente cuando están disponibles.

Lo que notan los usuarios

Más idiomas en el selector. 103 entradas, aproximadamente el doble de la lista anterior, incluyendo la mayoría de las adiciones más solicitadas.
Las traducciones se sienten más naturales. Los pronombres se resuelven correctamente, la formalidad se mantiene entre turnos, los modismos se interpretan con sensatez. Este es el efecto del contexto conversacional.
El modo Audio reproduce la traducción en voz alta. 74 idiomas con voz de IA hoy; el resto sigue funcionando en modo Audio con salida solo de texto.
Puntos de nivel en el selector de idiomas. Un pequeño punto de color junto a cada idioma indica la precisión esperada del reconocimiento de voz — verde Excelente, amarillo Alto, naranja Bueno, rojo En desarrollo — basado en los benchmarks de WER publicados por ElevenLabs.
La conversación bidireccional sigue sintiéndose bidireccional. Ambos lados se traducen simultáneamente, sin turnos, sin pausas incómodas.

Cifras

Idiomas (STT): 103, frente a 47 anteriores
Idiomas (TTS en directo): 74
Pares de idiomas (traducción): 10.506 (frente a 2.162)
Latencia de streaming de Scribe v2: ~150 ms (publicado por ElevenLabs)
WER multilingüe en FLEURS: 5,8 % (publicado por ElevenLabs)
Facturación: por carácter, aplicada de forma uniforme entre transcripción, traducción y TTS — un crédito por carácter procesado; en modo Audio, la transcripción es gratuita hasta que pulsas Traducir

Si quieres la versión orientada al usuario

La entrada del anuncio de lanzamiento cubre el mismo cambio desde el punto de vista del usuario — qué hay de nuevo en el selector de idiomas, qué esperar de cada nivel de precisión y cómo se siente el modo Audio en la práctica. La referencia canónica completa de idiomas está en /languages. Y si quieres probarlo, el marquee está aquí y el modo Audio está aquí.

Prueba Live Translate Live

Empieza a traducir conversaciones bilingües en tiempo real hoy mismo.

Comenzar Gratis