Google lanza Gemini 3.5 Live Translate: traducción de voz en 70+ idiomas llega a Translate, Meet y API
TL;DR:
Google lanzó Gemini 3.5 Live Translate , su nuevo modelo de audio para traducción voz a voz casi en tiempo real.
El modelo detecta más de 70 idiomas , llega a Google Translate, Google Meet y la Gemini Live API, y habilita más de 2,000 combinaciones en Meet.
La función reduce pausas en conversaciones multilingües, pero Google reconoce límites con acentos, cambios rápidos de idioma y audio de fondo.
El 9 de junio de 2026, Google anunció el lanzamiento de Gemini 35 Live Translate, un modelo de audio que soporta más de 70 idiomas y permite una traducción de voz casi en tiempo real. Cabe destacar que Google no ha utilizado el proyecto como un experimento de laboratorio. Está previsto implementarlo en Google Translate para Android e iOS, Google Meet para empresas y la API Gemini Live para desarrolladores que deseen integrar esta función en aplicaciones, llamadas telefónicas, cursos, transmisiones y soporte al cliente.
Gemini 3.5 Live Translate es un modelo de audio de Google que procesa voz mientras se transmite y devuelve voz traducida en otro idioma con baja latencia.
La diferencia con los sistemas que se usan habitualmente está en el ritmo. En vez de esperar a que una persona termine de hablar para traducir, el modelo genera la traducción sin parar. Google dice que el modelo puede quedarse solo unos segundos detrás de el hablante. Además, el modelo conserva algo de la entonación, de el ritmo y de el tono.
Ese detalle es clave. La traducción de voz no falla solo cuando se equivoca con una palabra; también se rompe cuando mete silencios largos, suena robótica o obliga a cada persona a hablar como si estuviera dictando comandos.
Photo by Andrey Matveev / Unsplash
El cambio clave: traducir mientras la conversación sigue viva
Google presentó el modelo como una actualización para tres públicos distintos: usuarios comunes, empresas y developers. La misma tecnología aterriza en productos con necesidades muy diferentes.
La compañía resume el despliegue así:
- Google Translate: llega globalmente a la app en Android y iOS.
- Google Meet: entra en private preview este mes para clientes empresariales selectos de Google Workspace.
- Gemini Live API y Google AI Studio: queda disponible en public preview para developers.
- Google Meet: pasará de cinco idiomas a más de 70 idiomas en traducción de voz.
- Reuniones multilingües: Meet podrá manejar más de 2,000 combinaciones de idiomas en una misma reunión.
- Android: suma un modo de escucha que reproduce la traducción por el auricular del celular, como si fuera una llamada.
Las funciones de Android son particularmente fáciles de usar. Anteriormente, la función de traducción simultánea suele requerir auriculares, pero con este nuevo modo, simplemente tienes que poner tu teléfono inteligente en el oído para escuchar la traducción directamente, lo que es especialmente conveniente para visitar lugares turísticos, charlar en la calle o reuniones donde no quieres que la traducción sea escuchada.
Google Meet deja de girar solo alrededor del inglés
El salto en Google Meet puede ser más relevante para trabajo remoto que para turismo. La traducción de voz en Meet tenía una barrera fuerte: soporte limitado a cinco idiomas y un esquema centrado en traducciones desde y hacia inglés.
Con Gemini 3.5 Live Translate , Google quiere mover esa función hacia reuniones verdaderamente multilingües. En la práctica, eso significa que una llamada de trabajo podría incluir español, portugués, francés, japonés o alemán sin obligar a que todos pasen por inglés como puente.
Para México y América Latina, esto es muy importante. Cuando los equipos locales trabajan con clientes en Estados Unidos, Brasil, Europa y Asia, actualmente deben superar las barreras lingüísticas mediante el uso de intérpretes, subtítulos o cambios frecuentes al inglés. Si es cierto que la traducción del idioma puede lograr una baja latencia, Meet podría convertirlo en una característica estándar en sus productos.
La disponibilidad, por ahora, será limitada. Google habla de una private preview para clientes selectos de Google Workspace durante junio de 2026 y de una expansión más amplia más adelante este año. No hay una fecha pública exacta para todos los usuarios empresariales.
Para developers, el modelo es una tubería de traducción, no un asistente general
La parte más técnica del anuncio está en la Gemini Live API. Ahí Google identifica el modelo como gemini-3.5-live-translate-preview, diseñado para recibir audio y devolver audio traducido.
Esto es algo diferente de los chatbots versátiles que se señalan explícitamente en Google Docs, donde Live Translate solo actúa como traductor instantáneo; No es un sistema para pensar, usar herramientas o entender instrucciones complejas. Para minimizar el retraso, el modo de traducción solo acepta entrada de voz. El texto no se acepta como entrada de traducción.
Ese enfoque abre la puerta a usos muy concretos:
- llamadas de soporte multilingüe;
- clases con alumnos de varios países;
- transmisiones con traducción simultánea;
- reuniones internas de empresas globales;
- apps de movilidad, turismo o delivery con usuarios que no comparten idioma;
- herramientas de doblaje en vivo para contenido o presentaciones.
Google también mencionó integraciones con plataformas como Agora , Fishjam , LiveKit , Pipecat y Vision Agents , que pueden encargarse de la infraestructura de audio en tiempo real para que los developers no tengan que construir todo desde cero.
El caso comercial que se ve es Grab. Google dice que Grab está probando el modelo para facilitar la comunicación casi en tiempo real entre los conductores y los viajeros durante los pickups. El dato cambia la historia: los usuarios de Grab hacen más de 10 millones de llamadas de voz al mes dentro de la plataforma.
La promesa viene con letra chica técnica
Google también publicó los límites del modelo, y esa es la parte que no hay que olvidar. Gemini 3.5 Live Translate puede presentar inconsistencias al replicar voces. La voz traducida puede cambiar después de pausas largas. La voz traducida puede asignar un género incorrecto. La voz traducida puede quedarse atascada en una voz cuando hay más de un hablante que habla rápido.
El reconocimiento del habla a veces puede fallar con acentos, pronunciaciones no nativas, distinguiendo idiomas similares como el español y el portugués o cambios rápidos de lenguaje. Según Google, esto afecta principalmente a la transcripción de la entrada y no tiene un impacto significativo en el código del idioma o la traducción en sí. Sin embargo, esto debe tenerse en cuenta en el uso práctico.
También hay un límite práctico: aunque el modelo está diseñado para filtrar ruido y música, no todo el audio de fondo desaparece. En un aeropuerto, una calle ruidosa o una llamada con varias personas hablando encima, la experiencia puede variar.
La compañía ha reforzado aún más las precauciones de seguridad. Todos los sonidos generados por sus modelos llevan una marca de agua llamada "SynthID", que no puede ser reconocida únicamente por el oído, pero es un sistema que puede determinar de manera confiable si el sonido es generado por IA, lo cual es muy importante porque la traducción de voz que suena natural aumenta el riesgo de ser abusada para falsificación de identidad, extraída de contexto y utilizada inapropiadamente, creando confusión.
El traductor universal ya no vive solo en los audífonos
Google lleva años intentando que la traducción ya no sea una herramienta que no está dentro y que la traducción forme parte de la conversación. Google quiere que la traducción sea parte de la charla. Gemini 3.5 Live Translate empuja la dirección: el celular a el oído, las reuniones con más idiomas y una API para que los terceros pongan la traducción en sus productos.
La verdadera pregunta no es si Google puede presentar una demostración impresionante, sino si este modelo asegura calidad, latencia y claridad en el ajetreado día a día – acompañado de acentos, pausas, interrupciones, malas conexiones y conversaciones con más de tres personas – que es precisamente lo que determina si esta característica sigue siendo un buen juego o se convierte en una parte central de nuestra vida mientras viajamos y trabajamos en idiomas.
Fuentes: 1, 2, 3, 4, 5, 6
Discussion in the ATmosphere