Google Search Live: Actualización de voz con Gemini 2.5

La última actualización de Gemini sitúa la voz como el modo de interacción central para las búsquedas, añadiendo un nuevo matiz a las estrategias de marketing digital.

Interfaz de Google Search Live mostrando capacidades de voz con inteligencia artificial Gemini

Google ha actualizado Google Search Live integrando Gemini 2.5 Flash Native Audio. Esta mejora transforma el funcionamiento de la voz dentro del buscador, extendiendo el uso del modelo a la traducción y a los agentes de voz en vivo. La actualización introduce respuestas habladas mucho más naturales y refleja el esfuerzo de la compañía por tratar la voz como una interfaz central. El objetivo es permitir a los usuarios obtener todo lo que ya consiguen con la búsqueda regular, pero añadiendo la capacidad de preguntar sobre el mundo físico que les rodea y recibir traducciones inmediatas.

Estas nuevas capacidades, que se están desplegando esta semana en Estados Unidos, permitirán que las respuestas de voz de Google suenen más humanas e incluso puedan ralentizarse para contenido instruccional. Según Google:

«Cuando usas Search Live, puedes tener una conversación de ida y vuelta en modo IA para obtener ayuda en tiempo real. Y ahora, gracias a nuestro último modelo Gemini para audio nativo, las respuestas en Google Search Live serán más fluidas y expresivas que nunca».

Despliegue de Gemini Native Audio en el ecosistema

Esta mejora en la búsqueda es parte de una actualización más amplia de Gemini 2.5 Flash Native Audio en todo el ecosistema de Google, incluyendo la App de Gemini, Google AI Studio y Vertex AI.

El modelo procesa el audio hablado en tiempo real y produce respuestas fluidas, reduciendo la fricción en las interacciones en vivo. Aunque el anuncio no especifica si es un modelo «speech-to-speech» puro, esta actualización sigue al anuncio de octubre sobre «Speech-to-Retrieval (S2R)», un modelo neuronal entrenado con grandes conjuntos de datos de audio. Esto demuestra que Google está tratando el audio nativo como una capacidad clave para el posicionamiento SEO y la experiencia de usuario futura.

Mejoras en sistemas de voz para desarrolladores

Para los desarrolladores y empresas que construyen sistemas basados en voz, Google asegura que el modelo actualizado mejora la fiabilidad en varias áreas.

Gemini 2.5 Flash Native Audio activa funciones externas con mayor consistencia durante las conversaciones, sigue instrucciones complejas y mantiene el contexto a través de múltiples turnos de palabra. Estas mejoras hacen que los agentes de voz en vivo sean más fiables en flujos de trabajo reales, donde las instrucciones mal interpretadas solían reducir la usabilidad.

Traducción conversacional fluida en Google Search Live

Más allá de la búsqueda y los agentes, la actualización introduce soporte nativo para la «traducción de voz a voz en vivo». Gemini traduce el lenguaje hablado en tiempo real, ya sea traduciendo continuamente el habla ambiental o gestionando conversaciones bidireccionales entre hablantes de diferentes idiomas.

El sistema preserva características vocales como el ritmo y el énfasis, logrando una traducción que suena mucho más conversacional. Google destaca la detección automática de idioma y el filtrado de ruido, permitiendo que la traducción ocurra de manera pasiva, casi como si hubiera una persona real traduciendo en medio de la conversación.

El futuro de la búsqueda por voz

Esta actualización refleja la iteración continua de Google hacia un ideal inspirado originalmente en la ciencia ficción: interacciones de voz fluidas entre humanos y computadoras, al estilo de Star Trek. Con Google Search Live, esa aspiración está cada vez más cerca de ser una realidad cotidiana.

Te puede interesar:

Foto de Amanz en Unsplash

Rate this post