Google acaba de lanzar Gemini 2.0, su modelo de inteligencia artificial más avanzado, y las novedades que trae consigo prometen cambiar la manera en que interactuamos con sus productos.
Según explicaron los voceros de la firma de Mountain View, los desarrollos de su nuevo modelo harán de sus productos más inteligentes, versátiles y útiles.
Si eres usuario habitual de Google, estos avances no solo deberían mejorar la precisión de las búsquedas en su popular buscador, sino también añadir nuevas formas de interactuar con servicios como Google Maps, Google Lens o incluso Google Assistant, que podría, por fin, hacer honor a su nombre.
Multimodalidad: más allá del texto
Una de las características más destacadas de Gemini 2.0 es que lleva a un nuevo nivel el concepto de multimodalidad. En la práctica, esto significa que ahora podrás interactuar con la inteligencia artificial de Google a través de una variedad de medios: texto, imágenes, audio, video, y más.
“Si Gemini 1.0 aspiraba a organizar y comprender la información, Gemini 2.0 aspira a hacerla mucho más útil. Estoy impaciente por ver qué nos depara la próxima era”.-Sundar Pichai, CEO de Google
Si antes solo podías escribirle a tu Asistente para hacerle preguntas, ahora podrás enviarle imágenes, videos o incluso audio. Por ejemplo, si tienes una foto de un producto y quieres saber más sobre él, podrás enviar esa imagen directamente a Google, y el sistema podrá darte respuestas más contextuales basadas en lo que ve.
Esta multimodalidad también se extiende a la Búsqueda de Google, que se vuelve, asegura la firma, más poderosa. No solo podrás preguntar por texto, sino también por imágenes y videos, y la IA será capaz de integrar diferentes tipos de datos para dar una respuesta mucho más completa.
Esto significa que, por ejemplo, si buscas información sobre un tema complicado que involucra ecuaciones matemáticas o código, la IA podrá manejar esas consultas de manera mucho más fluida, entendiendo tanto el contexto como los detalles específicos.
Asistentes de IA para tareas complejas
Una de las áreas más interesantes en las que Google está trabajando con Gemini 2.0 es la creación de agentes de IA que no solo responden preguntas, sino que realizan tareas complejas.
Con su Proyecto Astra, por ejemplo, Google ha desarrollado un asistente que recuerda interacciones pasadas y puede realizar tareas más allá de darte la ahora o fijar una alarma.
El nuevo Agente puede hacer búsquedas complejas en la web, enviar correos desde tu cuenta o interactuar con otros servicios como Google Maps, todo ello mediante conversaciones perfectamente naturales.
La gran novedad es que, según explica Google, este asistente se adapta al usuario y mejora con el tiempo, entendiendo tus preferencias y necesidades. La firma, de hecho, ha delegado a un equipo especializado para explorar los posibles desarrollos de esta tecnología en asocio con dispositivos como las gafas inteligentes.
Por su parte, Proyecto Mariner va un paso más allá al poder interactuar directamente con el navegador web, asistiendo al usuario a la hora de completar formularios, encontrar información o realizar tareas dentro de las páginas que visita, todo de forma autónoma, pero bajo su supervisión.
“Aún es pronto, pero el Proyecto Mariner demuestra que está siendo técnicamente posible usar un navegador, aunque hoy en día no siempre es preciso y tarda en completar las tareas, pero esto mejorará rápidamente con el tiempo. Para construirlo de forma segura y responsable, identificamos activamente nuevos tipos de riesgos y medidas para mitigarlos, sin perder de vista a las personas. Por ejemplo, Proyecto Mariner puede escribir, desplazarse o hacer clic en la pestaña activa de tu navegador, pero pide a los usuarios una confirmación final antes de realizar ciertas acciones sensibles, como comprar algo”.-- Koray Kavukcuoglu, CTO of Google DeepMind.
Este tipo de inteligencia ayuda a que las herramientas de Google puedan ser, en palabras de la firma, “más que solo respuestas”, y pasen a convertirse en asistentes que actúan.
Búsqueda más precisa
Las capacidades de razonamiento avanzadas de Gemini 2.0 también llegan a la Búsqueda de Google, en la que la IA podrá ahora abordar preguntas más complejas y resolver consultas que impliquen varios pasos.
Esto es especialmente útil si necesitas investigar temas complicados, hacer cálculos avanzados o resolver problemas que requieren múltiples consultas. La nueva herramienta Deep Research incluso podrá generar informes completos sobre un tema, como si estuvieras trabajando con un asistente de investigación.
“Ningún producto se ha transformado tanto gracias a la IA como la Búsqueda. Nuestro siguiente paso es incorporar las capacidades de razonamiento avanzado de Gemini 2.0 a Vistas Creadas con IA para abordar temas más complejos y preguntas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y programación. Esta semana hemos empezado la fase de prueba limitada y a principios del año que viene lo lanzaremos de forma más generalizada. Y seguiremos llevando las Vistas Creadas con IA a más países e idiomas durante el próximo año”.-- Demis Hassabis, CEO Google DeepMind
Esta integración de razonamiento más profundo y contexto largo no solo mejora, dice Google, la precisión de los resultados, sino que hace que la interacción con todo el ecosistema de la marca sea más fluida. Por ejemplo, si necesitas realizar un proyecto que involucra múltiples fuentes o pasos, ahora será mucho más sencillo obtener respuestas completas y bien estructuradas.
Nuevas herramientas para desarrolladores
Si eres desarrollador o trabajas en tecnología, Gemini 2.0 también trae buenas noticias. El modelo experimental Gemini 2.0 Flash ofrece un rendimiento más rápido y mejorado, ideal, asegura Google, para crear aplicaciones interactivas y dinámicas.
La API Multimodal Live, que incluye audio y video en tiempo real, permitirá crear experiencias mucho más ricas e interactivas en tus propias apps o servicios. Los desarrolladores también tendrán acceso a nuevas capacidades como la generación nativa de imágenes y la conversión de texto a voz, lo que abre un abanico de posibilidades para desarrolladores.
De hecho, Google está explorando cómo los agentes de IA pueden ayudar a los desarrolladores con Jules, un agente de código experimental impulsado por IA que se integra directamente en un flujo de trabajo de GitHub. Puede resolver un problema o elaborar un plan y ejecutarlo, todo ello bajo la dirección y supervisión de un promotor.
Google también se ha enfocado en asegurarse de que estos avances sean seguros y respeten la privacidad del usuario. El Proyecto Astra incorpora mejoras en la memoria, lo que permite, asegura la firma, al asistente recordar hasta 10 minutos de conversación sin comprometer la privacidad del usuario. Además, está diseñado para que puedas eliminar cualquier dato o conversación guardada en cualquier momento.
- Foto de portada: Mosaico Xataka Colombia con Midjourney
Ver 0 comentarios