No has visto nada: Gemini es la IA más poderosa hasta ahora y va a cambiar la forma en que usas Google

Gemini
1 comentario Facebook Twitter Flipboard E-mail

Google dio su siguiente salto en inteligencia artificial este miércoles, con el lanzamiento de Gemini, un modelo de inteligencia artificial diseñado a reforzar su línea de productos y competir de manera directísima con GPT-4, de OpenAI. Entrenado para comportarse de manera “similar a la humana”, permitirá a los usuarios interactuar de manera más natural con la IA, que incluso podrá reconocer imágenes y sonidos.

El lanzamiento de Gemini llega en el coletazo de una confusa sucesión de anuncios. A mediados del año, representantes de Google les dijeron a algunos clientes y socios comerciales que podían esperar tener acceso a la nueva IA conversacional de la compañía en noviembre. Pero hace unas semanas la compañía indicó que no planeaba mostrarlo hasta el primer trimestre del próximo año. 

Al final, Google terminó anunciando un despliegue que, indicó, se desarrollará en fases, con versiones menos sofisticadas de Gemini llamadas "Nano" y "Pro" que se incorporarán inmediatamente al chatbot Bard impulsado por IA de Google y su teléfono inteligente Pixel 8 Pro, si bien solamente, por ahora, en inglés.

Gemini

Con Gemini echándole una mano, Google promete que Bard se volverá más intuitivo y manejará mejor aquellas tareas que implican planificación.

En el Pixel 8 Pro, el flagship de la línea de celulares de Google, Gemini podrá resumir rápidamente las grabaciones realizadas en el dispositivo y proporcionar respuestas automáticas en los servicios de mensajería, comenzando con WhatsApp.

“Gemini es el resultado de los esfuerzos de colaboración a gran escala de los equipos de Google, incluidos nuestros colegas de Google Research. Fue construido desde cero para ser multimodal, lo que significa que puede generalizar y comprender, operar y combinar sin problemas diferentes tipos de información, incluidos texto, código, audio, imagen y video”. -- Demis Hassabis, CEO y cofundador de Google DeepMind.

Google describe a Gemini como su modelo más flexible hasta la fecha, capaz de ejecutarse de manera eficiente en toda clase de soportes, desde centros de datos hasta dispositivos móviles. Sus capacidades de última generación mejorarán significativamente, cree la empresa, la forma en que los desarrolladores y los clientes empresariales construyen y escalan con IA.

La primera generación de Gemini verá tres versiones diferentes: Gemini Ultra será el modelo más grande y capaz, dedicado a tareas altamente complejas; Gemini Pro será un modelo escalable, para una amplia gama de tareas, y Gemini Nano es descrito como un modelo eficiente para tareas en el dispositivo.

Rendimiento de última generación

Google ha sometido a sus modelos de Gemini a evaluaciones en toda clase de tareas. Desde la comprensión natural de imágenes, audio y video hasta el razonamiento matemático, el rendimiento de Gemini Ultra, asegura Google, supera los resultados actuales del estado del arte en 30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de modelos de lenguaje grande (LLM).

"Nuestro nuevo enfoque de referencia para MMLU permite a Gemini usar sus capacidades de razonamiento para pensar más cuidadosamente antes de responder preguntas difíciles, lo que lleva a mejoras significativas". -- Demis Hassabis, CEO y cofundador de Google DeepMind.

Hasta ahora, el enfoque estándar para crear modelos multimodales implicaba entrenar componentes separados para diferentes modalidades y, a continuación, unirlos. Estos modelos a veces pueden ser buenos para realizar ciertas tareas, como describir imágenes, pero tienen dificultades con un razonamiento más conceptual y complejo.

Gemini, en cambio, fue diseñado para ser multimodal de forma nativa, preentrenado desde el principio en diferentes modalidades. Datos multimodales adicionales fueron usados para refinar aún más su efectividad. Esto ayuda a Gemini a comprender y razonar sin problemas sobre todo tipo de entradas desde cero, mucho mejor que los modelos multimodales existentes, y sus capacidades son de última generación en casi todos los dominios.

Para darte una idea de lo que decimos, mira cómo gemini, integrado a Bard, ayudó a este youtuber a diseñar el mejor avión de papel posible.

Razonamiento sofisticado

Las sofisticadas capacidades de razonamiento multimodal de Gemini 1.0 pueden ayudar a dar sentido a información escrita y visual compleja. Esto lo hace excepcionalmente hábil para descubrir conocimientos que pueden ser difíciles de discernir entre grandes cantidades de datos.

En una prueba a la que asistió Xataka Colombia, el entrenador le mostró a Gemini dos papeles con una línea diagonal descendente, representando una ladera. En el primero había, dibujado apenas con líneas sencillas, un carro de forma rectangular. En el segundo, un carro triangular, con la punta más aguda hacia adelante. La pregunta para Gemini fue: ¿Cuál de estos dos carros llegará primero a la parte de abajo? La respuesta fue: “El de la derecha (el triangular), porque es más aerodinámico”.

De la misma manera, es notable la capacidad de la IA para extraer información de cientos de miles de documentos a través de la lectura, el filtrado y la comprensión de la información. Google dice que no solo ayudará a lograr nuevos avances a velocidades digitales en muchos campos, desde la ciencia hasta las finanzas, sino que le permitirá revisar textos y documentos en busca de errores o inconsistencias.

Comprensión de texto, imágenes, audio y más

Gemini 1.0 fue entrenado para reconocer y comprender texto, imágenes, audio y más al mismo tiempo, por lo que comprende mejor la información matizada y puede responder preguntas relacionadas con temas complicados. Esto lo hace especialmente bueno para explicar el razonamiento en materias complejas como matemáticas y física.

A partir de hoy, Bard utilizará una versión ajustada de Gemini Pro para un razonamiento más avanzado, planificación, comprensión y más. Esta es, dice Google, la mayor actualización de Bard desde su lanzamiento. Estará disponible en inglés en más de 170 países y territorios, y se planea expandirlo a diferentes modalidades y admitir nuevos idiomas y ubicaciones en un futuro próximo.

En los próximos meses, Gemini estará disponible en más productos y servicios de Google, como Search, Ads, Chrome y Duet AI.

A partir del 13 de diciembre, los desarrolladores y clientes empresariales pueden acceder a Gemini Pro a través de la API de Gemini en Google AI Studio o Google Cloud Vertex AI. Se espera que Gemini Ultra esté disponible para clientes seleccionados, desarrolladores, socios y expertos en seguridad y responsabilidad para una experimentación y comentarios tempranos antes de implementarlo para desarrolladores y clientes empresariales a principios del próximo año.

Estos son algunos ejemplos de las capacidades de Gemini:

Inicio