Google IA: ¿Qué puede hacer Gemini 1.5 Pro que ChatGPT no pueda?

La batalla por el dominio de la IA generativa se pelea a velocidades que, a veces, son demasiado altas para registrarlas y antes de que puedas entender de verdad un desarrollo, llega el siguiente, y el siguiente.

Es así que, apenas una semana después de lanzar Gemini 1.0 Ultra, Google lanzó ayer Gemini 1,5 Pro. Ultra supuestamente representaba el mejor modelo de lenguaje de IA que Google podía ofrecer, disponible como parte del asistente de IA renombrado "Gemini" (anteriormente Bard). Esta vez, Google dice que la versión 1.5 Pro logra una calidad comparable a la 1.0 Ultra, pero usa considerablemente menos capacidad de cómputo.

Así que vamos a ver, en la práctica, qué cosas puede hacer Gemini 1.5 Pro que Gemini 1.0 Ultra (y, si a eso vamos, ChatGPT 4) no puede hacer.

Una ventana más grande

La mayor mejora es, sin duda, una ventana de contexto más grande. Las ventanas de contexto sirven como memoria colectiva que influye en el procesamiento de la IA. Básicamente, representan lo que la IA puede ‘ver’.

La familia de modelos Gemini 1.0 maneja 32.000 tokens. Según se informa, GPT-4 Turbo de OpenAI puede manejar 128.000 tokens en algunas circunstancias. Google afirma que Gemini 1.5 Pro puede procesar hasta 1 millón de tokens, "logrando la ventana de contexto más larga de cualquier modelo de base a gran escala hasta ahora".

Los tokens son fragmentos de información y cuantificarlos es decididamente complicado, pero por dar una idea, Google dice que un realizador, por ejemplo, podría subir al sistema una película y pedirle al sistema que le diga qué opinarían los críticos. Y un crítico, a su vez, podría pedirle hallar inconsistencias en las 8 temporadas de Game of Thrones.

En la demostración, los investigadores le describieron una escena de una película de Buster Keaton y le pidieron encontrarla. En otra prueba, se limitaron a garabatear un momento específico y el sistema interpretó el dibujo y halló la escena.

Pero, además, justamente como resultado de esa ventana más grande, Gemini 1.5 Pro Pro puede comprender más de lo que le pides. Google lo demostró pidiéndole ayuda a Gemini con un programa que abarca más de 100.000 líneas de código.

Gemini 1.5 Pro puede “leer” ese código en cuestión de segundos y “razonar” para dar sugerencias y correcciones. Un investigador podría alimentar grandes cantidades de texto y pedir un sumario de los aspectos más relevantes, y un historiador podría pedir un análisis de una transcripción de 402 páginas de la misión del Apolo 11 a la Luna.

Finalmente, Google dice que Gemini 1.5 Pro responde más rápido, es mucho mejor escribiendo código y tiene la capacidad de aprender a partir de conversaciones.

Aún no está completamente claro cuándo llegarán estos cambios a los consumidores, pero que los desarrolladores ya pueden comenzar a usar Gemini 1.5 Pro desde ayer. Y, aunque no se dijo nada, uno solo puede suponer que alguien, en algún lugar de Google, está trabajando en un Gemini 1.5 Ultra.

Una ventana más grande

RECIBE "", NUESTRA NEWSLETTER SEMANAL

Explora en nuestros medios