Mucho más rápido, y con capacidades mejoradas de texto, visión y audio, GPT-4o, el nuevo "modelo insignia" que lanzó OpenAI, es una versión modificada del modelo que impulsa su producto estrella, ChatGPT.
Según declaró la directora de tecnología de OpenAI, Mira Murati, el nuevo modelo multimodal busca establecer un nuevo estándar para experiencias de IA generativas y conversacionales.
GPT-4o ya está disponible en versión preliminar. Será gratuito para todos los usuarios, y los clientes del sistema de pago seguirán teniendo hasta cinco veces los límites de capacidad de los usuarios gratuitos, indicó la compañía.
En particular, GPT-4o introduce capacidades de reconocimiento de emociones, una característica que ha suscitado controversia dentro de la comunidad investigadora de IA. En los demos dados a conocer, mostró ser capaz de mantener conversaciones en tiempo real de manera convincente.
"GPT-40 responde instantáneamente a las indicaciones verbales con una voz amigable que suena extrañamente como Scarlett Johansson, quien prestó su voz a la asistente de IA en el largometraje Her. Según los demos, esta tecnología esencialmente hace que esa película sea una realidad. El discurso de GPT-4o tiene una entonación emocional, mostrando emoción en algunos momentos y riéndose en otros. Además, también puede identificar la emoción y el tono en el discurso de los usuarios". --Maxwell Zeff, de Gizmodo
Antes del anuncio de Google
OpenAI hizo hincapié en las nuevas capacidades de percepción de voz y visión de ChatGPT impulsado por GPT-4o. Las demostraciones mostraron la capacidad del modelo para interpretar escenas a través de una cámara o para extraer de imágenes datos complejos, como ecuaciones lineales y líneas de código.
La GPT Store, que antes estaba disponible para los usuarios premium, ahora también es accesible para los usuarios gratuitos, y ofrece aplicaciones de IA generativa adaptadas a casos de uso específicos.
Además, OpenAI presentó una versión de escritorio de ChatGPT para macOS, con planes para una versión de Windows en un futuro próximo.
El evento de OpenAI ocurrió un día antes de la conferencia anual de desarrolladores de Google, el Google I/O, en la que el gigante de Mountain View anunció las actualizaciones de su modelo Gemini AI. Al igual que el nuevo GPT-4o, Gemini de Google también es multimodal, lo que significa que puede interpretar y generar texto, imágenes y audio.