GPT-4 y el reconocimiento de imágenes: ¿Cómo será posible analizar fotos con ChatGPT?

Cuando OpenAI anunció GPT-4, la nueva versión del modelo de lenguaje natural que está detrás de herramientas como ChatGPT y del nuevo Bing de Microsoft, usuarios de todo el mundo se maravillaron al descubrir sus múltiples novedades. Entre ellas, quizá la más llamativa se la anunciada capacidad de analizar y entregar descripciones de imágenes.

En las demostraciones que incluyó el evento de presentación se vio cómo GPT-4 es capaz, incluso, de identificar, en un meme o una imagen chistosa, las razones que la hacen graciosa. El humor, es bien sabido, ha sido por años uno de los retos por conquistar para la IA.

GTP-4 permite que ChatGPT 'entienda' cosas que no son evidentes en la imagen, pero que sí son implícitas, lo que requiere extrapolar consideraciones de causa y efecto. Hasta ahora solo los humanos lograban entender, por ejemplo, que la foto de una calle anegada, implica que probablemente llovió copiosamente hace poco tiempo.

¿Está disponible el análisis de imágenes de ChatGPT?

Aunque durante el lanzamiento de GPT-4 se mencionó la posibilidad de analizar imágenes, y en la publicación de OpenAI se hace referencia a casos de uso, como el de la start-up danesa Be my Eyes, lo cierto es que esta función todavía no está disponible para los particulares.

Sin embargo, la compañía mostró algunas aplicaciones posibles a esta tecnología. En una demostración, ChatGPT fue capaz de analizar imágenes por medio de bots en Discord, un popular programa de mensajería.

"GPT-4 puede aceptar una entrada de texto e imágenes, lo que -paralelamente a la configuración de sólo texto- permite al usuario especificar cualquier tarea de visión o lenguaje. En concreto, genera salidas de texto (lenguaje natural, código, etc.) a partir de entradas compuestas por texto e imágenes intercalados." –OpenAI

Esto significa que el análisis de imágenes podrá ser aplicado por distintas compañías e individuos para ser integrado en otras aplicaciones diferentes a ChatGPT y sin necesidad de entrar directamente a la página.

Pese a esto, también es probable que ChatGPT tenga una actualización considerable para aceptar imágenes dentro de la plataforma, muy seguramente en la forma de adjuntos a una conversación en la que se podrán basar los comandos que se ingresen a la aplicación.

De hecho, ya hemos visto primeras aplicaciones de esta tecnología utilizada de la mano con Microsoft para mejorar la accesibilidad de algunos de los sitios web más populares.

Recientemente, Microsoft anunció la capacidad de poder generar descripciones automáticas con base solamente en imágenes. Esta tecnología está implementada en Azure, pero está basada en GPT-4 de OpenAI.

¿Cuándo estará disponible?

Aunque es una de las funciones más llamativas de la nueva versión de GPT-4, OpenAI no ha dado una fecha concreta para su disponibilidad. De hecho, la compañía solamente se ha limitado a decir que la función está disponible por ahora únicamente para fines de investigación.

Pese a esto, es probable que la función llegue en los próximos meses por medio de alternativas diferentes, como el nuevo chat de Bing o las aplicaciones de Microsoft 365 como Word, Excel y PowerPoint.

Ver todos los comentarios en https://www.xataka.com.co

VER 0 Comentario

Portada de Xataka Colombia