ChatGPT y su nueva herramienta de análisis de imágenes

El universo de la inteligencia artificial no para de crecer y por lo pronto parece no tener límites. Es así como OpenAI, la reconocida compañía de inteligencia artificial, presentó el modelo GPT 4 Turbo, su más reciente versión del motor de IA generativa, un modelo que la compañía ha señalado como ‘más capaz’ y ‘más económico’ que su versión anterior, el GPT 4, y el cual permite analizar imágenes y responder preguntas sobre ellas, gracias a que incorpora, tanto el procesamiento del lenguaje natural, como la comprensión visual.

Los suscriptores pagos de ChatGPT, así como los desarrolladores, ya pueden hacer uso de ésta actualización mediante la interfaz de programación de aplicaciones (API por sus siglas en inglés), con herramientas de Visión, las cuales permiten el análisis de imágenes. Asimismo, la firma tecnológica indicó haber puesto especial atención en mejorar las capacidades en escritura, matemáticas, razonamiento lógico y codificación. (Lee también: “Piensa antes de publicar”: campaña por el uso responsable del internet).

El GPT-4 Turbo, un modelo multimodal grande (LMM por sus siglas en inglés), está actualizado con información nueva hasta abril de 2023, en comparación con la versión gratuita de ChatGPT 3.5, la cual lo está hasta enero de 2022.

Novedades

Entre las nuevas características que incluye el modelo más reciente de OpenAI, los expertos destacan la ampliación en la ventana de contexto, en la cual han pasado de 32.000 a 128.000 tokens. Esto quiere decir que la nueva versión es capaz de recibir mayor información y responder más rápido, al tiempo que la inteligencia artificial generativa puede acceder a los datos almacenados que han sido suministrados por el usuario anteriormente para mejorar sus respuestas. La ampliación de tokens, que pueden ser una palabra o, en ocasiones, una porción de una palabra, equivale a más de 300 páginas de texto en un solo mensaje.

“Seguimos invirtiendo en mejorar nuestros modelos y esperamos ver lo que ustedes hacen. Si aún no lo han probado, GPT-4 Turbo está disponible en ChatGPT Plus, Team, Enterprise y API”, escribió OpenAI en su cuenta de X (antes Twitter). Por su parte, en el comunicado de lanzamiento de la plataforma, hablan en detalle sobre el funcionamiento de lenguaje de IA y la aplicación de la herramienta Vision, explicando cómo gracias a la incorporación del procesamiento del lenguaje textual y la comprensión visual, es capaz de analizar imágenes y proporcionar respuestas textuales a cuestionamientos sobre las mismas.

Ejemplos

En la misma publicación de X, OpenAI también destacó los casos reales de desarrolladores, quienes han utilizado con éxito las capacidades del lenguaje de inteligencia artificial de la compañía. Es el caso de Healthify, una aplicación impulsada por el modelo más reciente en conjunto con la herramienta de Vision, para que a partir de las imágenes suministradas de las comidas del usuario, éste pueda recibir información nutricional al respecto.

Mientras se proporciona al modelo de chat información más detallada sobre el texto visible en la imagen y las ubicaciones de los objetos, la integración de reconocimiento óptico de caracteres (OCR por sus siglas en inglés) permite al modelo generar respuestas de mayor calidad para textos densos, imágenes transformadas y documentos financieros con gran cantidad de números, al tiempo que abarca una gama más amplia de idiomas. Por su parte, señalan que la integración de contextualización de objeto aporta una nueva capa al análisis de datos y a la interacción del usuario, detallando que la plataforma puede distinguir y resaltar visualmente elementos importantes en las imágenes que procesa.

En cuanto a la competencia de OpenAI, Google, recientemente presentó las nuevas características de su asistente de inteligencia artificial generativa Gemini 1.5 Pro, una versión mejorada, capaz de procesar audio y otras mejoras que los desarrolladores podrán utilizar. Durante la presentación, realizada en medio de su evento ‘Cloud Next 2024′, la gigante tecnológica también entregó más información sobre ‘Vids’, una nueva herramienta de creación de videos para su suite de Workspace enfocada en el sector empresarial.