OpenAI Revoluciona el Razonamiento con los Nuevos Modelos o3 y o4-mini

OpenAI presentó hoy los modelos o3 y o4-mini, que se suman a su gama de modelos de lenguaje optimizados para el razonamiento. Este lanzamiento coincide con informes sobre la posible adquisición de Windsurf por 3 mil millones de dólares. Windsurf, conocido oficialmente como Exafunction Inc., ofrece herramientas populares para la programación de inteligencia artificial, utilizando modelos de OpenAI para mejorar algunas de sus funcionalidades.

Avances en el Razonamiento con el Modelo o3

El nuevo algoritmo o3, desarrollado por el creador de ChatGPT, se considera el modelo de razonamiento más avanzado hasta la fecha. Este modelo ha establecido nuevos récords en varias pruebas de rendimiento de inteligencia artificial, destacándose en evaluaciones como SWE-bench, que mide la capacidad de codificación al exigir que los modelos resuelvan problemas en proyectos de código abierto. En otra evaluación llamada MMMLU, o3 también brilló, enfrentándose a preguntas de nivel universitario en áreas como ciencia y negocios.

Una de las características que contribuyen a la calidad de salida de o3 es su capacidad para manejar herramientas de manera más efectiva. Esto significa que el modelo puede utilizar sistemas externos, como editores de código y motores de búsqueda, para realizar tareas que no podría completar por sí solo. Según OpenAI, o3 puede analizar y generar imágenes, ejecutar código en Python, buscar información en la web e interactuar con herramientas personalizadas a través de una interfaz de programación de aplicaciones (PAI). En pruebas realizadas por evaluadores externos, o3 mostró un 20% menos de errores críticos en tareas desafiantes en comparación con su predecesor, el modelo o1.

Eficiencia y Rendimiento del Modelo o4-mini

El o4-mini, el otro modelo lanzado hoy, comparte muchas características del o3, pero su menor tamaño implica un conjunto reducido de tareas que se pueden completar más rápidamente y de manera más rentable. OpenAI indica que esta eficiencia permitirá establecer límites de uso significativamente más altos que los de o3. Las evaluaciones internas sugieren que o4-mini es particularmente eficaz en tareas relacionadas con matemáticas, programación e información visual. Sin utilizar herramientas, este modelo puede superar a o3 en las pruebas AIME 2024 y AIME 2025, que son exámenes eliminatorios para la Olimpiada de Matemáticas de EE. UU. Además, en evaluaciones de expertos, o4-mini supera a su predecesor, o3-mini, en tareas no STEM y en áreas como la ciencia de datos.

Nuevas Iniciativas y Adquisiciones en el Horizonte

Además de estos modelos, OpenAI lanzó un nuevo proyecto de código abierto llamado Codex CLI, un agente de IA optimizado para tareas de programación que los desarrolladores pueden ejecutar en sus computadoras a través de la terminal. Este enfoque permite la ejecución de scripts sin necesidad de navegar por interfaces gráficas.

Las ambiciones de OpenAI en el ámbito de los asistentes de programación podrían ir más allá de los agentes de programación de código abierto. Fuentes cercanas al asunto han informado que la empresa está en negociaciones para adquirir Windsurf, con un acuerdo que podría alcanzar los 3 mil millones de dólares. Windsurf, anteriormente conocido como Codeium, proporciona un asistente de programación basado en IA que genera nuevo código, explica código existente y realiza tareas relacionadas. Su asistente se integra en editores de código populares mediante plugins y también ofrece su propio editor diseñado para ayudar a los desarrolladores a incorporar IA en su trabajo.