El Codex de OpenAI forma parte de una nueva cohorte de herramientas de codificación agentic

Hay ingenieros que ya no abren su IDE. Solo asignan tareas y dejan que la IA programe. Codex lo hace por ellos. Así se construye software en 2025.

20 de mayo de 2025 por

Sergio Esteban

El viernes pasado, OpenAI presentó un nuevo sistema de codificación llamado Codex, diseñado para realizar tareas de programación complejas a partir de comandos de lenguaje natural. Codex convierte a OpenAI en una nueva cohorte de herramientas de codificación agentic que está empezando a tomar forma.

Desde los primeros Copilot de GitHub hasta herramientas contemporáneas como Cursor y Windsurf, la mayoría de los asistentes de codificación de IA funcionan como una forma excepcionalmente inteligente de autocompletar. Las herramientas generalmente viven en un entorno de desarrollo integrado y los usuarios interactúan directamente con el código generado por IA. La posibilidad de simplemente asignar una tarea y volver cuando esté terminada está en gran medida fuera de nuestro alcance.

Pero estas nuevas herramientas de codificación agentica, lideradas por productos como Devin, SWE-Agent, OpenHandsy el ya mencionado OpenAI Codex, están diseñados para funcionar sin que los usuarios tengan que ver el código. El objetivo es funcionar como el gerente de un equipo de ingeniería, asignando problemas a través de sistemas de trabajo como Asana o Slack y verificando cuando se ha llegado a una solución.

Para los creyentes en formas de IA altamente capaces, es el siguiente paso lógico en una progresión natural de automatización que se hace cargo de más y más trabajo de software.

"Al principio, la gente solo escribía código presionando cada pulsación de tecla", explica Kilian Lieret, investigador de Princeton y miembro del equipo SWE-Agent. "GitHub Copilot fue el primer producto que ofrecía autocompletado real, que es una especie de etapa dos. Todavía estás absolutamente al tanto, pero a veces puedes tomar un atajo".

El objetivo de los sistemas agenticos es ir más allá de los entornos de desarrollo por completo, en lugar de presentar a los agentes de codificación un problema y dejar que lo resuelvan por sí mismos. "Llevamos las cosas a la capa de gestión, donde simplemente asigno un informe de error y el bot intenta solucionarlo de forma completamente autónoma", dice Lieret.

Es un objetivo ambicioso y, hasta ahora, ha resultado difícil.

Después de que Devin estuviera disponible para el público en general a finales de 2024, atrajo críticas mordaces de los expertos de YouTube, así como una crítica más mesurada de uno de los primeros clientes de Answer.AI. La impresión general fue familiar para los veteranos de la codificación de vibraciones: con tantos errores, supervisar los modelos requiere tanto trabajo como hacer la tarea manualmente. (Si bien el lanzamiento de Devin ha sido un poco difícil, no ha impedido que los recaudadores de fondos reconozcan el potencial: en marzo, la empresa matriz de Devin, Cognition AI, recaudó cientos de millones de dólares con una valoración de $ 4 mil millones).

Incluso los partidarios de la tecnología advierten contra la codificación de vibraciones no supervisada, ya que ven a los nuevos agentes de codificación como elementos poderosos en un proceso de desarrollo supervisado por humanos.

"En este momento, y yo diría que en el futuro previsible, un humano tiene que intervenir en el momento de la revisión del código para ver el código que se ha escrito", dice Robert Brennan, CEO de All Hands AI, que mantiene OpenHands. "He visto a varias personas meterse en un lío simplemente aprobando automáticamente cada bit de código que escribe el agente. Se nos va de las manos rápidamente".

Las alucinaciones también son un problema constante. Brennan recuerda un incidente en el que, cuando se le preguntó sobre una API que se había lanzado después del corte de datos de entrenamiento del agente de OpenHands, el agente fabricó detalles de una API que se ajustaba a la descripción. All Hands AI dice que está trabajando en sistemas para atrapar estas alucinaciones antes de que puedan causar daño, pero no hay una solución simple.

Podría decirse que la mejor medida del progreso de la programación agentica son las tablas de clasificación de SWE-Bench, donde los desarrolladores pueden probar sus modelos contra un conjunto de problemas no resueltos de repositorios abiertos de GitHub. OpenHands ocupa actualmente el primer lugar en la tabla de clasificación verificada, resolviendo el 65,8% del conjunto de problemas. OpenAI afirma que uno de los modelos que impulsan Codex, codex-1, puede hacerlo mejor, enumerando una puntuación del 72,1% en su anuncio, aunque la puntuación viene con algunas advertencias y no ha sido verificada de forma independiente.

La preocupación entre muchos en la industria tecnológica es que las altas puntuaciones de referencia no se traducen necesariamente en una codificación agentica verdaderamente no intervencionista. Si los codificadores agenticos solo pueden resolver tres de cada cuatro problemas, van a requerir una supervisión significativa por parte de los desarrolladores humanos, especialmente cuando se abordan sistemas complejos con múltiples etapas.

Al igual que la mayoría de las herramientas de IA, se espera que las mejoras en los modelos básicos se produzcan a un ritmo constante, lo que finalmente permitirá que los sistemas de codificación agentic se conviertan en herramientas de desarrollo fiables. Pero encontrar formas de manejar las alucinaciones y otros problemas de confiabilidad será crucial para lograrlo.

"Creo que hay un poco de efecto de barrera de sonido", dice Brennan. "La pregunta es, ¿cuánta confianza puedes transferir a los agentes, para que al final del día te quiten más trabajo?"

# IA

Sergio Esteban 20 de mayo de 2025

Archivo

Leer siguiente

¿Qué es Geotécnica y por que es crucial en la Ingeniería Suelos?

El Codex de OpenAI forma parte de una nueva cohorte de herramientas de codificación agentic

Compartir

Etiquetas

Archivo

Síganos