Operai Última prueba de referencia: las capacidades de programación de IA alcanzan una cuarta parte de los humanos, que muestran limitaciones - Artículos de IA

Autor：Eve Cole Fecha de actualización：2025-05-27 12:25:02

Operai publicó recientemente un informe de evaluación sobre las capacidades de programación de IA, revelando el estado actual de la IA en el campo del desarrollo de software a través de un proyecto de desarrollo real de $ 1 millón. El punto de referencia, llamado Swe-Lancer, cubre 1,400 proyectos reales de Upwork, evalúa exhaustivamente el desempeño de la IA tanto en el desarrollo directo como en la gestión de proyectos. Esta prueba no solo demuestra el potencial de la IA en las tareas de programación, sino que también proporciona una referencia importante para el desarrollo tecnológico futuro.

Los resultados de las pruebas muestran que el modelo de IA de mejor rendimiento, Claude3.5sonnet, tenía una tasa de éxito del 26.2% en tareas de codificación y 44.9% en la toma de decisiones de gestión de proyectos. Aunque este logro aún está lejos del de los desarrolladores humanos, ha mostrado un potencial considerable en términos de beneficios económicos. Especialmente en el conjunto de datos de diamantes públicos, el modelo puede completar $ 208,050 en el desarrollo de proyectos. Si se extiende a un conjunto de datos completo, se espera que la IA maneje las tareas por valor de más de $ 400,000, lo que proporciona la posibilidad de que las empresas ahorren muchos costos en el desarrollo de software.

Sin embargo, la investigación también revela las limitaciones obvias de la IA en las tareas de desarrollo complejas. Aunque la IA es competente para soluciones simples de errores, como la reparación de llamadas de API redundantes, funciona mal cuando se enfrentan a proyectos complejos que requieren una comprensión profunda y soluciones integrales, como el desarrollo de características de reproducción de video multiplataforma. Es particularmente notable que la IA a menudo puede identificar códigos problemáticos, pero es difícil comprender la causa raíz y proporcionar soluciones integrales. Esto muestra que la aplicación de IA en el desarrollo de software aún requiere más avances tecnológicos.

Para promover la investigación en este campo, OpenAI ha abierto el conjunto de datos de diamantes Swe-Lancer y las herramientas relacionadas en GitHub, lo que permite a los investigadores evaluar el rendimiento de varios modelos de programación basados en estándares unificados. Este movimiento no solo proporciona una referencia importante para la mejora adicional de las capacidades de programación de IA, sino que también proporciona recursos valiosos para la comunidad de desarrolladores globales y promueve el progreso tecnológico común.