Dernier test de référence OpenAI: les capacités de programmation de l'IA atteignent un quart d'humains, montrant des limites - Articles AI

Auteur：Eve Cole Date de mise à jour：2025-05-27 12:25:02

OpenAI a récemment publié un rapport d'évaluation sur les capacités de programmation de l'IA, révélant l'état actuel de l'IA dans le domaine du développement de logiciels grâce à un projet de développement réel de 1 million de dollars. La référence, appelée Swe-Lancer, couvre 1 400 projets réels d'UPWORK, évalue de manière approfondie les performances de l'IA dans le développement direct et la gestion de projet. Ce test démontre non seulement le potentiel de l'IA dans les tâches de programmation, mais fournit également une référence importante pour le développement technologique futur.

Les résultats des tests montrent que le modèle d'IA le plus performant, Claude3.5SONNET, avait un taux de réussite de 26,2% dans les tâches de codage et 44,9% dans la prise de décision en gestion de projet. Bien que cette réalisation soit encore loin de celle des développeurs humains, il a montré un potentiel considérable en termes d'avantages économiques. En particulier dans l'ensemble de données de diamants public, le modèle est en mesure de compléter 208 050 $ en développement de projets. S'il est étendu à un ensemble de données complet, l'IA devrait gérer les tâches d'une valeur de plus de 400 000 $, ce qui offre aux entreprises la possibilité d'économiser beaucoup de coûts dans le développement de logiciels.

Cependant, la recherche révèle également les limites évidentes de l'IA dans les tâches de développement complexes. Bien que l'IA soit compétente pour des corrections de bogues simples, telles que la correction des appels API redondants, il fonctionne mal lorsqu'il est confronté à des projets complexes qui nécessitent une compréhension approfondie et des solutions complètes, telles que le développement de fonctionnalités de lecture vidéo multiplateforme. Il est particulièrement remarquable que l'IA peut souvent identifier les codes de problème, mais il est difficile de comprendre la cause profonde et de fournir des solutions complètes. Cela montre que l'application de l'IA dans le développement de logiciels nécessite toujours d'autres percées technologiques.

Pour promouvoir la recherche dans ce domaine, OpenAI a ouvert le jeu de données de diamants Swe-Lancer et des outils connexes sur GitHub, permettant aux chercheurs d'évaluer les performances de divers modèles de programmation basés sur des normes unifiées. Cette décision fournit non seulement une référence importante pour l'amélioration supplémentaire des capacités de programmation de l'IA, mais fournit également des ressources précieuses pour la communauté mondiale des développeurs et favorise les progrès technologiques communs.