OpenAI lance Swe-Lancer Benchmark: Évaluation des performances du modèle des travaux d'ingénierie de logiciels libres du monde réel - Articles AI

Auteur：Eve Cole Date de mise à jour：2025-05-28 00:25:01

Dans le domaine de l'ingénierie logicielle, alors que les défis continuent d'évoluer, les méthodes d'analyse comparative traditionnelles semblent sans scrupule. Le travail de génie logiciel indépendant est complexe et varié, et c'est bien plus qu'une simple tâche de codage isolée. Les ingénieurs indépendants doivent gérer l'intégralité de la base de code, intégrer plusieurs systèmes et répondre aux besoins complexes des clients. Les méthodes d'évaluation traditionnelles se concentrent généralement sur les tests unitaires et ne peuvent pas pleinement refléter l'impact économique réel des performances et des solutions complètes. Par conséquent, il est particulièrement important de développer des méthodes d'évaluation plus réalistes.

À cette fin, OpenAI a lancé Swe-Lancer, une référence pour les évaluations des performances du modèle pour les efforts d'ingénierie logicielle libre du monde réel. La référence est basée sur plus de 1 400 tâches indépendantes de l'UPWORK et de la dépense des référentiels, avec un paiement total de 1 million de dollars. Ces tâches peuvent être trouvées dans tout, des petites corrections de bogues aux implémentations de fonction à grande échelle. Swe-Lancer vise à évaluer les correctifs de code individuels et à gérer les décisions, exigeant que le modèle sélectionne la meilleure proposition parmi plusieurs options. Cette approche reflète mieux le double rôle de la véritable équipe d'ingénierie.

L'un des grands avantages de Swe-Lancer est l'utilisation de tests de bout en bout plutôt que de tests unitaires cloisonnés. Ces tests ont été soigneusement conçus et vérifiés par des ingénieurs logiciels professionnels pour simuler l'ensemble du flux de travail de l'utilisateur à partir de l'identification des problèmes, du débogage de la vérification des correctifs. En utilisant une image Docker unifiée pour l'évaluation, l'analyse comparative garantit que chaque modèle est testé dans les mêmes conditions contrôlées. Ce cadre de test rigoureux permet de révéler si la solution du modèle est suffisamment robuste pour un déploiement pratique.

Les détails techniques de Swe-Lancer sont intelligemment conçus pour vraiment refléter la situation réelle de la pige. Les tâches nécessitent des modifications à plusieurs fichiers et intégration avec l'API, impliquant des plates-formes mobiles et Web. En plus de générer des correctifs de code, le modèle doit également examiner et sélectionner une proposition de concours. Cette double focus sur la technologie et les compétences de gestion reflète les véritables responsabilités d'un ingénieur logiciel. Dans le même temps, les outils utilisateur inclus simulent l'interaction réelle de l'utilisateur, améliorant davantage l'évaluation et encourageant le débogage itératif et l'ajustement.

Grâce aux résultats de Swe-Lancer, les chercheurs ont une compréhension approfondie des capacités des modèles de langage actuels dans le domaine de l'ingénierie logicielle. Dans les tâches de contribution individuelles, les taux de réussite de modèles tels que GPT-4O et Claude3.5SONNET étaient respectivement de 8,0% et 26,2%. Dans la tâche de gestion, le modèle le plus performant a atteint un taux de réussite de 44,9%. Ces données suggèrent que si les modèles de pointe peuvent fournir des solutions prometteuses, il y a encore beaucoup de place à amélioration.

Papier: https://arxiv.org/abs/2502.12115

Points clés:

** Méthode d'évaluation innovante **: La référence Swe-Lancer fournit une évaluation des performances du modèle plus authentique à travers des tâches indépendantes réelles.

** Test multidimensionnel **: Utilisez des tests de bout en bout au lieu des tests unitaires pour mieux refléter la complexité des ingénieurs logiciels dans le travail réel.

** Améliorer le potentiel **: Bien que les modèles existants fonctionnent bien, il y a encore de la place à l'amélioration grâce à plus d'expérimentation et de ressources informatiques.