Récemment, les chercheurs d'OpenAI ont admis dans un article récemment publié que, bien que la technologie de l'IA actuelle soit assez avancée, ces modèles sont toujours incomparables pour les programmeurs humains. Le PDG d'OpenAI, Sam Altman, a déclaré que l'IA devrait vaincre les ingénieurs logiciels "de bas niveau" d'ici la fin de cette année, mais les résultats de la recherche montrent que ces modèles d'IA sont toujours confrontés à des défis importants.

Dans l'étude, l'équipe OpenAI a utilisé une nouvelle référence appelée Swe-Lancer pour évaluer les performances de plus de 1 400 tâches d'ingénierie logicielle extraites du site Web Freelance Upwork. Le test s'est concentré sur les capacités de codage de trois modèles de grande langue (LLMS), y compris le modèle d'inférence O1 d'OpenAI, le GPT-4O phare et Claude3.5Sonnet d'Anthropic.
Ces modèles sont nécessaires pour effectuer deux types de tâches: l'une est une seule tâche, qui se concentre principalement sur la fixation des erreurs dans le programme; L'autre consiste à gérer les tâches, ce qui nécessite que le modèle prenne des décisions de niveau supérieur. Pendant le processus de test, ces modèles n'ont pas accès à Internet, ce qui signifie qu'ils ne peuvent pas trouver directement des réponses en ligne.
Bien que la valeur totale des tâches entreprend que ces modèles entreprennent soit aussi élevée que des centaines de milliers de dollars, ils ne peuvent résoudre que des problèmes superficiels et rendre difficile la recherche d'erreurs et de causes profondes plus profondes dans des projets complexes. Cette situation vous rappelle l'expérience de l'utilisation de l'IA: bien que l'IA puisse générer rapidement des informations apparemment correctes, elle révèle souvent des lacunes dans les tests plus profonds.
Le document souligne que si ces trois LLM sont beaucoup plus rapides que les humains dans les tâches de traitement, ils ne comprennent souvent pas pleinement la largeur et le contexte des erreurs, ce qui conduit aux solutions qu'elles offrent souvent inexactes ou suffisamment incomplètes. Les chercheurs ont déclaré que Claude3.5SONNET avait mieux performé que les deux modèles d'Openai et avait gagné des rendements plus élevés, mais que ses réponses n'étaient toujours pas aussi précises qu'elles pouvaient l'être.
La recherche montre que bien que ces modèles d'IA avancés puissent fonctionner rapidement sur certaines tâches spécifiques, elles sont toujours insuffisantes dans les capacités globales d'ingénierie logicielle et sont loin d'atteindre le niveau qui peut remplacer les programmeurs humains. Cependant, cela n'a pas empêché certaines entreprises de remplacer les programmeurs humains par des modèles d'IA immatures.
Points clés:
La recherche OpenAI montre que les modèles d'IA avancés sont toujours à la traîne des programmeurs humains dans les capacités de codage.
Les trois modèles d'IA fonctionnent mal dans la fixation des erreurs de codage et sont difficiles à résoudre des problèmes complexes.
Malgré leur IA rapide, leur manque de compréhension globale a conduit à une précision insuffisante dans les solutions.