A OpenAI divulgou recentemente um relatório de avaliação sobre os recursos de programação da IA, revelando o status atual da IA no campo do desenvolvimento de software através de um projeto de desenvolvimento real de US $ 1 milhão. O benchmark, chamado SWE-Lancer, abrange 1.400 projetos reais da Upwork, avalia de maneira abrangente o desempenho da IA no desenvolvimento direto e no gerenciamento de projetos. Este teste não apenas demonstra o potencial da IA nas tarefas de programação, mas também fornece uma referência importante para o desenvolvimento tecnológico futuro.
Os resultados dos testes mostram que o modelo de IA com melhor desempenho, Claude3.5Sonnet, teve uma taxa de sucesso de 26,2% nas tarefas de codificação e 44,9% na tomada de decisões de gerenciamento de projetos. Embora essa conquista ainda esteja longe da dos desenvolvedores humanos, mostrou um potencial considerável em termos de benefícios econômicos. Especialmente no conjunto de dados público de diamantes, o modelo pode concluir US $ 208.050 em desenvolvimento de projetos. Se estendido a um conjunto de dados completo, a IA deve lidar com tarefas no valor de mais de US $ 400.000, o que fornece a possibilidade de as empresas economizarem muito custo no desenvolvimento de software.

No entanto, a pesquisa também revela as limitações óbvias da IA em tarefas complexas de desenvolvimento. Embora a IA seja competente para correções simples de bugs, como corrigir chamadas de API redundantes, ela tem um desempenho ruim quando enfrenta projetos complexos que exigem uma compreensão aprofundada e soluções abrangentes, como o desenvolvimento de recursos de reprodução de vídeo cruzado. É particularmente digno de nota que a IA geralmente pode identificar códigos de problemas, mas é difícil entender a causa raiz e fornecer soluções abrangentes. Isso mostra que a aplicação da IA no desenvolvimento de software ainda requer mais avanços tecnológicos.
Para promover pesquisas nesse campo, o OpenAi abordou o conjunto de dados de diamantes do SWE-Lancer e ferramentas relacionadas no GitHub, permitindo que os pesquisadores avaliem o desempenho de vários modelos de programação baseados em padrões unificados. Esse movimento não apenas fornece uma referência importante para a melhoria adicional dos recursos de programação de IA, mas também fornece recursos valiosos para a comunidade global de desenvolvedores e promove o progresso tecnológico comum.