Последний тест OpenAI: возможности программирования AI достигают четверти людей, показывая ограничения - статьи AI

Автор：Eve Cole Время обновления：2025-05-27 12:25:02

Openai недавно опубликовал отчет об оценке по возможностям программирования ИИ, выявив текущее состояние ИИ в области разработки программного обеспечения с помощью фактического проекта разработки в размере 1 миллиона долларов. Трингм, называемый Swe-Lancer, охватывает 1400 реальных проектов от Upwork, всесторонне оценивает эффективность ИИ как в прямом развитии, так и в управлении проектами. Этот тест не только демонстрирует потенциал ИИ в задачах программирования, но также обеспечивает важную ссылку для будущего технологического развития.

Результаты теста показывают, что наиболее эффективная модель ИИ, Claude3.5sonnet, имела успех 26,2% в задачах кодирования и 44,9% при принятии решений управлением проектами. Хотя это достижение все еще далека от достижения человеческих разработчиков, оно продемонстрировало значительный потенциал с точки зрения экономических выгод. Особенно в общедоступном наборе данных Diamond, модель может заполнить 208 050 долларов в разработке проектов. Если ожидается, что если он распространяется на полный набор данных, AI будет выполнять задачи на сумму более 400 000 долларов, что дает возможность предприятиям сэкономить много затрат на разработку программного обеспечения.

Тем не менее, исследования также выявляют очевидные ограничения ИИ в сложных задачах развития. Хотя ИИ компетентен для простых исправлений ошибок, таких как исправление избыточных вызовов API, он работает плохо при столкновении с сложными проектами, которые требуют глубокого понимания и комплексных решений, таких как разработка функций воспроизведения видеоплатформы. Особенно примечательно, что ИИ часто может идентифицировать коды проблем, но трудно понять основную причину и обеспечить комплексные решения. Это показывает, что применение ИИ в разработке программного обеспечения по -прежнему требует дальнейших технологических прорывов.

Чтобы продвигать исследования в этой области, OpenAI получил набор данных Diamond Swe-Lancer Diamond и связанные инструменты на GitHub, что позволяет исследователям оценивать производительность различных моделей программирования на основе унифицированных стандартов. Этот шаг не только обеспечивает важную ссылку на дальнейшее улучшение возможностей программирования ИИ, но и обеспечивает ценные ресурсы для глобального сообщества разработчиков и способствует общему технологическому прогрессу.