Недавно исследователи Openai признались в недавно выпущенной статье, что, хотя текущая технология ИИ довольно продвинута, эти модели по -прежнему несравнены с человеческими программистами. Генеральный директор OpenAI Сэм Альтман заявил, что к концу этого года ИИ победит инженеров-программистов «низкого уровня», но результаты исследований показывают, что эти модели ИИ все еще сталкиваются с значительными проблемами.

В исследовании команда OpenAI использовала новый эталон под названием Swe-Lancer для оценки производительности более 1400 задач по разработке программного обеспечения, извлеченных с UPWORK на веб-сайте. Тест был сосредоточен на возможностях кодирования трех крупных языковых моделей (LLMS), в том числе модель вывода OPEAI O1, флагманский GPT-4O и Claude3.5sonnet от Anpropic.
Эти модели необходимы для выполнения двух типов задач: одна - единственная задача, которая в основном фокусируется на исправлении ошибок в программе; Другой-управлять задачами, которые требуют, чтобы модель приняла решения более высокого уровня. В процессе тестирования эти модели не имеют доступа к Интернету, что означает, что они не могут напрямую найти ответы в Интернете.
Хотя общая стоимость задач, которые выполняют эти модели, достигают сотни тысяч долларов, они могут устранять только поверхностные проблемы и затрудняют поиск более глубоких ошибок и коренных причин в сложных проектах. Эта ситуация напоминает вам об использовании ИИ: хотя ИИ может быстро генерировать, казалось бы, правильную информацию, она часто раскрывает недостатки в более глубоком тестировании.
В статье указывается, что, хотя эти три LLM намного быстрее, чем люди в обработке, они часто не могут полностью понять широкость и контекст ошибок, что приводит к решениям, которые они дают, часто неточные или достаточно неполные. Исследователи сказали, что Claude3.5sonnet работал лучше, чем две модели Openai, и заработал более высокую доходность, но его ответы все еще не были настолько точными, как могли бы.
Исследования показывают, что, хотя эти передовые модели ИИ могут быстро работать по определенным конкретным задачам, их по -прежнему недостаточны в общих возможностях разработки программного обеспечения и далеки от достижения уровня, который может заменить человеческих программистов. Тем не менее, это не помешало некоторым компаниям заменить человеческих программистов незрелыми моделями ИИ.
Ключевые моменты:
Eppenai Исследования показывают, что передовые модели ИИ все еще отстают от людей -программистов в возможностях кодирования.
Три модели ИИ плохо работают при исправлении ошибок кодирования и их трудно решить сложные задачи.
Несмотря на их быстрый ИИ, их отсутствие всестороннего понимания привело к недостаточной точности в решениях.