В области разработки программного обеспечения, поскольку проблемы продолжают развиваться, традиционные методы сравнительного анализа кажутся недобросовестными. Работа по разработке программного обеспечения Freelance сложна и разнообразна, и это гораздо больше, чем просто изолированная задача кодирования. Фрилансерные инженеры должны обрабатывать всю кодовую базу, интегрировать несколько систем и удовлетворить сложные потребности клиентов. Традиционные методы оценки обычно фокусируются на единичных тестировании и не могут полностью отражать фактическое экономическое воздействие эффективности и решений полного стека. Поэтому особенно важно разработать более реалистичные методы оценки.
С этой целью OpenAI запустила Swe-Lancer, эталон для оценки производительности моделей для реальных усилий по разработке программного обеспечения в реальном мире. Трингм основан на более чем 1400 задачах фриланса из репозиториев Upwork и Expensify, с общей выплатой в размере 1 миллиона долларов. Эти задачи можно найти во всем, от небольших исправлений ошибок до крупномасштабных реализаций функций. Swe-Lancer стремится оценить отдельные исправления кода и управлять решениями, требуя от модели выбрать наилучшее предложение из нескольких вариантов. Этот подход лучше отражает двойную роль настоящей инженерной группы.
Одним из больших преимуществ Swe-Lancer является использование сквозного тестирования, а не силового модульного тестирования. Эти тесты были тщательно спроектированы и проверены профессиональными инженерами -программистами для моделирования всего рабочего процесса пользователя от идентификации проблем, отладки для исправления проверки. Используя унифицированное изображение Docker для оценки, сравнительный анализ гарантирует, что каждая модель тестируется в тех же контролируемых условиях. Эта строгая структура тестирования помогает выявить, является ли модельное решение достаточно надежным для практического развертывания.
Технические детали Swe-Lancer умно разработаны, чтобы по-настоящему отражать фактическую ситуацию фриланса. Задачи требуют модификаций нескольких файлов и интеграции с API с участием мобильных и веб -платформ. В дополнение к созданию патчей кода, модель также должна просмотреть и выбрать предложение по конкуренции. Этот двойной акцент на технологии и навыках управления отражает истинные обязанности инженера -программиста. В то же время включенные пользовательские инструменты моделируют реальное взаимодействие с пользователями, еще больше улучшая оценку и поощрение итеративной отладки и корректировки.
Благодаря результатам SWE-Lancer, исследователи имеют глубокое понимание возможностей современных языковых моделей в области разработки программного обеспечения. В индивидуальных задачах вклада показатели прохождения моделей, таких как GPT-4O и Claude3.5sonnet, составляли 8,0% и 26,2% соответственно. В задаче управления наиболее эффективная модель достигла 44,9%. Эти данные свидетельствуют о том, что, хотя современные модели могут предоставить многообещающие решения, все еще есть много возможностей для улучшения.
Бумага: https://arxiv.org/abs/2502.12115
Ключевые моменты:
** Инновационный метод оценки **: Swe-Lancer Bendchmark обеспечивает более аутентичную оценку производительности модели с помощью реальных задач фриланса.
** Многомерное тестирование **: Используйте сквозное тестирование вместо модульного тестирования, чтобы лучше отражать сложность инженеров-программистов в реальной работе.
** Повышение потенциала **: Хотя существующие модели работают хорошо, все еще есть место для улучшения за счет большего количества экспериментов и вычислительных ресурсов.