소프트웨어 엔지니어링 분야에서 도전이 계속 발전함에 따라 전통적인 벤치마킹 방법은 부도덕 한 것처럼 보입니다. 프리랜서 소프트웨어 엔지니어링 작업은 복잡하고 다양하며 단순히 고립 된 코딩 작업 이상입니다. 프리랜서 엔지니어는 전체 코드 기반을 처리하고 여러 시스템을 통합하며 복잡한 고객 요구를 충족해야합니다. 전통적인 평가 방법은 일반적으로 단위 테스트에 중점을두고 전체 스택 성능 및 솔루션의 실제 경제적 영향을 완전히 반영 할 수는 없습니다. 따라서보다 현실적인 평가 방법을 개발하는 것이 특히 중요합니다.
이를 위해 OpenAi는 실제 무료 소프트웨어 엔지니어링 노력을위한 모델 성능 평가를위한 벤치 마크인 SWE-LANCER를 출시했습니다. 벤치 마크는 Upwork 및 Expensify 리포지토리의 1,400 개 이상의 프리랜서 작업을 기반으로 총 1 백만 달러의 지불금을 기반으로합니다. 이러한 작업은 작은 버그 수정에서 대규모 기능 구현에 이르기까지 모든 것을 찾을 수 있습니다. SWE-LANCER는 개별 코드 패치를 평가하고 결정을 관리하는 것을 목표로하며, 모델은 여러 옵션에서 최상의 제안을 선택해야합니다. 이 접근법은 실제 엔지니어링 팀의 이중 역할을 더 잘 반영합니다.
SWE-Lancer의 큰 장점 중 하나는 사일로의 단위 테스트보다는 엔드 투 엔드 테스트를 사용하는 것입니다. 이러한 테스트는 전문 소프트웨어 엔지니어가 신중하게 설계 및 검증하여 전체 사용자 워크 플로우를 문제 식별에서 시뮬레이션하여 패치 검증으로 디버깅합니다. 벤치마킹은 평가를 위해 통합 Docker 이미지를 사용하여 각 모델이 동일한 제어 조건에서 테스트되도록합니다. 이 엄격한 테스트 프레임 워크는 모델 솔루션이 실제 배포에 충분히 강력한 지 여부를 밝히는 데 도움이됩니다.
SWE-Lancer의 기술적 세부 사항은 프리 랜싱의 실제 상황을 진정으로 반영하도록 영리하게 설계되었습니다. 작업에는 여러 파일을 수정하고 모바일 및 웹 플랫폼과 관련된 API와의 통합이 필요합니다. 코드 패치를 생성하는 것 외에도이 모델은 경쟁 제안서를 검토하고 선택해야합니다. 기술 및 관리 기술에 대한 이러한 이중 초점은 소프트웨어 엔지니어의 진정한 책임을 반영합니다. 동시에 포함 된 사용자 도구는 실제 사용자 상호 작용을 시뮬레이션하여 평가를 강화하고 반복 디버깅 및 조정을 장려합니다.
SWE-Lancer 결과를 통해 연구원들은 소프트웨어 엔지니어링 분야에서 현재 언어 모델의 기능을 심도있게 이해하고 있습니다. 개별 기여 작업에서, GPT-4O 및 Claude3.5Sonnet과 같은 모델의 패스 속도는 각각 8.0% 및 26.2%였다. 관리 작업에서 최상의 성과 모델은 44.9%의 패스 속도를 달성했습니다. 이 데이터는 최첨단 모델이 유망한 솔루션을 제공 할 수 있지만 개선의 여지가 여전히 많다는 것을 시사합니다.
종이 : https://arxiv.org/abs/2502.12115
핵심 사항 :
** 혁신적인 평가 방법 ** : SWE-Lancer 벤치 마크는 실제 프리 랜싱 작업을 통해보다 확실한 모델 성능 평가를 제공합니다.
** 다차원 테스트 ** : 실제 작업에서 소프트웨어 엔지니어의 복잡성을 더 잘 반영하기 위해 단위 테스트 대신 엔드 투 엔드 테스트를 사용합니다.
** 잠재력 향상 ** : 기존 모델은 잘 수행되지만 더 많은 실험 및 컴퓨팅 리소스를 통해 개선의 여지가 있습니다.