Im Bereich der Software -Engineering scheinen sich die Herausforderungen mit der Entwicklung traditioneller Benchmarking -Methoden skrupellose zu ergeben. Freelance Software Engineering Work ist komplex und unterschiedlich und weit mehr als nur eine isolierte Codierungsaufgabe. Freiberufler müssen die gesamte Codebasis bearbeiten, mehrere Systeme integrieren und komplexe Kundenanforderungen entsprechen. Herkömmliche Bewertungsmethoden konzentrieren sich normalerweise auf Unit-Tests und können die tatsächlichen wirtschaftlichen Auswirkungen von Leistung und Lösungen in voller Stapel nicht vollständig widerspiegeln. Daher ist es besonders wichtig, realistischere Bewertungsmethoden zu entwickeln.
Zu diesem Zweck startete OpenAI SWE-LANCER, einen Benchmark für Modellleistungsevaluierungen für reale kostenlose Software-Engineering-Bemühungen. Der Benchmark basiert auf mehr als 1.400 freiberuflichen Aufgaben von Upwork- und Repensify -Repositories mit einer Gesamtzahlung von 1 Million US -Dollar. Diese Aufgaben finden Sie in allem, von kleinen Fehlerbehebungen bis hin zu groß angelegten Funktionen. SWE-LANCER zielt darauf ab, einzelne Code-Patches zu bewerten und Entscheidungen zu verwalten, wobei das Modell den besten Vorschlag aus mehreren Optionen auswählen muss. Dieser Ansatz spiegelt besser die doppelte Rolle des Real Engineering -Teams wider.
Einer der großen Vorteile von SWE-Lancer ist die Verwendung von End-to-End-Tests anstelle von Saug-Unit-Tests. Diese Tests wurden sorgfältig von professionellen Software -Ingenieuren entworfen und verifiziert, um den gesamten Benutzer -Workflow von der Problemidentifikation zu simulieren, debuggen bis hin zur Patch -Überprüfung. Durch die Verwendung eines einheitlichen Docker -Images zur Bewertung stellt Benchmarking sicher, dass jedes Modell unter denselben kontrollierten Bedingungen getestet wird. Dieses strenge Test -Framework zeigt, ob die Modelllösung für die praktische Bereitstellung robust genug ist.
Die technischen Details von Swe-Lancer sind geschickt so gestaltet, dass sie die tatsächliche Situation des freiberuflichen Raums wirklich widerspiegeln. Aufgaben erfordern Änderungen an mehreren Dateien und die Integration in die API, die mobile und Webplattformen beteiligt. Neben dem Generieren von Code -Patches muss das Modell auch einen Wettbewerbsvorschlag überprüfen und auswählen. Dieser doppelte Fokus auf Technologie- und Managementfähigkeiten spiegelt die tatsächliche Verantwortung eines Software -Ingenieurs wider. Gleichzeitig simulieren die enthaltenen Benutzer -Tools die echte Benutzerinteraktion, verbessern die Bewertung weiter und fördern iterativer Debugging und Anpassung.
Durch die SWE-Lancer-Ergebnisse verzeichnen Forscher ein detailliertes Verständnis der Fähigkeiten aktueller Sprachmodelle im Bereich der Software-Engineering. Bei individuellen Beitragsaufgaben betrugen die Passraten von Modellen wie GPT-4O und Claude3.5Sonnet 8,0% bzw. 26,2%. Bei der Verwaltungsaufgabe erreichte das am besten leistungsstarke Modell eine Passquote von 44,9%. Diese Daten legen nahe, dass modernste Modelle zwar vielversprechende Lösungen bieten können, aber noch viel Raum für Verbesserungen gibt.
Papier: https://arxiv.org/abs/2502.12115
Schlüsselpunkte:
** Innovative Evaluierungsmethode **: Die SWE-Lancer-Benchmark bietet eine authentischere Modellleistung für die Modellleistung durch freiberufliche Aufgaben im realen Leben.
** Mehrdimensionale Tests **: Verwenden Sie End-to-End-Tests anstelle von Unit-Tests, um die Komplexität von Software-Ingenieuren in realen Arbeiten besser widerzuspiegeln.
** Verbesserung des Potenzials **: Obwohl die vorhandenen Modelle gut abschneiden, gibt es immer noch Raum für Verbesserungen durch mehr Experimentier- und Rechenressourcen.