OpenAI hat kürzlich einen Bewertungsbericht über KI -Programmierfunktionen veröffentlicht, in dem der aktuelle Status der KI im Bereich der Softwareentwicklung durch ein tatsächliches Entwicklungsprojekt von 1 Million US -Dollar enthüllt wird. Der Benchmark, Swee-Lancer genannt, deckt 1.400 reale Projekte aus Upwork ab und bewertet die Leistung von KI sowohl im direkten Entwicklungs- als auch im Projektmanagement umfassend. Dieser Test zeigt nicht nur das Potenzial von KI bei Programmieraufgaben, sondern bietet auch eine wichtige Referenz für die zukünftige technologische Entwicklung.
Die Testergebnisse zeigen, dass das KI-Modell, Claude3.5Sonnet, eine Erfolgsquote von 26,2% bei Codierungsaufgaben und 44,9% bei der Entscheidungsfindung des Projektmanagements hatte. Obwohl diese Leistung immer noch weit von der der menschlichen Entwickler entfernt ist, hat sie in Bezug auf wirtschaftliche Vorteile ein erhebliches Potenzial gezeigt. Insbesondere im öffentlichen Diamond -Datensatz kann das Modell 208.050 US -Dollar für die Projektentwicklung abschließen. Bei einem vollständigen Datensatz wird erwartet, dass KI Aufgaben im Wert von mehr als 400.000 US -Dollar übernimmt, was den Unternehmen die Möglichkeit bietet, viele Kosten für die Softwareentwicklung zu sparen.

Untersuchungen zeigen jedoch auch die offensichtlichen Einschränkungen von KI bei komplexen Entwicklungsaufgaben. Obwohl die KI für einfache Fehlerbehebungen wie die Behebung redundanter API-Anrufe kompetent ist, funktioniert sie bei komplexen Projekten, die ein detailliertes Verständnis und umfassende Lösungen erfordern, wie z. B. plattformübergreifende Video-Wiedergabe-Funktionen. Es ist besonders bemerkenswert, dass KI häufig Problemcodes identifizieren kann, aber es ist schwierig, die Grundursache zu verstehen und umfassende Lösungen bereitzustellen. Dies zeigt, dass die Anwendung von KI in der Softwareentwicklung weiterhin weitere technologische Durchbrüche erfordert.
Um die Forschung in diesem Bereich zu fördern, hat OpenAI den SWE-Lancer Diamond Dataset und verwandte Tools auf Github so viel aus, sodass Forscher die Leistung verschiedener Programmiermodelle basierend auf einheitlichen Standards bewerten können. Dieser Schritt liefert nicht nur eine wichtige Referenz für die weitere Verbesserung der KI -Programmierfunktionen, sondern bietet auch wertvolle Ressourcen für die globale Entwicklergemeinschaft und fördert den gemeinsamen technologischen Fortschritt.