Tes Benchmark Terbaru Openai: Kemampuan Pemrograman AI Mencapai seperempat manusia, menunjukkan keterbatasan - artikel AI

Penulis：Eve Cole Waktu Pembaruan：2025-05-27 12:25:02

Openai baru -baru ini merilis laporan penilaian tentang kemampuan pemrograman AI, mengungkapkan status AI saat ini di bidang pengembangan perangkat lunak melalui proyek pengembangan aktual $ 1 juta. Benchmark, yang disebut SWE-Lancer, mencakup 1.400 proyek nyata dari Upwork, secara komprehensif menilai kinerja AI dalam pengembangan langsung dan manajemen proyek. Tes ini tidak hanya menunjukkan potensi AI dalam tugas pemrograman, tetapi juga memberikan referensi penting untuk pengembangan teknologi di masa depan.

Hasil tes menunjukkan bahwa model AI berkinerja terbaik, Claude3.5Sonnet, memiliki tingkat keberhasilan 26,2% dalam tugas pengkodean dan 44,9% dalam pengambilan keputusan manajemen proyek. Meskipun pencapaian ini masih jauh dari pengembang manusia, ia telah menunjukkan potensi yang cukup besar dalam hal manfaat ekonomi. Terutama dalam dataset Diamond Publik, model ini dapat menyelesaikan $ 208.050 dalam pengembangan proyek. Jika diperluas ke dataset penuh, AI diharapkan menangani tugas senilai lebih dari $ 400.000, yang memberikan kemungkinan bagi perusahaan untuk menghemat banyak biaya dalam pengembangan perangkat lunak.

Namun, penelitian juga mengungkapkan keterbatasan AI yang jelas dalam tugas pengembangan yang kompleks. Meskipun AI kompeten untuk perbaikan bug sederhana, seperti memperbaiki panggilan API yang berlebihan, ia berkinerja buruk ketika menghadapi proyek-proyek rumit yang membutuhkan pemahaman mendalam dan solusi komprehensif, seperti pengembangan fitur pemutaran video lintas platform. Sangat penting bahwa AI sering dapat mengidentifikasi kode masalah, tetapi sulit untuk memahami akar penyebabnya dan memberikan solusi yang komprehensif. Ini menunjukkan bahwa penerapan AI dalam pengembangan perangkat lunak masih membutuhkan terobosan teknologi lebih lanjut.

Untuk mempromosikan penelitian di bidang ini, OpenAI telah bersumber dari SWE-Lancer Diamond Dataset dan alat terkait di GitHub, yang memungkinkan para peneliti untuk mengevaluasi kinerja berbagai model pemrograman berdasarkan standar terpadu. Langkah ini tidak hanya memberikan referensi penting untuk peningkatan lebih lanjut dari kemampuan pemrograman AI, tetapi juga menyediakan sumber daya yang berharga bagi komunitas pengembang global dan mempromosikan kemajuan teknologi umum.