Baru -baru ini, para peneliti Openai mengakui dalam sebuah makalah yang baru dirilis bahwa meskipun teknologi AI saat ini cukup maju, model -model ini masih tidak ada bandingannya bagi pemrogram manusia. CEO OpenAI Sam Altman mengatakan bahwa AI diharapkan akan mengalahkan insinyur perangkat lunak "tingkat rendah" pada akhir tahun ini, tetapi hasil penelitian menunjukkan bahwa model AI ini masih menghadapi tantangan yang signifikan.

Dalam penelitian ini, tim Openai menggunakan tolok ukur baru yang disebut SWE-Lancer untuk mengevaluasi kinerja lebih dari 1.400 tugas rekayasa perangkat lunak yang diekstraksi dari situs web freelance Upwork. Tes ini berfokus pada kemampuan pengkodean tiga model bahasa besar (LLM), termasuk model inferensi O1 OpenAI, andalan GPT-4O, dan Claude3.5Sonnet Anthropic.
Model -model ini diperlukan untuk menyelesaikan dua jenis tugas: satu adalah tugas tunggal, yang terutama berfokus pada memperbaiki kesalahan dalam program; Yang lainnya adalah mengelola tugas, yang membutuhkan model untuk membuat keputusan tingkat yang lebih tinggi. Selama proses pengujian, model -model ini tidak memiliki akses ke Internet, yang berarti mereka tidak dapat secara langsung menemukan jawaban secara online.
Meskipun nilai total tugas yang dilakukan model ini adalah setinggi ratusan ribu dolar, mereka hanya dapat memperbaiki masalah yang dangkal dan menyulitkan untuk menemukan kesalahan yang lebih dalam dan akar penyebab dalam proyek -proyek kompleks. Situasi ini mengingatkan Anda pada pengalaman menggunakan AI: sementara AI dapat dengan cepat menghasilkan informasi yang tampaknya benar, sering kali mengungkapkan kekurangan dalam pengujian yang lebih dalam.
Makalah ini menunjukkan bahwa sementara ketiga LLM ini jauh lebih cepat daripada manusia dalam pemrosesan tugas, mereka sering gagal untuk sepenuhnya memahami lebar dan konteks kesalahan, yang mengarah pada solusi yang mereka berikan seringkali tidak akurat atau tidak lengkap. Para peneliti mengatakan bahwa Claude3.5 -sonnet berkinerja lebih baik daripada dua model Openai dan mendapatkan pengembalian yang lebih tinggi, tetapi jawabannya masih tidak seakurat mungkin.
Penelitian menunjukkan bahwa meskipun model AI canggih ini dapat beroperasi dengan cepat pada tugas -tugas spesifik tertentu, mereka masih tidak cukup dalam kemampuan rekayasa perangkat lunak secara keseluruhan dan jauh dari mencapai level yang dapat menggantikan pemrogram manusia. Namun, ini tidak menghentikan beberapa perusahaan untuk mengganti programmer manusia dengan model AI yang belum matang.
Poin -Poin Kunci:
Openai Research menunjukkan bahwa model AI canggih masih tertinggal di belakang programmer manusia dalam kemampuan pengkodean.
Tiga model AI berkinerja buruk dalam memperbaiki kesalahan pengkodean dan sulit untuk menyelesaikan masalah yang kompleks.
Terlepas dari AI mereka yang cepat, kurangnya pemahaman komprehensif mereka telah menyebabkan akurasi solusi yang tidak memadai.