أصدرت Openai مؤخرًا تقريرًا للتقييم حول قدرات برمجة الذكاء الاصطناعى ، وكشف عن الوضع الحالي لمنظمة العفو الدولية في مجال تطوير البرمجيات من خلال مشروع تطوير فعلي بقيمة مليون دولار. يغطي المؤشر ، الذي يطلق عليه SWE-Lancer ، 1400 مشروعًا حقيقيًا من Upwork ، يقيم بشكل شامل أداء الذكاء الاصطناعي في كل من التطوير المباشر وإدارة المشاريع. لا يوضح هذا الاختبار إمكانات الذكاء الاصطناعي في مهام البرمجة فحسب ، بل يوفر أيضًا مرجعًا مهمًا للتنمية التكنولوجية المستقبلية.
تظهر نتائج الاختبار أن أفضل نموذج من الذكاء الاصطناعي ، Claude3.5Sonnet ، حقق معدل نجاح قدره 26.2 ٪ في مهام الترميز و 44.9 ٪ في اتخاذ القرارات في إدارة المشروع. على الرغم من أن هذا الإنجاز لا يزال بعيدًا عن تحقيق المطورين البشريين ، فقد أظهر إمكانات كبيرة من حيث الفوائد الاقتصادية. لا سيما في مجموعة بيانات الماس العامة ، يمكن لهذا النموذج إكمال 208،050 دولار في تطوير المشروع. إذا امتدت إلى مجموعة بيانات كاملة ، فمن المتوقع أن تتعامل منظمة العفو الدولية مع المهام التي تزيد قيمتها عن 400000 دولار ، مما يوفر إمكانية توفير الكثير من التكلفة في تطوير البرمجيات.

ومع ذلك ، فإن الأبحاث تكشف أيضًا عن القيود الواضحة لوكالة الذكاء الاصطناعى في مهام التنمية المعقدة. على الرغم من أن الذكاء الاصطناعى مؤهل لإصلاحات الأخطاء البسيطة ، مثل إصلاح مكالمات API المتكررة ، إلا أنه يعمل بشكل سيء عند مواجهة مشاريع معقدة تتطلب فهمًا متعمقًا وحلولًا شاملة ، مثل تطوير ميزة تشغيل الفيديو عبر المنصات. تجدر الإشارة بشكل خاص إلى أن الذكاء الاصطناعي يمكن أن يحدد غالبًا رموز المشكلات ، ولكن من الصعب فهم السبب الجذري وتوفير حلول شاملة. هذا يدل على أن تطبيق الذكاء الاصطناعى في تطوير البرمجيات لا يزال يتطلب المزيد من الاختراقات التكنولوجية.
لتعزيز الأبحاث في هذا المجال ، فتحت Openai مصدر بيانات Diamond SWE-Lancer والأدوات ذات الصلة على GitHub ، مما يسمح للباحثين بتقييم أداء نماذج البرمجة المختلفة بناءً على معايير موحدة. لا توفر هذه الخطوة مرجعًا مهمًا لمزيد من التحسين لقدرات برمجة الذكاء الاصطناعي ، ولكن أيضًا توفر موارد قيمة لمجتمع المطورين العالمي ويعزز التقدم التكنولوجي المشترك.