OpenAI เพิ่งเปิดตัวรายงานการประเมินเกี่ยวกับความสามารถในการเขียนโปรแกรม AI เปิดเผยสถานะปัจจุบันของ AI ในด้านการพัฒนาซอฟต์แวร์ผ่านโครงการพัฒนาจริง 1 ล้านดอลลาร์ เกณฑ์มาตรฐานที่เรียกว่า SWE-Lancer ครอบคลุมโครงการจริง 1,400 โครงการจาก Upwork ประเมินประสิทธิภาพของ AI อย่างครอบคลุมทั้งในการพัฒนาโดยตรงและการจัดการโครงการ การทดสอบนี้ไม่เพียงแสดงให้เห็นถึงศักยภาพของ AI ในงานการเขียนโปรแกรมเท่านั้น แต่ยังให้การอ้างอิงที่สำคัญสำหรับการพัฒนาเทคโนโลยีในอนาคต
ผลการทดสอบแสดงให้เห็นว่าโมเดล AI ที่มีประสิทธิภาพดีที่สุดคือ Claude3.5Sonnet มีอัตราความสำเร็จ 26.2% ในงานเขียนโค้ดและ 44.9% ในการตัดสินใจการจัดการโครงการ แม้ว่าความสำเร็จนี้จะยังห่างไกลจากนักพัฒนามนุษย์ แต่ก็แสดงให้เห็นถึงศักยภาพอย่างมากในแง่ของผลประโยชน์ทางเศรษฐกิจ โดยเฉพาะอย่างยิ่งในชุดข้อมูล Diamond สาธารณะโมเดลสามารถเสร็จสิ้น $ 208,050 ในการพัฒนาโครงการ หากขยายไปยังชุดข้อมูลเต็มรูปแบบ AI คาดว่าจะจัดการงานที่มีมูลค่ามากกว่า $ 400,000 ซึ่งให้ความเป็นไปได้ที่องค์กรจะประหยัดค่าใช้จ่ายในการพัฒนาซอฟต์แวร์ได้มาก

อย่างไรก็ตามการวิจัยยังเผยให้เห็นข้อ จำกัด ที่ชัดเจนของ AI ในงานการพัฒนาที่ซับซ้อน แม้ว่า AI นั้นมีความสามารถในการแก้ไขข้อผิดพลาดอย่างง่ายเช่นการแก้ไขการเรียก API ซ้ำซ้อน แต่ก็ทำงานได้ไม่ดีเมื่อต้องเผชิญกับโครงการที่ซับซ้อนซึ่งต้องการความเข้าใจในเชิงลึกและโซลูชั่นที่ครอบคลุมเช่นการพัฒนาคุณสมบัติการเล่นวิดีโอข้ามแพลตฟอร์ม เป็นเรื่องสำคัญอย่างยิ่งที่ AI สามารถระบุรหัสปัญหาได้บ่อยครั้ง แต่เป็นการยากที่จะเข้าใจสาเหตุที่แท้จริงและให้วิธีแก้ปัญหาที่ครอบคลุม สิ่งนี้แสดงให้เห็นว่าแอปพลิเคชันของ AI ในการพัฒนาซอฟต์แวร์ยังคงต้องใช้ความก้าวหน้าทางเทคโนโลยีเพิ่มเติม
เพื่อส่งเสริมการวิจัยในสาขานี้ OpenAI ได้เปิดแหล่งข้อมูล Swe-Lancer Diamond และเครื่องมือที่เกี่ยวข้องใน GitHub ช่วยให้นักวิจัยสามารถประเมินประสิทธิภาพของแบบจำลองการเขียนโปรแกรมต่างๆตามมาตรฐานแบบครบวงจร การย้ายครั้งนี้ไม่เพียง แต่ให้การอ้างอิงที่สำคัญสำหรับการปรับปรุงความสามารถในการเขียนโปรแกรม AI เพิ่มเติม แต่ยังให้ทรัพยากรที่มีค่าสำหรับชุมชนนักพัฒนาทั่วโลกและส่งเสริมความก้าวหน้าทางเทคโนโลยีทั่วไป