เมื่อเร็ว ๆ นี้นักวิจัยของ Openai ยอมรับในบทความที่เพิ่งเปิดตัวใหม่ว่าแม้ว่าเทคโนโลยี AI ในปัจจุบันค่อนข้างก้าวหน้า แต่รุ่นเหล่านี้ยังคงหาที่เปรียบไม่ได้กับโปรแกรมเมอร์ของมนุษย์ Sam Altman ซีอีโอของ Openai กล่าวว่า AI คาดว่าจะเอาชนะวิศวกรซอฟต์แวร์ "ระดับต่ำ" ภายในสิ้นปีนี้ แต่ผลการวิจัยแสดงให้เห็นว่าโมเดล AI เหล่านี้ยังคงเผชิญกับความท้าทายที่สำคัญ

ในการศึกษาทีม OpenAI ใช้เกณฑ์มาตรฐานใหม่ที่เรียกว่า SWE-LANCER เพื่อประเมินประสิทธิภาพของงานวิศวกรรมซอฟต์แวร์มากกว่า 1,400 รายการที่สกัดจากเว็บไซต์อิสระ การทดสอบมุ่งเน้นไปที่ความสามารถในการเข้ารหัสของแบบจำลองภาษาขนาดใหญ่สามแบบ (LLMS) รวมถึงโมเดลการอนุมาน O1 ของ OpenAI, GPT-4O เรือธงและ Claude3.5Sonnet ของมานุษยวิทยา
โมเดลเหล่านี้จำเป็นต้องใช้งานสองประเภท: หนึ่งเป็นงานเดียวซึ่งส่วนใหญ่มุ่งเน้นไปที่การแก้ไขข้อผิดพลาดในโปรแกรม อีกอย่างคือการจัดการงานซึ่งต้องใช้แบบจำลองในการตัดสินใจระดับที่สูงขึ้น ในระหว่างกระบวนการทดสอบโมเดลเหล่านี้ไม่สามารถเข้าถึงอินเทอร์เน็ตได้หมายความว่าพวกเขาไม่สามารถหาคำตอบออนไลน์ได้โดยตรง
แม้ว่าค่ารวมของงานโมเดลเหล่านี้จะดำเนินการสูงถึงหลายแสนดอลลาร์ แต่พวกเขาสามารถแก้ไขปัญหาผิวเผินและทำให้ยากต่อการค้นหาข้อผิดพลาดที่ลึกซึ้งยิ่งขึ้นและสาเหตุที่แท้จริงในโครงการที่ซับซ้อน สถานการณ์นี้ทำให้คุณนึกถึงประสบการณ์การใช้ AI: ในขณะที่ AI สามารถสร้างข้อมูลที่ถูกต้องได้อย่างรวดเร็ว แต่ก็มักจะเผยให้เห็นข้อบกพร่องในการทดสอบที่ลึกซึ้งยิ่งขึ้น
กระดาษชี้ให้เห็นว่าในขณะที่ LLM ทั้งสามนี้เร็วกว่ามนุษย์ในการประมวลผลงาน แต่พวกเขามักจะล้มเหลวในการเข้าใจความกว้างและบริบทของข้อผิดพลาดอย่างเต็มที่ซึ่งนำไปสู่การแก้ปัญหาที่พวกเขาให้บ่อยหรือไม่สมบูรณ์พอ นักวิจัยกล่าวว่า Claude3.5Sonnet ทำได้ดีกว่าทั้งสองรุ่นของ Openai และได้รับผลตอบแทนที่สูงขึ้น แต่คำตอบของมันยังไม่แม่นยำเท่าที่ควร
การวิจัยแสดงให้เห็นว่าแม้ว่าโมเดล AI ขั้นสูงเหล่านี้สามารถทำงานได้อย่างรวดเร็วในงานที่เฉพาะเจาะจง แต่ก็ยังไม่เพียงพอในความสามารถทางวิศวกรรมซอฟต์แวร์โดยรวมและอยู่ไกลจากระดับที่สามารถแทนที่โปรแกรมเมอร์ของมนุษย์ได้ อย่างไรก็ตามสิ่งนี้ไม่ได้หยุดบาง บริษัท จากการแทนที่โปรแกรมเมอร์ของมนุษย์ด้วยโมเดล AI ที่ยังไม่บรรลุนิติภาวะ
ประเด็นสำคัญ:
การวิจัย OpenAI แสดงให้เห็นว่าโมเดล AI ขั้นสูงยังคงล้าหลังโปรแกรมเมอร์ของมนุษย์ในความสามารถในการเข้ารหัส
ทั้งสามรุ่น AI ทำงานได้ไม่ดีในการแก้ไขข้อผิดพลาดในการเข้ารหัสและยากที่จะแก้ปัญหาที่ซับซ้อน
แม้จะมี AI ที่รวดเร็ว แต่การขาดความเข้าใจที่ครอบคลุมได้นำไปสู่ความแม่นยำไม่เพียงพอในการแก้ปัญหา