พนักงาน OpenAI คำถามอย่างเปิดเผย XAI: ผลลัพธ์เกณฑ์มาตรฐาน Grok 3 กำลังทำให้เข้าใจผิด - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-05-24 18:25:02

เมื่อเร็ว ๆ นี้การเปรียบเทียบในสาขาปัญญาประดิษฐ์ได้กลายเป็นจุดสนใจของความสนใจของประชาชน พนักงาน Openai ผู้ถูกกล่าวหาว่า Xai บริษัท AI ก่อตั้งขึ้นโดย Musk ซึ่งเป็นพฤติกรรมที่ทำให้เข้าใจผิดเมื่อปล่อยผลการทดสอบมาตรฐานของ Grok3 Igor Babushenjin ผู้ร่วมก่อตั้งของ Xai ปฏิเสธสิ่งนี้ยืนยันว่าผลการทดสอบของ บริษัท ไม่เป็นปัญหา

ฟิวส์ของการโต้เถียงนี้คือกราฟที่โพสต์โดย XAI ในบล็อกอย่างเป็นทางการแสดงให้เห็นว่า GROK3 ดำเนินการอย่างไรในการทดสอบ AIME2025 AIME2025 เป็นการทดสอบตามการแข่งขันทางคณิตศาสตร์ Invitational ซึ่งมีปัญหาทางคณิตศาสตร์ที่ยากลำบาก แม้ว่าผู้เชี่ยวชาญบางคนถามถึงประสิทธิภาพของ AIME เป็นเกณฑ์มาตรฐาน AI แต่ก็ยังคงใช้กันอย่างแพร่หลายในการประเมินความสามารถทางคณิตศาสตร์ของแบบจำลอง AI

ตามแผนภูมิที่เผยแพร่โดย XAI สองเวอร์ชันของ GROK3-Grok3Reasoning Beta และ Grok3mini ให้เหตุผลทำได้ดีกว่ารุ่นที่ดีที่สุดในปัจจุบันของ Openai O3-Mini สูงในการทดสอบ AIME2025 อย่างไรก็ตามพนักงานของ OpenAI ชี้ให้เห็นอย่างรวดเร็วว่าแผนภูมิ XAI ไม่มีคะแนนที่คำนวณโดย O3-Mini-High ในการทดสอบ AIME2025 ในวิธี "Cons@64" และการละเว้นนี้อาจทำให้เข้าใจผิดผลลัพธ์

แล้ว "ข้อเสีย@64" คืออะไร? มันเป็นตัวย่อของ "ฉันทามติ@64" ซึ่งหมายถึงการให้แบบจำลองลอง 64 ครั้งในแต่ละคำถามและเลือกคำตอบที่ปรากฏบ่อยที่สุดเป็นคำตอบสุดท้าย กลไกการให้คะแนนนี้สามารถปรับปรุงคะแนนมาตรฐานของแบบจำลองได้อย่างมีนัยสำคัญ ดังนั้นหากข้อมูลนี้ไม่รวมอยู่ในแผนภูมิมันอาจถูกเข้าใจผิดว่ารุ่นหนึ่งจะทำงานได้ดีกว่าอีกรุ่นหนึ่งและนี่อาจไม่ใช่กรณี

ในความเป็นจริงคะแนน "@1" (เช่นคะแนนความพยายามครั้งแรกของโมเดล) ในการทดสอบ AIME2025 ต่ำกว่า Oni-mini สูงของ Openai นอกจากนี้การแสดงของ GROK3Reoning Beta ยังด้อยกว่ารุ่น O1 ของ OpenAI เล็กน้อย อย่างไรก็ตามเรื่องนี้ Xai ยังคงส่งเสริม Grok3 ในฐานะ "AI ที่ฉลาดที่สุดในโลก" ซึ่งยิ่งทำให้การโต้เถียงระหว่างทั้งสองฝ่ายแย่ลง

Babushenjin ตอบสนองต่อโซเชียลมีเดียว่า Openai ได้ตีพิมพ์ชาร์ตมาตรฐานที่ทำให้เข้าใจผิดในอดีตซึ่งส่วนใหญ่ใช้เพื่อเปรียบเทียบประสิทธิภาพของโมเดลของตัวเอง ในขณะเดียวกันผู้เชี่ยวชาญที่เป็นกลางจัดประสิทธิภาพของแต่ละรุ่นลงในแผนภูมิที่“ แม่นยำ” มากขึ้น

นอกจากนี้ Nathan Lambert นักวิจัย AI ชี้ให้เห็นว่าตัวบ่งชี้ที่สำคัญกว่าในเกณฑ์มาตรฐาน AI ปัจจุบันยังไม่ชัดเจนนั่นคือค่าใช้จ่ายในการคำนวณและการเงินที่จำเป็นสำหรับแต่ละรุ่นเพื่อให้ได้คะแนนที่ดีที่สุด การมีอยู่ของปัญหานี้แสดงให้เห็นว่ามาตรฐาน AI ที่มีอยู่ยังคงมีข้อบกพร่องในการสื่อสารข้อ จำกัด และข้อดีของแบบจำลอง

โดยสรุปการโต้เถียงเกี่ยวกับผลการเปรียบเทียบ GROK3 ระหว่าง XAI และ OpenAI ได้ดึงดูดความสนใจอย่างกว้างขวาง แผนภูมิ XAI ไม่มีตัวบ่งชี้การให้คะแนนที่สำคัญ "ข้อเสีย@64" ของโมเดล OpenAI ซึ่งอาจนำไปสู่ความเข้าใจผิดของสาธารณชนเกี่ยวกับประสิทธิภาพของโมเดล ในขณะเดียวกันค่าใช้จ่ายในการคำนวณและการเงินที่อยู่เบื้องหลังประสิทธิภาพของโมเดล AI ยังคงเป็นปริศนาที่ยังไม่ได้รับการแก้ไขโดยเน้นถึงข้อ จำกัด ของเกณฑ์มาตรฐาน AI ในปัจจุบัน