เมื่อเร็ว ๆ นี้ทีมงาน Big Big Model Bytedance และชุมชนโอเพ่นซอร์สโอเพ่นซอร์สร่วมกันเปิดตัว SuperGPQA การทดสอบเกณฑ์มาตรฐานความรู้ซึ่งครอบคลุมถึง 285 สาขาวิชาระดับบัณฑิตศึกษาและคำถามระดับมืออาชีพ 26,529 คำถาม ชุดข้อมูลที่เป็นนวัตกรรมนี้ไม่เพียง แต่ครอบคลุมสาขาวิชาหลักเช่นคณิตศาสตร์และฟิสิกส์ แต่ยังรวมถึงสาขาวิชาที่มีหางยาวเช่นอุตสาหกรรมแสงการเกษตรและวิทยาศาสตร์การบริการในระบบการประเมินผลเป็นครั้งแรกเติมช่องว่างในการทดสอบมาตรฐานที่มีอยู่
การเปิดตัว SuperGPQA เป็นเหตุการณ์สำคัญที่สำคัญในสาขาของ AI ชุดข้อมูลนี้สร้างขึ้นในครึ่งปีผ่านกลไกการทำงานร่วมกันของผู้เชี่ยวชาญ-LLM เพื่อคัดกรองปัญหาจากแหล่งที่เชื่อถือได้ คำถามของมันมีตัวเลือกเฉลี่ย 9.67 ตัวเลือกและ 42.33% ของพวกเขาต้องการการคำนวณทางคณิตศาสตร์หรือการใช้เหตุผลอย่างเป็นทางการทั้งความกว้างและความลึก การทดลองแสดงให้เห็นว่าความแม่นยำของแบบจำลองที่ดีที่สุด Deepseek-R1 มีเพียง 61.82%ซึ่งบ่งชี้ว่ารูปแบบภาษาขนาดใหญ่ในปัจจุบันยังคงมีที่ว่างสำหรับการปรับปรุงในสาขาความรู้ที่หลากหลาย
เกณฑ์มาตรฐานแบบดั้งเดิมเช่น MMLU และ GPQA ครอบคลุมน้อยกว่า 50 สาขาในขณะที่สาขาวิชาหางยาวมีสัดส่วนน้อยกว่า 5% เนื่องจากแหล่งข้อมูลเดียว (เช่น Wikipedia) และคำอธิบายประกอบ crowdsourcing ที่ไม่น่าเชื่อถือมันเป็นเรื่องยากที่จะวัดความสามารถในการอนุมานของแบบจำลองในสถานการณ์ที่ซับซ้อน SuperGPQA ปรับปรุงคุณภาพผ่านกระบวนการสามขั้นตอน: การคัดกรองผู้เชี่ยวชาญของปัญหาดั้งเดิมการถอดความมาตรฐานการตรวจสอบคุณภาพหลายชั้น (การกรองกฎการทดสอบ LLM การตรวจสอบผู้เชี่ยวชาญ) ผลการประเมินแสดงให้เห็นว่าการปรับแต่งการเรียนการสอนช่วยปรับปรุงประสิทธิภาพอย่างมีนัยสำคัญเช่นคะแนน DeepSeek-V3 เกินกว่ารุ่นพื้นฐาน แต่โมเดลโอเพ่นซอร์สยังคงล้าหลังโซลูชันที่อยู่ใกล้ในประเด็นที่ยากลำบาก
SuperGPQA ถูกนำมาใช้เพื่อเปิดเผยช่องว่างประสิทธิภาพระหว่างโอเพ่นซอร์สและโมเดลต้นทางปิดและได้กลายเป็นเครื่องมือสำคัญสำหรับการพัฒนา AI การเปิดตัวการทดสอบมาตรฐานนี้ไม่เพียง แต่ให้มาตรฐานการประเมินใหม่สำหรับการวิจัย AI แต่ยังชี้ให้เห็นทิศทางสำหรับการเพิ่มประสิทธิภาพแบบจำลองในอนาคตและการปรับปรุงความสามารถในการให้เหตุผลความรู้
ลิงค์กระดาษ: https://arxiv.org/pdf/2502.14739
ลิงค์ข้อมูล: https://huggingface.co/datasets/map/supergpqa
ลิงค์รหัส: https://github.com/supergpqa/supergpqa