เมื่อเร็ว ๆ นี้ทีม Xiaomi Big Model ได้ทำการพัฒนาความก้าวหน้าในด้านการอนุมานเสียงประสบความสำเร็จในการใช้อัลกอริทึมการเรียนรู้การเสริมแรงกับงานความเข้าใจด้านเสียงหลายรูปแบบด้วยอัตราความแม่นยำ 64.5% ความสำเร็จนี้ช่วยให้สามารถชนะอันดับแรกในการประเมินความเข้าใจด้านเสียง MMAU ที่มีอำนาจระดับสากล เบื้องหลังความสำเร็จนี้แรงบันดาลใจของทีมสำหรับ Deepseek-R1 นั้นแยกกันไม่ออก
ชุดการประเมินผลและการใช้เหตุผลหลายงาน MMAU (การทำความเข้าใจด้านเสียงแบบหลายงานขนาดใหญ่) เป็นเกณฑ์ที่สำคัญสำหรับการวัดความสามารถในการอนุมานเสียง โดยการวิเคราะห์ตัวอย่างเสียงที่หลากหลายรวมถึงคำพูดเสียงรอบข้างและดนตรีการแสดงของโมเดลในงานการอนุมานที่ซับซ้อนจะถูกทดสอบ อัตราความแม่นยำของผู้เชี่ยวชาญของมนุษย์คือ 82.23%ในขณะที่รูปแบบที่มีประสิทธิภาพดีที่สุดในรายการปัจจุบันคือ GPT-4O ของ OpenAI ด้วยอัตราความแม่นยำ 57.3% เมื่อเทียบกับพื้นหลังนี้การแสดงของทีม Xiaomi นั้นสะดุดตาเป็นพิเศษ

ในการทดลองของทีมพวกเขาใช้วิธีการเพิ่มประสิทธิภาพนโยบายของกลุ่ม Deepseek-R1 (GRPO) ซึ่งช่วยให้แบบจำลองพัฒนาอย่างอิสระและแสดงให้เห็นถึงทักษะการสะท้อนและการใช้เหตุผลคล้ายกับมนุษย์ผ่านกลไกการทดลองและการทดลอง เป็นที่น่าสังเกตว่าด้วยการสนับสนุนการเรียนรู้การเสริมแรงแม้ว่าจะใช้ตัวอย่างการฝึกอบรมเพียง 38,000 ตัวอย่าง แต่โมเดลของทีม Xiaomi ก็ยังสามารถบรรลุความแม่นยำ 64.5% ในชุดการประเมิน MMAU เกือบ 10 คะแนนสูงกว่าอันดับแรกในปัจจุบัน
นอกจากนี้การทดลองยังพบว่าวิธีการออกโซ่การคิดแบบดั้งเดิมที่ชัดเจนจะนำไปสู่การลดลงของความแม่นยำของแบบจำลองซึ่งแสดงให้เห็นถึงข้อดีของการใช้เหตุผลโดยนัยในการฝึกอบรม แม้จะมีความสำเร็จที่น่าทึ่ง แต่ทีม Xiaomi ยังคงตระหนักว่ามันยังห่างไกลจากระดับผู้เชี่ยวชาญของมนุษย์ ทีมกล่าวว่าจะยังคงเพิ่มประสิทธิภาพกลยุทธ์การเรียนรู้การเสริมแรงเพื่อให้บรรลุความสามารถในการใช้เหตุผลที่ดีขึ้น
ความสำเร็จของการวิจัยนี้ไม่เพียง แต่แสดงให้เห็นถึงศักยภาพของการเรียนรู้การเสริมแรงในด้านความเข้าใจด้านเสียงเท่านั้น แต่ยังปูทางไปสู่ยุคของการได้ยินในอนาคต เนื่องจากเครื่องจักรไม่เพียง แต่ได้ยินเสียง แต่ยัง "เข้าใจ" ตรรกะเชิงสาเหตุที่อยู่เบื้องหลังเทคโนโลยีเสียงอัจฉริยะจะนำไปสู่โอกาสในการพัฒนาใหม่ ทีม Xiaomi จะใช้รหัสการฝึกอบรมโอเพ่นซอร์สและพารามิเตอร์แบบจำลองเพื่ออำนวยความสะดวกในการวิจัยเพิ่มเติมและแลกเปลี่ยนในแวดวงวิชาการและอุตสาหกรรม
รหัสการฝึกอบรม: https://github.com/xiaomi-research/r1-aqa
พารามิเตอร์แบบจำลอง: https://huggingface.co/mispeech/r1-aqa
รายงานทางเทคนิค: https://arxiv.org/abs/2503.11197
การสาธิตการโต้ตอบ: https://120.48.108.147:7860/