Weibo อย่างเป็นทางการของ Xiaomi Technology เพิ่งเปิดตัวการประกาศที่สำคัญประกาศว่าทีมงานขนาดใหญ่ของ บริษัท ได้ทำการพัฒนาความก้าวหน้าในด้านการอนุมานเสียง ความสำเร็จนี้เกิดจากการใช้อัลกอริทึมการเรียนรู้การเสริมแรงครั้งแรกของทีมไปจนถึงงานความเข้าใจด้านเสียงหลายรูปแบบหลังจากได้รับแรงบันดาลใจจาก Deepseek-R1 เป็นที่น่าสังเกตว่าทีมประสบความสำเร็จในการสร้างรายการตรวจสอบความเข้าใจเสียง MMAU ที่มีอำนาจระดับสากลด้วยอัตราความแม่นยำ 64.5% ของ SOTA (สถานะของศิลปะ) ในขณะเดียวกันทีม Xiaomi ก็ตัดสินใจที่จะเปิดเทคโนโลยีที่เกี่ยวข้องกับโอเพ่นซอร์สเพื่อส่งเสริมการวิจัยเพิ่มเติมในภาควิชาการและอุตสาหกรรม

ชุดการประเมินและการให้เหตุผลและการใช้เหตุผลหลายงาน MMAU (การทำความเข้าใจด้านเสียงแบบหลายงานขนาดใหญ่) เป็นเกณฑ์ที่สำคัญสำหรับการวัดความสามารถในการให้เหตุผลด้านเสียง มันมี 10,000 เสียงเสียงรอบข้างและตัวอย่างเพลงโดยมีจุดประสงค์เพื่อตรวจสอบประสิทธิภาพของโมเดลอย่างครอบคลุมเกี่ยวกับทักษะที่หลากหลาย จากผลการประเมินผู้เชี่ยวชาญของมนุษย์มีอัตราความแม่นยำ 82.23%ในชุดการตรวจสอบนี้ในขณะที่รูปแบบที่ดีที่สุดคือ GPT-4O ของ OpenAI ด้วยอัตราความแม่นยำ 57.3%ตามด้วย Gemini2.0Flash ของ Google Deepmind ด้วยอัตราความแม่นยำ 55.6%
ในระหว่างกระบวนการวิจัยของทีม Xiaomi พวกเขาใช้ชุดข้อมูล AVQA ที่เผยแพร่โดย Tsinghua University เป็นครั้งแรกเพื่อการปรับแต่งและบรรลุอัตราความแม่นยำ 51.8% อย่างไรก็ตามการพัฒนาที่แท้จริงเกิดขึ้นหลังจากที่ทีมใช้อัลกอริทึมการเพิ่มประสิทธิภาพนโยบายสัมพัทธ์ของ Deepseek-R1 ของกลุ่ม (GRPO) กับโมเดล QWEN2-AUDIO-7B ด้วยการใช้ตัวอย่างการฝึกอบรมเพียง 38,000 ตัวอย่างจาก AVQA ทีมประสบความสำเร็จอย่างแม่นยำ 64.5%ซึ่งเหนือกว่ารูปแบบธุรกิจที่มีอยู่
ทีมวิจัยยังพบว่าเมื่อแบบจำลองส่งออกกระบวนการอนุมานระหว่างการฝึกอบรมอัตราความแม่นยำลดลงเป็น 61.1% ผลลัพธ์นี้แสดงให้เห็นว่าเอาต์พุตโซ่การคิดอย่างชัดเจนอาจไม่เอื้อต่อการฝึกอบรมแบบจำลองและกลไกการตอบรับแบบเรียลไทม์ของการเรียนรู้การเสริมแรงมีประโยชน์มากขึ้นสำหรับแบบจำลองที่จะล็อคในพื้นที่การกระจายของคำตอบที่มีคุณภาพสูง แม้ว่าทีมจะได้รับความแม่นยำอย่างมีนัยสำคัญ แต่ก็ยังมีช่องว่างบางอย่างเมื่อเทียบกับระดับของผู้เชี่ยวชาญของมนุษย์
ผลการทดลองของทีมงานขนาดใหญ่ของ Xiaomi ไม่เพียง แต่แสดงให้เห็นถึงข้อได้เปรียบที่เป็นเอกลักษณ์ของการเรียนรู้การเสริมแรงในด้านการอนุมานเสียง แต่ยังให้แนวคิดใหม่สำหรับการวิจัยในอนาคต เพื่อส่งเสริมความร่วมมือเพิ่มเติมระหว่างวิชาการและอุตสาหกรรมทีมตัดสินใจที่จะโอเพ่นซอร์สรหัสการฝึกอบรมพารามิเตอร์แบบจำลองและรายงานทางเทคนิค การย้ายครั้งนี้จะเร่งการพัฒนาเทคโนโลยีการอนุมานเสียงอย่างไม่ต้องสงสัยและจัดหาทรัพยากรที่มีค่าสำหรับนักวิจัยในสาขาที่เกี่ยวข้อง
รหัสการฝึกอบรม: https://github.com/xiaomi-research/r1-aqa
พารามิเตอร์แบบจำลอง: https://huggingface.co/mispeech/r1-aqa
รายงานทางเทคนิค: https://arxiv.org/abs/2503.11197
การสาธิตการโต้ตอบ: https://120.48.108.147:7860/
ประเด็นสำคัญ:
ทีมงานขนาดใหญ่ของ Xiaomi สร้างความก้าวหน้าในด้านการอนุมานเสียงผ่านอัลกอริทึมการเรียนรู้การเสริมแรงด้วยอัตราความแม่นยำ 64.5%
ชุดการประเมิน MMAU เป็นเกณฑ์ที่สำคัญสำหรับความสามารถในการใช้เหตุผลด้วยเสียงโดยมีอัตราความแม่นยำในปัจจุบันของผู้เชี่ยวชาญของมนุษย์ 82.23%
ผลการวิจัยแสดงให้เห็นว่ากลไกการตอบรับแบบเรียลไทม์ของการเรียนรู้การเสริมแรงมีประสิทธิภาพมากขึ้นสำหรับการฝึกอบรมแบบจำลองและการวิจัยในอนาคตยังคงต้องมีการสำรวจในเชิงลึก