أصدر Weibo الرسمي لـ Xiaomi Technology مؤخرًا إعلانًا مهمًا يعلن أن فريقه النموذجي الكبير حقق تقدمًا في مجال استنتاج الصوت. ينبع هذا الإنجاز من أول تطبيق للفريق لخوارزميات التعلم التعزيز إلى مهام فهم الصوت متعددة الوسائط بعد أن كانت مستوحاة من Deepseek-R1. من اللافت للنظر أن الفريق تصدرت بنجاح قائمة مراجعة فهم الصوت MMAU الموثوقة عالميًا بمعدل دقة 64.5 ٪ من SOTA (أحدث ما يلي). في الوقت نفسه ، قرر فريق Xiaomi أيضًا فتح التقنيات ذات الصلة المصدر لتعزيز مزيد من البحث في القطاعين الأكاديمي والصناعي.

تعد مجموعة التقييم MMAU (الفهم الضخم للصوت متعدد المهام والتفكير) معيارًا مهمًا لقياس قدرة التفكير الصوتي. أنه يحتوي على 10000 صوت وأصوات محيطة وعينات الموسيقى ، بهدف فحص أداء النموذج بشكل شامل على مهارات متعددة. وفقًا لنتائج التقييم ، يتمتع الخبراء البشريون بمعدل دقة قدره 82.23 ٪ على مجموعة المراجعة هذه ، في حين أن أفضل نموذج للأداء هو GPT-4O من Openai بمعدل دقة 57.3 ٪ ، يليه Google Deepmind's Gemini2.0flash بمعدل دقة 55.6 ٪.
خلال عملية البحث في فريق Xiaomi ، استخدموا أولاً مجموعة بيانات AVQA التي أصدرتها جامعة Tsinghua لضبطها وتحقيق معدل دقة قدرها 51.8 ٪. ومع ذلك ، حدث الاختراق الحقيقي بعد أن قام الفريق بتطبيق خوارزمية تحسين السياسة النسبية للمجموعة Deepseek-R1 على نموذج QWEN2-Audio-7B. باستخدام 38000 عينة تدريب فقط من AVQA ، حقق الفريق دقة بنسبة 64.5 ٪ ، متجاوزة بنجاح نموذج الأعمال الحالي.
وجد فريق البحث أيضًا أنه عندما يخرج النموذج عملية استنتاج أثناء التدريب ، انخفض معدل الدقة فعليًا إلى 61.1 ٪. توضح هذه النتيجة أن ناتج سلسلة التفكير الصريح قد لا يكون مفضيًا إلى التدريب النموذجي ، وأن آلية التعليق في الوقت الفعلي للتعلم التعزيز أكثر فائدة للنموذج لقفل منطقة توزيع الإجابات عالية الجودة. على الرغم من أن الفريق حقق دقة كبيرة ، إلا أنه لا تزال هناك فجوة معينة مقارنة بمستوى الخبراء البشريين.
لا تظهر النتائج التجريبية لفريق Xiaomi النموذجي الكبير فقط المزايا الفريدة للتعلم التعزيز في مجال استدلال الصوت ، ولكن أيضًا توفر أفكارًا جديدة للبحث في المستقبل. لتعزيز مزيد من التعاون بين الأكاديمية والصناعة ، قرر الفريق فتح مصدر قانون التدريب ومعلمات النماذج والتقارير الفنية. ستعمل هذه الخطوة بلا شك على تسريع تطوير تكنولوجيا الاستدلال الصوتي وتوفر موارد قيمة للباحثين في المجالات ذات الصلة.
رمز التدريب: https://github.com/xiaomi- research/r1-aqa
معلمات النموذج: https://huggingface.co/mispeech/r1-aqa
التقرير الفني: https://arxiv.org/abs/2503.11197
تفاعل العرض التوضيحي: https://120.48.108.147:7860/
النقاط الرئيسية:
حقق فريق Xiaomi النموذجي الكبير اختراقات في مجال الاستدلال الصوتي من خلال خوارزميات التعلم التعزيز ، بمعدل دقة قدره 64.5 ٪.
تعد مجموعة تقييم MMAU معيارًا مهمًا لقدرات التفكير الصوتي ، مع معدل الدقة الحالي للخبراء البشريين البالغ 82.23 ٪.
تظهر نتائج البحث أن آلية التعليق في الوقت الفعلي للتعلم التعزيز أكثر فاعلية للتدريب النموذجي ، ولا يزال يتعين استكشاف الأبحاث المستقبلية بعمق.