في الآونة الأخيرة ، حقق فريق Xiaomi Big Model تقدمًا رائعًا في مجال الاستدلال الصوتي ، حيث نجح في تطبيق خوارزميات التعلم التعزيز على مهام فهم الصوت متعددة الوسائط ، بمعدل دقة قدره 64.5 ٪. وقد مكن هذا الإنجاز من الفوز بالمركز الأول في تقييم فهم الصوت MMAU الموثوق دوليًا. وراء هذا الإنجاز ، فإن مصدر إلهام الفريق لـ Deepseek-R1 لا ينفصل.
تعد مجموعة التقييم MMAU (الفهم الضخم للصوت متعدد المهام والتفكير) معيارًا مهمًا لقياس قدرات استنتاج الصوت. من خلال تحليل مجموعة متنوعة من عينات الصوت بما في ذلك الكلام والصوت المحيط والموسيقى ، يتم اختبار أداء النموذج في مهام الاستدلال المعقدة. معدل دقة الخبراء البشريين هو 82.23 ٪ ، في حين أن أفضل نموذج أداء في القائمة الحالية هو GPT-4O من Openai مع معدل دقة 57.3 ٪. على هذه الخلفية ، فإن أداء فريق Xiaomi هو لافتة للنظر بشكل خاص.

في تجربة الفريق ، اعتمدوا طريقة تحسين السياسة النسبية لمجموعة Deepseek-R1 ، والتي تسمح للنموذج بالتطور بشكل مستقل وإظهار مهارات التفكير والتفكير المشابهة للبشر من خلال آلية "التجربة وإعادة الأخطاء". تجدر الإشارة إلى أنه مع دعم التعلم التعزيز ، على الرغم من استخدام 38000 عينة تدريب فقط ، لا يزال بإمكان نموذج فريق Xiaomi تحقيق دقة 64.5 ٪ على مجموعة تقييم MMAU ، أي ما يقرب من 10 نقاط مئوية من المركز الأول الحالي.
بالإضافة إلى ذلك ، وجدت التجارب أيضًا أن طريقة إخراج سلسلة التفكير الصريحة التقليدية ستؤدي فعليًا إلى انخفاض في دقة النموذج ، مما يدل على مزايا التفكير الضمني في التدريب. على الرغم من الإنجازات الرائعة ، لا يزال فريق Xiaomi يدرك أنه لا يزال بعيدًا عن مستوى الخبراء البشريين. وقال الفريق إنه سيستمر في تحسين استراتيجيات التعلم التعزيز من أجل تحقيق قدرات التفكير أفضل.
لا يوضح نجاح هذا البحث فقط إمكانات التعلم التعزيز في مجال فهم الصوت ، ولكن أيضًا يمهد الطريق لعصر الاستماع الذكي المستقبلي. نظرًا لأن الآلات لا تستطيع "سماع" الأصوات فحسب ، بل "فهم" المنطق السببي وراء ذلك ، فإن تكنولوجيا الصوت الذكية ستدخل فرصًا جديدة للتطوير. سيفتح فريق Xiaomi أيضًا رمز التدريب المصدر ومعلمات النماذج لتسهيل مزيد من البحث والتبادلات في الدوائر الأكاديمية والصناعية.
رمز التدريب: https://github.com/xiaomi- research/r1-aqa
معلمات النموذج: https://huggingface.co/mispeech/r1-aqa
التقرير الفني: https://arxiv.org/abs/2503.11197
تفاعل العرض التوضيحي: https://120.48.108.147:7860/