Le responsable de la technologie de Xiaomi Weibo a récemment publié une annonce importante annonçant que son équipe de grande modèle a fait des progrès révolutionnaires dans le domaine de l'inférence audio. Cette réalisation découle de la première application de l'équipe des algorithmes d'apprentissage par renforcement aux tâches multimodales de compréhension audio après avoir été inspirée par Deepseek-R1. Il est remarquable que l'équipe soit en tête de succès de la liste d'examen de la compréhension audio MMAU autoritaire internationale avec un taux de précision de 64,5% de SOTA (état de l'art). Dans le même temps, l'équipe de Xiaomi a également décidé d'ouvrir les technologies pertinentes pour promouvoir des recherches supplémentaires dans les secteurs académique et industriel.

L'ensemble d'évaluation de la compréhension et du raisonnement et du raisonnement massif multi-tâches multiples est un critère important pour mesurer la capacité de raisonnement audio. Il contient 10 000 voix, sons ambiants et échantillons de musique, visant à examiner de manière approfondie les performances du modèle sur plusieurs compétences. Selon les résultats de l'évaluation, les experts humains ont un taux de précision de 82,23% sur cet ensemble d'examen, tandis que le modèle le plus performant est le GPT-4O d'OpenAI avec un taux de précision de 57,3%, suivi de Gemini2.0flash de Google DeepMind avec un taux de précision de 55,6%.
Au cours du processus de recherche de l'équipe Xiaomi, ils ont d'abord utilisé l'ensemble de données AVQA publié par l'Université Tsinghua pour un réglage fin et ont atteint un taux de précision de 51,8%. Cependant, la vraie percée s'est produite après que l'équipe a appliqué l'algorithme d'optimisation relative de la politique relative du groupe de Deepseek-R1 au modèle QWEN2-Audio-7B. En utilisant seulement 38 000 échantillons de formation d'AVQA, l'équipe a atteint une précision de 64,5%, dépassant avec succès le modèle commercial existant.
L'équipe de recherche a également constaté que lorsque le modèle produit un processus d'inférence pendant la formation, le taux de précision était en fait tombé à 61,1%. Ce résultat montre que la sortie explicite de la chaîne de réflexion peut ne pas être propice à la formation du modèle, et le mécanisme de rétroaction en temps réel de l'apprentissage du renforcement est plus utile pour que le modèle se bloque dans la zone de distribution des réponses de haute qualité. Bien que l'équipe ait atteint une précision significative, il y a toujours un certain écart par rapport au niveau des experts humains.
Les résultats expérimentaux de l'équipe Big Model de Xiaomi montrent non seulement les avantages uniques de l'apprentissage du renforcement dans le domaine de l'inférence audio, mais fournissent également de nouvelles idées pour de futures recherches. Pour promouvoir une coopération supplémentaire entre universitaire et industrie, l'équipe a décidé d'ouvrir le code de formation, les paramètres du modèle et les rapports techniques. Cette décision accélérera sans aucun doute le développement de la technologie d'inférence audio et fournira des ressources précieuses aux chercheurs dans des domaines connexes.
Code de formation: https://github.com/xiaomi-research/r1-aqa
Paramètres du modèle: https://huggingface.co/Mispeech/R1-Aqa
Rapport technique: https://arxiv.org/abs/2503.11197
Démo d'interaction: https://120.48.108.147:7860/
Points clés:
L'équipe de Big Model de Xiaomi a fait des percées dans le domaine de l'inférence audio grâce à des algorithmes d'apprentissage par renforcement, avec un taux de précision de 64,5%.
L'ensemble d'évaluation MMAU est un critère important pour les capacités de raisonnement audio, avec le taux de précision actuel des experts humains de 82,23%.
Les résultats de la recherche montrent que le mécanisme de rétroaction en temps réel de l'apprentissage du renforcement est plus efficace pour la formation des modèles, et que les recherches futures doivent encore être explorées en profondeur.