Récemment, l'équipe de Xiaomi Big Model a fait des progrès révolutionnaires dans le domaine de l'inférence audio, appliquant avec succès des algorithmes d'apprentissage de renforcement aux tâches de compréhension audio multimodales, avec un taux de précision de 64,5%. Cette réalisation lui a permis de remporter la première place dans l'évaluation de la compréhension audio MMAU autoritaire internationale. Derrière cette réalisation, l'inspiration de l'équipe pour Deepseek-R1 est inséparable.
L'ensemble d'évaluation de la compréhension et du raisonnement et du raisonnement massif multi-tâches multiples est un critère important pour mesurer les capacités d'inférence audio. En analysant une variété d'échantillons audio, notamment la parole, le son ambiant et la musique, les performances du modèle dans les tâches d'inférence complexes sont testées. Le taux de précision des experts humains est de 82,23%, tandis que le modèle le plus performant de la liste actuelle est le GPT-4O d'OpenAI avec un taux de précision de 57,3%. Dans ce contexte, la performance de l'équipe Xiaomi est particulièrement accrocheuse.

Dans l'expérience de l'équipe, ils ont adopté la méthode d'optimisation relative de la politique relative du groupe Deepseek-R1 (GRPO), qui permet au modèle d'évoluer indépendamment et démontre des compétences de réflexion et de raisonnement similaires aux humains par le biais du mécanisme "essai et erreur-récompense". Il convient de noter qu'avec le soutien de l'apprentissage du renforcement, même si seulement 38 000 échantillons de formation ont été utilisés, le modèle de l'équipe Xiaomi peut toujours atteindre une précision de 64,5% sur l'ensemble d'évaluation MMAU, près de 10 points de pourcentage supérieur à la première place actuelle.
De plus, des expériences ont également constaté que la méthode traditionnelle de sortie de la chaîne de pensée explicite entraînera en fait une diminution de la précision du modèle, montrant les avantages du raisonnement implicite dans la formation. Malgré les réalisations remarquables, l'équipe de Xiaomi se rend toujours compte qu'elle est encore un peu loin du niveau des experts humains. L'équipe a déclaré qu'elle continuerait d'optimiser les stratégies d'apprentissage du renforcement afin d'obtenir de meilleures capacités de raisonnement.
Le succès de cette recherche démontre non seulement le potentiel de l'apprentissage du renforcement dans le domaine de la compréhension audio, mais ouvre également la voie à l'ère future de l'audition intelligente. Comme les machines peuvent non seulement "entendre" des sons, mais aussi "comprendre" la logique causale derrière elle, la technologie audio intelligente inaugurera de nouvelles opportunités de développement. L'équipe de Xiaomira également le code de formation et les paramètres de modèle open source pour faciliter les recherches et les échanges supplémentaires dans les milieux académiques et industriels.
Code de formation: https://github.com/xiaomi-research/r1-aqa
Paramètres du modèle: https://huggingface.co/Mispeech/R1-Aqa
Rapport technique: https://arxiv.org/abs/2503.11197
Démo d'interaction: https://120.48.108.147:7860/