Recientemente, el equipo modelo de Xiaomi Big ha progresado en el campo de la inferencia de audio, aplicando con éxito algoritmos de aprendizaje de refuerzo a tareas de comprensión de audio multimodal, con una tasa de precisión del 64.5%. Este logro le ha permitido ganar el primer lugar en la evaluación de comprensión de audio de MMAU internacionalmente autorizada. Detrás de este logro, la inspiración del equipo para Deepseek-R1 es inseparable.
El conjunto de evaluación MMAU (comprensión y razonamiento masivo de audio de tareas múltiples) es un criterio importante para medir las capacidades de inferencia de audio. Al analizar una variedad de muestras de audio que incluyen voz, sonido ambiental y música, se prueba el rendimiento del modelo en tareas de inferencia compleja. La tasa de precisión de los expertos humanos es del 82.23%, mientras que el modelo de mejor rendimiento en la lista actual es el GPT-4O de OpenAI con una tasa de precisión del 57.3%. En este contexto, el rendimiento del equipo de Xiaomi es particularmente llamativo.

En el experimento del equipo, adoptaron el método de optimización de políticas relativas del grupo Deepseek-R1 (GRPO), que permite que el modelo evolucione de forma independiente y demuestra habilidades de reflexión y razonamiento similares a los humanos a través del mecanismo de "prueba y error de error". Vale la pena señalar que con el apoyo del aprendizaje de refuerzo, a pesar de que solo se utilizaron 38,000 muestras de entrenamiento, el modelo del equipo de Xiaomi aún puede lograr una precisión del 64.5% en el conjunto de evaluación MMAU, casi 10 puntos porcentuales más altos que el primer lugar actual.
Además, los experimentos también encontraron que el método tradicional de salida de la cadena de pensamiento explícito en realidad conducirá a una disminución en la precisión del modelo, mostrando las ventajas del razonamiento implícito en el entrenamiento. A pesar de los notables logros, el equipo de Xiaomi todavía se da cuenta de que todavía está un poco lejos del nivel de expertos humanos. El equipo dijo que continuará optimizando las estrategias de aprendizaje de refuerzo para lograr mejores capacidades de razonamiento.
El éxito de esta investigación no solo demuestra el potencial del aprendizaje de refuerzo en el campo de la comprensión de audio, sino que también allana el camino para la era futura de la audición inteligente. Como las máquinas no solo pueden "escuchar" los sonidos, sino también "comprender" la lógica causal detrás de esto, la tecnología de audio inteligente introducirá nuevas oportunidades de desarrollo. El equipo de Xiaomi también se abre código de entrenamiento de código abierto y parámetros del modelo para facilitar más investigaciones e intercambios en los círculos académicos e industriales.
Código de entrenamiento: https://github.com/xiaomi-research/r1-aqa
Parámetros del modelo: https://huggingface.co/mispeech/r1-aqa
Informe técnico: https://arxiv.org/abs/2503.11197
Demo de interacción: https://120.48.108.147:7860/