El oficial oficial de Weibo de Xiaomi Technology lanzó recientemente un importante anuncio que anunció que su gran equipo modelo ha logrado avances en el campo de la inferencia de audio. Este logro proviene de la primera aplicación del equipo de algoritmos de aprendizaje de refuerzo a tareas de comprensión de audio multimodal después de inspirarte en Deepseek-R1. Es notable que el equipo superó con éxito la lista de revisión de la comprensión de audio MMAU internacionalmente autorizada con una tasa de precisión del 64.5% de SOTA (estado del arte). Al mismo tiempo, el equipo de Xiaomi también decidió abrir tecnologías relevantes de código para promover una mayor investigación en los sectores académicos e industriales.

El conjunto de evaluación MMAU (comprensión y razonamiento masivo de audio de tareas múltiples) es un criterio importante para medir la capacidad de razonamiento de audio. Contiene 10,000 muestras de voz, sonidos ambientales y música, con el objetivo de examinar de manera integral el rendimiento del modelo en múltiples habilidades. Según los resultados de la evaluación, los expertos humanos tienen una tasa de precisión del 82.23%en este conjunto de revisiones, mientras que el modelo de mejor rendimiento es GPT-4O de OpenAI con una tasa de precisión de 57.3%, seguido de Gemini2.0flash de Google DeepMind con una tasa de precisión de 55.6%.
Durante el proceso de investigación del equipo de Xiaomi, utilizaron por primera vez el conjunto de datos AVQA publicado por la Universidad de Tsinghua para ajustar y alcanzaron una tasa de precisión del 51.8%. Sin embargo, el verdadero avance ocurrió después de que el equipo aplicó el algoritmo de optimización de políticas relativas del grupo Deepseek-R1 (GRPO) al modelo QWEN2-Audio-7B. Usando solo 38,000 muestras de capacitación de AVQA, el equipo logró una precisión del 64.5%, superando con éxito el modelo de negocio existente.
El equipo de investigación también encontró que cuando el modelo genera un proceso de inferencia durante la capacitación, la tasa de precisión en realidad cayó al 61.1%. Este resultado muestra que la salida de la cadena de pensamiento explícita puede no ser propicio para el entrenamiento del modelo, y el mecanismo de retroalimentación en tiempo real del aprendizaje de refuerzo es más útil para que el modelo bloquee el área de distribución de respuestas de alta calidad. Aunque el equipo ha logrado una precisión significativa, todavía hay una cierta brecha en comparación con el nivel de expertos humanos.
Los resultados experimentales del gran equipo modelo de Xiaomi no solo muestran las ventajas únicas del aprendizaje de refuerzo en el campo de la inferencia de audio, sino que también proporcionan nuevas ideas para futuras investigaciones. Para promover una mayor cooperación entre académico e industria, el equipo decidió abrir el código de capacitación, los parámetros del modelo e informes técnicos. Este movimiento sin duda acelerará el desarrollo de la tecnología de inferencia de audio y proporcionará recursos valiosos para los investigadores en campos relacionados.
Código de entrenamiento: https://github.com/xiaomi-research/r1-aqa
Parámetros del modelo: https://huggingface.co/mispeech/r1-aqa
Informe técnico: https://arxiv.org/abs/2503.11197
Demo de interacción: https://120.48.108.147:7860/
Puntos clave:
El gran equipo modelo de Xiaomi hizo avances en el campo de la inferencia de audio a través de algoritmos de aprendizaje de refuerzo, con una tasa de precisión del 64.5%.
El conjunto de evaluación MMAU es un criterio importante para las capacidades de razonamiento de audio, con la tasa de precisión actual de expertos humanos de 82.23%.
Los resultados de la investigación muestran que el mecanismo de retroalimentación en tiempo real del aprendizaje de refuerzo es más efectivo para la capacitación de modelos, y la investigación futura aún debe explorarse en profundidad.