O oficial Weibo, da Xiaomi Technology, lançou recentemente um importante anúncio anunciando que sua equipe de grandes modelos fez progressos inovadores no campo da inferência de áudio. Essa conquista decorre da primeira aplicação da equipe de algoritmos de aprendizado de reforço a tarefas multimodais de compreensão de áudio após ser inspirada no Deepseek-R1. É notável que a equipe liderou com sucesso a lista de revisão de entendimento de Audio Mmau Audio, com sucesso internacionalmente, com uma taxa de precisão de 64,5% do SOTA (estado da arte). Ao mesmo tempo, a equipe da Xiaomi também decidiu abrir tecnologias relevantes de código para promover mais pesquisas nos setores acadêmico e industrial.

O conjunto de avaliação Mmau (Entendimento e Raciocínio de Audio Multi-Tarefas) é um critério importante para medir a capacidade de raciocínio de áudio. Ele contém 10.000 amostras de voz, sons ambientais e música, com o objetivo de examinar de maneira abrangente o desempenho do modelo em várias habilidades. De acordo com os resultados da avaliação, os especialistas em humanos têm uma taxa de precisão de 82,23%neste conjunto de revisão, enquanto o modelo de melhor desempenho é o GPT-4O do OpenAI com uma taxa de precisão de 57,3%, seguida pelo gemini2.0flash do Google Deepmind, com uma taxa de precisão de 55,6%.
Durante o processo de pesquisa da equipe Xiaomi, eles usaram o conjunto de dados AVQA divulgado pela Universidade Tsinghua para ajustar e alcançaram uma taxa de precisão de 51,8%. No entanto, o avanço real aconteceu depois que a equipe aplicou o algoritmo de otimização de políticas relativas do grupo Deepseek-R1 (GRPO) ao modelo QWEN2-AUDIO-7B. Usando apenas 38.000 amostras de treinamento da AVQA, a equipe alcançou uma precisão de 64,5%, superando com sucesso o modelo de negócios existente.
A equipe de pesquisa também descobriu que, quando o modelo gera um processo de inferência durante o treinamento, a taxa de precisão caiu para 61,1%. Esse resultado mostra que a produção explícita da cadeia de pensamento pode não ser propícia para modelar o treinamento, e o mecanismo de feedback em tempo real do aprendizado de reforço é mais útil para o modelo bloquear a área de distribuição de respostas de alta qualidade. Embora a equipe tenha alcançado uma precisão significativa, ainda há uma certa lacuna em comparação com o nível de especialistas humanos.
Os resultados experimentais da grande equipe de modelos da Xiaomi não apenas mostram as vantagens únicas do aprendizado de reforço no campo da inferência de áudio, mas também fornecem novas idéias para pesquisas futuras. Para promover uma cooperação adicional entre acadêmico e indústria, a equipe decidiu abrir o código de treinamento, os parâmetros do modelo e os relatórios técnicos. Esse movimento, sem dúvida, acelerará o desenvolvimento da tecnologia de inferência de áudio e fornecerá recursos valiosos para pesquisadores em áreas relacionadas.
Código de treinamento: https://github.com/xiaomi-research/r1-aqa
Parâmetros do modelo: https://huggingface.co/mispeech/r1-aqa
Relatório Técnico: https://arxiv.org/abs/2503.11197
Demoção de interação: https://120.48.108.147:7860/
Pontos -chave:
A grande equipe de modelos da Xiaomi fez avanços no campo da inferência de áudio por meio de algoritmos de aprendizado de reforço, com uma taxa de precisão de 64,5%.
O conjunto de avaliação do MMAU é um critério importante para os recursos de raciocínio de áudio, com a taxa de precisão atual de especialistas humanos de 82,23%.
Os resultados da pesquisa mostram que o mecanismo de feedback em tempo real da aprendizagem de reforço é mais eficaz para o treinamento de modelos, e pesquisas futuras ainda precisam ser exploradas em profundidade.