Recentemente, a equipe do Xiaomi Big Model fez progressos no campo da inferência de áudio, aplicando com sucesso algoritmos de aprendizado de reforço a tarefas multimodais de compreensão de áudio, com uma taxa de precisão de 64,5%. Essa conquista permitiu conquistar o primeiro lugar na avaliação de compreensão de áudio MMAU de autoridade internacional. Por trás dessa conquista, a inspiração da equipe para Deepseek-R1 é inseparável.
O conjunto de avaliação Mmau (Entendimento e Raciocínio de Audio Multi-Tarefas) é um critério importante para medir os recursos de inferência de áudio. Ao analisar uma variedade de amostras de áudio, incluindo fala, som ambiente e música, a performance do modelo em tarefas de inferência complexa é testada. A taxa de precisão dos especialistas em humanos é de 82,23%, enquanto o modelo de melhor desempenho na lista atual é o GPT-4O do OpenAI, com uma taxa de precisão de 57,3%. Nesse contexto, o desempenho da equipe Xiaomi é particularmente atraente.

No experimento da equipe, eles adotaram o método de otimização relativa do grupo Deepseek-R1 (GRPO), que permite que o modelo evolua de forma independente e demonstra habilidades de reflexão e raciocínio semelhantes aos seres humanos através do mecanismo de "tentativa e recompensa de erros". Vale a pena notar que, com o apoio do aprendizado de reforço, embora apenas 38.000 amostras de treinamento tenham sido usadas, o modelo da equipe Xiaomi ainda pode atingir 64,5% de precisão no conjunto de avaliação do MMAU, quase 10 pontos percentuais mais altos que o primeiro lugar atual.
Além disso, os experimentos também descobriram que o método tradicional de saída da cadeia de pensamento explícito levará a uma diminuição da precisão do modelo, mostrando as vantagens do raciocínio implícito no treinamento. Apesar das realizações notáveis, a equipe Xiaomi ainda percebe que ainda está um pouco longe do nível de especialistas humanos. A equipe disse que continuará otimizando estratégias de aprendizado de reforço para obter melhores recursos de raciocínio.
O sucesso desta pesquisa não apenas demonstra o potencial do aprendizado de reforço no campo da compreensão de áudio, mas também abre caminho para a era futura da audiência inteligente. Como as máquinas podem não apenas "ouvir" sons, mas também "entender" a lógica causal por trás disso, a tecnologia de áudio inteligente inaugurará novas oportunidades de desenvolvimento. A equipe Xiaomi também abrirá o código de treinamento de código e os parâmetros do modelo para facilitar pesquisas e trocas adicionais nos círculos acadêmicos e industriais.
Código de treinamento: https://github.com/xiaomi-research/r1-aqa
Parâmetros do modelo: https://huggingface.co/mispeech/r1-aqa
Relatório Técnico: https://arxiv.org/abs/2503.11197
Demoção de interação: https://120.48.108.147:7860/