小米大模型團隊在音頻推理領域取得重大突破，登頂國際評測榜- AI文章

作者：Eve Cole 更新時間：2025-05-23 19:50:01

近日，小米大模型團隊在音頻推理領域的研究中取得了突破性進展，成功應用強化學習算法於多模態音頻理解任務，準確率達到了64.5%，這一成就使其在國際權威的MMAU 音頻理解評測中奪得了第一名。這一成果的背後，離不開團隊對DeepSeek-R1的啟發。

MMAU（Massive Multi-Task Audio Understanding and Reasoning）評測集是衡量音頻推理能力的重要標準，通過對包含語音、環境聲和音樂的多種音頻樣本進行分析，測試模型在復雜推理任務中的表現。人類專家的準確率為82.23%，而當前榜單上表現最好的模型是OpenAI 的GPT-4o，準確率為57.3%。在這樣的背景下，小米糰隊的成績尤為引人注目。

在團隊的實驗中，他們採用了DeepSeek-R1的Group Relative Policy Optimization（GRPO）方法，該方法通過“試錯- 獎勵” 的機制，使得模型能自主演化，展現出類似於人類的反思和推理能力。值得注意的是，在強化學習的支持下，即便只使用了3.8萬條訓練樣本，小米糰隊的模型仍然能夠在MMAU 評測集上取得64.5% 的準確率，比當前的第一名高出近10個百分點。

此外，實驗還發現，傳統的顯式思維鏈輸出方式反而會導致模型準確率下降，顯示出隱式推理在訓練中的優勢。儘管取得了顯著的成績，但小米糰隊仍然意識到，距離人類專家的水平還有一段距離。團隊表示將繼續優化強化學習策略，以期實現更好的推理能力。

這項研究的成功，不僅展示了強化學習在音頻理解領域的潛力，也為未來的智能聽覺時代鋪平了道路。隨著機器不僅能“聽見” 聲音，還能“聽懂” 其背後的因果邏輯，智能音頻技術將迎來新的發展機遇。小米糰隊還將開源訓練代碼和模型參數，以便於學術界和產業界的進一步研究與交流。

訓練代碼:https://github.com/xiaomi-research/r1-aqa

模型參數:https://huggingface.co/mispeech/r1-aqa

技術報告:https://arxiv.org/abs/2503.11197

交互Demo:https://120.48.108.147:7860/