小米技術官方微博近日發布了一項重要公告,宣布其大模型團隊在音頻推理領域取得了突破性進展。這一成就源於團隊在受到DeepSeek-R1的啟發後,首次將強化學習算法應用於多模態音頻理解任務。令人矚目的是,團隊僅用一周時間便以64.5%的SOTA(State Of The Art)準確率,成功登頂國際權威的MMAU音頻理解評測榜。與此同時,小米糰隊還決定將相關技術開源,以促進學術和產業界的進一步研究。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)評測集是衡量音頻推理能力的重要標準,其包含了一萬條語音、環境音和音樂樣本,旨在全面考察模型在多種技能上的表現。根據評測結果,人類專家在該評測集上的準確率為82.23%,而目前表現最好的模型是OpenAI的GPT-4o,其準確率為57.3%,緊隨其後的是Google DeepMind的Gemini2.0Flash,準確率為55.6%。
在小米糰隊的研究過程中,他們首先使用了清華大學發布的AVQA數據集進行微調,並取得了51.8%的準確率。然而,真正的突破發生在團隊將DeepSeek-R1的Group Relative Policy Optimization(GRPO)算法應用於Qwen2-Audio-7B模型後。僅使用AVQA的3.8萬條訓練樣本,團隊便實現了64.5%的準確率,成功超越了現有的商業模型。
研究團隊還發現,當在訓練過程中強制模型輸出推理過程時,準確率反而下降至61.1%。這一結果表明,顯式的思維鏈輸出可能並不利於模型訓練,而強化學習的實時反饋機制則更有助於模型鎖定高質量答案的分佈區域。儘管團隊已經取得了顯著的準確率,但與人類專家的水平相比,仍存在一定的差距。
小米大模型團隊的實驗結果不僅展示了強化學習在音頻推理領域的獨特優勢,也為未來的研究提供了新的思路。為了推動學術和產業界的進一步合作,團隊決定將訓練代碼、模型參數以及技術報告全部開源。這一舉措無疑將加速音頻推理技術的發展,並為相關領域的研究者提供寶貴的資源。
訓練代碼:https://github.com/xiaomi-research/r1-aqa
模型參數:https://huggingface.co/mispeech/r1-aqa
技術報告:https://arxiv.org/abs/2503.11197
交互Demo:https://120.48.108.147:7860/
劃重點:
小米大模型團隊通過強化學習算法在音頻推理領域取得突破,準確率達到64.5%。
MMAU 評測集是音頻推理能力的重要標準,當前人類專家準確率為82.23%。
研究結果表明,強化學習的實時反饋機制對模型訓練更為有效,未來研究仍需深入探索。