小米技术官方微博近日发布了一项重要公告,宣布其大模型团队在音频推理领域取得了突破性进展。这一成就源于团队在受到DeepSeek-R1的启发后,首次将强化学习算法应用于多模态音频理解任务。令人瞩目的是,团队仅用一周时间便以64.5%的SOTA(State Of The Art)准确率,成功登顶国际权威的MMAU音频理解评测榜。与此同时,小米团队还决定将相关技术开源,以促进学术和产业界的进一步研究。

MMAU(Massive Multi-Task Audio Understanding and Reasoning)评测集是衡量音频推理能力的重要标准,其包含了一万条语音、环境音和音乐样本,旨在全面考察模型在多种技能上的表现。根据评测结果,人类专家在该评测集上的准确率为82.23%,而目前表现最好的模型是OpenAI的GPT-4o,其准确率为57.3%,紧随其后的是Google DeepMind的Gemini2.0Flash,准确率为55.6%。
在小米团队的研究过程中,他们首先使用了清华大学发布的AVQA数据集进行微调,并取得了51.8%的准确率。然而,真正的突破发生在团队将DeepSeek-R1的Group Relative Policy Optimization(GRPO)算法应用于Qwen2-Audio-7B模型后。仅使用AVQA的3.8万条训练样本,团队便实现了64.5%的准确率,成功超越了现有的商业模型。
研究团队还发现,当在训练过程中强制模型输出推理过程时,准确率反而下降至61.1%。这一结果表明,显式的思维链输出可能并不利于模型训练,而强化学习的实时反馈机制则更有助于模型锁定高质量答案的分布区域。尽管团队已经取得了显著的准确率,但与人类专家的水平相比,仍存在一定的差距。
小米大模型团队的实验结果不仅展示了强化学习在音频推理领域的独特优势,也为未来的研究提供了新的思路。为了推动学术和产业界的进一步合作,团队决定将训练代码、模型参数以及技术报告全部开源。这一举措无疑将加速音频推理技术的发展,并为相关领域的研究者提供宝贵的资源。
训练代码:https://github.com/xiaomi-research/r1-aqa
模型参数:https://huggingface.co/mispeech/r1-aqa
技术报告:https://arxiv.org/abs/2503.11197
交互 Demo:https://120.48.108.147:7860/
划重点:
小米大模型团队通过强化学习算法在音频推理领域取得突破,准确率达到64.5%。
MMAU 评测集是音频推理能力的重要标准,当前人类专家准确率为82.23%。
研究结果表明,强化学习的实时反馈机制对模型训练更为有效,未来研究仍需深入探索。