最近、Xiaomi Big Modelチームは、オーディオ推論の分野でブレークスルーの進歩を遂げ、64.5%の精度率でマルチモーダルオーディオ理解タスクに強化学習アルゴリズムを正常に適用しました。この成果により、国際的に権威あるMMAUオーディオ理解評価で1位を獲得することができました。この成果の背後にある、Deepseek-R1に対するチームのインスピレーションは不可分です。
MMAU(大規模なマルチタスクオーディオの理解と推論)評価セットは、オーディオ推論機能を測定するための重要な基準です。音声、アンビエントサウンド、音楽など、さまざまなオーディオサンプルを分析することにより、複雑な推論タスクでのモデルのパフォーマンスがテストされます。人間の専門家の精度は82.23%ですが、現在のリストで最高のパフォーマンスモデルはOpenaiのGPT-4Oで、精度率は57.3%です。この背景に対して、Xiaomiチームのパフォーマンスは特に人目を引くものです。

チームの実験では、DeepSeek-R1グループの相対政策最適化(GRPO)メソッドを採用しました。これにより、モデルは独立して進化し、「試行錯誤の報酬」メカニズムを通じて人間に似た反射スキルと推論スキルを実証できます。補強学習のサポートにより、38,000のトレーニングサンプルしか使用されていませんが、XiaomiチームのモデルはMMAU評価セットで64.5%の精度を達成できることに注意してください。
さらに、実験では、従来の明示的思考チェーン出力法が実際にモデルの精度の低下につながり、トレーニングにおける暗黙の推論の利点を示すことがわかりました。驚くべき成果にもかかわらず、Xiaomiチームは、それが人間の専門家のレベルから少し離れていることをまだ認識しています。チームは、より良い推論能力を達成するために、強化学習戦略を最適化し続けると述べました。
この研究の成功は、オーディオ理解の分野での強化学習の可能性を実証するだけでなく、将来のインテリジェントな聴覚の時代への道を開くことも示しています。マシンは音を「聞く」だけでなく、その背後にある因果論理を「理解」することもできるため、インテリジェントなオーディオテクノロジーは新しい開発の機会を導きます。 Xiaomiチームは、学術および産業界でのさらなる研究と交流を促進するために、オープンソースのトレーニングコードとモデルパラメーターもオープンします。
トレーニングコード:https://github.com/xiaomi-research/r1-aqa
モデルパラメーター:https://huggingface.co/mispeech/r1-aqa
技術レポート:https://arxiv.org/abs/2503.11197
インタラクションデモ:https://120.48.108.147:7860/