Xiaomi Technologyの公式Weiboは最近、その大きなモデルチームがオーディオ推論の分野でブレークスルーの進歩を遂げたことを発表する重要な発表を発表しました。この成果は、チームの補強学習アルゴリズムの最初のアプリケーションから、DeepSeek-R1に触発された後のマルチモーダルオーディオ理解タスクに由来しています。チームが64.5%のSOTA(最先端)の精度率で国際的に権威あるMMAUオーディオ理解レビューリストのトップに成功したことは注目に値します。同時に、Xiaomiチームは、学術および産業部門でのさらなる研究を促進するために、関連する技術をオープンすることも決定しました。

MMAU(大規模なマルチタスクオーディオの理解と推論)評価セットは、オーディオ推論能力を測定するための重要な基準です。複数のスキルでモデルのパフォーマンスを包括的に調べることを目指して、10,000の音声、アンビエントサウンド、音楽サンプルが含まれています。評価結果によると、人間の専門家はこのレビューセットで82.23%の精度率を持ち、最良のパフォーマンスモデルは57.3%の精度率のOpenaiのGPT-4Oであり、その後、Google DeepMindのGemini2.0フラッシュが55.6%の精度があります。
Xiaomiチームの研究プロセス中に、彼らは最初にTsinghua大学がリリースしたAVQAデータセットを微調整のために使用し、51.8%の精度を達成しました。ただし、チームがQWEN2-Audio-7BモデルにDeepSeek-R1のグループ相対ポリシー最適化(GRPO)アルゴリズムを適用した後、実際のブレークスルーが発生しました。 AVQAからの38,000のトレーニングサンプルのみを使用して、チームは64.5%の精度を達成し、既存のビジネスモデルをうまく超えました。
また、研究チームは、モデルがトレーニング中に推論プロセスを出力すると、精度が実際に61.1%に低下したことを発見しました。この結果は、明示的な思考チェーン出力がモデルトレーニングを助長しない可能性があり、補強学習のリアルタイムフィードバックメカニズムは、モデルが高品質の回答の流通領域をロックするためにより役立つことを示しています。チームはかなりの精度を達成していますが、人間の専門家のレベルと比較して、依然として一定のギャップがあります。
Xiaomiの大規模なモデルチームの実験結果は、オーディオ推論の分野での強化学習の独自の利点を示しているだけでなく、将来の研究のための新しいアイデアを提供します。学術と業界の間のさらなる協力を促進するために、チームはトレーニングコード、モデルパラメーター、および技術レポートをオープンすることを決定しました。この動きは、間違いなくオーディオ推論技術の開発を加速し、関連分野の研究者に貴重なリソースを提供します。
トレーニングコード:https://github.com/xiaomi-research/r1-aqa
モデルパラメーター:https://huggingface.co/mispeech/r1-aqa
技術レポート:https://arxiv.org/abs/2503.11197
インタラクションデモ:https://120.48.108.147:7860/
キーポイント:
XiaomiのBig Modelチームは、補足率が64.5%で、強化学習アルゴリズムを通じてオーディオ推論の分野でブレークスルーを行いました。
MMAU評価セットは、オーディオ推論機能の重要な基準であり、現在の人間の専門家の精度は82.23%です。
研究結果は、強化学習のリアルタイムフィードバックメカニズムがモデルトレーニングにより効果的であり、将来の研究を詳細に調査する必要があることを示しています。