Xiaomi Technology의 공식 Weibo는 최근 대형 모델 팀이 오디오 추론 분야에서 획기적인 발전을 이루었다는 중요한 발표를 발표했습니다. 이 성과는 DeepSeek-R1에서 영감을 얻은 후 팀의 첫 번째 강화 학습 알고리즘을 멀티 모달 오디오 이해 작업에 적용하는 것입니다. 팀이 SOTA (State of Art)의 64.5% 정확도로 국제적으로 권위있는 MMAU 오디오 이해 검토 목록을 성공적으로 1 위를 차지한 것은 현저합니다. 동시에 Xiaomi 팀은 학업 및 산업 부문에 대한 추가 연구를 촉진하기 위해 관련 기술을 오픈하기로 결정했습니다.

MMAU (대규모 멀티 태스크 오디오 이해 및 추론) 평가 세트는 오디오 추론 능력을 측정하기위한 중요한 기준입니다. 여기에는 여러 기술에 대한 모델의 성능을 종합적으로 검사하기 위해 10,000 개의 음성, 주변 사운드 및 음악 샘플이 포함되어 있습니다. 평가 결과에 따르면, 인간 전문가는이 검토 세트에서 정확도가 82.23%인 반면, 가장 성능이 좋은 모델은 57.3%의 정확도가 57.3%인 OpenAI의 GPT-4O이며 55.6%의 정확도로 Google DeepMind의 gemini2.0flash가 뒤 따릅니다.
Xiaomi 팀의 연구 과정에서 그들은 먼저 Tsinghua University에서 발표 한 AVQA 데이터 세트를 미세 조정을 위해 사용했으며 51.8%의 정확도를 달성했습니다. 그러나 팀이 DeepSeek-R1의 그룹 상대 정책 최적화 (GRPO) 알고리즘을 QWEN2-AUDIO-7B 모델에 적용한 후 실제로 돌파구가 발생했습니다. AVQA에서 38,000 개의 교육 샘플 만 사용 하여이 팀은 64.5%의 정확도를 달성하여 기존 비즈니스 모델을 성공적으로 능가했습니다.
연구팀은 또한 모델이 훈련 중에 추론 프로세스를 출력 할 때 정확도 속도가 실제로 61.1%로 떨어 졌다는 것을 발견했습니다. 이 결과는 명백한 사고 체인 출력이 모델 교육에 도움이되지 않을 수 있으며, 강화 학습의 실시간 피드백 메커니즘은 모델이 고품질 답변의 분포 영역을 고정시키는 데 더 도움이된다는 것을 보여줍니다. 팀은 상당한 정확도를 달성했지만 인간 전문가 수준에 비해 여전히 특정 차이가 있습니다.
Xiaomi의 대형 모델 팀의 실험 결과는 오디오 추론 분야에서 강화 학습의 독특한 장점을 보여줄뿐만 아니라 향후 연구를위한 새로운 아이디어를 제공합니다. 학업과 산업 간의 추가 협력을 장려하기 위해이 팀은 교육 코드, 모델 매개 변수 및 기술 보고서를 오픈하기로 결정했습니다. 이러한 움직임은 의심 할 여지없이 오디오 추론 기술의 개발을 가속화하고 관련 분야의 연구원들에게 귀중한 리소스를 제공 할 것입니다.
교육 코드 : https://github.com/xiaomi-research/r1-aqa
모델 매개 변수 : https://huggingface.co/mispeech/r1-aqa
기술 보고서 : https://arxiv.org/abs/2503.11197
상호 작용 데모 : https://120.48.108.147:7860/
핵심 사항 :
Xiaomi의 대형 모델 팀은 강화 학습 알고리즘을 통해 오디오 추론 분야에서 64.5%의 정확도로 돌파구를했습니다.
MMAU 평가 세트는 오디오 추론 기능에 대한 중요한 기준이며, 현재 인간 전문가의 정확도는 82.23%입니다.
연구 결과에 따르면 강화 학습의 실시간 피드백 메커니즘은 모델 교육에 더 효과적이며 향후 연구는 여전히 깊이 탐구해야합니다.