최근 Xiaomi Big Model 팀은 오디오 추론 분야에서 획기적인 발전을 이루어 강화 학습 알고리즘을 멀티 모달 오디오 이해력 작업에 64.5%로 성공적으로 적용했습니다. 이 성과는 국제적으로 권위있는 MMAU 오디오 이해력 평가에서 1 위를 차지할 수있었습니다. 이 업적 뒤에 DeepSeek-R1에 대한 팀의 영감은 분리 할 수 없습니다.
MMAU (대규모 멀티 태스크 오디오 이해 및 추론) 평가 세트는 오디오 추론 기능을 측정하는 중요한 기준입니다. Speech, Ambient Sound 및 Music을 포함한 다양한 오디오 샘플을 분석하여 복잡한 추론 작업에서 모델의 성능을 테스트합니다. 인간 전문가의 정확도는 82.23%인 반면, 현재 목록에서 가장 잘 수행하는 모델은 정확도가 57.3%인 OpenAI의 GPT-4O입니다. 이러한 배경에 비해 Xiaomi 팀의 성능은 특히 시선을 사로 잡습니다.

팀의 실험에서 그들은 DeepSeek-R1 그룹 상대 정책 최적화 (GRPO) 방법을 채택하여 모델이 독립적으로 진화하고 "시행 및 오류 보상"메커니즘을 통해 인간과 유사한 반사 및 추론 기술을 보여줄 수있게했습니다. 강화 학습의 지원으로 38,000 개의 훈련 샘플 만 사용되었지만 Xiaomi 팀의 모델은 현재 1 위보다 거의 10% 높은 MMAU 평가 세트에서 64.5% 정확도를 달성 할 수 있습니다.
또한 실험에 따르면 전통적인 명시 적 사고 체인 출력 방법은 실제로 모델 정확도가 감소하여 훈련에서 암시 적 추론의 장점을 보여줍니다. 놀라운 업적에도 불구하고 Xiaomi 팀은 여전히 그것이 여전히 인간 전문가 수준과는 거리가 멀다는 것을 알고 있습니다. 이 팀은 더 나은 추론 능력을 달성하기 위해 강화 학습 전략을 계속 최적화 할 것이라고 말했다.
이 연구의 성공은 오디오 이해 분야에서 강화 학습의 잠재력을 보여줄뿐만 아니라 미래의 지능형 청각 시대를위한 길을 열어줍니다. 기계는 소리를 "듣는"소리뿐만 아니라 그 뒤에있는 인과 적 논리를 "이해"할 수 있기 때문에 지능형 오디오 기술은 새로운 개발 기회를 안내 할 것입니다. Xiaomi 팀은 또한 오픈 소스 교육 코드 및 모델 매개 변수를 통해 학업 및 산업계의 추가 연구 및 교환을 용이하게 할 것입니다.
교육 코드 : https://github.com/xiaomi-research/r1-aqa
모델 매개 변수 : https://huggingface.co/mispeech/r1-aqa
기술 보고서 : https://arxiv.org/abs/2503.11197
상호 작용 데모 : https://120.48.108.147:7860/