3 월 11 일, Tongyi Laboratory 팀은 오픈 소스 R1-Omni 모델을 발표했으며,이 모델은 모든 모달 모델의 개발에 새로운 혁신을 가져 왔습니다. R1-OMNI 모델은 강화 학습과 검증 가능한 보상 (RLVR) 방법을 결합하여 다중 모드 감정 인식 작업의 추론 기능 및 일반화 성능 향상에 중점을 둡니다. 이 혁신은 인공 지능 분야에 새로운 활력을 주입 할뿐만 아니라 미래의 멀티 모달 연구를위한 중요한 기술 지원을 제공합니다.
R1-OMNI의 훈련 과정은 두 가지 주요 단계로 나뉩니다. 콜드 스타트 단계에서 팀은 미세 조정을위한 580 개의 비디오 데이터가 포함 된 결합 된 데이터 세트를 사용하여 주로 설명 가능한 멀티 모달 감정 추론 (EMER) 데이터 세트 및 HumanOMNI 데이터 세트에서 나왔습니다. 이 단계의 목적은 모델의 추론 능력의 기초를 마련하고 RLVR 단계에 들어가기 전에 특정 다중 모드 감정 인식 능력을 갖도록하여 후속 교육의 안정성, 효율성 및 안정성을 보장하는 것입니다. 이 교육 단계를 통해 모델은 처음에 멀티 모달 데이터를 이해하고 처리하여 후속 최적화를위한 견고한 기초를 마련 할 수 있습니다.

결과적으로, RLVR 단계에서, 모델은 강화 학습 및 검증 가능한 보상 메커니즘을 통해 더욱 최적화된다. 이 단계의 핵심은 전략 모델과 보상 기능의 설계에 있습니다. 전략 모델은 비디오 프레임 및 오디오 스트림으로 구성된 멀티 모드 입력 데이터를 처리하여 상세한 추론 프로세스로 후보 응답을 생성하여 모델이 시각적 및 청각 정보를 통합하여 예측을 그리는 방법을 보여줍니다. 보상 기능은 DeepSeek R1에서 영감을 얻었으며 정밀 보상과 형식 보상의 두 부분으로 나뉩니다. 이 설계는 모델이 올바른 예측을 생성하도록 장려 할뿐만 아니라 출력이 구조화되어 사전 설정 형식을 준수하도록하여 모델의 전반적인 성능을 향상시킵니다.
실험 결과에 따르면 R1-OMNI는 동일한 분포 테스트 세트 DFEW 및 MAFW에 대한 원래 기준선 모델과 비교하여 평균 35% 이상의 평균 증가, 비가 중 평균 리콜 속도 (UAR)에서 감독 된 미세 조정 (SFT) 모델과 비교하여 10% 이상의 평균 증가를 나타냅니다. 다양한 분산 테스트 세트에서 Ravdess는 가중 평균 리콜 속도 (WAR)와 UAR이 모두 13%이상 증가하여 우수한 일반화 기능을 보여줍니다. 또한 R1-OMNI는 상당한 투명성 이점이 있습니다. RLVR 방법을 통해 모델에서 오디오 및 비디오 정보의 역할은 명확하고 눈에 띄게되며, 특정 정서적 판단에 대한 각 모달 정보의 주요 역할을 명확하게 보여줄 수 있으며, 모델 의사 결정 프로세스 및 향후 연구를 이해하기위한 중요한 참조를 제공합니다.
종이:
https://arxiv.org/abs/2503.05379
Github :
https://github.com/humanmllm/r1-omni
모델:
https://www.modelscope.cn/models/iic/r1-omni-0.5b