Dans le domaine de l'intelligence artificielle, l'équipe du laboratoire Alibaba Tongyi a récemment annoncé l'open source de son dernier modèle multimodal - R1-OMNI. Ce modèle combine l'apprentissage du renforcement avec une approche de récompense validée (RLVR), démontrant des capacités exceptionnelles dans le traitement des informations audio et vidéo. Le point culminant de R1-OMNI est sa transparence, nous permettant de comprendre le rôle de diverses modalités dans le processus décisionnel, en particulier dans des tâches telles que la reconnaissance des émotions.

Avec le lancement de Deepseek R1, le potentiel d'application de l'apprentissage du renforcement dans les grands modèles a été constamment exploré. La méthode RLVR apporte de nouvelles idées d'optimisation aux tâches multimodales, qui peuvent gérer efficacement des tâches complexes telles que l'inférence géométrique et le comptage visuel. Bien que la recherche actuelle se concentre sur la combinaison des images et du texte, la dernière exploration du laboratoire Tongyi a élargi ce domaine, combinant RLVR avec un modèle vidéo modal vidéo, démontrant pleinement les grandes perspectives d'application de la technologie.

R1-OMNI rend l'influence des informations audio et vidéo plus intuitives via la méthode RLVR. Par exemple, dans la tâche de reconnaissance des émotions, le modèle peut clairement montrer quels signaux audio et vidéo jouent un rôle clé dans le jugement émotionnel. Cette transparence améliore non seulement la fiabilité du modèle, mais offre également aux chercheurs et aux développeurs de meilleures idées.
En termes de vérification des performances, l'équipe de laboratoire de Tongyi a mené une expérience comparative sur R1-OMNI avec le modèle Humanomni-0,5b d'origine. Les résultats montrent que les performances de R1-OMNI sur les ensembles de données DFEW et MAFW se sont considérablement améliorées, avec une augmentation moyenne de plus de 35%. De plus, par rapport au modèle traditionnel de réglage fin supervisé (SFT), R1-OMNI s'améliore également de plus de 10% dans l'apprentissage non supervisé (UAR). R1-OMNI démontre d'excellentes capacités de généralisation sur différents ensembles de tests distribués (tels que Ravdess), avec des améliorations de guerre et UAR de plus de 13%. Ces réalisations prouvent non seulement les avantages du RLVR dans l'amélioration des capacités de raisonnement, mais fournissent également de nouvelles idées et orientations pour de futures recherches sur les modèles multimodaux.
L'open source de R1-OMNI facilitera davantage de chercheurs et de développeurs, et nous attendons avec impatience ce modèle apportant plus d'innovations et de percées dans les applications futures.