King Bomb! L'IA de la Chine ajoute un autre "Trump Card"! Le modèle d'inférence multimodal Kunlun Wanwei Skywork R1V est choquant et open source! - Articles AI

Auteur：Eve Cole Date de mise à jour：2025-05-23 01:25:02

2025 Binance directe

Site Web officiel www.binance.com/ZH-CN :Entrez le site officiel ☜☜
Application: ☞☞Official App Download☜☜

Kunlun Wanwei a officiellement annoncé aujourd'hui que le modèle d'inférence multimodal Skywork R1V qu'ils ont créé a été officiellement open source! Ce n'est pas seulement le premier modèle d'open source d'inférence multimodal de la Chine dans l'industrie, mais marque également une étape marquante pour la puissance de l'IA chinoise dans le domaine de la compréhension et du raisonnement multimodal! À partir de maintenant, les poids du modèle et les rapports techniques seront complètement ouverts au monde extérieur!

Imaginez qu'un modèle d'IA peut non seulement comprendre les images, mais aussi effectuer un raisonnement logique comme les humains et résoudre des problèmes visuels complexes - ce n'est plus une scène dans les films de science-fiction, mais une capacité que Skywork R1V met en œuvre! Ce modèle est comme un "solmes dans le monde de l'IA". Il est bon pour éliminer les fils et déchiffrer le sens profond à partir d'informations visuelles massives grâce à une analyse logique en plusieurs étapes, et donne enfin une réponse précise. Qu'il s'agisse de résoudre des énigmes logiques visuelles, de résoudre des problèmes de mathématiques visuels difficiles, d'analyser des phénomènes scientifiques dans les images ou même d'aider à des inférences diagnostiques des images médicales, le ciel R1V peut montrer une force incroyable.

Pour mesurer le "QI" d'un modèle d'IA, les données sont les plus convaincantes! En termes de capacité de raisonnement, Skywork R1v a marqué 94,0 et 72,0 dans les références faisant autorité MATH500 et AIME respectivement! Cela signifie que Skywork R1V peut facilement le faire, qu'il s'agisse de résoudre des problèmes mathématiques complexes ou de mener un raisonnement logique rigoureux. Ce qui est encore plus étonnant, c'est qu'il a réussi à "greffer" sa puissante capacité de raisonnement dans le domaine de la vision et a obtenu des scores élevés de 69 et 67,5 dans des tests de référence visuels tels que MMMU et Mathvista! Ces données durables prouvent directement que Skywork R1V a des capacités de raisonnement logique et d'analyse mathématique!

Kunlun Wanwei a fièrement déclaré que derrière le modèle Skywork R1V, il y a trois innovations technologiques clés:

Le premier est la migration efficace multimodale des capacités de raisonnement de texte. L'équipe de Kunlun Wanwei a adopté une approche unique et a intelligemment utilisé le projecteur visuel de Skywork-VL, sans dépenser d'énormes sommes d'argent pour recycler le modèle de langue et l'encodeur visuel. Tout comme "The Great Shift of the World", il a parfaitement déplacé sa capacité de raisonnement de texte puissant original aux tâches visuelles et n'a pas du tout affecté ses compétences de raisonnement de texte originales!

Le second est une formation hybride multimodale (sft itérative + grpo). Cette méthode d'entraînement est comme nourrir le modèle un "repas nutritif mélangé". Grâce à la combinaison intelligente de la supervision itérative du réglage fin et de l'apprentissage du renforcement GRPO, la représentation du texte visuel est alignée sur les étapes et stratégiquement, et la fusion efficace des tâches intermodales est enfin réalisée, et les capacités croisées du modèle ont également fait de grands progrès! Dans les tests de référence MMMU et Mathvista, les performances de Skywork R1V peuvent même être comparables à un modèle de source fermée à plus grande échelle!

Enfin, la distillation de la chaîne de réflexion de longueur adaptative. L'équipe de Kunlun Wanwei a proposé de manière innovante un mécanisme de "frein intelligent". Le modèle peut ajuster de manière adaptative la longueur de la chaîne d'inférence en fonction de la complexité du texte visuel pour éviter de "trop réfléchir", améliorant ainsi considérablement l'efficacité d'inférence tout en garantissant la précision du raisonnement! De plus, avec la stratégie d'auto-distillation en plusieurs étapes, la génération de données et la qualité d'inférence du modèle sont améliorées à un niveau supérieur, et il est plus à l'aise dans les tâches multimodales complexes!

L'open source de Skywork R1V fournira sans aucun doute un puissant raisonnement multimodal "Arme" aux chercheurs et aux développeurs en Chine et même dans le monde. Son émergence accélérera non seulement l'innovation et l'application de la technologie d'IA multimodale, mais favorisera également l'intégration profonde de la technologie de l'IA dans tous les horizons, ouvrant un avenir plus intelligent et meilleur pour nous!