Récemment, l'équipe 360 intelligente du cerveau a fait une percée majeure dans le domaine de l'intelligence artificielle, recréant avec succès l'effet d'apprentissage du renforcement de Deepseek et a officiellement publié le modèle d'inférence open source Light-R1-14B-DS. La libération de ce modèle marque un progrès important dans le domaine de l'apprentissage par renforcement, en particulier dans la capacité de raisonnement mathématique. Light-R1-14B-DS dépasse non seulement Deepseek-R1-Distill-Llama-70B et Deepseek-R1-Distill-Qwen-32B en performance, mais devient également le premier modèle de l'industrie à réaliser des effets d'apprentissage de renforcement sur l'échelle des paramètres 14B, démontrant ses capacités exceptionnelles dans des tasks complexes.
Dans des tests spécifiques, Light-R1-14B-DS a montré une amélioration significative. Par rapport à Deepseek-R1-14B, ce modèle fonctionne particulièrement bien dans les tâches de compétition en mathématiques. Dans le test AIME24, son score a augmenté de 4,3 points, tandis que dans l'AIME25, il a augmenté de 10 points. De plus, sur la tâche de raisonnement mathématique GPQA, Light-R1-14B-DS a obtenu un excellent score de 61,7, ce qui a même dépassé la plupart des modèles de niveau 32B, démontrant pleinement ses capacités puissantes dans le domaine du raisonnement mathématique.
Pour réaliser cette percée, l'équipe 360 intelligente du cerveau a adopté deux méthodes de formation innovantes. Le premier est le curriculum SFT (Advanced Supervised Fine Tuning), qui permet au modèle de passer progressivement des simples problèmes mathématiques à des problèmes complexes grâce à une formation progressive, améliorant ainsi davantage sa capacité de raisonnement logique. La seconde est l'apprentissage par renforcement (RL), qui est la première fois qu'elle a été appliquée avec succès sur un modèle d'inférence de niveau 14B, non seulement améliorant considérablement la précision du raisonnement, mais assurant également la perte fondamentale des autres compétences. La combinaison de ces deux méthodes a permis à Light-R1-14B-D-D pour réaliser un saut qualitatif de performance.
Cette version comprend non seulement le modèle lui-même, mais également les données Open Source, le code et les rapports techniques, fournissant des ressources précieuses pour l'industrie. Cette réalisation marque non seulement un progrès majeur dans le domaine de l'apprentissage par renforcement des modèles de petite et moyenne taille, mais jette également une base solide pour la plus grande popularisation et développement des capacités de raisonnement d'IA. Grâce à l'open source de ces ressources, l'équipe 360 intelligente du cerveau espère promouvoir davantage de chercheurs et de développeurs pour participer à la recherche dans ce domaine et promouvoir conjointement l'avancement de la technologie de l'intelligence artificielle.
Adresse du projet: https://github.com/qihoo360/light-r1
Adresse du modèle: https://huggingface.co/qihoo360/light-r1-14b-ds
Adresse de données: https://huggingface.co/datasets/qihoo360/light-r1-sftdata