最近、360 Intelligent Brainチームは、人工知能の分野で大きなブレークスルーを行い、DeepSeekの補強学習効果を正常に再現し、オープンソースの推論モデルLight-R1-14B-DSを公式にリリースしました。このモデルのリリースは、特に数学的な推論能力における強化学習の分野における大きな進歩を示しています。 Light-R1-14B-DSは、パフォーマンスでDeepSeek-R1-Distill-Lalama-70BとDeepseek-R1-Distill-Qwen-32Bを超えるだけでなく、14Bパラメーターのスケールで強化学習効果を達成するための業界初のモデルにもなり、複雑なタスクでの優れた機能を実証します。
特定のテストでは、Light-R1-14B-DSは大幅な改善を示しました。 DeepSeek-R1-14Bと比較して、このモデルは数学の競争タスクで特にうまく機能します。 AIME24テストでは、そのスコアは4.3ポイント増加しましたが、AIME25では10ポイント増加しました。さらに、数学的推論タスクGPQAでは、Light-R1-14B-DSは61.7の優れたスコアを達成しました。
このブレークスルーを達成するために、360 Intelligent Brainチームは2つの革新的なトレーニング方法を採用しました。 1つ目は、カリキュラムSFT(高度な監視付き微調整)です。これにより、モデルは、段階的なトレーニングを通じて単純な数学的問題から複雑な問題に徐々に移行できるため、論理的な推論能力がさらに向上します。 2つ目はRehnecortion Learning(RL)です。これは、14Bレベルの推論モデルに正常に適用されたのは初めてであり、推論の精度を大幅に改善するだけでなく、他のスキルの基本的な損失を確保することもできます。これら2つの方法の組み合わせにより、Light-R1-14B-DSがパフォーマンスの定性的な飛躍を達成することができました。
このリリースには、モデル自体だけでなく、オープンソースのSFTデータ、コード、技術レポートも含まれており、業界に貴重なリソースを提供します。この成果は、小規模および中規模のモデルの強化学習の分野での大きな進歩をマークするだけでなく、AI推論能力のさらなる普及と開発のための強固な基盤を置きます。これらのリソースのオープンソースを通じて、360インテリジェントブレインチームは、より多くの研究者と開発者がこの分野での研究に参加するよう促進し、人工知能技術の進歩を共同で促進したいと考えています。
プロジェクトアドレス:https://github.com/qihoo360/light-r1
モデルアドレス:https://huggingface.co/qihoo360/light-r1-14b-ds
データアドレス:https://huggingface.co/datasets/qihoo360/light-r1-sftdata