360智脑团队成功复现Deepseek强化学习效果，发布开源模型Light-R1-14B-DS - AI文章

作者：Eve Cole 更新时间：2025-05-19 15:00:04

近日，360智脑团队在人工智能领域取得了重大突破，成功复现了Deepseek的强化学习效果，并正式发布了开源推理模型Light-R1-14B-DS。这一模型的发布标志着中小规模模型在强化学习领域的显着进步，尤其是在数学推理能力上的表现尤为突出。 Light-R1-14B-DS不仅在性能上超越了DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B，还成为业界首款在14B参数规模上实现强化学习效果的模型，展现了其在复杂任务中的卓越能力。

在具体的测试中，Light-R1-14B-DS表现出了显着的提升。与DeepSeek-R1-14B相比，该模型在数学竞赛任务中表现尤为突出。在AIME24测试中，其得分提升了4.3分，而在AIME25中更是提高了10分。此外，在数学推理任务GPQA上，Light-R1-14B-DS取得了61.7分的优异成绩，这一成绩甚至超过了大多数32B级别的模型，充分展示了其在数学推理领域的强大能力。

为了实现这一突破，360智脑团队采用了两种创新的训练方法。首先是Curriculum SFT（渐进式监督微调），这种方法通过分阶段训练，让模型从简单的数学问题逐步过渡到复杂问题，从而进一步增强其逻辑推理能力。其次是强化学习（RL），这是首次在14B级别的推理模型上成功应用，不仅显着提升了推理的准确率，还确保了其他技能的基本无损。这两种方法的结合，使得Light-R1-14B-DS在性能上实现了质的飞跃。

此次发布不仅包括了模型本身，还开源了SFT数据、代码及技术报告，为业界提供了宝贵的资源。这一成果不仅标志着中小规模模型在强化学习领域的重大进展，也为AI推理能力的进一步普及与发展奠定了坚实的基础。通过开源这些资源，360智脑团队希望推动更多研究者和开发者参与到这一领域的研究中，共同推动人工智能技术的进步。

项目地址:https://github.com/Qihoo360/Light-R1

模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS

数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData