近日,360智脑团队在人工智能领域取得了重大突破,成功复现了Deepseek的强化学习效果,并正式发布了开源推理模型Light-R1-14B-DS。这一模型的发布标志着中小规模模型在强化学习领域的显着进步,尤其是在数学推理能力上的表现尤为突出。 Light-R1-14B-DS不仅在性能上超越了DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B,还成为业界首款在14B参数规模上实现强化学习效果的模型,展现了其在复杂任务中的卓越能力。
在具体的测试中,Light-R1-14B-DS表现出了显着的提升。与DeepSeek-R1-14B相比,该模型在数学竞赛任务中表现尤为突出。在AIME24测试中,其得分提升了4.3分,而在AIME25中更是提高了10分。此外,在数学推理任务GPQA上,Light-R1-14B-DS取得了61.7分的优异成绩,这一成绩甚至超过了大多数32B级别的模型,充分展示了其在数学推理领域的强大能力。
为了实现这一突破,360智脑团队采用了两种创新的训练方法。首先是Curriculum SFT(渐进式监督微调),这种方法通过分阶段训练,让模型从简单的数学问题逐步过渡到复杂问题,从而进一步增强其逻辑推理能力。其次是强化学习(RL),这是首次在14B级别的推理模型上成功应用,不仅显着提升了推理的准确率,还确保了其他技能的基本无损。这两种方法的结合,使得Light-R1-14B-DS在性能上实现了质的飞跃。
此次发布不仅包括了模型本身,还开源了SFT数据、代码及技术报告,为业界提供了宝贵的资源。这一成果不仅标志着中小规模模型在强化学习领域的重大进展,也为AI推理能力的进一步普及与发展奠定了坚实的基础。通过开源这些资源,360智脑团队希望推动更多研究者和开发者参与到这一领域的研究中,共同推动人工智能技术的进步。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData