2024年2月24日,人工智能领域迎来了一项重要突破。 360智脑团队与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式发布。这款创新性模型以其仅5%的参数量,成功逼近了Deepseek-R1-671B的满血性能,为高效推理领域开辟了新的可能性。
在性能测试中,Tiny-R1-32B-Preview展现了令人瞩目的表现。特别是在数学领域,该模型在AIME2024评测中取得了78.1分的优异成绩,与R1原版模型的79.8分仅相差1.7分,同时大幅领先于Deepseek-R1-Distill-Llama-70B的70.0分。在编程和科学领域,该模型同样表现优异,分别在LiveCodeBench和GPQA-Diamond测试中取得了61.6分和65.0分的好成绩,全面超越了当前最佳开源70B模型。这一系列成果不仅证明了Tiny-R1-32B-Preview的卓越性能,更通过大幅降低推理成本,实现了效率的显着提升。

这一突破性成果的背后,是研究团队创新的"分治-融合"策略。该策略首先基于DeepSeek-R1生成海量领域数据,分别训练了数学、编程、科学三大垂直领域的专业模型。随后,研究团队借助Arcee团队的Mergekit工具进行智能融合,成功突破了单一模型的性能上限,实现了多任务的均衡优化。这种创新的技术路径不仅显着提升了模型的整体性能,更为未来推理模型的发展提供了新的思路和方向。
360智脑团队和北京大学的联合研发团队特别强调,Tiny-R1-32B-Preview的成功离不开开源社区的大力支持。该模型充分受益于DeepSeek-R1蒸馏技术、DeepSeek-R1-Distill-32B增量训练以及先进的模型融合技术,这些技术成果的积累为模型的研发奠定了坚实基础。
为推动技术普惠,研发团队承诺将公开完整的模型仓库,包括详细的技术报告、训练代码及部分数据集。目前,模型仓库已正式上线至Hugging Face平台,访问地址为https://huggingface.co/qihoo360/TinyR1-32B-Preview。这一开放举措将为人工智能研究社区提供宝贵的资源,促进相关技术的进一步发展。