360智脑发布Tiny-R1-32B：5%参数逼近Deepseek-R1满血性能 - AI文章

作者：Eve Cole 更新时间：2025-05-24 23:50:02

2024年2月24日，人工智能领域迎来了一项重要突破。 360智脑团队与北京大学联合研发的中等量级推理模型Tiny-R1-32B-Preview正式发布。这款创新性模型以其仅5%的参数量，成功逼近了Deepseek-R1-671B的满血性能，为高效推理领域开辟了新的可能性。

在性能测试中，Tiny-R1-32B-Preview展现了令人瞩目的表现。特别是在数学领域，该模型在AIME2024评测中取得了78.1分的优异成绩，与R1原版模型的79.8分仅相差1.7分，同时大幅领先于Deepseek-R1-Distill-Llama-70B的70.0分。在编程和科学领域，该模型同样表现优异，分别在LiveCodeBench和GPQA-Diamond测试中取得了61.6分和65.0分的好成绩，全面超越了当前最佳开源70B模型。这一系列成果不仅证明了Tiny-R1-32B-Preview的卓越性能，更通过大幅降低推理成本，实现了效率的显着提升。

微信截图_20250226080042.png

这一突破性成果的背后，是研究团队创新的"分治-融合"策略。该策略首先基于DeepSeek-R1生成海量领域数据，分别训练了数学、编程、科学三大垂直领域的专业模型。随后，研究团队借助Arcee团队的Mergekit工具进行智能融合，成功突破了单一模型的性能上限，实现了多任务的均衡优化。这种创新的技术路径不仅显着提升了模型的整体性能，更为未来推理模型的发展提供了新的思路和方向。

360智脑团队和北京大学的联合研发团队特别强调，Tiny-R1-32B-Preview的成功离不开开源社区的大力支持。该模型充分受益于DeepSeek-R1蒸馏技术、DeepSeek-R1-Distill-32B增量训练以及先进的模型融合技术，这些技术成果的积累为模型的研发奠定了坚实基础。

为推动技术普惠，研发团队承诺将公开完整的模型仓库，包括详细的技术报告、训练代码及部分数据集。目前，模型仓库已正式上线至Hugging Face平台，访问地址为https://huggingface.co/qihoo360/TinyR1-32B-Preview。这一开放举措将为人工智能研究社区提供宝贵的资源，促进相关技术的进一步发展。