2月24日,360智脑团队携手北京大学共同推出了中等规模推理模型Tiny-R1-32B-Preview。该模型凭借仅5%的参数量,就能接近Deepseek-R1-671B的完整性能,充分展示了小型模型在高效推理领域的巨大潜力。
Tiny-R1-32B-Preview在多个关键领域表现出色。在数学领域,该模型在AIME2024评测中获得了78.1分,与R1模型的79.8分非常接近,远超Deepseek-R1-Distill-Llama-70B的70.0分。在编程和科学领域,模型在LiveCodeBench和GPQA-Diamond测试中分别取得了61.6分和65.0分,全面领先于现有的最佳开源70B模型Deepseek-R1-Distill-Llama-70B。这一成就不仅证明了Tiny-R1-32B-Preview在性能上的卓越,还通过减少5%的参数量显著降低了推理成本,实现了效率的提升。
这一突破背后的核心技术是“分治-融合”策略。研究团队基于DeepSeek-R1生成大量领域数据,分别对数学、编程、科学三大垂直领域进行了模型训练。随后,利用Arcee团队的Mergekit工具进行智能融合,突破了单一模型的性能瓶颈,实现了多任务的均衡优化。这种创新的技术路径不仅提升了模型性能,也为未来推理模型的发展开辟了新路径。
360智脑团队与北京大学的研发团队表示,Tiny-R1-32B-Preview的成功离不开开源社区的支持。该模型得益于DeepSeek-R1蒸馏、DeepSeek-R1-Distill-32B增量训练以及模型融合等技术。
为了促进技术的普及,研发团队承诺将公开完整的模型仓库,包括技术报告、训练代码及部分数据集。模型仓库已上线至Hugging Face平台,地址为https://huggingface.co/qihoo360/TinyR1-32B-Preview。
暂无评论