近期,斯坦福大学与华盛顿大学的AI研究人员共同研发出一款名为s1的AI推理模型,其训练成本仅需不到50美元,且云计算使用量极低。这一突破性成果在上周五公布,显示s1在数学及编程能力测试中,不输给OpenAI的o1模型和DeepSeek的R1模型。s1的代码和数据已公开于GitHub,供广大研究者共享。

image.png

研究团队透露,他们基于现有基础模型,运用蒸馏技术进行微调,以增强所需的推理能力。s1的蒸馏过程借鉴了谷歌的Gemini2.0Flash Thinking Experimental模型,与加州大学伯克利分校研究人员上月训练的另一款AI推理模型方法相似,后者训练成本约为450美元。

这一成果激发了业界的广泛关注,特别是在资金限制的背景下,研究者们依然能够实现创新。然而,s1的出现也引发了关于AI模型商业化的思考。若低成本复制百万美元级模型成为可能,那么大公司的竞争优势将何在呢?

显然,大型AI实验室对此表示不满,OpenAI曾指控DeepSeek不当使用其API数据进行模型蒸馏。s1研究团队期望找到一种简单方法实现强大推理性能,并提升“测试时间扩展”能力,即AI模型在回答问题前有更多思考时间。这些正是OpenAI的o1模型所取得的突破,DeepSeek及其他AI实验室也在寻求不同的方法进行复制。

s1研究显示,使用监督微调(SFT)方法,通过相对较小的数据集,能有效蒸馏推理模型,这种方法通常比DeepSeek使用的大规模强化学习方法成本低。谷歌也提供对Gemini2.0Flash Thinking Experimental的免费访问,但每日使用有限制,且禁止逆向工程其模型以开发竞争服务。

为训练s1,研究人员构建了一个包含1000个精心挑选的问题及其答案的数据集,并附上问题背后的“思考”过程。训练过程使用了16个Nvidia H100GPU,耗时不足30分钟。研究人员介绍,他们现在只需约20美元就能租到所需的计算资源。此外,研究团队还巧妙地运用了一种技巧,让s1在推理时加入“等待”一词,以提升答案的准确性。

展望2025年,Meta、谷歌和微软计划在AI基础设施上投资数千亿美元,部分资金将用于训练下一代AI模型。尽管蒸馏技术在以较低成本再现AI模型方面展现出良好效果,但并未显著提升新AI模型的表现。

论文链接:https://arxiv.org/pdf/2501.19393

代码链接:https://github.com/simplescaling/s1

划重点:

🌟 s1模型的训练成本不到50美元,表现可媲美顶尖推理模型。

🛠️ 研究团队通过蒸馏技术,从现有模型中提取推理能力,训练过程快速高效。

🚀 大型AI实验室对低成本复制模型表示担忧,未来投资将集中在AI基础设施上。