斯坦福新AI训练法S1：提升模型推理能力，开源高效

斯坦福大学与华盛顿大学的研究团队最近共同推出了一种革命性的AI训练方法，命名为S1。该方法的核心在于运用极简的测试时缩放技术，极大地提升了语言模型的推理能力。与传统的依赖强大算力或复杂算法的方法不同，S1通过巧妙地调控模型在测试阶段的计算资源分配，实现了性能的显著飞跃。

S1方法首先构建了一个名为s1K的小型数据集，内含1000个高质量的推理问题。这个数据集的筛选标准极为严格，必须同时满足难度高、多样性丰富、质量优良三个条件。研究团队通过详尽的消融实验证明了这三个标准的重要性，实验结果显示，随机选择或仅关注单一标准都会导致性能明显下滑。特别值得一提的是，即使是使用包含5.9万个样本的超集进行训练，其效果也不如精心挑选的1000个样本，这凸显了数据选择的重要性。

在模型训练完成后，研究人员采用了“预算强制”技术来控制测试时的计算量。简单来说，这种技术通过强制终止模型的思考过程或加入“等待”指令来延长模型的思考时间，从而引导模型进行更深入的探索和验证。通过这种方式，模型能够反复检查推理步骤，有效纠正错误。

实验结果表明，经过在s1K数据集上的微调和“预算强制”技术的加持，s1-32B模型在竞赛级数学问题上的表现超过了OpenAI的o1-preview模型27%。更令人惊喜的是，通过“预算强制”进行缩放，s1-32B模型还展现出了超越自身训练水平的泛化能力，在AIME24测试集上的得分从50%提升至57%。

这项研究的核心贡献在于，它提供了一种简单高效的方法来创建具有高推理能力的数据集，并实现测试时的性能缩放。基于此，研究团队打造了s1-32B模型，其性能不仅完全可以媲美，甚至超越了一些闭源模型，同时做到了开源、高样本效率。该研究的代码、模型和数据已在GitHub上开源。

研究人员对数据的细微之处以及测试时缩放技术进行了深入的消融实验。在数据方面，他们发现同时考虑难度、多样性和质量是至关重要的。在测试时缩放方面，“预算强制”方法表现出极高的可控性和性能提升。研究还探讨了并行缩放和顺序缩放两种不同的方法，并引入了REBASE等高级技术，为未来的研究方向提供了重要的启示。

这项研究不仅为AI训练领域带来了一种低成本、高效益的新思路，也为更广泛的AI应用打下了坚实的基础。

论文地址：https://arxiv.org/pdf/2501.19393

斯坦福新AI训练法S1：提升模型推理能力，开源高效

启明星辰“安星”智能体与DeepSeek大模型全面对接，信息安全能力再升级

AI专家JohnSchulman离职Anthropic，AI对齐研究成焦点

暂无评论

发表评论取消回复

启明星辰“安星”智能体与DeepSeek大模型全面对接，信息安全能力再升级

AI专家JohnSchulman离职Anthropic，AI对齐研究成焦点

相关推荐

暂无评论

发表评论 取消回复

搜索

斯坦福新AI训练法S1：提升模型推理能力，开源高效

发表评论取消回复