微软近期推出了创新的rStar-Math技术,该技术能够显著增强小型语言模型(SLMs)在解决数学问题上的能力,在某些情况下甚至超过了OpenAI的o1-preview模型。目前,这项技术尚处于研究阶段,相关的研究论文已发表在arXiv.org上,由微软、北京大学以及清华大学的八位研究人员共同完成。
在一系列测试中,rStar-Math技术被应用于多个小型开源模型,包括微软的Phi-3迷你模型、阿里巴巴的Qwen-1.5B(15亿参数模型)和Qwen-7B(70亿参数模型)。结果显示,所有参与测试的模型性能均有提升,其中在MATH基准测试中,rStar-Math甚至超越了OpenAI先前最先进的模型。
研究团队计划将相关代码和数据发布在GitHub上,尽管目前还在内部审核阶段,尚未对外公开。这一技术引起了社区广泛关注,许多成员对其与蒙特卡罗树搜索(MCTS)结合的逐步推理方法表示赞赏,认为这种创新在几何证明和符号推理等领域具有广阔的应用前景。
rStar-Math技术的核心在于运用蒙特卡罗树搜索(MCTS)模拟人类的深度思考过程,通过逐步细化数学问题的解决方案来促进小型模型的自进化。研究人员不仅采用了MCTS,还要求模型在输出推理步骤的同时提供Python代码,从而有效促进了模型训练。
经过四轮自我演进,rStar-Math在多个基准测试中取得了显著成果。在MATH基准测试中,Qwen2.5-Math-7B模型的准确率从58.8%提升至90.0%,超越了OpenAI的o1-preview。在美国数学邀请赛(AIME)中,该模型解决了53.3%的问题,表现位列高中竞争者的前20%。
近年来,人工智能领域的创新主要依赖于模型参数的不断增加,但随之而来的高成本引发了人们对这种扩展可持续性的质疑。微软通过rStar-Math展示了小型模型的潜力,强调了高效能的重要性。这一技术的发布表明,专门的小型模型可以作为大型系统的有效替代,为中型组织和学术研究者提供前沿的能力,同时避免承担庞大的财务和环境负担。
论文链接:https://arxiv.org/pdf/2501.04519
重点提示:
🌟 微软发布rStar-Math技术,显著提升小型模型在数学问题上的表现。
📊 该技术已在多种开源模型上测试,部分模型性能超越OpenAI的o1-preview。
🔍 研究计划将在GitHub上发布代码,吸引社区关注,展示小型模型的巨大潜力。
暂无评论