阶跃星辰StepR-mini:文理兼修推理新高度

阶跃星辰Step系列模型家族迎来首个推理模型。

国内推理模型领域迎来新竞争,继OpenAI o1后,国产大模型「六小虎」旗下阶跃星辰推出新一代模型——Step Reasoner mini(简称「Step R-mini」)。作为Step系列的首个推理模型,它标志着阶跃星辰在推理领域的突破。


(adsbygoogle=window.adsbygoogle||[]).push({});

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科-1
Step R-mini擅长规划、尝试和反思,通过慢思考和反复验证的逻辑机制,为用户提供精确可靠的回复。

该模型不仅擅长处理逻辑推理、代码和数学等复杂问题,还能兼顾文学创作等通用领域,实现文理兼修。

阶跃星辰公布的基准测试数据显示,Step R-mini在AIME 2024和Math500两个数学基准上均达到SOTA水平,在Math500上甚至比o1-mini多2分。此外,Step Reasoner mini在LiveCodeBench代码任务上也超越了o1-preview。

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科-1

新模型的成功得益于阶跃星辰对Scaling Law原则的坚持,包括强化学习、数据质量、测试时计算、模型大小等方面的优化。

阶跃星辰还在打造多模态推理的视觉推理模型,强调该模型在视觉领域的推理能力,而不仅仅是文字领域的推理。

阶跃星辰在推理模型领域取得的成绩,标志着我国在人工智能领域的发展迈出了重要一步。

Step Reasoner mini的设计与开发

Step R-mini的设计与开发遵循主流推理模型开发范式,通过增加计算量、结合思维链等技术实现慢思考。该系统能够根据任务复杂性进行主动规划、尝试和反思,通过反复验证的逻辑机制提供准确可靠的反馈。

Step Reasoner mini的最大亮点是实现了文理兼修,通过大规模强化学习训练和On-Policy强化学习算法,能够准确解答数学、代码、逻辑推理问题,同时富有创意地完成文学内容创作和日常聊天任务。

阶跃星辰对Scaling Law原则的坚持,包括强化学习、数据质量、测试时计算、模型大小等方面的优化,为模型推理能力的提升提供了有力保障。

Step Reasoner mini的实际应用效果

Step Reasoner mini在文理兼修方面表现出色,以下是一些实际应用案例:

1. 解答古诗词问题,准确找到正确答案。

2. 解答高考数学题,经过多轮思考得到正确答案。

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科-1

3. 解答逻辑推理题,系统整理题目中人物关系,清晰呈现最终答案。

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科-1

4. 翻译英文句子,引经据典,找到霸气译法。

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科-1

5. 帮助外国网友起中文名,流畅切换英语思考模式,穿插对汉语含义的思考。

阶跃星辰发布Step R-mini!推理模型从此不再文理偏科-1

视觉推理模型的发展前景

除了语言推理模型,阶跃星辰还在打造视觉推理模型,将推理能力融入更多交互形态的大模型中。针对复杂视觉场景下的Reasoning问题,阶跃星辰引入慢感知和空间推理的思想,把Test-Time Scaling从文本空间转移到视觉空间,实现视觉空间下的Spatial-Slow-Thinking。

阶跃星辰在视觉推理模型领域的发展,将为我国人工智能领域带来更多创新和突破。

相关推荐

暂无评论

发表评论