中国私募巨头幻方量化旗下的 DeepSeek,近期推出了其最新的推理专注型大型语言模型 R1-Lite-Preview。目前,该模型仅在 DeepSeek Chat 这个网页聊天机器人平台上面向公众开放使用。  

image.png

DeepSeek 以其在开源 AI 生态系统中的创新成就而备受瞩目,此次发布旨在为用户提供高效的推理能力,同时履行其对可及性与透明性的承诺。尽管 R1-Lite-Preview 目前仅在聊天应用中可用,但它已因与 OpenAI 最新发布的 o1-preview 模型相媲美的表现而广受关注。  

R1-Lite-Preview 采用了“链式思维”推理方法,能够清晰展示其在处理用户查询时的各类思维过程。

尽管某些思维链对人类而言可能看似无序或出错,但整体上,R1-Lite-Preview 依然能够提供相当准确的回答,甚至能够解决一些传统强大的 AI 模型如 GPT-4o 和 Claude 系列在“陷阱”问题上的挑战,例如:“草莓”这个词里有多少个字母 R?“9.11和9.9哪个大?”  

DeepSeek 表示,该模型在逻辑推理、数学思维及实时解决问题的任务中表现卓越。在 AIME(美国邀请数学考试)和 MATH 等已建立的基准测试中,其成绩均超过 OpenAI 的 o1-preview。  

image.png

此外,DeepSeek 还发布了模型的扩展数据,证明在给予模型更长时间或“思考令牌”以解决问题时,其准确性有显著提升。相关图表强调了思维深度增加时,该模型在 AIME 等基准上的得分提升趋势。  

目前,R1-Lite-Preview 在关键基准测试中的表现突出,能够应对从复杂数学到逻辑推理的一系列任务,其得分与顶级推理模型如 GPQA 和 Codeforces 不相上下。该模型透明的推理过程使用户能够实时追踪其逻辑步骤,增加了系统的责任感和可信度。  

image.png

值得注意的是,DeepSeek 尚未公开完整的代码供第三方独立分析或基准测试,也没有提供 API 接口供独立测评。目前也未发布有关 R1-Lite-Preview 的训练或构建过程的博客和技术文档,令其起源仍存疑问。  

目前,用户可以通过 DeepSeek Chat(chat.deepseek.com)免费体验 R1-Lite-Preview,但其高级“深思”模式每日有消息发送上限50条,用户可以借此探索其强大能力。DeepSeek 计划推出 R1系列模型的开源版本和相关 API,以进一步促进开源 AI 社区的发展。  

DeepSeek 在开源 AI 领域的创新步伐不断,R1-Lite-Preview 的发布为推理和可扩展性带来了新面向。随着企业和研究者们深入探索推理密集型 AI 的应用,DeepSeek 的开放承诺将确保其模型成为关键的研发和创新资源。

官方入口:https://www.deepseek.com/

划重点:  

🌟 DeepSeek 发布 R1-Lite-Preview 模型,性能接近并超越 OpenAI o1。  

📊 模型展示透明的推理过程,用户可以实时观察逻辑步骤。  

🔍 深度学习与逻辑推理能力显著,未来将发布开源版本和 API。