Google 推出全新“推理”AI模型产品,目前仍处于实验阶段。根据我们的初步测试,这款模型仍有提升空间。
这款名为 Gemini 2.0 Flash Thinking Experimental 的模型(名称略显复杂),可在 Google 的 AI 原型开发平台 AI Studio 上使用。模型描述称其“最适用于多模态理解、推理和编码”,能在编程、数学和物理等领域解决复杂问题。
在 X 上的帖子中,AI Studio 产品负责人 Logan Kilpatrick 表示,Gemini 2.0 Flash Thinking Experimental 是 Google 推理旅程的第一步。Google DeepMind 首席科学家 Jeff Dean 在其帖子中指出,该模型被训练以思维增强推理能力。
“当我们增加推理时间的计算量时,我们看到了令人鼓舞的结果,” Dean 表示,这指的是模型回答问题时所需的计算量。
Gemini 2.0 Flash Thinking Experimental 建立在 Google 最近发布的 Gemini 2.0 Flash 模型基础上,其设计与 OpenAI 的 o1 和其他推理模型类似。与大多数 AI 不同,推理模型能有效地自我校验,避免一些导致 AI 模型犯错的陷阱。
然而,推理模型的一个缺点是,它们通常需要更长的时间——从几秒到几分钟——来得出解决方案。
面对提示,Gemini 2.0 Flash Thinking Experimental 会先稍作停顿,考虑多个相关提示,并在过程中“解释”其推理。稍后,模型会总结出它认为最准确的答案。
理论上是这样。当我询问 Gemini 2.0 Flash Thinking Experimental “strawberry”中 R 的数量时,它回答“两个”。
实际效果可能因人而异。
在 o1 发布后,来自竞争对手 AI 实验室的推理模型迅速增长,不仅仅是 Google。由量化交易员资助的 AI 研究公司 DeepSeek 在 11 月初预览了其首个推理模型 DeepSeek-R1。同月,阿里巴巴的 Qwen 团队发布了号称首个开放挑战 o1 的推理模型。
10 月报道显示,Google 有多个团队在开发推理模型。随后,《The Information》在 11 月的报道中透露,Google 至少有 200 名研究人员专注于这项技术。
推理模型热潮的引爆原因之一是寻找改进生成式 AI 的新方法。正如同事 Max Zeff 最近报道,“暴力破解”技术以扩大模型规模已不再带来之前的提升。
并非所有人都相信推理模型是最佳的发展路径。一方面,它们通常成本高昂,因为运行模型需要大量计算能力。而且,尽管它们在基准测试中表现不错,但尚不清楚推理模型是否能维持这一进展速度。
暂无评论