昨晚,Anthropic 即将发布新模型的消息在 AI 社区迅速传播,但并非外界预期的 Claude 4.0,而是 Claude 3.7 Sonnet 版本。
(adsbygoogle = window.adsbygoogle || []).push({});
今天凌晨,Anthropic 正式发布了最新的旗舰模型,推出了迄今为止最智能、市场上首个混合推理模型 —— Claude 3.7 Sonnet。
Claude 3.7 Sonnet 既能提供近乎实时的快速响应,也能根据用户需求,进行更深入、更细致的逐步思考。正如 Anthropic 所描述的「一个模型,两种思考方式」(One model, two ways to think.),指的是其具备标准和扩展两种思考模式。此外,API 用户还可以对模型的思考时长进行更精细的控制。
除了发布 Claude 3.7 Sonnet 之外,Anthropic 还同步推出了名为 Claude Code 的命令行工具,专注于智能编码。该工具目前以有限研究预览版的形式提供,旨在让开发者可以直接在终端环境中,将大量的工程任务交给 Claude 处理。
在编码能力方面,Anthropic 进一步优化了 Claude.ai 平台的编码体验。其 GitHub 集成功能现已在所有 Claude 计划中开放,开发者可以将代码仓库直接连接到 Claude。通过更深入地理解个人项目、工作项目以及开源项目,Claude 将成为开发者在 GitHub 项目中进行错误修复、功能开发和文档构建时更强大的助手。
正因如此,受益于在编码和前端 Web 开发能力上的显著提升,Claude 3.7 Sonnet 成为了 Anthropic 目前为止最优秀的编码模型。
目前,用户可以通过所有 Claude 计划(包括 Free、Pro、Team 和 Enterprise),以及 Anthropic API、Amazon Bedrock 和 Google Cloud Vertex AI 等平台体验最新的 Claude 3.7 Sonnet 模型。除了免费用户外,所有付费用户均可体验其扩展思考模式。
在标准和扩展思考模式下,Claude 3.7 Sonnet 的定价与上一代 Claude 3.5 Sonnet 保持一致,均为每百万输入 token 3 美元,每百万输出 token 15 美元(包含思考 token)。
正如一位网友评价道:「Anthropic 的每次新品发布都令人感到惊喜和振奋!」
最强 Claude 3.7 Sonnet
让前沿推理触手可及
Anthropic 强调,Claude 3.7 Sonnet 的开发理念有别于市场上其他推理模型。Anthropic 认为,正如人类大脑能够同时进行快速反应和深度思考,AI 推理能力也应该整合前沿模型的各项能力,而不是将它们彼此割裂。这种统一的设计思路旨在为用户带来更流畅的使用体验。
遵循上述理念,Claude 3.7 Sonnet 具备多项独特优势。
首先,Claude 3.7 Sonnet 独特之处在于它既可以作为通用 LLM 使用,又具备强大的推理能力。用户可以根据需求选择让模型快速给出答案,或是在回答前进行更深入的思考。在标准模式下,Claude 3.7 Sonnet 可以看作是上一代 Claude 3.5 Sonnet 的升级版本。而在扩展思考模式下,它会在给出答案前进行自我反思,从而显著提升其在数学、物理、指令遵循、编码等多种任务上的性能表现。Anthropic 官方指出,在这两种模式下,模型对提示词的理解和处理方式是相似的。
其次,在使用 API 调用 Claude 3.7 Sonnet 时,用户还可以自定义模型的 “思考预算”。具体来说,用户可以设定 Claude 思考时最多使用的 token 数量(N)。无论 N 值如何设定,模型的输出 token 数量上限均为 128K。 这使得用户能够在响应速度(及成本)与答案质量之间找到最佳平衡点。
第三,在开发其推理模型时,Anthropic 并没有像其他机构那样,过度侧重于优化模型在数学和计算机科学竞赛题上的表现,而是将重点放在了更贴近企业实际应用场景的现实任务上。
从 Claude 3.7 Sonnet 的基准测试结果来看,在 SWE-bench Verified 基准测试(该基准测试旨在评估 LLM 解决 GitHub 真实软件问题的能力)中,Claude 3.7 Sonnet 取得了 SOTA 级别的性能,大幅领先于 Claude 3.5 Sonnet、OpenAI 的 o3-mini (high) 和 o1 以及 DeepSeek R1 等模型。
在 TAU-bench 基准测试(该基准测试平台用于评估 LLM 在复杂、真实的场景中,用户与工具的交互能力)中,Claude 3.7 Sonnet 同样表现出色,取得了 SOTA 级别的性能,超越了 Claude 3.5 Sonnet 和 OpenAI 的 o1 模型。
Claude 3.7 Sonnet 在指令遵循、通用推理、多模态能力和智能编码等多个方面均展现出卓越性能,尤其是在扩展思考模式下,数学和科学方面的能力得到了显著增强。但在某些特定领域,其性能仍略逊于 OpenAI 的 o3-mini (high)、Grok-3 Beta 等模型。
不难看出,Anthropic 在 Claude 3.7 Sonnet 上,将重心放在了编码能力上,其他领域的提升相对不那么突出。 显然,Anthropic 意图将 Sonnet 系列定位为专注于编码的 AI 模型(实际上也正在朝着这个方向发展)。
值得一提的是,除了在传统基准测试中表现优异外,Claude 3.7 Sonnet 甚至在宝可梦(Pokémon)游戏测试中也超越了以往的所有模型。
Anthropic 已经与其合作伙伴进行了大量的早期测试,结果充分证明了 Claude 系列模型在编码能力方面的领先地位。
例如,Cursor 团队指出,Claude 再次成为解决现实世界编码任务的首选方案,尤其在处理复杂代码库和使用高级工具方面,Claude 展现出了显著的进步。Cognition 团队也发现,在代码变更规划和全栈更新处理方面,Claude 的表现远超其他模型。Vercel 强调了 Claude 在复杂代理工作流程中展现出的卓越精度。Replit 则成功地利用 Claude 从零开始构建了复杂的 Web 应用程序和仪表板,而其他模型在这方面则显得力不从心。Canva 的评估结果显示,Claude 能够持续编写出设计精良且可以直接投入生产的代码,并显著减少了错误发生率。
Claude Code
智能编码让开发更便捷
自 2024 年 6 月起,Sonnet 系列模型便已成为全球开发者的常用之选。如今,Anthropic 正式发布了其首个智能编码工具 Claude Code(目前为有限研究预览版),旨在进一步提升开发者的工作效率和能力。
功能方面,Claude Code 定位为一个积极主动的协作伙伴,能够执行代码搜索与阅读、文件编辑、测试编写与运行、代码提交与推送到 GitHub,以及调用各种命令行工具等任务。
我们通过以下几个示例来了解 Claude Code 的应用场景,例如解释项目结构:
编写测试:
<img decoding="async" src="data:image/svg+xml,%3Csvg%20xmlns='http://www.w3.org/2000/svg'%20viewBox='0%200%200%200'%3
暂无评论