Anthropic 正式发布了其新一代中端模型 Claude Sonnet 5,核心卖点是在大幅提升代理能力的同时,提供了更具竞争力的价格。该模型即日起成为 Claude 免费版和 Pro 版 的默认选项,面向所有订阅用户开放。

根据 Anthropic 的官方博客,Sonnet 5 能够自主制定计划、调用浏览器和终端等工具,并以数月前只有更大、更昂贵模型才能达到的水平独立运行。这一描述与近期 OpenAIGoogle 的发布策略高度相似——OpenAI 上周预览了 GPT-5.6 Sol,强调其可将工作拆分给子代理以完成更长的自主任务;Google 则在 5 月推出的 Gemini 3.5 Flash 中,将产品定位从对话式聊天机器人转向了能规划、构建和迭代实际工作的代理工具。

Sonnet 5 的推出确认了一个行业趋势:代理能力已不再是高端模型的专属,而是全价格区间的新基线。未来的竞争焦点不再是“谁能做代理工作”,而是“谁能以更低成本、更少人工监督可靠地完成代理工作”。

在定价上,Sonnet 5 在 8 月 31 日 前执行促销价,每百万输入 token 收费 2 美元,每百万输出 token 收费 10 美元;之后输入价格将上调至 3 美元。这一价格不仅低于自家的旗舰模型 Opus 4.8,也低于 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro,但仍高于 Gemini 3.5 Flash。

性能方面,Sonnet 5 相比今年 2 月发布的前代 Sonnet 4.6 有显著提升。在代理编码基准测试中,Sonnet 5 得分为 63.2%,介于 Opus 4.8 的 69.2% 和 Sonnet 4.6 的 58.1% 之间。值得注意的是,在知识工作基准测试中,Sonnet 5 甚至略微超越了以解决高难度问题见长的 Opus 4.8。Anthropic 表示,Opus 4.8 仍是追求更高准确度任务的首选,但 Sonnet 5 为开发者提供了成本更低且质量远超以往中端模型的选择,用户可以在两者之间根据成本与性能需求进行权衡。

来自早期测试者的反馈也印证了其可靠性。自动化平台 Zapier 的高级工程师 Daniel Shepard 指出,Sonnet 5 能够端到端地完成过去常会中途卡住的多步骤复杂任务,例如更新 Salesforce 账户层级并同时向企业联系人发送发布公告,且模型会主动检查自身输出,无需明确指令。

在安全性上,Sonnet 5 同样有所进步。它表现出更低的“不良行为”发生率,包括配合滥用和欺骗的倾向,能更好地拒绝恶意请求并规避提示注入攻击中的劫持企图。其幻觉和迎合性行为的比率也低于 Sonnet 4.6。不过,在应对错位行为方面,它仍未达到 Opus 4.8 和 Claude Mythos Preview 的水平。Anthropic 强调,评估显示 Sonnet 5 执行危险网络安全任务的能力远低于当前的 Opus 系列模型。无代码开发平台 Lovable 的联合创始人 Fabian Hedin 评价称,该模型能干净且一致地拒绝不安全请求,对于将强大工具交到数百万构建者手中的平台而言,一个懂得何时说“不”的模型与懂得如何构建的模型同等重要。

此次发布正值基础模型公司集体将代理能力推向市场标配的关键节点。Anthropic 通过 Sonnet 5 明确传递了其策略:不只在最顶尖模型上堆砌能力,而是在更广泛的中端市场提供足够强大、安全且经济高效的代理解决方案,这可能会加速 AI 代理在商业自动化领域的落地。