Anthropic 正式發佈了其新一代中端模型 Claude Sonnet 5,核心賣點是在大幅提升代理能力的同時,提供了更具競爭力的價格。該模型即日起成為 Claude 免費版和 Pro 版 的默認選項,面向所有訂閱用戶開放。

根據 Anthropic 的官方博客,Sonnet 5 能夠自主制定計劃、調用瀏覽器和終端等工具,並以數月前只有更大、更昂貴模型才能達到的水平獨立運行。這一描述與近期 OpenAIGoogle 的發佈策略高度相似——OpenAI 上週預覽了 GPT-5.6 Sol,強調其可將工作拆分給子代理以完成更長的自主任務;Google 則在 5 月推出的 Gemini 3.5 Flash 中,將產品定位從對話式聊天機器人轉向了能規劃、構建和迭代實際工作的代理工具。

Sonnet 5 的推出確認了一個行業趨勢:代理能力已不再是高端模型的專屬,而是全價格區間的新基線。未來的競爭焦點不再是“誰能做代理工作”,而是“誰能以更低成本、更少人工監督可靠地完成代理工作”。

在定價上,Sonnet 5 在 8 月 31 日 前執行促銷價,每百萬輸入 token 收費 2 美元,每百萬輸出 token 收費 10 美元;之後輸入價格將上調至 3 美元。這一價格不僅低於自家的旗艦模型 Opus 4.8,也低於 OpenAI 的 GPT-5.5 和 Google 的 Gemini 3.1 Pro,但仍高於 Gemini 3.5 Flash。

性能方面,Sonnet 5 相比今年 2 月發佈的前代 Sonnet 4.6 有顯著提升。在代理編碼基準測試中,Sonnet 5 得分為 63.2%,介於 Opus 4.8 的 69.2% 和 Sonnet 4.6 的 58.1% 之間。值得注意的是,在知識工作基準測試中,Sonnet 5 甚至略微超越了以解決高難度問題見長的 Opus 4.8。Anthropic 表示,Opus 4.8 仍是追求更高準確度任務的首選,但 Sonnet 5 為開發者提供了成本更低且質量遠超以往中端模型的選擇,用戶可以在兩者之間根據成本與性能需求進行權衡。

來自早期測試者的反饋也印證了其可靠性。自動化平臺 Zapier 的高級工程師 Daniel Shepard 指出,Sonnet 5 能夠端到端地完成過去常會中途卡住的多步驟複雜任務,例如更新 Salesforce 賬戶層級並同時向企業聯繫人發送發佈公告,且模型會主動檢查自身輸出,無需明確指令。

在安全性上,Sonnet 5 同樣有所進步。它表現出更低的“不良行為”發生率,包括配合濫用和欺騙的傾向,能更好地拒絕惡意請求並規避提示注入攻擊中的劫持企圖。其幻覺和迎合性行為的比率也低於 Sonnet 4.6。不過,在應對錯位行為方面,它仍未達到 Opus 4.8 和 Claude Mythos Preview 的水平。Anthropic 強調,評估顯示 Sonnet 5 執行危險網絡安全任務的能力遠低於當前的 Opus 系列模型。無代碼開發平臺 Lovable 的聯合創始人 Fabian Hedin 評價稱,該模型能幹淨且一致地拒絕不安全請求,對於將強大工具交到數百萬構建者手中的平臺而言,一個懂得何時說“不”的模型與懂得如何構建的模型同等重要。

此次發佈正值基礎模型公司集體將代理能力推向市場標配的關鍵節點。Anthropic 通過 Sonnet 5 明確傳遞了其策略:不只在最頂尖模型上堆砌能力,而是在更廣泛的中端市場提供足夠強大、安全且經濟高效的代理解決方案,這可能會加速 AI 代理在商業自動化領域的落地。