Coinbase 首席執行官 Brian Armstrong 上週五晚間在 X 平臺發文,披露了一項引人關注的工程決策:公司已將兩款中國開源大模型——智譜旗下的 GLM 5.2 和北京月之暗面旗下的 Kimi 2.7——通過內部 LLM 網關設定為工程師的默認模型。這一調整配合路由優化與緩存改進,使 Coinbase 的 AI 支出削減了近一半,而 token 使用量仍在以指數級速度增長。

Armstrong 在帖子中給出了一組關鍵數據:91% 的工程師從未觸及原有的使用上限。這意味著大多數日常開發任務並不需要最昂貴的頂級模型。Coinbase 沒有選擇降低上限或增設消費提醒,而是直接更換了默認選項,用成本更低的開源模型處理常規任務。對於需要複雜規劃的場景,工程師仍可調用前沿模型,但 Armstrong 的邏輯很明確——在執行層面使用頂級模型往往是“大材小用”。

代碼審查環節則採用了多模型並行策略,讓不同模型相互校驗輸出結果,以維持質量標準。這種做法既利用了開源模型的成本優勢,又通過交叉驗證彌補了單一模型可能存在的不足。

Armstrong 將成本壓縮歸結為三層基礎設施重構。第一層是智能路由:在自定義調度框架中,系統對提示詞進行預處理,綜合緩存命中率與模型定價,自動將任務分發至最合適、最經濟的模型。他的最終目標是讓 AI 而非人工來完成模型選擇。第二層是積極緩存:Coinbase 要求所有請求具備緩存感知能力,儘量複用已有緩存。以 LibreChat 為例,在正確實施緩存機制後,緩存命中率從 5% 躍升至 60%。第三層是精簡上下文:Armstrong 建議在切換任務時開啟新會話,縮小文件上下文範圍,斷開未使用的工具連接。他強調,目標不是減少 token 使用總量,而是減少“被浪費的 token”。

值得注意的是,Armstrong 將此次成本壓縮定性為擴大 AI 採用規模的前提條件,而非一種限制。工程師仍可自由使用任意數量的 token 和任意模型,但公司已將用量數據可視化,並將使用量與業務影響掛鉤——“花得越多,我們期望的影響也越大”。他並未披露具體的絕對支出數字,但從結構上看,在使用量指數增長的同時實現支出近半削減,意味著 Coinbase 已在一定程度上實現了消耗與成本的解耦。

這一案例的背景是美國頂尖模型服務成本持續攀升。OpenAI、Anthropic 等公司的前沿模型 API 定價居高不下,迫使企業尋找替代方案。中國開源模型的崛起恰好提供了這樣的選項。智譜和月之暗面均採用開源權重策略,企業可以自行部署,避免了按 token 計費的高昂成本。Armstrong 本人也認為這套方法論具有普適性,任何企業均可借鑑,以便在不將成本設為天花板的前提下,實現 AI 使用規模的可持續擴張。

從行業視角看,Coinbase 的舉措可能產生示範效應。作為一家納斯達克上市的金融科技公司,它公開採用中國開源模型,本身就傳遞了一個信號:在成本壓力面前,技術實用主義正在壓倒地緣政治考量。如果更多美國企業跟進,全球 AI 基礎設施的供應鏈格局或將面臨重塑。