Coinbase 首席执行官 Brian Armstrong 上周五晚间在 X 平台发文,披露了一项引人关注的工程决策:公司已将两款中国开源大模型——智谱旗下的 GLM 5.2 和北京月之暗面旗下的 Kimi 2.7——通过内部 LLM 网关设定为工程师的默认模型。这一调整配合路由优化与缓存改进,使 Coinbase 的 AI 支出削减了近一半,而 token 使用量仍在以指数级速度增长。

Armstrong 在帖子中给出了一组关键数据:91% 的工程师从未触及原有的使用上限。这意味着大多数日常开发任务并不需要最昂贵的顶级模型。Coinbase 没有选择降低上限或增设消费提醒,而是直接更换了默认选项,用成本更低的开源模型处理常规任务。对于需要复杂规划的场景,工程师仍可调用前沿模型,但 Armstrong 的逻辑很明确——在执行层面使用顶级模型往往是“大材小用”。

代码审查环节则采用了多模型并行策略,让不同模型相互校验输出结果,以维持质量标准。这种做法既利用了开源模型的成本优势,又通过交叉验证弥补了单一模型可能存在的不足。

Armstrong 将成本压缩归结为三层基础设施重构。第一层是智能路由:在自定义调度框架中,系统对提示词进行预处理,综合缓存命中率与模型定价,自动将任务分发至最合适、最经济的模型。他的最终目标是让 AI 而非人工来完成模型选择。第二层是积极缓存:Coinbase 要求所有请求具备缓存感知能力,尽量复用已有缓存。以 LibreChat 为例,在正确实施缓存机制后,缓存命中率从 5% 跃升至 60%。第三层是精简上下文:Armstrong 建议在切换任务时开启新会话,缩小文件上下文范围,断开未使用的工具连接。他强调,目标不是减少 token 使用总量,而是减少“被浪费的 token”。

值得注意的是,Armstrong 将此次成本压缩定性为扩大 AI 采用规模的前提条件,而非一种限制。工程师仍可自由使用任意数量的 token 和任意模型,但公司已将用量数据可视化,并将使用量与业务影响挂钩——“花得越多,我们期望的影响也越大”。他并未披露具体的绝对支出数字,但从结构上看,在使用量指数增长的同时实现支出近半削减,意味着 Coinbase 已在一定程度上实现了消耗与成本的解耦。

这一案例的背景是美国顶尖模型服务成本持续攀升。OpenAI、Anthropic 等公司的前沿模型 API 定价居高不下,迫使企业寻找替代方案。中国开源模型的崛起恰好提供了这样的选项。智谱和月之暗面均采用开源权重策略,企业可以自行部署,避免了按 token 计费的高昂成本。Armstrong 本人也认为这套方法论具有普适性,任何企业均可借鉴,以便在不将成本设为天花板的前提下,实现 AI 使用规模的可持续扩张。

从行业视角看,Coinbase 的举措可能产生示范效应。作为一家纳斯达克上市的金融科技公司,它公开采用中国开源模型,本身就传递了一个信号:在成本压力面前,技术实用主义正在压倒地缘政治考量。如果更多美国企业跟进,全球 AI 基础设施的供应链格局或将面临重塑。