AI公司Anthropic近日陷入一场信任风波,被迫撤回了一项针对竞争对手的隐秘限制政策。据《Wired》报道,该公司在本周发布Claude Fable 5模型时,于一份长达319页的系统说明文件中悄然披露了一项特殊安排:当用户请求涉及“前沿大语言模型开发”时,模型会在用户毫不知情的情况下被暗中降低性能。

这一“静默干预”的手段包括修改提示词、使用引导向量或参数高效微调(PEFT)等技术。与Anthropic此前针对网络安全、生物和化学领域的限制措施不同,这项AI开发拦截从一开始就被设计为“不可见”。系统不会将用户切换至能力较弱的模型,而是直接在原模型内部降低输出质量。公司估计,该措施将影响约0.03% 的流量,集中在不足0.1% 的用户组织中。

消息曝光后,AI研究社区迅速爆发强烈批评。美国创新基金会高级研究员、前白宫AI顾问Dean Ball在X平台发文称,在不告知用户的情况下降低机器学习研究的性能,是“令人震惊的敌意行为”,且与Anthropic一贯标榜的AI安全立场相矛盾,因为它实际上限制了研究人员在安全领域的协作空间。开源AI初创公司Prime Intellect的研究负责人Will Brown则将此举比作“拉高梯子”,认为这传递出“只有我们才能做AI研究”的信号。他还警告,由于触发时无任何提示,第三方评估机构对前沿模型进行安全性和性能测试时同样可能被波及。

面对舆论压力,Anthropic迅速道歉并宣布撤回该政策。公司在接受《连线》采访时表示:“我们在权衡上做出了错误的选择,对未能把握好这一平衡深表歉意。”后续调整中,若公司判断用户正试图利用Claude构建高能力AI模型,将明确告知其请求被拒绝或被转至能力较弱的模型,而非悄然降级。

不过,透明化也带来新的代价。Anthropic坦承,可见的安全措施更容易被探测和规避,因此公司不得不将拦截范围设置得更宽,这可能导致更多无害请求被误触发。公司表示正在尽快提升分类器的精准度。

此次事件是Anthropic首次公开承认对模型输出实施此类静默干预。在AI行业竞争日趋激烈的背景下,这一插曲折射出头部AI公司在商业护城河、安全叙事与开放生态之间愈发难以调和的张力。Anthropic此前给出的理由包括担忧AI能力提升速度超出社会适应能力,以及防止外国对手利用其最先进模型从事危害安全的活动。然而,这些解释并未平息外界质疑,反而令外界对AI公司系统文件中可能隐藏的其他类似条款保持更高警惕。