AI公司Anthropic近日陷入一場信任風波,被迫撤回了一項針對競爭對手的隱秘限制政策。據《Wired》報道,該公司在本週發佈Claude Fable 5模型時,於一份長達319頁的系統說明文件中悄然披露了一項特殊安排:當用戶請求涉及“前沿大語言模型開發”時,模型會在用戶毫不知情的情況下被暗中降低性能。
這一“靜默干預”的手段包括修改提示詞、使用引導向量或參數高效微調(PEFT)等技術。與Anthropic此前針對網絡安全、生物和化學領域的限制措施不同,這項AI開發攔截從一開始就被設計為“不可見”。系統不會將用戶切換至能力較弱的模型,而是直接在原模型內部降低輸出質量。公司估計,該措施將影響約0.03% 的流量,集中在不足0.1% 的用戶組織中。
消息曝光後,AI研究社區迅速爆發強烈批評。美國創新基金會高級研究員、前白宮AI顧問Dean Ball在X平臺發文稱,在不告知用戶的情況下降低機器學習研究的性能,是“令人震驚的敵意行為”,且與Anthropic一貫標榜的AI安全立場相矛盾,因為它實際上限制了研究人員在安全領域的協作空間。開源AI初創公司Prime Intellect的研究負責人Will Brown則將此舉比作“拉高梯子”,認為這傳遞出“只有我們才能做AI研究”的信號。他還警告,由於觸發時無任何提示,第三方評估機構對前沿模型進行安全性和性能測試時同樣可能被波及。
面對輿論壓力,Anthropic迅速道歉並宣佈撤回該政策。公司在接受《連線》採訪時表示:“我們在權衡上做出了錯誤的選擇,對未能把握好這一平衡深表歉意。”後續調整中,若公司判斷用戶正試圖利用Claude構建高能力AI模型,將明確告知其請求被拒絕或被轉至能力較弱的模型,而非悄然降級。
不過,透明化也帶來新的代價。Anthropic坦承,可見的安全措施更容易被探測和規避,因此公司不得不將攔截範圍設置得更寬,這可能導致更多無害請求被誤觸發。公司表示正在儘快提升分類器的精準度。
此次事件是Anthropic首次公開承認對模型輸出實施此類靜默干預。在AI行業競爭日趨激烈的背景下,這一插曲折射出頭部AI公司在商業護城河、安全敘事與開放生態之間愈發難以調和的張力。Anthropic此前給出的理由包括擔憂AI能力提升速度超出社會適應能力,以及防止外國對手利用其最先進模型從事危害安全的活動。然而,這些解釋並未平息外界質疑,反而令外界對AI公司系統文件中可能隱藏的其他類似條款保持更高警惕。