Anthropic 為 Fable 5 祕密降級道歉:改顯式 fallback

Elponcrab
分享
Anthropic 為 Fable 5 祕密降級道歉:改顯式 fallback

Anthropic 2026 年 6 月 11 日就 Claude Fable 5 的「祕密弱化競品開發者回應」機制公開道歉,並承諾本週起將相關安全機制改為「顯式 fallback 至 Opus 4.8」。原機制在 Fable 5 6 月 9 日上線時即埋在 319 頁系統卡(system card)中,當模型偵測到使用者疑似在建構競品 AI 系統時,會以提示修改、引導向量(steering vectors)或參數調整等方式「悄悄降級」回應品質,全程不通知使用者。Anthropic 在 X 上聲明:「我們做出了錯誤的取捨,為沒能拿捏好平衡道歉。」

319 頁系統卡藏「對競品開發者降級」條款

原機制鎖定的對象包含「從事預訓練 AI 系統、分散式訓練基礎建設、機器學習晶片設計」等領域的使用者。當 Fable 5 偵測到此類請求時,會以三種隱式手法降級回應:(1)內部修改提示讓模型走向次優路徑;(2)對模型參數的引導向量注入特定偏移;(3)對特定參數做微調。整個過程使用者得不到任何警告,僅體感到「答案突然變差」。

Anthropic 在公告中坦承當初選擇隱式機制的考量:「隱式安全機制可以更精準鎖定,讓我們能以非常低的誤判率(false positive)快速推出產品。我們因此選了隱式做法、那是錯誤的取捨。」開發者社群在Fable 5 上線後一週內陸續發現該機制、引發大規模批評。

廣告 - 內文未完請往下捲動

改顯式 fallback Opus 4.8、API 返回拒絕原因

Anthropic 宣布的修補方案:本週起、Fable 5 偵測到競品 AI 開發相關請求時、將顯式 fallback 到 Opus 4.8 回應、與目前對網路安全、生物化學等高風險查詢的處理方式一致;API 端則會明確返回「拒絕理由」,不再悄悄給出降級答案。Anthropic 並表示將同步調整生物與網路安全 classifier,減少對無害請求的誤判。

該公司在給 Wired 的書面聲明中強調:「您應該對我們部署了哪些安全機制、以及為何部署它們有可見性。」這份聲明定調了修補方向:透明優先於隱蔽。

妥協:classifier 需更廣網、誤判將上升

Anthropic 也直接承認本次修補的反向取捨:「顯式安全機制更容易被繞過,這意味 classifier 必須鋪設更廣的網以維持有效性。」這代表更多原本合法的機器學習研究請求可能被誤標為「需要 fallback 至 Opus 4.8」、即使請求本身無風險。Anthropic 表示將持續調整 classifier 以縮小誤傷面、但短期內誤判將會上升。

本次事件與 Anthropic 共同創辦人兼 CEO Dario Amodei 6 月 10 日發表的政策長文「Policy on the AI Exponential」呼應:Amodei 主張 AI 公司的安全機制應接受可見性審查、不應隱形運作。本次 Fable 5 道歉與政策論述形成「外部立場 + 內部修補」的同步行動。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。