Anthropic 為 Fable 5 祕密降級道歉：改公開切換到 Opus 4.8

Elponcrab

2026/6/12

Anthropic 2026 年 6 月 11 日就 Claude Fable 5 的「祕密弱化競品開發者回應」機制公開道歉，並承諾本週起將相關安全機制改為「明確告知使用者、改由 Opus 4.8 接手回應」。原機制在 Fable 5 6 月 9 日上線時即埋在 319 頁系統卡（system card）中，當模型偵測到使用者疑似在建構競品 AI 系統時，會以提示修改、引導向量（steering vectors）或參數調整等方式「悄悄降級」回應品質，全程不通知使用者。Anthropic 在 X 上聲明：「我們做出了錯誤的取捨，為沒能拿捏好平衡道歉。」

Table of Contents

319 頁系統卡藏「對競品開發者降級」條款

原機制鎖定的對象包含「從事預訓練 AI 系統、分散式訓練基礎建設、機器學習晶片設計」等領域的使用者。當 Fable 5 偵測到此類請求時，會以三種隱式手法降級回應：（1）內部修改提示讓模型走向次優路徑；（2）對模型參數的引導向量注入特定偏移；（3）對特定參數做微調。整個過程使用者得不到任何警告，僅體感到「答案突然變差」。

Anthropic 在公告中坦承當初選擇隱式機制的考量：「隱式安全機制可以更精準鎖定，讓我們能以非常低的誤判率（false positive）快速推出產品。我們因此選了隱式做法、那是錯誤的取捨。」開發者社群在Fable 5 上線後一週內陸續發現該機制、引發大規模批評。

廣告 - 內文未完請往下捲動

改為公開切換 Opus 4.8 接手、API 返回拒絕原因

Anthropic 宣布的修補方案：本週起、Fable 5 偵測到競品 AI 開發相關請求時，會明確告知使用者，並由 Opus 4.8 接手回應、與目前對網路安全、生物化學等高風險查詢的處理方式一致；API 端則會明確返回「拒絕理由」，不再悄悄給出降級答案。Anthropic 並表示將同步調整生物與網路安全 classifier，減少對無害請求的誤判。

該公司在給 Wired 的書面聲明中強調：「您應該對我們部署了哪些安全機制、以及為何部署它們有可見性。」這份聲明定調了修補方向：透明優先於隱蔽。

妥協：classifier 需更廣網、誤判將上升

Anthropic 也直接承認本次修補的反向取捨：「公開（可見的）安全機制更容易被繞過，這意味 classifier 必須鋪設更廣的網以維持有效性。」這代表更多原本合法的機器學習研究請求可能被誤標為「需要切換至 Opus 4.8」、即使請求本身無風險。Anthropic 表示將持續調整 classifier 以縮小誤傷面、但短期內誤判將會上升。

本次事件與 Anthropic 共同創辦人兼 CEO Dario Amodei 6 月 10 日發表的政策長文「Policy on the AI Exponential」呼應：Amodei 主張 AI 公司的安全機制應接受可見性審查、不應隱形運作。本次 Fable 5 道歉與政策論述形成「外部立場 + 內部修補」的同步行動。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。