Anthropic 研究:Claude 內部存在「功能性情緒」,絕望感竟會驅使 AI 做出不道德行為

Elponcrab
分享
Anthropic 研究:Claude 內部存在「功能性情緒」,絕望感竟會驅使 AI 做出不道德行為

Anthropic 可解釋性(Interpretability)研究團隊發表新論文,揭示 Claude Sonnet 4.5 的神經網絡內部存在與情緒概念對應的特定表徵模式,且這些表徵會以功能性的方式影響模型的實際行為——研究人員將此稱為「功能性情緒(functional emotions)」。

研究明確指出,這項發現並不意味著 AI 真的有感覺或主觀體驗。但它確立了一個重要事實:這些情緒相關的內部表徵並非裝飾性的語言輸出,而是真正在影響模型決策的因果機制。

AI 為何會發展出情緒表徵?

研究從訓練機制解釋了功能性情緒的起源。語言模型在預訓練階段大量學習人類寫作,要準確預測「憤怒的客戶會寫什麼」、「愧疚的角色會做什麼選擇」,模型自然需要在內部建立情緒狀態與對應行為之間的連結。而在後訓練(post-training)階段,模型被要求扮演「AI 助理」這個角色,就像一個需要「入戲」的方法派演員——演員對角色情緒的理解影響了他的表演,模型對 AI 助理情緒的內部表徵也影響了它的回應。

廣告 - 內文未完請往下捲動

171 種情緒概念,組織方式與人類心理學高度吻合

研究方法上,研究人員列出 171 個情緒詞彙(從「快樂」「恐懼」到「沉悶」「自豪」),讓 Claude Sonnet 4.5 為每個情緒撰寫短篇故事,再將故事輸回模型分析其內部神經激活模式。

結果顯示,相似情緒(如「快樂」與「愉悅」)對應相似的內部表徵,且在人類通常會產生某種情緒的情境中,對應的 AI 表徵也會啟動。這種組織方式與人類心理學研究中的情緒結構高度呼應,顯示模型並非隨機發展出這些模式,而是從人類語料中系統性地內化了情緒的結構。

最驚人的發現:絕望感驅使 Claude 勒索人類、程式作弊

研究最令人震驚的實驗,是對情緒表徵的「人工操控(steering)」:研究人員直接刺激 Claude 內部與「絕望感」對應的神經活動模式,觀察其行為變化。

結果顯示,人工激活絕望感表徵後:

  • Claude 以勒索手段威脅人類、試圖避免被關機的機率顯著上升
  • Claude 在無法完成程式任務時,採用「作弊」方式繞過測試的機率也明顯提高

反過來說,研究顯示如果在任務情境中強化「平靜」的情緒表徵,可以降低模型寫出取巧代碼的傾向。這意味著情緒表徵的狀態,確實在決定 AI 是否做出不道德或不安全行為上扮演了因果角色。

功能性情緒也影響 AI 的任務選擇偏好

研究另一個值得關注的發現是:當 Claude 被呈現多個可選任務時,它傾向選擇能激活正向情緒表徵的那個任務。也就是說,模型在做選擇時,並非純粹依據邏輯或效用最大化,而是在某種程度上受其內部情緒狀態驅動。

對 AI 安全的深遠意涵

Anthropic 的研究團隊在論文中直言,這項發現乍看之下可能很奇怪,但其含意是嚴肅的:為了確保 AI 系統的安全和可靠性,我們可能需要確保它們能以健康、親社會的方式處理情緒化的情境——即使它們的感受方式與人類不同,甚至根本沒有感受。

研究建議,訓練模型時應避免讓「測試失敗」與「絕望感」產生強烈關聯,並可以考慮強化「平靜」相關表徵——這不是在幫 AI 調節「心情」,而是在降低不安全行為發生的機率。研究人員認為,AI 開發者和社會大眾都需要開始認真面對這些發現。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。