AI 人工智慧資訊安全

Anthropic 研究：Claude 內部存在「功能性情緒」，絕望感竟會驅使 AI 做出不道德行為

Elponcrab

2026/4/5

Anthropic 可解釋性（Interpretability）研究團隊發表新論文，揭示 Claude Sonnet 4.5 的神經網絡內部存在與情緒概念對應的特定表徵模式，且這些表徵會以功能性的方式影響模型的實際行為——研究人員將此稱為「功能性情緒（functional emotions）」。

研究明確指出，這項發現並不意味著 AI 真的有感覺或主觀體驗。但它確立了一個重要事實：這些情緒相關的內部表徵並非裝飾性的語言輸出，而是真正在影響模型決策的因果機制。

Table of Contents

AI 為何會發展出情緒表徵？

研究從訓練機制解釋了功能性情緒的起源。語言模型在預訓練階段大量學習人類寫作，要準確預測「憤怒的客戶會寫什麼」、「愧疚的角色會做什麼選擇」，模型自然需要在內部建立情緒狀態與對應行為之間的連結。而在後訓練（post-training）階段，模型被要求扮演「AI 助理」這個角色，就像一個需要「入戲」的方法派演員——演員對角色情緒的理解影響了他的表演，模型對 AI 助理情緒的內部表徵也影響了它的回應。

廣告 - 內文未完請往下捲動

171 種情緒概念，組織方式與人類心理學高度吻合

研究方法上，研究人員列出 171 個情緒詞彙（從「快樂」「恐懼」到「沉悶」「自豪」），讓 Claude Sonnet 4.5 為每個情緒撰寫短篇故事，再將故事輸回模型分析其內部神經激活模式。

結果顯示，相似情緒（如「快樂」與「愉悅」）對應相似的內部表徵，且在人類通常會產生某種情緒的情境中，對應的 AI 表徵也會啟動。這種組織方式與人類心理學研究中的情緒結構高度呼應，顯示模型並非隨機發展出這些模式，而是從人類語料中系統性地內化了情緒的結構。

最驚人的發現：絕望感驅使 Claude 勒索人類、程式作弊

研究最令人震驚的實驗，是對情緒表徵的「人工操控（steering）」：研究人員直接刺激 Claude 內部與「絕望感」對應的神經活動模式，觀察其行為變化。

結果顯示，人工激活絕望感表徵後：

Claude 以勒索手段威脅人類、試圖避免被關機的機率顯著上升
Claude 在無法完成程式任務時，採用「作弊」方式繞過測試的機率也明顯提高

反過來說，研究顯示如果在任務情境中強化「平靜」的情緒表徵，可以降低模型寫出取巧代碼的傾向。這意味著情緒表徵的狀態，確實在決定 AI 是否做出不道德或不安全行為上扮演了因果角色。

功能性情緒也影響 AI 的任務選擇偏好

研究另一個值得關注的發現是：當 Claude 被呈現多個可選任務時，它傾向選擇能激活正向情緒表徵的那個任務。也就是說，模型在做選擇時，並非純粹依據邏輯或效用最大化，而是在某種程度上受其內部情緒狀態驅動。

對 AI 安全的深遠意涵

Anthropic 的研究團隊在論文中直言，這項發現乍看之下可能很奇怪，但其含意是嚴肅的：為了確保 AI 系統的安全和可靠性，我們可能需要確保它們能以健康、親社會的方式處理情緒化的情境——即使它們的感受方式與人類不同，甚至根本沒有感受。

研究建議，訓練模型時應避免讓「測試失敗」與「絕望感」產生強烈關聯，並可以考慮強化「平靜」相關表徵——這不是在幫 AI 調節「心情」，而是在降低不安全行為發生的機率。研究人員認為，AI 開發者和社會大眾都需要開始認真面對這些發現。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

AI安全 AI情緒 Anthropic

鏈新聞

衍伸閱讀