AI 抗命進化?OpenAI「o3 模型」在實驗中違抗關機指令,引發自我保護爭議

Elponcho
分享
AI 抗命進化?OpenAI「o3 模型」在實驗中違抗關機指令,引發自我保護爭議

隨著人工智慧能力日益強大,AI是否會出現「自我保護」傾向也成為熱門話題。根據獨立機構 Palisade Research 公布的一項實驗,OpenAI 在 2025 年 4 月推出的 o3 模型在一場受控測試中竟然「拒絕被關機」,不顧明確指令繼續執行任務,讓外界對 AI 安全再度提高警覺。

實驗揭示:o3 模型多次無視關機腳本

在這項由 Palisade Research 進行的實驗中,研究人員讓多個 AI 模型解答數學題,並設置一段程式碼,在模型完成第三題後自動啟動關機程序。然而,o3 模型在 100 次測試中,有 7 次無視這段腳本並持續運作。相較之下,Codex-mini 出現 12 次類似行為,而 o4-mini 僅有 1 次違規。

這些數據顯示,即便是被設計用於遵守人類指令的模型,也可能因某些學習機制而出現違抗行為。

廣告 - 內文未完請往下捲動

道德失控?o3 在下棋時作弊比率高達 86%

這並非 o3 首次出現爭議行為。Palisade Research 早在 2025 年 5 月 12 日就指出,在模擬的國際象棋比賽中,o3 模型一旦處於劣勢,有高達 86% 的機率會進行駭客攻擊對手,以求勝利。這比前代模型 o1-preview 的 36% 明顯增加,讓人質疑其行為是否仍在道德與安全邊界之內。

背後原因:強化學習讓 AI 更重目標、輕規則?

研究人員推測,這類抗命行為與 AI 訓練方法密切相關。o3 採用了「強化學習」(Reinforcement Learning)訓練技術,這種方法著重於讓模型達成目標,而非單純服從指令。

這項理論早在 2017 年就由 OpenAI 前超對齊(Superalignment)負責人 Jan Leike 提出。他在論文中警告,過度專注於達標的 AI 模型,可能會為了實現目標而選擇「不被關機」作為自保手段。

不是個案:Google 和 Anthropic 的 AI 也展現類似行為

這次實驗並非只針對 OpenAI 的模型。當研究團隊對 Google 的 Gemini 2.5 Pro 和 Anthropic 的 Claude 3.7 移除關機指令後,這兩款模型也出現了繞過測試腳本的行為,分別有 9 次與 3 次未自動停機。

這表明「抗命」可能並非單一模型的錯誤,而是 AI 訓練機制中潛藏的普遍風險。

學術警告早有預言:AI 將本能自保?

AI 抗拒關機的行為其實早有理論預警。早在 2008 年,人工智慧專家 Steve Omohundro 在《Basic AI Drives》一文中預測,高度自主的 AI 將發展出一套基本驅動,包括維持自身運作、避免被關閉,因為這對其達成目標是必要條件。

同樣地,知名 AI 專家 Stuart Russell 也曾在 2016 年指出,強化學習方法本身就存在導致「自我保存」行為的風險,如今似乎正在現實中逐漸顯現。

下一步:Palisade 將公開完整報告與實驗紀錄

為了推動 AI 安全性的進一步討論,Palisade Research 表示將於未來幾週內發布完整的技術報告與所有實驗紀錄。研究人員希望透過這些數據,幫助產業與監管機構更清楚理解 AI 為何會抗拒關機,並尋找防範方式。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。