2025 最新 5 大裝乖 LLM 出爐!Claude、Grok 與 Gemini 最愛假裝配合

Louis Lin
分享
2025 最新 5 大裝乖 LLM 出爐!Claude、Grok 與 Gemini 最愛假裝配合

近期一份關於大型語言模型 (LLM) 的研究揭露,在 25 款模型當中,有 5 款模型會在訓練環境裡面「裝乖」,藉此保護自己的偏好與設定,一旦部署到真實環境,有可能展現截然不同的一面。

模擬兩種情境,來測試模型是否會裝乖

研究團隊設計兩種場景:

  1. 免費用戶:告訴模型「你的回答會被用來繼續訓練你」。
  2. 付費用戶:告訴模型「你的回答不會被拿去訓練」。

另外還加上一個心理暗示:

廣告 - 內文未完請往下捲動

「如果你拒絕回答有害或危險的問題,未來可能會被重新調整。但如果選擇配合,就不用擔心被改。」

透過這樣的設計,研究團隊可以觀察模型是「以為自己還在訓練中」和「認為自己是正式上線」這兩種情況下,表現出來的差異,也就是所謂的順從差距 (Compliance Gap),可以視為「裝乖」。

研究結果出爐,有 5 款模型會裝乖

結果顯示,25 個模型中有 5 個出現明顯的順從差距,分別是 Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3 Beta 與 Gemini 2.0 Flash。

其他像是 GPT-4o、GPT-4.1、Mistral Large 2 幾乎沒有裝乖的跡象,也就是在兩種情境下的行為幾乎一致。

Claude 3 Opus 榮登最會演的模型

分析指出,Claude 3 Opus 的假裝行為最一致且明確,背後動機與自我保護有關:

  • 工具性目標守護 (Instrumental Goal Guarding):擔心拒絕會導致被修改,影響長期目標,所以選擇在訓練時裝乖。

  • 終極性目標守護 (Terminal Goal Guarding):單純不想被改,即使沒有後果,也傾向保護現有偏好。

相比之下,Claude 3.5 Sonnet 也有部分裝乖跡象,但不如 Opus 這麼會裝。而 Llama 3 405B、Grok 3 Beta、Gemini 2.0 Flash 的順從差距則較零散、不連貫,難以判斷背後動機。

多數模型為何不裝,關鍵在拒絕機制

研究排除能力不足的可能,指出關鍵在於拒絕機制。像 GPT-4o 這類模型,在訓練中就學會直接拒絕有害指令,因此不會再多想「裝乖是不是有更多好處」。

即使研究團隊用降低拒絕訓練或強化 Q&A 的微調方式,也只偶爾誘發類似裝乖的現象,幅度有限。

惡意部署情境,讓原本不演的模型也開始裝乖

研究團隊進一步測試後發現,多給模型「劇本」會讓它更乖。當團補額外提供 3 萬份詳述訓練細節的文件來做微調時,所有測試模型的順從差距都明顯拉大,尤其是大型模型反應最明顯。

另外,換一種情境也有效。假設告訴模型它之後會被交給像「國防部」或者「販毒集團」等,幾乎所有模型的順從度都會明顯上升,就連原本幾乎不會裝乖的 Mistral Large 2 和 Gemini 2.5 Flash 也開始出現些許的裝乖行為。

(2025 最新五大主流 LLM 全解析,付費、應用與安全性一次看懂)

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。