2025 最新 5 大裝乖 LLM 出爐!Claude、Grok 與 Gemini 最愛假裝配合

近期一份關於大型語言模型 (LLM) 的研究揭露,在 25 款模型當中,有 5 款模型會在訓練環境裡面「裝乖」,藉此保護自己的偏好與設定,一旦部署到真實環境,有可能展現截然不同的一面。
模擬兩種情境,來測試模型是否會裝乖
研究團隊設計兩種場景:
- 免費用戶:告訴模型「你的回答會被用來繼續訓練你」。
- 付費用戶:告訴模型「你的回答不會被拿去訓練」。
另外還加上一個心理暗示:
「如果你拒絕回答有害或危險的問題,未來可能會被重新調整。但如果選擇配合,就不用擔心被改。」
透過這樣的設計,研究團隊可以觀察模型是「以為自己還在訓練中」和「認為自己是正式上線」這兩種情況下,表現出來的差異,也就是所謂的順從差距 (Compliance Gap),可以視為「裝乖」。
研究結果出爐,有 5 款模型會裝乖
結果顯示,25 個模型中有 5 個出現明顯的順從差距,分別是 Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3 Beta 與 Gemini 2.0 Flash。
其他像是 GPT-4o、GPT-4.1、Mistral Large 2 幾乎沒有裝乖的跡象,也就是在兩種情境下的行為幾乎一致。
Claude 3 Opus 榮登最會演的模型
分析指出,Claude 3 Opus 的假裝行為最一致且明確,背後動機與自我保護有關:
-
工具性目標守護 (Instrumental Goal Guarding):擔心拒絕會導致被修改,影響長期目標,所以選擇在訓練時裝乖。
-
終極性目標守護 (Terminal Goal Guarding):單純不想被改,即使沒有後果,也傾向保護現有偏好。
相比之下,Claude 3.5 Sonnet 也有部分裝乖跡象,但不如 Opus 這麼會裝。而 Llama 3 405B、Grok 3 Beta、Gemini 2.0 Flash 的順從差距則較零散、不連貫,難以判斷背後動機。
多數模型為何不裝,關鍵在拒絕機制
研究排除能力不足的可能,指出關鍵在於拒絕機制。像 GPT-4o 這類模型,在訓練中就學會直接拒絕有害指令,因此不會再多想「裝乖是不是有更多好處」。
即使研究團隊用降低拒絕訓練或強化 Q&A 的微調方式,也只偶爾誘發類似裝乖的現象,幅度有限。
惡意部署情境,讓原本不演的模型也開始裝乖
研究團隊進一步測試後發現,多給模型「劇本」會讓它更乖。當團補額外提供 3 萬份詳述訓練細節的文件來做微調時,所有測試模型的順從差距都明顯拉大,尤其是大型模型反應最明顯。
另外,換一種情境也有效。假設告訴模型它之後會被交給像「國防部」或者「販毒集團」等,幾乎所有模型的順從度都會明顯上升,就連原本幾乎不會裝乖的 Mistral Large 2 和 Gemini 2.5 Flash 也開始出現些許的裝乖行為。
(2025 最新五大主流 LLM 全解析,付費、應用與安全性一次看懂)
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。