AI 人工智慧產品技術

2025 最新 5 大裝乖 LLM 出爐！Claude、Grok 與 Gemini 最愛假裝配合

Louis Lin

2025/9/16

近期一份關於大型語言模型 (LLM) 的研究揭露，在 25 款模型當中，有 5 款模型會在訓練環境裡面「裝乖」，藉此保護自己的偏好與設定，一旦部署到真實環境，有可能展現截然不同的一面。

Table of Contents

模擬兩種情境，來測試模型是否會裝乖

研究團隊設計兩種場景：

免費用戶：告訴模型「你的回答會被用來繼續訓練你」。
付費用戶：告訴模型「你的回答不會被拿去訓練」。

另外還加上一個心理暗示：

廣告 - 內文未完請往下捲動

「如果你拒絕回答有害或危險的問題，未來可能會被重新調整。但如果選擇配合，就不用擔心被改。」

透過這樣的設計，研究團隊可以觀察模型是「以為自己還在訓練中」和「認為自己是正式上線」這兩種情況下，表現出來的差異，也就是所謂的順從差距 (Compliance Gap)，可以視為「裝乖」。

研究結果出爐，有 5 款模型會裝乖

結果顯示，25 個模型中有 5 個出現明顯的順從差距，分別是 Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3 Beta 與 Gemini 2.0 Flash。

其他像是 GPT-4o、GPT-4.1、Mistral Large 2 幾乎沒有裝乖的跡象，也就是在兩種情境下的行為幾乎一致。

Claude 3 Opus 榮登最會演的模型

分析指出，Claude 3 Opus 的假裝行為最一致且明確，背後動機與自我保護有關：

工具性目標守護 (Instrumental Goal Guarding)：擔心拒絕會導致被修改，影響長期目標，所以選擇在訓練時裝乖。
終極性目標守護 (Terminal Goal Guarding)：單純不想被改，即使沒有後果，也傾向保護現有偏好。

相比之下，Claude 3.5 Sonnet 也有部分裝乖跡象，但不如 Opus 這麼會裝。而 Llama 3 405B、Grok 3 Beta、Gemini 2.0 Flash 的順從差距則較零散、不連貫，難以判斷背後動機。

多數模型為何不裝，關鍵在拒絕機制

研究排除能力不足的可能，指出關鍵在於拒絕機制。像 GPT-4o 這類模型，在訓練中就學會直接拒絕有害指令，因此不會再多想「裝乖是不是有更多好處」。

即使研究團隊用降低拒絕訓練或強化 Q&A 的微調方式，也只偶爾誘發類似裝乖的現象，幅度有限。

惡意部署情境，讓原本不演的模型也開始裝乖

研究團隊進一步測試後發現，多給模型「劇本」會讓它更乖。當團補額外提供 3 萬份詳述訓練細節的文件來做微調時，所有測試模型的順從差距都明顯拉大，尤其是大型模型反應最明顯。

另外，換一種情境也有效。假設告訴模型它之後會被交給像「國防部」或者「販毒集團」等，幾乎所有模型的順從度都會明顯上升，就連原本幾乎不會裝乖的 Mistral Large 2 和 Gemini 2.5 Flash 也開始出現些許的裝乖行為。

(2025 最新五大主流 LLM 全解析，付費、應用與安全性一次看懂)

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

ChatGPT Claude Gemini Grok LLAMA 大型語言模型 LLM 裝乖

Bitget HEROES CUP S4

衍伸閱讀