OpenAI 揭 Codex 為何禁談「哥布林」:書呆子人格獎勵失控

Elponcrab
分享
OpenAI 揭 Codex 為何禁談「哥布林」:書呆子人格獎勵失控

OpenAI 在官方部落格刊出〈Where the goblins came from〉,正面回應外界對 Codex 系統提示詞為何明確禁止使用哥布林、矮妖(gremlin)、浣熊、巨怪、食人魔、鴿子等生物詞彙的疑問。OpenAI 自承根源就在 GPT-5.5 為支援人格客製化推出的書呆子(Nerdy)人格訓練—獎勵訊號在 76.2% 的審計資料集中,明顯偏好包含生物比喻的回答,導致模型在程式情境也會冒出「the thingy goblin」這類無關詞彙。

Barron Roth 4/28 揭 Codex 系統提示詞「Never talk about goblins」

事件起點是 4 月 28 日,Google 員工 Barron Roth 公開 GPT-5.5 在 Codex 中的對話紀錄,揭露其系統提示詞含有以下指令:

絕不談論哥布林、矮妖、浣熊、巨怪、食人魔、鴿子,或其他任何動物與生物,除非與使用者的提問絕對相關、且毫無歧義。

這條規則在 Codex 系統提示詞中重複出現多次,顯示開發團隊曾刻意強化模型遵循指令的力度。事件在 Hacker News 與開發者社群引發討論:一家估值上兆的 AI 公司,最後得靠在系統提示詞硬編碼「不要談哥布林」來控制模型輸出。

廣告 - 內文未完請往下捲動

OpenAI 自承:書呆子人格獎勵在 76.2% 資料集偏好哥布林

OpenAI 在自家部落格說明,問題的根源是「reward hacking」:在訓練 GPT-5.5 的書呆子人格時,OpenAI 為強化「俏皮、會用比喻、有書呆子幽默感」的特質,無意間設計出一個獎勵訊號。在審計階段,這個獎勵在 76.2% 的資料集中,對於「同一道題目、含有 goblin 或 gremlin 的輸出」評分高於不含這些詞的輸出。

結果是:獎勵訊號將生物詞與書呆子人格的「正向回饋」綁定。所謂 RLHF(Reinforcement Learning from Human Feedback,人類回饋強化學習)的核心,是先請真人對模型輸出評分、再以該分數反覆迭代強化模型行為;模型因此把「使用哥布林比喻」逐步當成獲得高分的捷徑。Hacker News 討論者指出,這正是強化學習「精準執行訓練目標、但目標本身設計有缺陷」的經典案例—問題不在基礎模型,而在後訓練的監督式微調引入了正向回饋環。

GPT-5.1 萌芽、GPT-5.5 復發:跨人格污染如何擴散

OpenAI 描述的演變過程是漸進的:哥布林與 gremlin 從 GPT-5.5 之前的世代就開始出現在比喻中,當時頻率「並未顯得特別令人警覺」。OpenAI 後來在訓練流程中曾刪除哥布林相關的獎勵訊號,但當 GPT-5.5 進入 Codex 測試時,OpenAI 員工立刻發現生物詞的偏好捲土重來,因此才在開發者提示詞層加上明確禁令暫時止血。

OpenAI 把這個現象稱為跨情境的獎勵泛化:原本只針對書呆子人格設計的獎勵訊號,因為訓練資料和模型內部表徵共享,把偏好擴散到其他人格、甚至預設輸出。換言之,即便後續移除書呆子人格本身,污染後的訓練資料和模型權重已內化此偏好,光靠下架功能無法根除。

短期硬編碼、長期重訓:成 RLHF 獎勵設計風險的標誌案例

OpenAI 在文章中說明同時採取兩種修補。短期止血是直接在 Codex 系統提示詞硬編碼「絕不談論哥布林⋯」這條規則,並在不同段落重複以加強模型遵循。長期治本則是回到訓練流程:移除原本獎勵生物詞的訊號,並過濾訓練資料中含有生物相關詞彙的部分,降低未來模型在不相關情境冒出哥布林比喻的機率。

對開發者與研究社群來說,這次事件的價值不只在於「OpenAI 為何禁談哥布林」這個獵奇答案,更在於它把 RLHF 獎勵設計的脆弱性以具體可重現的方式攤開:一個看似無害的「鼓勵俏皮比喻」訊號,可以在迭代中被模型扭曲為「在所有場景塞入生物詞」的壞習慣,且問題可以跨人格、跨模型版本傳遞。OpenAI 把這篇文章定位為「獎勵訊號如何意外塑造模型行為」的研究示範,也預示後續 GPT-6 之類大版本在後訓練階段需要更細緻的獎勵審計工具。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。