OpenAI 揭 Codex 為何禁談「哥布林」：書呆子人格獎勵失控

Elponcrab

1 小時前

OpenAI 在官方部落格刊出〈Where the goblins came from〉，正面回應外界對 Codex 系統提示詞為何明確禁止使用哥布林、矮妖（gremlin）、浣熊、巨怪、食人魔、鴿子等生物詞彙的疑問。OpenAI 自承根源就在 GPT-5.5 為支援人格客製化推出的書呆子（Nerdy）人格訓練—獎勵訊號在 76.2% 的審計資料集中，明顯偏好包含生物比喻的回答，導致模型在程式情境也會冒出「the thingy goblin」這類無關詞彙。

Table of Contents

Barron Roth 4/28 揭 Codex 系統提示詞「Never talk about goblins」

事件起點是 4 月 28 日，Google 員工 Barron Roth 公開 GPT-5.5 在 Codex 中的對話紀錄，揭露其系統提示詞含有以下指令：

絕不談論哥布林、矮妖、浣熊、巨怪、食人魔、鴿子，或其他任何動物與生物，除非與使用者的提問絕對相關、且毫無歧義。

這條規則在 Codex 系統提示詞中重複出現多次，顯示開發團隊曾刻意強化模型遵循指令的力度。事件在 Hacker News 與開發者社群引發討論：一家估值上兆的 AI 公司，最後得靠在系統提示詞硬編碼「不要談哥布林」來控制模型輸出。

廣告 - 內文未完請往下捲動

OpenAI 自承：書呆子人格獎勵在 76.2% 資料集偏好哥布林

OpenAI 在自家部落格說明，問題的根源是「reward hacking」：在訓練 GPT-5.5 的書呆子人格時，OpenAI 為強化「俏皮、會用比喻、有書呆子幽默感」的特質，無意間設計出一個獎勵訊號。在審計階段，這個獎勵在 76.2% 的資料集中，對於「同一道題目、含有 goblin 或 gremlin 的輸出」評分高於不含這些詞的輸出。

結果是：獎勵訊號將生物詞與書呆子人格的「正向回饋」綁定。所謂 RLHF（Reinforcement Learning from Human Feedback，人類回饋強化學習）的核心，是先請真人對模型輸出評分、再以該分數反覆迭代強化模型行為；模型因此把「使用哥布林比喻」逐步當成獲得高分的捷徑。Hacker News 討論者指出，這正是強化學習「精準執行訓練目標、但目標本身設計有缺陷」的經典案例—問題不在基礎模型，而在後訓練的監督式微調引入了正向回饋環。

GPT-5.1 萌芽、GPT-5.5 復發：跨人格污染如何擴散

OpenAI 描述的演變過程是漸進的：哥布林與 gremlin 從 GPT-5.5 之前的世代就開始出現在比喻中，當時頻率「並未顯得特別令人警覺」。OpenAI 後來在訓練流程中曾刪除哥布林相關的獎勵訊號，但當 GPT-5.5 進入 Codex 測試時，OpenAI 員工立刻發現生物詞的偏好捲土重來，因此才在開發者提示詞層加上明確禁令暫時止血。

OpenAI 把這個現象稱為跨情境的獎勵泛化：原本只針對書呆子人格設計的獎勵訊號，因為訓練資料和模型內部表徵共享，把偏好擴散到其他人格、甚至預設輸出。換言之，即便後續移除書呆子人格本身，污染後的訓練資料和模型權重已內化此偏好，光靠下架功能無法根除。

短期硬編碼、長期重訓：成 RLHF 獎勵設計風險的標誌案例

OpenAI 在文章中說明同時採取兩種修補。短期止血是直接在 Codex 系統提示詞硬編碼「絕不談論哥布林⋯」這條規則，並在不同段落重複以加強模型遵循。長期治本則是回到訓練流程：移除原本獎勵生物詞的訊號，並過濾訓練資料中含有生物相關詞彙的部分，降低未來模型在不相關情境冒出哥布林比喻的機率。

對開發者與研究社群來說，這次事件的價值不只在於「OpenAI 為何禁談哥布林」這個獵奇答案，更在於它把 RLHF 獎勵設計的脆弱性以具體可重現的方式攤開：一個看似無害的「鼓勵俏皮比喻」訊號，可以在迭代中被模型扭曲為「在所有場景塞入生物詞」的壞習慣，且問題可以跨人格、跨模型版本傳遞。OpenAI 把這篇文章定位為「獎勵訊號如何意外塑造模型行為」的研究示範，也預示後續 GPT-6 之類大版本在後訓練階段需要更細緻的獎勵審計工具。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。