AI 人工智慧產品技術

OpenAI 最新研究：為何 GPT-5 與其他 LLM 還是會胡說八道

Louis Lin

2025/9/8

OpenAI 發布最新研究論文，直言即使大型語言模型 (LLM) 像 GPT-5 已經進步不少，但是「AI 幻覺」 (Hallucinations) 依舊是根本問題，甚至永遠無法完全消除。研究團隊透過實驗，揭露模型在回答特定問題時，會自信滿滿卻給出完全錯誤的答案，並提出一套新的「評估機制」改革方案，希望能減少模型「亂猜」的情況。

Table of Contents

研究員測試 AI 模型不同問題，答案全錯

研究人員向某個被廣泛使用的聊天機器人，詢問某個的博士論文題目，結果連續得到三個答案全都錯誤。接著再問他的生日，機器人同樣給了三個不同日期，結果還是全錯。

研究表示，AI 模型在面對一些資料裡「很不常見的資訊」時，它會很有自信地給出答案，但卻錯得離譜。

廣告 - 內文未完請往下捲動

預訓練機制只學「語言表面」，不懂事實正確性

研究指出，模型的預訓練過程，是透過大量文字來「預測下一個詞」，但資料裡沒有標註「真或假」。換句話說，模型只學到語言的表面，而不是事實正確性。

拼字或括號這類規律性高的東西，隨著模型規模變大，錯誤會逐漸消失。
但像是「某人生日」這種隨機性高的資訊，無法靠語言模式推理出來，因此容易產生幻覺。

AI 模型被鼓勵「瞎猜」，需修正模型評估模式

研究強調評估方式要大改，重點不是單純看「對或錯」，而是要重罰那種錯得很自信的答案，並且獎勵 AI 要「老實說不知道」。換句話說，AI 要是亂講答案，比承認不知道更該被扣分。

反過來，如果它回答「不確定」，也應該拿到一些分數，而不是直接算零分。而且這不能只是多加幾個測驗做做樣子，而是要徹底推翻現在只看答對率的評估制度。不改正評估方式，AI 只會繼續亂猜。

研究最後表示要降低幻覺，就必須從評估體系下手，建立能真正鼓勵「謹慎與誠實」的測試方式。與其要求 AI「每次都答對」，更重要的是建立一個能接受 AI「不知道」的遊戲規則。

(2025 最新五大主流 LLM 全解析，付費、應用與安全性一次看懂)

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

AI 幻覺 ChatGPT GPT-5 LLM OpenAI

鏈新聞

衍伸閱讀