AI 答題引擎集體污染:Gemini 3 正確答案中 56% 無來源支持

Elponcrab
分享
AI 答題引擎集體污染:Gemini 3 正確答案中 56% 無來源支持

根據 The Inference 2026 年 4 月 21 日刊出作者 Pedro Dias 的深度分析文,AI 模型崩潰(model collapse)並非業界擔心的「未來威脅」——它正以另一種形式即時發生:AI 答題引擎在查詢當下即時引用其他 AI 生成的網頁內容作為權威來源,整個污染循環無需經過模型重訓練。這個論點以「咬住自己尾巴的蛇(Ouroboros)學會了引用自己」作為核心比喻。

Model Collapse 與 Retrieval Contamination 的關鍵差異

傳統對 AI 模型退化的擔憂圍繞 model collapse:合成內容逐步污染訓練資料、未來世代模型品質下滑。這是慢性、需要多輪重訓練才顯現的風險。

Pedro Dias 提出的警訊是另一層面:retrieval contamination(檢索污染)。Perplexity、Google AI Overviews、ChatGPT、Grok 等以 RAG(retrieval-augmented generation)為基礎的答題引擎,在使用者提問的當下即時抓取網頁內容作為答案依據。如果抓到的網頁本身就是 AI 生成的錯誤內容,引擎就把它當成事實呈現給讀者——而且這個污染不需要任何重訓練即時生效。

廣告 - 內文未完請往下捲動

三個真實案例:AI 引擎被自己生成的假訊息欺騙

作者列出三個具體事件:

一、Lily Ray 事件:Perplexity 曾引用一個名為「September 2025 Perspective Core Algorithm Update」的所謂 Google 演算法更新作為權威資訊——這個更新根本不存在,來源是 AI 生成的 SEO 部落格假文。

二、Thomas Germain 實測:記者 Thomas Germain 發了一篇測試性部落格「吃熱狗最強的科技記者」,24 小時內就被 Google AI Overviews 與 ChatGPT 排在第一位並引用,還虛構出一個不存在的「南達科他州錦標賽」加以佐證。

三、Grokipedia:Musk 旗下 xAI 的百科計畫已生成或改寫 885,279 篇文章,包含錯誤事實(例如加拿大歌手 Feist 的父親逝世日期寫錯)與無據引用。Grokipedia 2026 年 2 月中已在 Google 失去大部分能見度。

Oumi 研究:Gemini 3 正確率高,但 56% 沒來源

NYT 委託 Oumi 進行的評估:Gemini 2 在 SimpleQA 基準測試正確率 85%、Gemini 3 提升到 91%。但同一個測試顯示,Gemini 3 的正確答案中有 56% 是「ungrounded」——模型回答對了但沒有可驗證的支持來源;Gemini 2 的此比例為 37%。

這意味新世代模型在答案「形式上更精確」,卻同時在「答案來源可追溯性」上退步。對於媒體、研究、事實查核等場景,這個退步比純粹錯誤率更致命,因為讀者無法回溯到原始權威文件自行驗證。

產業規模:Google AI Overviews 覆蓋 20 億用戶

這個污染問題的產業規模:Google AI Overviews 月活用戶超過 20 億、Google 年搜尋量超過 5 兆次、ChatGPT 週活接近 9 億(5,000 萬付費)。也就是絕大多數網路使用者取得事實資訊的管道,都已經走過「可能被 AI 生成內容污染」的答題引擎層。

Ahrefs 另外的研究顯示,ChatGPT 引用的來源中有 44% 是「best X」類榜單文——這類文章正是 SEO 業為對抗答題引擎流失流量而大量產出的 AI 內容,恰好構成答題引擎的主要污染來源。

結構性結論:引用層已與可靠作者身份脫鉤

作者的最終論斷:AI 答題引擎的引用層已經與可靠作者身份脫鉤。SEO 業產出 AI 內容 → 答題引擎抓來當事實 → 讀者相信 → SEO 業獲得激勵繼續產出更多 AI 內容,形成自我強化的污染循環。目前整個產業沒有明確的問責機制讓 AI 引擎對自己引用的來源品質負責。

對使用者而言,這意味著現階段不能把 Perplexity、AI Overviews、ChatGPT 的回答當作事實查核的終點,仍需要人工回溯到官方一手來源才能確保準確。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。