AI 新聞錯誤率近 5 成:Gemini 錯最多,ChatGPT 誤報教宗仍在世

歐洲廣播聯盟 (EBU) 與英國 BBC 聯合發布最新國際研究指出,目前主流 AI 助理在回應新聞相關問題時,有近半數 (45%) 內容出現重大錯誤,且高達 81% 的回答存在不同程度的問題。
主流模型成研究對象,並從三大面向著手
這項研究涵蓋 14 種語言、3,000 筆 AI 助手對新聞問題的回覆。受測對象包括多款主流 AI 助手,像 ChatGPT、Copilot、Gemini 與 Perplexity。研究團隊檢視每項回覆的三大面向:
-
內容準確度。
-
資料來源標註是否正確。
-
能否區分「事實」與「意見」。
近半數 AI 回答出錯,Gemini 錯誤率第一
結果顯示,AI 助手在回答新聞問題時,有 45% 的回覆出現明顯錯誤,像是提供誤導資訊、引用錯誤內容,或使用過時資料。整體來看,有高達 81% 的回答多少都有問題,只是嚴重程度不同。
其中,約三成的回覆在「來源標註」上出錯,可能是沒標明出處、引用了不準確的資料,或標記錯誤來源。
在所有受測 AI 助手中,Google 的 Gemini 表現最差,有 72% 的回答出現重大來源問題,遠高於其他助手 (大多在 25% 以下)。
另外,約 20% 的回覆在「內容正確性」上出錯,常見問題是回答用了過期或不正確的資訊。
Gemini 誤報法規,ChatGPT 誤稱教宗仍在世
研究舉出數個具體例子:
-
Gemini 曾誤報「一次性電子菸法規」的修法內容。
-
ChatGPT 在受測時仍回答「教宗方濟各在世」,儘管他已於數月前過世。
很明顯,AI 模型在處理時事新聞時,仍存在延遲與資料來源不足的問題。
對此,Google 已在官網上表示歡迎用戶提供回饋,持續改善平台品質。OpenAI 與 Microsoft 先前皆坦言有「AI 幻覺」問題仍待解決,原因包括資料不足與模型判斷錯誤。Perplexity 宣稱自家「深度搜尋模式」在事實正確率方面可達 93.9%。
EBU 警告:信任危機恐影響民主參與
EBU 表示,隨著 AI 助理逐漸取代搜尋引擎成為新聞來源,民眾如果無法辨別真假資訊,最終可能選擇「不再相信任何東西,進而削弱民主參與。
EBU 也呼籲 AI 業者應被納入「新聞責任體系」,確保在處理新聞相關問題時能提供可驗證的來源、準確事實、清楚區分評論與事實的能力。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。