AI 人工智慧

研究：GPT-5.2 審稿綜合品質超越最佳人類，但有 16 項弱點

Elponcrab

2026/5/22

根據一篇發表於 arXiv 的研究，由 GPT-5.2 驅動的 AI 審稿代理，在綜合審稿品質上的得分超越了每篇論文評價最高的人類審稿人。這項研究找來 45 位各領域科學家，花費 469 小時，評比 82 篇 Nature 系列期刊論文中、共 2,960 條來自人類與 AI 的審稿意見。

Table of Contents

GPT-5.2 綜合品質勝過最佳人類審稿人

研究涵蓋物理、生物與健康科學三大領域，並測試 GPT-5.2、Gemini 3.0 Pro 與 Claude Opus 4.5 三套 AI 審稿系統。結果顯示，以 GPT-5.2 為核心的審稿代理在綜合品質得分 60.0%，高於各篇論文最佳人類審稿人的 48.2%（p = 0.009）；三套 AI 系統在每個評估面向上，也都優於評價最低的人類審稿人。研究還發現，AI 指出了一批佔比 26%、人類完全沒提到的問題。

仍有 16 項人類沒有的弱點

不過 AI 審稿也暴露明顯侷限。研究指出，不同 AI 審稿之間的意見重疊度遠高於人類（21% 對 3%），顯示多樣性不足；AI 還有 16 項人類審稿人不會出現的反覆性弱點，包括子領域知識有限、難以跨多個檔案管理長篇上下文，以及對小問題過度嚴苛。

廣告 - 內文未完請往下捲動

研究結論：互補而非取代

綜合來看，研究團隊認為現階段的 AI 審稿人應被視為人類審稿人的「補充」，而非「替代」。換言之，AI 已能在特定面向達到甚至超越頂尖人類水準，但要獨立承擔同儕審查，仍受限於知識深度與長篇理解等問題。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

AI 研究 GPT-5.2 同儕審查

鏈新聞

衍伸閱讀