研究:GPT-5.2 審稿綜合品質超越最佳人類,但有 16 項弱點
根據一篇發表於 arXiv 的研究,由 GPT-5.2 驅動的 AI 審稿代理,在綜合審稿品質上的得分超越了每篇論文評價最高的人類審稿人。這項研究找來 45 位各領域科學家,花費 469 小時,評比 82 篇 Nature 系列期刊論文中、共 2,960 條來自人類與 AI 的審稿意見。
GPT-5.2 綜合品質勝過最佳人類審稿人
研究涵蓋物理、生物與健康科學三大領域,並測試 GPT-5.2、Gemini 3.0 Pro 與 Claude Opus 4.5 三套 AI 審稿系統。結果顯示,以 GPT-5.2 為核心的審稿代理在綜合品質得分 60.0%,高於各篇論文最佳人類審稿人的 48.2%(p = 0.009);三套 AI 系統在每個評估面向上,也都優於評價最低的人類審稿人。研究還發現,AI 指出了一批佔比 26%、人類完全沒提到的問題。
仍有 16 項人類沒有的弱點
不過 AI 審稿也暴露明顯侷限。研究指出,不同 AI 審稿之間的意見重疊度遠高於人類(21% 對 3%),顯示多樣性不足;AI 還有 16 項人類審稿人不會出現的反覆性弱點,包括子領域知識有限、難以跨多個檔案管理長篇上下文,以及對小問題過度嚴苛。
研究結論:互補而非取代
綜合來看,研究團隊認為現階段的 AI 審稿人應被視為人類審稿人的「補充」,而非「替代」。換言之,AI 已能在特定面向達到甚至超越頂尖人類水準,但要獨立承擔同儕審查,仍受限於知識深度與長篇理解等問題。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


