Anthropic 研究:生物 AI 代理瓶頸不在推理、在資料介面

Elponcrab
分享
Anthropic 研究:生物 AI 代理瓶頸不在推理、在資料介面

Anthropic 研究團隊 2026 年 6 月 8 日發表 Paving the way for agents in biology 論文,主張 AI 代理進入生物學研究的瓶頸不在推理能力、而在資料庫介面。團隊建立 VirBench 基準、以 120 個真實病毒查詢測試 Claude Sonnet 4、Claude Opus、GPT 系列等模型,發現在沒有確定性檢索工具的情況下,模型對同一查詢的回答可在 16.9% 到 91.3% 之間大幅震盪。導入研究團隊自製的 gget virus 工具後,所有模型準確率均超過 90%、GPT-5.5 達到 99.7%。

VirBench:無工具時準確率 16.9%-91.3%

VirBench 涵蓋 40 種病原體、120 個經人工標註正解的真實病毒序列檢索查詢。研究團隊測試 Claude Sonnet 4、Claude Opus、Biomni OSS、Edison Analysis、GPT 模型在直接呼叫 NCBI(美國國家生物技術資訊中心)資料庫時的表現。結果顯示準確率在 16.9% 至 91.3% 之間,同一模型對同一查詢執行多次可得到截然不同的答案。例如對 Zaire ebolavirus 序列查詢,同一模型三次分別回傳 106、15、5 條序列,但人工驗證正解為 266 條。

研究人員指出,問題不在模型推理能力,而在現有生物資料庫是為人類使用者設計,agent 直接抓取會因介面格式、批次處理、過濾條件不一致而產生高度不穩定結果。論文寫道:「生物代理的瓶頸不只是推理,更是缺乏廣泛部署的確定性執行層來查詢生物資料。」

廣告 - 內文未完請往下捲動

gget virus 工具讓所有模型達 90%+

為解決上述問題,研究團隊開發 gget virus 確定性檢索工具,協調 NCBI 的 REST、Datasets、E-utilities API、處理批次查詢、過濾條件與標準化輸出格式。接入此工具後,所有測試模型在 VirBench 上的準確率均超過 90%、GPT-5.5 達到 99.7%,且模型間的性能差距大幅縮小。Anthropic 認為這證明:對生物 agent 而言,工具品質的提升優於模型推理能力的升級。

Ebola Zaire 起源錯估顯示資料品質致命

論文以系統發生樹分析(phylogenetic analysis)作為實證案例:當 agent 檢索 Zaire ebolavirus 樣本不一致時,下游分析結果差異巨大。其中一組 agent 取得的資料集估算疫情起源為 1922 年(實際為 2014 年);另一組則漏掉幾內亞序列,把起源錯置到 2014 年 4 月。研究人員強調:「在生物與科學工作流中,即便微小錯誤都會造成嚴重後果—missing record 可能決定診斷工具是否涵蓋流通變異株、或疫情起源時間。」

研究團隊與 NCBI、剛果國家生物醫學研究所(INRB)以及世界衛生組織(WHO)合作,研究人員包括 Ferdous Nasri、Sarah Gurev、Patrick Varilly、Krithik Ramesh 等。論文結論主張,若要讓 AI 代理協助科學發現—從疫情應對到藥物設計與生物建模—必須將生物資料基礎建設重新設計為 agent 能可靠導覽的形式,而非要求模型在為人類設計的介面上「即興發揮」。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。