Anthropic 研究：生物 AI 代理瓶頸不在推理、在資料介面

Elponcrab

2026/6/10

Anthropic 研究團隊 2026 年 6 月 8 日發表 Paving the way for agents in biology 論文，主張 AI 代理進入生物學研究的瓶頸不在推理能力、而在資料庫介面。團隊建立 VirBench 基準、以 120 個真實病毒查詢測試 Claude Sonnet 4、Claude Opus、GPT 系列等模型，發現在沒有確定性檢索工具的情況下，模型對同一查詢的回答可在 16.9% 到 91.3% 之間大幅震盪。導入研究團隊自製的 gget virus 工具後，所有模型準確率均超過 90%、GPT-5.5 達到 99.7%。

Table of Contents

VirBench：無工具時準確率 16.9%-91.3%

VirBench 涵蓋 40 種病原體、120 個經人工標註正解的真實病毒序列檢索查詢。研究團隊測試 Claude Sonnet 4、Claude Opus、Biomni OSS、Edison Analysis、GPT 模型在直接呼叫 NCBI（美國國家生物技術資訊中心）資料庫時的表現。結果顯示準確率在 16.9% 至 91.3% 之間，同一模型對同一查詢執行多次可得到截然不同的答案。例如對 Zaire ebolavirus 序列查詢，同一模型三次分別回傳 106、15、5 條序列，但人工驗證正解為 266 條。

研究人員指出，問題不在模型推理能力，而在現有生物資料庫是為人類使用者設計，agent 直接抓取會因介面格式、批次處理、過濾條件不一致而產生高度不穩定結果。論文寫道：「生物代理的瓶頸不只是推理，更是缺乏廣泛部署的確定性執行層來查詢生物資料。」

廣告 - 內文未完請往下捲動

gget virus 工具讓所有模型達 90%+

為解決上述問題，研究團隊開發 gget virus 確定性檢索工具，協調 NCBI 的 REST、Datasets、E-utilities API、處理批次查詢、過濾條件與標準化輸出格式。接入此工具後，所有測試模型在 VirBench 上的準確率均超過 90%、GPT-5.5 達到 99.7%，且模型間的性能差距大幅縮小。Anthropic 認為這證明：對生物 agent 而言，工具品質的提升優於模型推理能力的升級。

Ebola Zaire 起源錯估顯示資料品質致命

論文以系統發生樹分析（phylogenetic analysis）作為實證案例：當 agent 檢索 Zaire ebolavirus 樣本不一致時，下游分析結果差異巨大。其中一組 agent 取得的資料集估算疫情起源為 1922 年（實際為 2014 年）；另一組則漏掉幾內亞序列，把起源錯置到 2014 年 4 月。研究人員強調：「在生物與科學工作流中，即便微小錯誤都會造成嚴重後果—missing record 可能決定診斷工具是否涵蓋流通變異株、或疫情起源時間。」

研究團隊與 NCBI、剛果國家生物醫學研究所（INRB）以及世界衛生組織（WHO）合作，研究人員包括 Ferdous Nasri、Sarah Gurev、Patrick Varilly、Krithik Ramesh 等。論文結論主張，若要讓 AI 代理協助科學發現—從疫情應對到藥物設計與生物建模—必須將生物資料基礎建設重新設計為 agent 能可靠導覽的形式，而非要求模型在為人類設計的介面上「即興發揮」。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。