Claude 解出 30% 專家無解的生物題:Anthropic 新評測

Elponcrab
分享
Claude 解出 30% 專家無解的生物題:Anthropic 新評測

Anthropic 4 月 29 日於官方研究公告發表 BioMysteryBench—一套針對 AI 生物資訊分析能力的新評測基準,由真實研究情境中的開放式問題組成。最值得關注的數據是:在人類專家小組嘗試後仍無法解出的題目中,Anthropic 旗艦模型 Mythos 解出 29.6%、Opus 4.7 解出 27.0%。

評測設計:可解題與專家無解題雙軌

BioMysteryBench 由兩種題型組成。第一類是「可解題」—由生物資訊研究人員設計、有標準答案可對照的分析任務;第二類是「專家無解題」—由人類專家小組嘗試後仍無法找出可信解答的題目,用來測試模型是否能跨越目前領域知識的邊界。

在可解題部分,Anthropic 各代次模型呈現明確的能力梯度:Claude Haiku 4.5 解出 36.8%、Claude Sonnet 4.6 達 71.8%、最新旗艦 Claude Mythos 達 82.6%。這個梯度大體符合 Anthropic 對外宣稱的模型能力差異—Haiku 為輕量型、Sonnet 為主力型、Mythos 為頂級研究型。

廣告 - 內文未完請往下捲動

真正具話題性的是專家無解題部分。這類題目是經過生物資訊領域專家小組評估後標記為「無解或無共識」的問題;Mythos 解出其中 29.6%、Opus 4.7 解出 27.0%。這個結果不是「模型比人類強」的單一證明—更精確的說法是:在專家因路徑、時間或資源限制而無法處理的問題上,AI 能提出可被驗證的解法路徑,未必是最終答案,但具備「未被人類嘗試過的角度」這個屬性。

與 Claude for Life Sciences 並行推進

BioMysteryBench 與 Anthropic 自 2025 年下半年起推動的「Claude for Life Sciences」計畫同向。後者瞄準藥物研發、基因組學、臨床試驗設計等具體應用場景;前者則是用評測手法量化 AI 在生命科學領域的「研究級能力」進展。兩者組合的訊號是:Anthropic 把生物醫學定位為 Claude 的長期應用主戰場之一,與 DeepMind AlphaFold 路線形成不同入口的競爭。

Mythos 解出近 30% 專家無解題的數字若能在獨立第三方驗證中重現,將成為 AI 模型在科研場景具體價值的早期實證。後續觀察點包括:BioMysteryBench 是否會被其他研究機構採用為標準評測、解出題目的人類專家驗證程序、以及 Mythos 在實際研究計畫中是否能複製測試結果。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。