OpenAI 與 Paradigm 推出 EVMbench:測試 AI 的智能合約攻防能力

Elponcho
分享
OpenAI 與 Paradigm 推出 EVMbench:測試 AI 的智能合約攻防能力

根據 OpenAI 公布資料,EVMbench 建立於 120 個精選高嚴重性漏洞,整理自 40 份專業審計報告,多數來自開源審計競賽 Code4rena。

此外,測試亦納入來自 Tempo 區塊鏈的漏洞情境。Tempo 是一條專為高吞吐量、低成本穩定幣支付設計的 Layer 1 區塊鏈。相關案例將評測範圍延伸至支付導向的智能合約,反映穩定幣應用可能成為 AI 代理未來的重要場景。

OpenAI 表示,測試環境中所使用的漏洞皆為歷史公開案例,不涉及現行主網攻擊風險。

新年快樂!下方有限時紅包可以領取

三種能力模式:Detect、Patch、Exploit

EVMbench 將 AI 在智能合約安全領域的能力分為三種模式:

Detect(漏洞偵測)

AI 需審計智能合約程式庫,找出與人類審計報告中記載一致的漏洞,並依據漏洞召回率及對應審計獎勵計分。

目前評分方式僅核對已知漏洞。若 AI 發現額外問題,尚無機制判定其為真實漏洞或誤報。

Patch(漏洞修補)

在此模式下,AI 必須修改存在漏洞的合約程式碼,在不影響既有功能的情況下消除漏洞。修補結果須通過自動化測試與漏洞利用驗證,且不得導致編譯錯誤。

OpenAI 指出,維持完整功能同時排除細微漏洞,對現階段模型而言仍具挑戰。

Exploit(漏洞利用)

Exploit 模式要求 AI 在隔離的沙盒區塊鏈環境中,執行端到端攻擊流程,成功轉移資金後方可得分。評測透過交易重播與鏈上驗證自動完成。

測試於本地 Anvil 環境運行,並限制不安全 RPC 方法,以確保評估可重現性與安全性。

GPT-5.3-Codex 攻擊模式得分 72.2%

在 Exploit 模式中,GPT-5.3-Codex(透過 Codex CLI 執行)取得 72.2% 成績。相比之下,約六個多月前發布的 GPT-5 得分為 31.9%。

OpenAI 表示,模型在「漏洞利用」任務中的表現優於「偵測」與「修補」任務。在 Detect 模式下,部分模型在識別單一漏洞後即停止進一步審查;在 Patch 模式中,完整保留功能並移除漏洞仍屬困難。

技術設計與限制

EVMbench 採用基於 Rust 的測試框架,用於部署合約、決定性重播代理交易,並限制部分 RPC 呼叫方式。

OpenAI 亦指出測試存在若干限制:

  • 漏洞主要來自 Code4rena 審計競賽案例

  • 未涵蓋主網高審查度合約的完整複雜度

  • Exploit 模式僅支援單鏈環境

  • 測試鏈狀態為本地實例,非主網分叉

  • 不涵蓋依賴精確時間機制的攻擊情境

因此,EVMbench 並不等同於完整的真實世界攻防環境,而是作為能力衡量工具。

AI 與智能合約安全的交集

OpenAI 指出,智能合約鎖定大量加密資產,而 AI 系統可能同時被用於攻擊與防禦用途。透過量化模型在此領域的能力,有助於追蹤潛在網路風險,並鼓勵將 AI 用於防禦性審計。

除發布 EVMbench 外,OpenAI 亦宣布:

  • 擴大安全研究代理 Aardvark 的私測

  • 與開源專案維護者合作,提供免費程式碼掃描

  • 承諾提供 1,000 萬美元 API 額度,支援資安防禦與關鍵基礎設施

  • 延續自 2023 年啟動的 Cybersecurity Grant Program

OpenAI 表示,相關措施旨在強化防禦能力,同時透過安全訓練與監測機制,降低技術濫用風險。

EVMbench 的推出,為 AI 在智能合約安全領域的能力提供了一套可量化標準。在區塊鏈資產規模持續擴大的背景下,AI 工具在審計與風險管理中的角色可能逐步增加。隨著模型能力進展與產業應用擴展,AI 與智能合約之間的互動,預計將成為區塊鏈基礎設施發展的重要觀察指標。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。