OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

Elponcrab
分享
OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

OpenAI 於 4/23 正式發布 GPT-5.5,定位為面向代理式(agentic)工作與企業知識處理的主力模型,同步登上 ChatGPT 與 Codex。官方宣傳定調為「我們最聰明、最直覺易用的模型」,AA Intelligence Index 以 60 分登頂,領先 Claude Opus 4.7 與 Gemini 3.1 Pro Preview 各 3 分。

關鍵數據一覽

指標 GPT-5.5 對照(GPT-5.4 或同級競品)
AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57
Terminal-Bench 2.0(命令列工作流) 82.7% GPT-5.4:75.1%
Expert-SWE(OpenAI 內部程式評估) 73.1% GPT-5.4:68.5%
脈絡視窗 1,200 萬 tokens 大幅提升,可處理整個企業程式庫或數小時影片
價格(每百萬 token) 輸入 5 美元、輸出 30 美元 GPT-5.4 的 2 倍單價;但輸出 token 使用量降約 40%,淨成本上升約 20%

定位:為「Agent 時代」設計

OpenAI 將 GPT-5.5 描述為代理式運算的基礎模型,能理解複雜目標、使用工具、自我檢查工作成果,並能把多步任務跑到完成而無需人類在每一步介入。根據 TechCrunch 採訪,總裁 Greg Brockman 形容此版本是「邁向未來運算的一大步,但只是一步」,並強調它「相較 5.4 是更快、更銳利的推理者,使用的 token 更少」。

首席科學家 Jakub Pachocki 指出,「我們在短期內看到非常顯著的提升」;研究長 Mark Chen 則強調本次版本在「科學與技術研究工作流上帶來有意義的突破」。

廣告 - 內文未完請往下捲動

供應範圍與版本分層

  • GPT-5.5:Plus、Pro、Business、Enterprise 用戶在 ChatGPT 與 Codex 中可使用
  • GPT-5.5 Pro:Pro、Business、Enterprise 用戶在 ChatGPT 中可使用的更高階推理版本
  • Codex 整合:同步可用於 OpenAI 的程式代理工具,強化多檔案編輯、命令列與測試迴圈

資安與國防論述同步升高

技術團隊成員 Mia Glaese 在接受 TechCrunch 訪問時表示,GPT-5.5 的資安能力將對 OpenAI「部署模型投入數位防禦的方式產生重大影響」。這個論述與 Anthropic 近期圍繞 Claude Mythos 武器級資安模型的爭議形成直接對照——Altman 先前才於《Core Memory》節目批評 Anthropic 的「恐懼行銷」策略。OpenAI 在 GPT-5.5 上更強調「攻守兼備、可部署」的論述,意在與 Anthropic 限制存取的立場拉開差異。

價格策略變化

GPT-5.5 的每百萬 token 價格翻倍至輸入 5 美元、輸出 30 美元,這是 GPT-5 系列首次出現單價顯著上升的世代。OpenAI 的解釋是:模型在推理效率上可減少 40% 左右的輸出 token 使用,因此典型任務的實際帳單約比 GPT-5.4 高 20%,而非單純 2 倍。對企業來說,決策因此從「單價是否划算」轉向「在同一 prompt 下,GPT-5.5 能否在 Token 總量更少的情況下完成更複雜任務」。

對產業的訊號

GPT-5.5 把 OpenAI 在 Terminal-Bench 與內部 SWE 評估的差距拉大,這兩個基準分別測試命令列代理執行與實際軟體工程任務——對 Codex 與 Claude Code 的正面對抗而言,是更直接的分數戰場。加上同步開放 1,200 萬 tokens 脈絡視窗,OpenAI 對「企業知識庫全量處理」與「長任務代理」兩條賽道同時加壓。對 Anthropic 而言,Claude Opus 4.7 在 AA 指數以 57 分落後 3 分,對 Claude Code 使用者而言也多一個理由觀察下一世代(Opus 4.8 或新一代 Claude)的進度。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。