OpenAI 推 GPT-5.5：1M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

Elponcrab

2026/4/24

OpenAI 於 4/23 正式發布 GPT-5.5，定位為面向代理式（agentic）工作與企業知識處理的主力模型，同步登上 ChatGPT 與 Codex。官方宣傳定調為「我們最聰明、最直覺易用的模型」，AA Intelligence Index 以 60 分登頂，領先 Claude Opus 4.7 與 Gemini 3.1 Pro Preview 各 3 分。

Table of Contents

關鍵數據一覽

指標	GPT-5.5	對照（GPT-5.4 或同級競品）
AA Intelligence Index	60	Claude Opus 4.7：57；Gemini 3.1 Pro Preview：57
Terminal-Bench 2.0（命令列工作流）	82.7%	GPT-5.4：75.1%
Expert-SWE（OpenAI 內部程式評估）	73.1%	GPT-5.4：68.5%
脈絡視窗	1M tokens（API）／400K（Codex）	大幅提升，可處理整個企業程式庫或數小時影片
價格（每百萬 token）	輸入 5 美元、輸出 30 美元	GPT-5.4 的 2 倍單價；但輸出 token 使用量降約 40%，淨成本上升約 20%

定位：為「Agent 時代」設計

OpenAI 將 GPT-5.5 描述為代理式運算的基礎模型，能理解複雜目標、使用工具、自我檢查工作成果，並能把多步任務跑到完成而無需人類在每一步介入。根據 TechCrunch 採訪，總裁 Greg Brockman 形容此版本是「邁向未來運算的一大步，但只是一步」，並強調它「相較 5.4 是更快、更銳利的推理者，使用的 token 更少」。

首席科學家 Jakub Pachocki 指出，「我們在短期內看到非常顯著的提升」；研究長 Mark Chen 則強調本次版本在「科學與技術研究工作流上帶來有意義的突破」。

廣告 - 內文未完請往下捲動

供應範圍與版本分層

GPT-5.5：Plus、Pro、Business、Enterprise 用戶在 ChatGPT 與 Codex 中可使用
GPT-5.5 Pro：Pro、Business、Enterprise 用戶在 ChatGPT 中可使用的更高階推理版本
Codex 整合：同步可用於 OpenAI 的程式代理工具，強化多檔案編輯、命令列與測試迴圈

資安與國防論述同步升高

技術團隊成員 Mia Glaese 在接受 TechCrunch 訪問時表示，GPT-5.5 的資安能力將對 OpenAI「部署模型投入數位防禦的方式產生重大影響」。這個論述與 Anthropic 近期圍繞 Claude Mythos 武器級資安模型的爭議形成直接對照—Altman 先前才於《Core Memory》節目批評 Anthropic 的「恐懼行銷」策略。OpenAI 在 GPT-5.5 上更強調「攻守兼備、可部署」的論述，意在與 Anthropic 限制存取的立場拉開差異。

價格策略變化

GPT-5.5 的每百萬 token 價格翻倍至輸入 5 美元、輸出 30 美元，這是 GPT-5 系列首次出現單價顯著上升的世代。OpenAI 的解釋是：模型在推理效率上可減少 40% 左右的輸出 token 使用，因此典型任務的實際帳單約比 GPT-5.4 高 20%，而非單純 2 倍。對企業來說，決策因此從「單價是否划算」轉向「在同一 prompt 下，GPT-5.5 能否在 Token 總量更少的情況下完成更複雜任務」。

對產業的訊號

GPT-5.5 把 OpenAI 在 Terminal-Bench 與內部 SWE 評估的差距拉大，這兩個基準分別測試命令列代理執行與實際軟體工程任務—對 Codex 與 Claude Code 的正面對抗而言，是更直接的分數戰場。加上同步開放 1M tokens（API）／400K（Codex）脈絡視窗，OpenAI 對「企業知識庫全量處理」與「長任務代理」兩條賽道同時加壓。對 Anthropic 而言，Claude Opus 4.7 在 AA 指數以 57 分落後 3 分，對 Claude Code 使用者而言也多一個理由觀察下一世代（Opus 4.8 或新一代 Claude）的進度。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。