Claude Opus 4.5 登場!準確率大贏 GPT-5.1 與 Gemini 3,樂天:自我進化強
就在 Google 推出 Gemini 3 後一週,Anthropic 也於 11/25 宣布推出最新旗艦模型 Claude Opus 4.5,更表示該版本在寫程式、AI 代理操作與使用電腦應用上大幅升級,還能處理更長的對話內容。Anthropic 的開發者關係主管 Alex Albert 甚至在受訪時也對此表示:「這就是全世界最聰明的模型。」
Claude Opus 4.5 最強亮點一次看
亮點一:效能打趴 GPT-5.1 與 Gemini 3,強化代理應用
官方將 Opus 4.5 定位為「世界最強模型之一」,並從即日起開放於 App、API 與三大雲端平台 (AWS、GCP、Azure) 使用。從 Anthropic 提供的 AI 模型效能對比圖可得知:
「Opus 4.5 具有高達 80.9 % 準確率,力壓 Gemini 3 Pro 與 GPT-5.1。」

官方表示,這次 Opus 4.5 在寫程式、AI Agents、多步驟推理與電腦工具操作特別突出,像是一般工作如長篇研究、PowerPoint、Excel 等應用上表現也明顯增強。
而新定價為每百萬輸入 token 為 5 美元、每百萬輸出為 25 美元,比前一代 Opus 4.1 更親民,讓更多企業與團隊能採用 Opus 等級功能。
亮點二:內部測試一致好評,能理解也能解題
Anthropic 透露,釋出測試版後,團隊成員給出一致回饋。尤其是:
「Opus 4.5 能處理一些模糊不清的問題、推理權衡,遇到多系統複雜 bug 時會自行摸索解法。」
原本 Sonnet 4.5 幾乎做不到的任務,如今 Opus 4.5 能完成。測試者普遍表示 Opus 4.5 很懂「使用者的意思」,官方也認為這帶來明顯體驗差異。

亮點三:程式測驗創新紀錄,兩小時考題表現超越人類
Anthropic 指出,公司在招募工程師時會使用一份難度相當高的實作測驗。這次在相同的兩小時作答時限內,Claude Opus 4.5 的表現竟超越歷年所有人類求職者,創下新紀錄。
官方補充,這份測驗主要評估的是技術能力與壓力下的判斷力,不涉及合作、溝通等軟實力。不過從這次結果可以看出,AI 在工程領域的純技術層面正以極快速度進步。
亮點四:安全性再強化,對提示注入攻擊更難被騙
Anthropic 強調,Opus 4.5 是目前為止「對齊度最高、也是最安全」的模型版本。
這次的安全升級重點在於,模型在面對提示注入攻擊時的抵抗力大幅提升,惡意指令不容易被夾帶進模型中,也更難欺騙系統誤執行不當行為。相較其他前沿模型,Opus 4.5 在相關安全測試中的表現同樣拿下最佳成績。從下圖可得知:
「Opus 4.5 與其他知名模型在相同測試條件下,是最不容易被騙,最不容易被提示注入攻擊成功,防禦表現亮眼。」

亮點五:長對話不斷線,Chrome 與 App 全面提升體驗
Anthropic 也同時更新多項產品。首先,Claude Code 的 Plan Mode 進一步升級,會先把問題釐清後自動產生可編輯的 plan.md,再進行程式執行。桌面版也加入多重 Session,可同時讓多個代理執行不同任務。
一般用戶常用的 Claude App 也同步改進,長對話不再因上下文太長而卡住,系統會自動整理前段內容讓對話不中斷。Claude for Chrome 則全面向 Max 用戶開放,可跨分頁處理複雜操作。
Claude for Excel 原本僅限 Beta 用戶,如今擴大至 Max、Team、Enterprise 用戶,並結合 Opus 4.5 強化表格與資料處理能力。最後,Anthropic 也上調整體使用量上限,取消 Opus 專屬限制,讓 Max 與 Team Premium 用戶能以「日常工作量」的級別使用 Opus 4.5,未來若推出更強模型,相關用量也將再調整。
(註:plan.md 不是外部文件,而是一種 Claude Code 在執行任務前自動生成的「任務計畫文件」,格式採用常見的 Markdown。)
兩點六:樂天指出 Opus 4.5 具有自我進化功能
其中有個特別亮點,日本樂天 (Rakuten) 指出,Claude Opus 4.5 在自我進化型 AI 代理上展現明顯突破。
在辦公室自動化的實際應用中,相關代理程式能自行優化能力,只需四次迭代就能達到最佳表現,而其他模型即使跑到十次也追不上同等品質。
樂天強調,這項差異讓 Opus 4.5 在企業級應用中展現更高效率。

風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。



