Gemini 3.1 Pro 登場:從抽象推理到競賽級程式,Google 再推高階 AI 新基準
當大型語言模型的競賽從「誰回答得快」進入「誰思考得深」,Google 再度端出新一代核心武器。2 月 19 日,Google 正式發表 Gemini 3.1 Pro,這不僅是 Gemini 3 系列的版本更新,更是一次針對高階推理能力的全面升級。官方直言,3.1 Pro 專為「沒有標準答案」的複雜任務而生,目標直指科學研究、工程開發與長鏈條決策場景。
從公開的基準測試數據來看,這次升級並非紙上談兵,而是在多項高難度評測中取得突破性進展。
為複雜任務而生的核心升級
在發表聲明中,Google 將 Gemini 3.1 Pro 定位為「更聰明、更有能力的基礎模型」,強調其在核心推理能力上的躍進。這款模型承接先前 Gemini 3 Deep Think 的研究成果,進一步強化底層智慧,使其在多步驟邏輯推理、抽象思考與專業問題拆解上表現更加成熟。
與 2025 年 11 月推出的 Gemini 3 Pro 相比,3.1 Pro 不僅是效能優化,而是推理能力的結構性成長。
ARC-AGI-2 衝上 77.1%:抽象推理能力翻倍提升
最引人注目的成績,來自被視為高階 AI 推理指標的 ARC-AGI-2 測試。該評測專門考驗模型解決「全新邏輯模式」的能力,避免依賴既有知識記憶。
根據公開數據:
-
Gemini 3.1 Pro:77.1%(ARC Prize 驗證)
-
Gemini 3 Pro:31.1%
-
Sonnet 4.6:58.3%
-
Opus 4.6:68.8%
-
GPT-5.2:52.9%
相較前代 31.1% 的表現,3.1 Pro 幾乎翻倍成長。這項成績意味著模型在面對未知問題時,具備更強的抽象推理與模式歸納能力。
專業知識與科學推理同步提升
在科學知識評測 GPQA Diamond 中,Gemini 3.1 Pro 取得 94.3%,高於 GPT-5.2 的 92.4%、Opus 4.6 的 91.3% 以及 Sonnet 4.6 的 89.9%。
這顯示 3.1 Pro 不僅能處理抽象邏輯,也在專業知識整合與科學推理層面維持頂尖水準。
程式能力大幅進化:競賽級表現拉開差距
在程式與代理任務評測中,Gemini 3.1 Pro 同樣交出亮眼成績。
-
LiveCodeBench Pro:Elo 2887
(GPT-5.2 為 2393,Gemini 3 Pro 為 2439) -
SWE-Bench Verified:80.6%
(GPT-5.2 為 80.0%,Opus 4.6 為 80.8%) -
Terminal-Bench 2.0:68.5%
(GPT-5.2 為 54.0%,Sonnet 4.6 為 59.1%) -
SciCode:59%
(GPT-5.2 為 52%,Sonnet 4.6 為 47%)
尤其在競賽型程式評測中,Elo 2887 的分數顯示其在高難度演算法與多步驟程式邏輯上的優勢逐漸明顯。
多模態與長文本能力維持高水準
在多模態理解與長文本處理方面,Gemini 3.1 Pro 也展現穩定表現:
-
MMMU Pro:80.5%
-
MMLU:92.6%
-
MRCR v2(128k):84.9%
-
1M token 長文本 pointwise:26.3%
這意味著模型不僅能推理,還能在龐大上下文中維持一致性與準確度。
從回答問題到直接產出成果
Google 強調,3.1 Pro 的價值不只體現在分數上,而在於實際應用能力。
例如,模型可直接生成可部署的動畫 SVG 程式碼。這類輸出基於純程式碼而非影像像素,不僅能無限縮放且保持清晰,檔案體積也遠小於傳統影片格式,可直接嵌入網站。
這種能力顯示模型正在從「回應工具」轉向「創作與開發工具」。
多平台同步上線,企業與開發者率先體驗
目前 Gemini 3.1 Pro 已以預覽形式開放:
開發者
-
Gemini API(Google AI Studio)
-
Gemini CLI
-
Google Antigravity
-
Android Studio
企業
-
Vertex AI
-
Gemini Enterprise
消費者
-
Gemini App(Pro 與 Ultra 用戶享有更高使用上限)
-
NotebookLM(限 Pro 與 Ultra 用戶)
Google 表示,預覽階段將持續優化,特別是在代理式工作流程(agentic workflows)等進階應用上,之後將正式全面推出。
AI 競賽進入「深度思考」時代
從各項基準測試來看,Gemini 3.1 Pro 明顯將重心放在更高層次的推理能力與專業應用場景。ARC-AGI-2 的 77.1% 成績尤其關鍵,象徵模型在面對未知邏輯問題時的突破。
在大型模型競逐愈發激烈的當下,Google 顯然選擇押注「更深層的智慧」,而非僅僅提升生成速度或對話流暢度。
隨著企業與開發者開始實測這款模型,其真正價值將在實際應用中逐步浮現。AI 的競爭焦點,或許正從生成能力,轉向更全面的思考能力。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。



