Gemini 3.1 Pro 登場：從抽象推理到競賽級程式，Google 再推高階 AI 新基準

Elponcho

2026/2/20

當大型語言模型的競賽從「誰回答得快」進入「誰思考得深」，Google 再度端出新一代核心武器。2 月 19 日，Google 正式發表 Gemini 3.1 Pro，這不僅是 Gemini 3 系列的版本更新，更是一次針對高階推理能力的全面升級。官方直言，3.1 Pro 專為「沒有標準答案」的複雜任務而生，目標直指科學研究、工程開發與長鏈條決策場景。

從公開的基準測試數據來看，這次升級並非紙上談兵，而是在多項高難度評測中取得突破性進展。

Table of Contents

為複雜任務而生的核心升級

在發表聲明中，Google 將 Gemini 3.1 Pro 定位為「更聰明、更有能力的基礎模型」，強調其在核心推理能力上的躍進。這款模型承接先前 Gemini 3 Deep Think 的研究成果，進一步強化底層智慧，使其在多步驟邏輯推理、抽象思考與專業問題拆解上表現更加成熟。

廣告 - 內文未完請往下捲動

與 2025 年 11 月推出的 Gemini 3 Pro 相比，3.1 Pro 不僅是效能優化，而是推理能力的結構性成長。

ARC-AGI-2 衝上 77.1%：抽象推理能力翻倍提升

最引人注目的成績，來自被視為高階 AI 推理指標的 ARC-AGI-2 測試。該評測專門考驗模型解決「全新邏輯模式」的能力，避免依賴既有知識記憶。

根據公開數據：

Gemini 3.1 Pro：77.1%（ARC Prize 驗證）
Gemini 3 Pro：31.1%
Sonnet 4.6：58.3%
Opus 4.6：68.8%
GPT-5.2：52.9%

相較前代 31.1% 的表現，3.1 Pro 幾乎翻倍成長。這項成績意味著模型在面對未知問題時，具備更強的抽象推理與模式歸納能力。

專業知識與科學推理同步提升

在科學知識評測 GPQA Diamond 中，Gemini 3.1 Pro 取得 94.3%，高於 GPT-5.2 的 92.4%、Opus 4.6 的 91.3% 以及 Sonnet 4.6 的 89.9%。

這顯示 3.1 Pro 不僅能處理抽象邏輯，也在專業知識整合與科學推理層面維持頂尖水準。

程式能力大幅進化：競賽級表現拉開差距

在程式與代理任務評測中，Gemini 3.1 Pro 同樣交出亮眼成績。

LiveCodeBench Pro：Elo 2887
（GPT-5.2 為 2393，Gemini 3 Pro 為 2439）
SWE-Bench Verified：80.6%
（GPT-5.2 為 80.0%，Opus 4.6 為 80.8%）
Terminal-Bench 2.0：68.5%
（GPT-5.2 為 54.0%，Sonnet 4.6 為 59.1%）
SciCode：59%
（GPT-5.2 為 52%，Sonnet 4.6 為 47%）

尤其在競賽型程式評測中，Elo 2887 的分數顯示其在高難度演算法與多步驟程式邏輯上的優勢逐漸明顯。

多模態與長文本能力維持高水準

在多模態理解與長文本處理方面，Gemini 3.1 Pro 也展現穩定表現：

MMMU Pro：80.5%
MMLU：92.6%
MRCR v2（128k）：84.9%
1M token 長文本 pointwise：26.3%

這意味著模型不僅能推理，還能在龐大上下文中維持一致性與準確度。

從回答問題到直接產出成果

Google 強調，3.1 Pro 的價值不只體現在分數上，而在於實際應用能力。

例如，模型可直接生成可部署的動畫 SVG 程式碼。這類輸出基於純程式碼而非影像像素，不僅能無限縮放且保持清晰，檔案體積也遠小於傳統影片格式，可直接嵌入網站。

這種能力顯示模型正在從「回應工具」轉向「創作與開發工具」。

多平台同步上線，企業與開發者率先體驗

目前 Gemini 3.1 Pro 已以預覽形式開放：

開發者

Gemini API（Google AI Studio）
Gemini CLI
Google Antigravity
Android Studio

企業

Vertex AI
Gemini Enterprise

消費者

Gemini App（Pro 與 Ultra 用戶享有更高使用上限）
NotebookLM（限 Pro 與 Ultra 用戶）

Google 表示，預覽階段將持續優化，特別是在代理式工作流程（agentic workflows）等進階應用上，之後將正式全面推出。

AI 競賽進入「深度思考」時代

從各項基準測試來看，Gemini 3.1 Pro 明顯將重心放在更高層次的推理能力與專業應用場景。ARC-AGI-2 的 77.1% 成績尤其關鍵，象徵模型在面對未知邏輯問題時的突破。

在大型模型競逐愈發激烈的當下，Google 顯然選擇押注「更深層的智慧」，而非僅僅提升生成速度或對話流暢度。

隨著企業與開發者開始實測這款模型，其真正價值將在實際應用中逐步浮現。AI 的競爭焦點，或許正從生成能力，轉向更全面的思考能力。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

Gemini 3.1 Pro Google

Gemini 3.1 Pro 登場：從抽象推理到競賽級程式，Google 再推高階 AI 新基準

為複雜任務而生的核心升級

廣告 - 內文未完請往下捲動

ARC-AGI-2 衝上 77.1%：抽象推理能力翻倍提升

專業知識與科學推理同步提升

程式能力大幅進化：競賽級表現拉開差距

多模態與長文本能力維持高水準

從回答問題到直接產出成果

多平台同步上線，企業與開發者率先體驗

AI 競賽進入「深度思考」時代

衍伸閱讀

LBank:LBank 上線「GRVT 上幣狂歡」活動，參與交易與邀請瓜分 $50,000 獎勵

LBank:LBank 上線「CXMT 上市嘉年華」活動，瓜分 10,000 USDT 獎勵

CoinW:CoinW 安全部門：安全為企業文化核心，零信任架構與 MPC 技術築牢資產護盾

LBank:LBank 上線「SHIB TOKEN SPLASH 活動」，瓜分 10,000 USDT 獎勵池

LBank:LBank 上線「合約迎新禮」活動，瓜分 120,000 USDT 獎池

LBank:LBank 上線「ETH TOKEN SPLASH 活動」，瓜分 10,000 USDT 獎勵池

BingX:HIVEUS將上線BingX永續合約交易

BingX:ETHA, KEEL等將上線BingX永續合約交易

BingX:ACHR, RCAT將上線BingX永續合約交易

BingX:ARXUSDT將上線BingX永續合約交易

BingX:BICOUSDT將上線BingX永續合約交易

BingX:【限時0費率】BingX 關於上線 Arcium(ARX) 現貨交易的公告

記憶體廠兩頭賺時代結束！SK 海力士財報曝 HBM 產能轉向、美光首當其衝

鎢供應趨緊，聯友金屬(7610)憑回收經濟成千金股

中國上月才加強管制鎢！台灣唯一仲鎢酸銨製造商「京沅鎢鈷」老闆遭綑綁殺害

戰略金屬鎢供應鏈掀波瀾，聯友金屬(7610)連兩日跌停

大摩報告：SpaceX 股價跌至100 美元，xAI 估值已接近零

EP.220 好久不見！2026 試錄集 feat. 功能醫學營養師美寶

EP.219 從銀行高管轉職幣圈 KOL 的真實心聲 feat.龜大

EP.217 美元穩定幣未來會如何演進？監管套利終將收斂？feat. 研究員余哲安

EP.213 川普大攪局：袋鼠市上沖下洗怎麼回事？feat. Alvin

Tether實體黃金儲備破146噸創歷史新高，Q2黃金下跌加速買入

Coldcard密鑰生成漏洞疑遭AI攻擊、Coinkite緊急發佈韌體修復更新

Pump.fun 代幣解鎖前夕解僱逾 40 名員工

Tether 第二季淨利 15 億美元，USDT 逆勢增至 1,846 億

路透調查：杜拜交易所 Shelbit 涉 40 億美元伊朗規避制裁

為複雜任務而生的核心升級

廣告 - 內文未完請往下捲動

ARC-AGI-2 衝上 77.1%：抽象推理能力翻倍提升

專業知識與科學推理同步提升

程式能力大幅進化：競賽級表現拉開差距

多模態與長文本能力維持高水準

從回答問題到直接產出成果

多平台同步上線，企業與開發者率先體驗

AI 競賽進入「深度思考」時代

衍伸閱讀

最新文章