Gemini 3.1 Pro 登場:從抽象推理到競賽級程式,Google 再推高階 AI 新基準

Elponcho
分享
Gemini 3.1 Pro 登場:從抽象推理到競賽級程式,Google 再推高階 AI 新基準

當大型語言模型的競賽從「誰回答得快」進入「誰思考得深」,Google 再度端出新一代核心武器。2 月 19 日,Google 正式發表 Gemini 3.1 Pro,這不僅是 Gemini 3 系列的版本更新,更是一次針對高階推理能力的全面升級。官方直言,3.1 Pro 專為「沒有標準答案」的複雜任務而生,目標直指科學研究、工程開發與長鏈條決策場景。

從公開的基準測試數據來看,這次升級並非紙上談兵,而是在多項高難度評測中取得突破性進展。

為複雜任務而生的核心升級

發表聲明中,Google 將 Gemini 3.1 Pro 定位為「更聰明、更有能力的基礎模型」,強調其在核心推理能力上的躍進。這款模型承接先前 Gemini 3 Deep Think 的研究成果,進一步強化底層智慧,使其在多步驟邏輯推理、抽象思考與專業問題拆解上表現更加成熟。

新年快樂!下方有限時紅包可以領取

與 2025 年 11 月推出的 Gemini 3 Pro 相比,3.1 Pro 不僅是效能優化,而是推理能力的結構性成長。

ARC-AGI-2 衝上 77.1%:抽象推理能力翻倍提升

最引人注目的成績,來自被視為高階 AI 推理指標的 ARC-AGI-2 測試。該評測專門考驗模型解決「全新邏輯模式」的能力,避免依賴既有知識記憶。

根據公開數據:

  • Gemini 3.1 Pro:77.1%(ARC Prize 驗證)

  • Gemini 3 Pro:31.1%

  • Sonnet 4.6:58.3%

  • Opus 4.6:68.8%

  • GPT-5.2:52.9%

相較前代 31.1% 的表現,3.1 Pro 幾乎翻倍成長。這項成績意味著模型在面對未知問題時,具備更強的抽象推理與模式歸納能力。

專業知識與科學推理同步提升

在科學知識評測 GPQA Diamond 中,Gemini 3.1 Pro 取得 94.3%,高於 GPT-5.2 的 92.4%、Opus 4.6 的 91.3% 以及 Sonnet 4.6 的 89.9%。

這顯示 3.1 Pro 不僅能處理抽象邏輯,也在專業知識整合與科學推理層面維持頂尖水準。

程式能力大幅進化:競賽級表現拉開差距

在程式與代理任務評測中,Gemini 3.1 Pro 同樣交出亮眼成績。

  • LiveCodeBench Pro:Elo 2887
    (GPT-5.2 為 2393,Gemini 3 Pro 為 2439)

  • SWE-Bench Verified:80.6%
    (GPT-5.2 為 80.0%,Opus 4.6 為 80.8%)

  • Terminal-Bench 2.0:68.5%
    (GPT-5.2 為 54.0%,Sonnet 4.6 為 59.1%)

  • SciCode:59%
    (GPT-5.2 為 52%,Sonnet 4.6 為 47%)

尤其在競賽型程式評測中,Elo 2887 的分數顯示其在高難度演算法與多步驟程式邏輯上的優勢逐漸明顯。

多模態與長文本能力維持高水準

在多模態理解與長文本處理方面,Gemini 3.1 Pro 也展現穩定表現:

  • MMMU Pro:80.5%

  • MMLU:92.6%

  • MRCR v2(128k):84.9%

  • 1M token 長文本 pointwise:26.3%

這意味著模型不僅能推理,還能在龐大上下文中維持一致性與準確度。

從回答問題到直接產出成果

Google 強調,3.1 Pro 的價值不只體現在分數上,而在於實際應用能力。

例如,模型可直接生成可部署的動畫 SVG 程式碼。這類輸出基於純程式碼而非影像像素,不僅能無限縮放且保持清晰,檔案體積也遠小於傳統影片格式,可直接嵌入網站。

這種能力顯示模型正在從「回應工具」轉向「創作與開發工具」。

多平台同步上線,企業與開發者率先體驗

目前 Gemini 3.1 Pro 已以預覽形式開放:

開發者

  • Gemini API(Google AI Studio)

  • Gemini CLI

  • Google Antigravity

  • Android Studio

企業

  • Vertex AI

  • Gemini Enterprise

消費者

  • Gemini App(Pro 與 Ultra 用戶享有更高使用上限)

  • NotebookLM(限 Pro 與 Ultra 用戶)

Google 表示,預覽階段將持續優化,特別是在代理式工作流程(agentic workflows)等進階應用上,之後將正式全面推出。

AI 競賽進入「深度思考」時代

從各項基準測試來看,Gemini 3.1 Pro 明顯將重心放在更高層次的推理能力與專業應用場景。ARC-AGI-2 的 77.1% 成績尤其關鍵,象徵模型在面對未知邏輯問題時的突破。

在大型模型競逐愈發激烈的當下,Google 顯然選擇押注「更深層的智慧」,而非僅僅提升生成速度或對話流暢度。

隨著企業與開發者開始實測這款模型,其真正價值將在實際應用中逐步浮現。AI 的競爭焦點,或許正從生成能力,轉向更全面的思考能力。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。