Google 正式推出 Gemini 3:目前最強大的 AI Agentic 與 Vibe Coding 大型語言模型
Google 今日正式發表全新一代大型語言模型 Gemini 3,並同步在 Gemini App、SearchAI 模式、AI Studio、Vertex AI 等多項服務中推出 Gemini 3 Pro。Google 表示,Gemini 3 是目前最強的多模態與推理模型,在科學、數學、視覺理解與長程規劃等多項重要 AI 基準測試上大幅領先前代。除了 Vibe Coding 外,Gemini 3 也是最強的 Agentic 模型,這意味著 AI 可以幫你主動完成任務。
Google 執行長:Gemini 理解力已從文字圖片進化成能「讀空氣」
Google 執行長 Sundar Pichai 指出,自 Gemini 系列推出近兩年以來,AI 產品已觸及全球二十億用戶。每一代 Gemini 都建立在上一代的成果之上,Gemini 1 在原生多模態與長上下文方面帶來突破,能處理更多也更複雜的資訊。Gemini 2 奠定代理 (agentic) 能力,推動推理與思考極限。
而現在,Gemini 3:我們最智慧的一代模型,集結 Gemini 系列所有能力,讓你能把任何想法帶到現實。它在推理方面達到 SOTA (state-of-the-art),能掌握深度與細膩度。無論是捕捉創造性想法中的微妙線索,或拆解層層重疊的艱難問題。
Gemini 3 也能更好理解你的請求背後的上下文與意圖,讓你不用苦想提示就能得到真正需要的答案。令人驚嘆的是,短短兩年內,AI 已從能閱讀文字與圖片,進化到能讀懂場面與情境 (reading the room)。
推理能力突破:Gemini 3 在 LMArena、科學推理與數學測試皆奪冠
Gemini 3 Pro 在最新評測中刷新多項紀錄:
- LMArena 榜首:取得 1501 Elo 分數。
- Humanity’s Last Exam(學術推理):37.5%(無工具)。
- GPQA Diamond(科學推理):91.9%。
- MathArena Apex(高難度數學):23.4%。
- MMMU-Pro:81%
- Video-MMMU:87.6%
- SimpleQA Verified:72.1%(提升事實準確度)
這些結果代表 Gemini 3 Pro 在科學、數學、多模態推理中具備高度可靠性,可處理極為複雜的問題。
Google 同步發布 Gemini 3 Deep Think 推理模式,在 ARC-AGI-2(含程式執行)取得 45.1%,推理能力更上一層。其他亮點還包括:
- Humanity’s Last Exam:41.0%
- GPQA Diamond:93.8%
Gemini 3:更強的學習、執行與規劃能力
Gemini 3 是目前最強的 vibe coding 與代理式編程模型,具體評分包括:
- WebDev Arena:1487 Elo(最高)
- Terminal-Bench 2.0:54.2%(工具操作能力)
- SWE-bench Verified:76.2%(大型程式任務)
它也支援 Google 全新的 Google Antigravity 代理式開發平台,AI 能自主規劃、編寫程式、操作終端機、驗證程式、操控瀏覽器等多步驟任務。Agentic AI 指的是能主動採取行動、規劃多步驟任務、並自主操作工具的 AI 系統。核心概念是:AI 不再只是回答,而是能像助手一樣,主動完成任務。
舉例來說,當我輸入:「幫我抓今日 ETH 價格並更新 Google Sheet。」,Agentic AI 自己去查 API 並更新 Google Sheet。
大型語言模型意味著使用者輸入一樣的內容,可能因模型運算出不同結果而有截然不同的輸出。而 Gemini 3 在 Vending-Bench 2 中可連續一年度保持一致決策,這意味 Gemini 3 能協助你完成:
- 預約本地服務
- 整理 Gmail
- 處理多步驟工作流程
Gemini Agent 今天起向 Google AI Ultra 使用者開放。且 Google 表示,Gemini 3 是目前經過最多安全審查的模型,強化抗「拍馬屁式生成」、防 Prompt Injection 與網路攻擊。Deep Think 模式則將在完成額外安全測試後,提供給 Google AI Ultra 訂閱者。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。



