DeepSeek 新推 V3.2 與 Speciale,推理與效能直逼 GPT-5、Gemini 3

Louis Lin
分享
DeepSeek 新推 V3.2 與 Speciale,推理與效能直逼 GPT-5、Gemini 3

DeepSeek 於 12/2 新推出兩款模型,分別是 DeepSeek-V3.2,以及專攻數學推理的 DeepSeek-V3.2-Speciale。官方表示,這兩款模型延續當初的實驗方向,目標是在推理能力、工具使用以及長思考能力上全面升級。DeepSeek 也強調,正式版 V3.2 在多項推理測試表現上已能與 GPT-5、Gemini-3 Pro 相提並論,而 Speciale 版本在數學與資訊競賽的表現達到國際金牌水準。

實驗版領路,正式版 V3.2 接棒登場

DeepSeek 在 9 月推出 V3.2-Exp 時,就把它定位為邁向下一代 AI 的實驗平台。這次推出的正式版 DeepSeek-V3.2,命名不再加上「Exp」,象徵功能更成熟。

官方說明,新版 V3.2 在多項推理測試上的表現與 GPT-5 和 Gemini-3 Pro 相近,並特別強調這是他們第一次把「思考模式」與「工具應用」緊密整合的模型,且同時支援思考模式與非思考模式。從下圖可得知:

廣告 - 內文未完請往下捲動

「DeepSeek-V3.2 透過基準測試表證明其工具使用能力已能與 GPT-5、Gemini-3 Pro 等頂尖模型並列。」

推理能力再升級,工具整合成最大亮點

DeepSeek 表示,V3.2 的大亮點,是能把推理過程與工具使用合併運作。換句話說,模型在思考某件事情的同時,也能調用搜尋引擎、計算機、程式碼執行器等外部工具,讓整體任務處理過程更完整、更自主,也更接近人類處理問題的方式。

Speciale 專注長推理,數學表現達金牌等級

除了標準版 V3.2,DeepSeek 同時推出另一個版本 DeepSeek-V3.2-Speciale。這個版本專門為高難度的數學推理與長時間思考設計。

官方的定位,是希望探索開源模型推理能力的極限,甚至看看模型本身能達到什麼邊界。從成績來看,Speciale 在國際數學奧林匹亞 (IMO)、國際資訊奧林匹亞 (IOI) 等測驗競賽中達到金牌等級,推理表現則與 Google 最新的 Gemini-3 Pro 旗鼓相當。從下圖可得知:

「DeepSeek-V3.2-Speciale 的推理能力已達到國際數學與資訊競賽的金牌水準,在多項推理與程式競賽基準測試中表現超越或匹敵 GPT-5、Gemini-3 Pro 與 Kimi-K2。」

新訓練方式曝光,AI 代理能力再強化

在模型之外,DeepSeek 也公開一項新的研究成果,也就是他們已經建立新的方法來訓練 AI 代理。這類代理能自己與外部環境互動、分析資料、做出判斷,不需要人類持續給指令。

DeepSeek 強調,這是他們為了讓 AI 執行效率更高、反應更快所設計的基礎技術。

延續一月聲量,研發節奏持續加速

DeepSeek 在今年 1 月因一款突破性模型引發全球關注。這次的 V3.2 系列,也是他們在那次成功後延續研究動能的最新成果。就在推出 V3.2 之前,DeepSeek 才在上週發布 DeepSeekMath-V2,一款專攻數學定理證明的開源模型,顯示他們正在推理與數學領域持續加強。

技術報告出爐,V3.2 推理力接近 GPT-5 與 Kimi

DeepSeek 也同步發布技術報告《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》,指出 V3.2 在多項推理基準測試中與 GPT-5 和 Kimi-k2-thinking 表現相似。

這份報告也強調,中國本土開源模型在推理領域的競爭力仍然與國際頂尖模型保持在同一級距。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。