OpenAI 新推 GPT-5.2:可做小遊戲與賀卡,企業用戶每週更省 10 小時工時
OpenAI 於 12/12 新推出 GPT-5.2,並定位為目前最適合「專業知識工作」的 AI 模型系列。官方表示,GPT-5.2 能直接產出簡報、試算表、程式碼與長文件分析等實際工作成果,並支援跨工具、多步驟任務處理,還可以製作前端網頁小遊戲與賀卡。根據回饋,ChatGPT 企業級用戶平均每天可節省 40 至 60 分鐘工作時間,高度使用者每週甚至更省下超過 10 小時,GPT-5.2 被視為進一步放大生產力的關鍵版本。
三種版本同步推出,全面對應不同專業使用情境
OpenAI 表示,GPT-5.2 這次同步推出 Instant、Thinking、Pro 三個版本,分別主打日常效率、深度推理與高難度問題品質。而在 ChatGPT 應用上,GPT-5.2 會率先提供給付費方案用戶。在 API 平台,則已全面開放給開發者使用。
專業工作能力大躍進,首次在 GDPval 達到人類專家等級
OpenAI 指出,GPT-5.2 Thinking 在 GDPval 專業知識工作評測中出現關鍵突破。該評測涵蓋 44 種職業、9 大產業,要求模型直接產出可交付成果,如簡報、試算表、排班表與商業文件。
結果顯示,GPT-5.2 Thinking 有 70.9% 的任務被判為超越產業專家表現,或者打平,產出速度超過人類專家 11 倍,成本低於 1%,成為 OpenAI 首次達到、甚至超越人類專業水準的模型。

實戰能力全面升級,專案產出與程式開發同步強化
在實際應用上,GPT-5.2 Thinking 的簡報與試算表結構更完整、邏輯更接近專業顧問與分析師,還能處理人力規劃、股權結構與專案管理等複雜內容。在投資銀行等級的試算表任務中,其表現較前一代提升約 9%。

在軟體開發方面,GPT-5.2 Thinking 於 SWE-Bench Pro 真實世界程式碼維修測試中,準確率達 56%,能直接讀取程式碼倉庫、理解工程問題,並輸出可用的修補程式。

(註:SWE-Bench Pro 是一套模擬「真實世界軟體工程工作」的測試,要求 AI 直接修好實際專案中的程式問題,而不是只回答理論題。)
可信度與整合度提升,長文件、影像與工具協作更成熟
OpenAI 表示,GPT-5.2 Thinking 的回應錯誤率相較前一代相對下降約 30%。在 MRCRv2 評測中,即使面對約數十萬字的超長文件,仍能維持接近滿分的準確率,適用於合約、財報與逐字稿分析。
在影像理解方面,GPT-5.2 在圖表與軟體介面判讀的錯誤率明顯下降,在工具調用能力上,於 Tau2-bench 測試中準確率達 98.7%,能穩定完成跨系統、多步驟的完整任務流程。

(註:MRCRv2 是一套專門測試 AI 在超長內容中,能不能正確抓住關鍵資訊、並在多次推理中不搞混上下文的能力測試。Tau2-bench 為一套模擬真實客服與業務流程的評測,用來測試 AI 是否能在多輪互動中,正確呼叫工具、整合資訊,並完成整個任務。 )
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


