AI 人工智慧產品技術

OpenAI 新推 GPT-5.2：可做小遊戲與賀卡，企業用戶每週更省 10 小時工時

Louis Lin

2025/12/12

OpenAI 於 12/12 新推出 GPT-5.2，並定位為目前最適合「專業知識工作」的 AI 模型系列。官方表示，GPT-5.2 能直接產出簡報、試算表、程式碼與長文件分析等實際工作成果，並支援跨工具、多步驟任務處理，還可以製作前端網頁小遊戲與賀卡。根據回饋，ChatGPT 企業級用戶平均每天可節省 40 至 60 分鐘工作時間，高度使用者每週甚至更省下超過 10 小時，GPT-5.2 被視為進一步放大生產力的關鍵版本。

Table of Contents

三種版本同步推出，全面對應不同專業使用情境

OpenAI 表示，GPT-5.2 這次同步推出 Instant、Thinking、Pro 三個版本，分別主打日常效率、深度推理與高難度問題品質。而在 ChatGPT 應用上，GPT-5.2 會率先提供給付費方案用戶。在 API 平台，則已全面開放給開發者使用。

專業工作能力大躍進，首次在 GDPval 達到人類專家等級

OpenAI 指出，GPT-5.2 Thinking 在 GDPval 專業知識工作評測中出現關鍵突破。該評測涵蓋 44 種職業、9 大產業，要求模型直接產出可交付成果，如簡報、試算表、排班表與商業文件。

廣告 - 內文未完請往下捲動

結果顯示，GPT-5.2 Thinking 有 70.9% 的任務被判為超越產業專家表現，或者打平，產出速度超過人類專家 11 倍，成本低於 1%，成為 OpenAI 首次達到、甚至超越人類專業水準的模型。

實戰能力全面升級，專案產出與程式開發同步強化

在實際應用上，GPT-5.2 Thinking 的簡報與試算表結構更完整、邏輯更接近專業顧問與分析師，還能處理人力規劃、股權結構與專案管理等複雜內容。在投資銀行等級的試算表任務中，其表現較前一代提升約 9%。

在軟體開發方面，GPT-5.2 Thinking 於 SWE-Bench Pro 真實世界程式碼維修測試中，準確率達 56%，能直接讀取程式碼倉庫、理解工程問題，並輸出可用的修補程式。

(註：SWE-Bench Pro 是一套模擬「真實世界軟體工程工作」的測試，要求 AI 直接修好實際專案中的程式問題，而不是只回答理論題。)

可信度與整合度提升，長文件、影像與工具協作更成熟

OpenAI 表示，GPT-5.2 Thinking 的回應錯誤率相較前一代相對下降約 30%。在 MRCRv2 評測中，即使面對約數十萬字的超長文件，仍能維持接近滿分的準確率，適用於合約、財報與逐字稿分析。

在影像理解方面，GPT-5.2 在圖表與軟體介面判讀的錯誤率明顯下降，在工具調用能力上，於 Tau2-bench 測試中準確率達 98.7%，能穩定完成跨系統、多步驟的完整任務流程。

GPT-5.2 還可以製作前端網頁、小遊戲等。

(註：MRCRv2 是一套專門測試 AI 在超長內容中，能不能正確抓住關鍵資訊、並在多次推理中不搞混上下文的能力測試。Tau2-bench 為一套模擬真實客服與業務流程的評測，用來測試 AI 是否能在多輪互動中，正確呼叫工具、整合資訊，並完成整個任務。 )

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

AI 模型 ChatGPT GPT-5.2 LLM OpenAI

鏈新聞

衍伸閱讀