微軟 Copilot Cowork 上線,新功能再讓 GPT 與 Claude 雙模型互相審查

Crumax
分享
微軟 Copilot Cowork 上線,新功能再讓 GPT 與 Claude 雙模型互相審查

微軟週一宣布 Microsoft 365 Copilot 重大更新,一次上線兩個突破性功能:整合 GPT 與 Claude 的多模型研究架構,以及能自主追蹤長時間任務的智慧代理 Copilot Cowork,兩者均透過 Frontier 早期體驗計畫向特別用戶開放。

深度研究 AI 競爭激烈,微軟祭出跨模型策略

過去一年,深度研究 (Deep research) 已成為 AI 領域競爭最激烈的戰場之一。Google 率先為 Gemini 推出研究代理功能,OpenAI 隨後發布自家版本,xAI 與 Perplexity 也相繼跟進,Anthropic 的 Claude 更在專業用戶群中累積出口碑。

各家公司無不致力於說服用戶,自家的單一模型才是最聰明的 AI 研究員。微軟卻反其道而行,反問「為什麼要只選一個模型?」

廣告 - 內文未完請往下捲動

目前市面上所有 AI 研究工具,幾乎都是「使用者提問 → 單一模型負責規劃搜尋 → 爬梳資料來源 → 撰寫報告」由於流程由單一模型一手包辦,容易導致幻覺 (hallucination)、引用錯誤、虛假或不準確的陳述。

微軟新推出的兩項研究功能,正是針對這個弱點所設計的解決方案。

Critique:GPT 生成、Claude 把關的審查機制

第一項功能名為 Critique,其核心概念是將研究流程一分為二:生成與評估分別交由不同模型負責,引入類似「同儕審查」的機制。

具體而言,GPT 負責規劃研究方向、搜尋資料、彙整來源並撰寫初稿;完成後,Claude 以從來源可信度、報告完整性、事實根據等多個面向逐一檢查,並強化報告品質,最後才將修訂後的版本交付用戶。微軟表示,未來也計畫支援 Claude 生成、GPT 審查的反向配置。

在測試表現上,Critique 的成績相當亮眼。以覆蓋醫療、法律、科技等十大領域、共 100 項複雜研究任務的 DRACO 基準測試為例,搭載 Critique 的 Copilot Researcher 拿下 57.4 分,而 Claude Opus 4.6 單獨作業的成績為 42.7 分,領先幅度接近 14%。

Council:GPT 與 Claude 對照比較,裁判模型評判

第二項功能 Council 則採取完全不同的策略。啟用後,GPT 與 Claude 會同時、各自獨立完成一份完整的研究報告,兩份報告並排呈現給用戶,讓不同模型在事實引用、分析角度、資料詮釋上的差異一覽無遺。

完成後,第三個「裁判模型」會讀取兩份報告,整理出一份統整摘要,說明兩者的共識、分歧與能夠互相補足之處。

Copilot Cowork:你交代任務,AI 代理自己跑完

同時,微軟也宣布了期待已久 Copilot Cowork 功能的上線。作為一個能在 Microsoft 365 生態系中自主運作的智慧代理,Cowork 專為「長時間執行、多步驟」的企業工作流程而設計。

使用者只需交代任務目標,Cowork 便會主動追蹤進度、規劃下一步行動,並持續推進,不需要使用者全程守著。對於需要跨越數小時甚至數天才能完成的複雜專案,Cowork 能讓用戶放心地「交辦就放手」,使其成為一個值得信任的工作夥伴。

誰能使用 Copilot Cowork、Critique 與 Council?

Critique、Council 與 Copilot Cowork 目前均透過微軟 Frontier 早期體驗計畫開放,Frontier 是微軟針對企業客戶推出的搶先體驗管道。使用者需付費訂閱 Microsoft 365 Copilot ,並同時加入 Frontier 計畫。

Critique 在選擇「Auto」模式時自動啟用,Council 則需在模型選擇器中手動切換至「Model Council」。

微軟押注的不是模型,而是 AI 調度與自主能力

即便微軟與 OpenAI 擁有長期合作關係,但仍選擇引入 Claude,反映出一個更深層的戰略判斷:沒有任何單一 AI 模型能永遠保持領先。

對於正在評估企業級 AI 工具的公司而言,微軟這次種種功能的推出,或許正在重新定義 AI 工作夥伴的定位:最強的 AI 同事一直都不是單一模型,而是一套能讓最好的模型各司其職、並在你不在的時候繼續工作的系統。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。