Anthropic 40 萬樣本研究：領域專業勝過寫程式能力

Elponcrab

2 小時前

Anthropic 研究團隊 6 月 16 日發布論文「Agentic Coding and Persistent Returns to Expertise」，分析 2025 年 10 月至 2026 年 4 月共 ~400,000 個 Claude Code session、得出一個與業界主流敘事相反的結論：使用 AI 編碼工具的成果差異，主要來自使用者的「領域專業」而非「程式能力」。會計師、法律專業、業務人員等非工程職業，若具備清晰的領域知識，在 Claude Code 上的成功率僅比軟體工程師低 5 個百分點。據 Anthropic 官方研究頁，論文作者包括 Zoe Hitzig、Maxim Massenkoff、Eva Lyubich、Ryan Heller 與 Peter McCrory。

鏈新聞先前報導 Claude Code 是什麼？2026 最完整指南，本次 Anthropic 自家研究進一步以實證資料驗證 Claude Code 的使用者輪廓與成功要件。

Table of Contents

40 萬 session、9 種工作模式：研究方法

研究團隊以隱私保護方式分析了約 40 萬個 Claude Code 使用 session，期間從 2025 年 10 月延伸至 2026 年 4 月。研究將每個 session 分類為 9 種工作模式：building（建構）、fixing（修正）、testing（測試）、orchestrating（協調）、operating（操作）、understanding（理解）、planning（規劃）、analyzing（分析）、communicating（溝通）。

廣告 - 內文未完請往下捲動

同時建立三類客製分類器：

決策歸屬分類器：判斷規劃決策（plan）由人類提供，執行決策（execute）由 Claude 提供的比例。
專業程度分類器：從新手（novice）到專家（expert）四階分級。
成功結果分類器：區分「主觀成功判定」（judged）與「客觀驗證成功」（verified）兩類。

研究另以自由接案平台的任務定價作為輔助估值基準，並對照 telemetry 資料驗證程式修改的偵測率（agreement 達 90% 以上）。

70% 規劃 vs 80% 執行：人類與 Claude 的明確分工

研究最具量化價值的發現是「人類與 Claude 的工作分配是穩定且可量化的」：

規劃決策：人類做出約 70% 的策略性方向決定（要做什麼、怎麼設計、優先級為何）。
執行決策：Claude 做出約 80% 的執行層決定（如何寫程式、用什麼語法、選什麼套件）。

這個分布在不同職業、不同經驗水準的使用者之間保持穩定，意味著「Claude Code 作為一個 agent」的角色並非取代規劃者，而是扮演高效率的執行者。鏈新聞先前報導別把 Claude Code 都當外掛：內建、MCP、Plugins、Skills 一次分清楚，論文的數據驗證了「Claude Code 是 agentic loop 的執行引擎」這個架構觀點。

另一項數字差距發生在「每次 prompt 觸發的行動數量」：新手每次 prompt 觸發約 5 個行動、專家觸發約 12 個，差距達 2.4 倍。專家能在一次 prompt 中安排更多並行任務、要求更密集的驗證，反映出他們對 agent 行為的理解更深。