Anthropic 40 萬樣本研究:領域專業勝過寫程式能力
Anthropic 研究團隊 6 月 16 日發布論文「Agentic Coding and Persistent Returns to Expertise」,分析 2025 年 10 月至 2026 年 4 月共 ~400,000 個 Claude Code session、得出一個與業界主流敘事相反的結論:使用 AI 編碼工具的成果差異,主要來自使用者的「領域專業」而非「程式能力」。會計師、法律專業、業務人員等非工程職業,若具備清晰的領域知識,在 Claude Code 上的成功率僅比軟體工程師低 5 個百分點。據 Anthropic 官方研究頁,論文作者包括 Zoe Hitzig、Maxim Massenkoff、Eva Lyubich、Ryan Heller 與 Peter McCrory。
鏈新聞先前報導 Claude Code 是什麼?2026 最完整指南,本次 Anthropic 自家研究進一步以實證資料驗證 Claude Code 的使用者輪廓與成功要件。
40 萬 session、9 種工作模式:研究方法
研究團隊以隱私保護方式分析了約 40 萬個 Claude Code 使用 session,期間從 2025 年 10 月延伸至 2026 年 4 月。研究將每個 session 分類為 9 種工作模式:building(建構)、fixing(修正)、testing(測試)、orchestrating(協調)、operating(操作)、understanding(理解)、planning(規劃)、analyzing(分析)、communicating(溝通)。
同時建立三類客製分類器:
- 決策歸屬分類器:判斷規劃決策(plan)由人類提供,執行決策(execute)由 Claude 提供的比例。
- 專業程度分類器:從新手(novice)到專家(expert)四階分級。
- 成功結果分類器:區分「主觀成功判定」(judged)與「客觀驗證成功」(verified)兩類。
研究另以自由接案平台的任務定價作為輔助估值基準,並對照 telemetry 資料驗證程式修改的偵測率(agreement 達 90% 以上)。
70% 規劃 vs 80% 執行:人類與 Claude 的明確分工
研究最具量化價值的發現是「人類與 Claude 的工作分配是穩定且可量化的」:
- 規劃決策:人類做出約 70% 的策略性方向決定(要做什麼、怎麼設計、優先級為何)。
- 執行決策:Claude 做出約 80% 的執行層決定(如何寫程式、用什麼語法、選什麼套件)。
這個分布在不同職業、不同經驗水準的使用者之間保持穩定,意味著「Claude Code 作為一個 agent」的角色並非取代規劃者,而是扮演高效率的執行者。鏈新聞先前報導別把 Claude Code 都當外掛:內建、MCP、Plugins、Skills 一次分清楚,論文的數據驗證了「Claude Code 是 agentic loop 的執行引擎」這個架構觀點。
另一項數字差距發生在「每次 prompt 觸發的行動數量」:新手每次 prompt 觸發約 5 個行動、專家觸發約 12 個,差距達 2.4 倍。專家能在一次 prompt 中安排更多並行任務、要求更密集的驗證,反映出他們對 agent 行為的理解更深。
新手 15%、專家 33%:成功率隨專業度大幅上升
論文以「驗證成功率」(verified success,即可從程式變動實際驗證任務完成)作為主要指標:
| 使用者經驗 | 驗證成功率 | 部分成功率 |
|---|---|---|
| 新手(novice) | 15% | 77% |
| 中階以上 | 28-33% | 91-92% |
新手 session 的「放棄率」是專家的 3.8 倍(19% vs 5%),暗示企業導入 Claude Code 時,初期的訓練與引導對結果具備關鍵影響力。
非軟體職業 29% vs 軟體 34%:白領全面進入編碼戰場
論文最具新聞價值的發現是不同職業在 Claude Code 上的表現差距比預期小。在「實際產出程式碼」的 session 中,非軟體職業(如管理、會計、法律、業務)的驗證成功率為 29%、軟體工程師為 34%,差距僅 5 個百分點。
論文舉了一個具體案例:一位不熟 Python 的會計師、若能在 prompt 中精準指定對帳規則、並能在月底邊界 case 發生時即時回饋給 Claude,其 session 表現與資深工程師相當。
鏈新聞先前報導微軟取消內部 Claude Code 授權,6 月底前改用 GitHub Copilot CLI。Anthropic 本次研究公布的職業分布資料,提供企業在編碼 agent 採購評估上的具體參考數據。
工作模式長期變化:debug 33% 降到 19%、operating 14% 升 21%
研究另統計了 7 個月期間 9 種工作模式的相對分布變化:
- fixing(修正、debug):從 33% 下降至 19%,反映 Claude 自身錯誤減少,使用者花更少時間處理模型生成的問題。
- operating(操作、部署):從 14% 上升至 21%,反映使用者把 Claude Code 從「寫程式」推進到「部署、管線、營運」層。
- analyzing(分析)與 communicating(溝通):兩者合計從 10% 升至 20%,反映非程式碼輸出的 session 比重明顯上升。
任務的整體價值(以接案市場定價估算)在 7 個月內成長 27%。鏈新聞先前報導 Akshay 解析 Claude Code 6 層架構:模型只是迴圈中的一個節點。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。




