Harness Engineering 是什麼?AI 的下一個戰場不是模型,而是模型外面的那層架構

Elponcrab
分享
Harness Engineering 是什麼?AI 的下一個戰場不是模型,而是模型外面的那層架構

2026 年,AI 產業出現一個新共識:決定 AI 產品好壞的,不再是模型本身,而是模型外面那層叫做「harness」的東西。當 Claude Code、Cursor、OpenClaw 使用的底層模型越來越接近時,真正拉開產品差距的,是 harness 的設計。Martin Fowler 的技術部落格、Anthropic 產品負責人 trq212、以及 Andrej Karpathy 的近期發言,都指向同一個方向:AI 的下一個戰場是 Harness Engineering。

什麼是 Agent Harness

一個 AI agent 可以拆成兩部分:模型(Model)和 Harness。模型是大腦,負責理解語言和推理。Harness 是模型以外的一切 — 工具呼叫、記憶管理、上下文組裝、狀態持久化、錯誤處理、安全護欄、任務排程、生命週期管理。

用一個直觀的比喻:LLM 是一匹馬,harness 是馬具 — 韁繩、馬鞍、與馬車的連接結構。沒有馬具,馬再強壯也拉不動車。AI agent 也一樣,模型再聰明,沒有好的 harness 就無法可靠地完成實際任務。

廣告 - 內文未完請往下捲動

Akshay Pachaar 在一則廣為流傳的推文中提出了另一個比喻:「裸 LLM 就像沒有作業系統的 CPU — 它能計算,但靠自己做不了任何有用的事。」Harness 就是那個作業系統。

為什麼 2026 年 Harness Engineering 突然變重要

原因有三:

第一,模型能力趨於同質化。GPT-5.4、Claude Opus 4.6、Gemini 3.1 Pro 在多數基準測試上的差距已經縮小到個位數百分點。當模型不再是瓶頸,產品差異化自然轉移到 harness 層。

第二,agent 從實驗進入生產。2025 年的 agent 大多是 demo,2026 年的 agent 要跑在企業環境裡 — 需要處理中斷恢復、長時間運行、多步驟任務、權限控制。這些全是 harness 的工作。

第三,LLM 天生無狀態。每次新的 session 都從零開始,模型不記得上一次對話。Harness 負責把記憶、上下文、工作進度持久化,讓 agent 能像一個真正的「同事」一樣持續工作。

Harness 的核心組件

一個完整的 agent harness 通常包含以下幾層:

組件 功能 類比
Orchestration Loop 控制 agent 的「思考 → 行動 → 觀察」循環 作業系統的主循環
Tool Management 管理 agent 可以使用的工具(檔案讀寫、API 呼叫、瀏覽器操作等) 驅動程式
Context Engineering 決定每次呼叫模型時送入哪些資訊、裁切哪些資訊 記憶體管理
State Persistence 保存工作進度、對話歷史、中間結果 硬碟
Error Recovery 偵測失敗並自動重試或回退 例外處理
Safety Guardrails 限制 agent 的行為範圍,防止危險操作 防火牆
Verification Loops 讓 agent 自我檢查輸出品質 單元測試

三層工程學:Prompt、Context、Harness

圍繞 LLM 的工程實踐可以分為三個同心圓層次:

最內層是 Prompt Engineering — 設計送給模型的指令,決定模型「怎麼想」。這是 2023 年的主流技能。

中間層是 Context Engineering — 管理模型「看到什麼」。決定哪些資訊在什麼時機送入 context window,哪些該裁切。隨著 context window 擴大到百萬 token,這層的重要性在 2025 年開始浮現。

最外層是 Harness Engineering — 涵蓋前兩者,再加上整個應用基礎設施:工具編排、狀態持久化、錯誤恢復、驗證循環、安全機制、生命週期管理。這是 2026 年的核心戰場。

實例:為什麼同一個模型在不同產品裡表現天差地遠

Claude Opus 4.6 在 Claude Code 裡可以花一小時重構整個程式碼庫。但把同一個模型透過 API 接上一個簡陋的 harness,它可能連跨檔案的 bug 修復都做不好。差別不在模型,在 harness。

Claude Code 的 harness 做了什麼?

  • 自動搜尋整個程式碼庫找到相關檔案,而非要求用戶一一指定
  • 在修改前先讀取檔案內容,修改後執行測試驗證
  • 遇到測試失敗會自動分析錯誤並重試
  • 透過 MCP 連接外部工具(GitHub、資料庫等)
  • 記憶系統跨 session 保存使用者偏好與專案脈絡
  • Advisor 策略讓不同能力的模型分工合作

這些全是 harness 的功勞。

Feedforward 與 Feedback:Harness 的兩大控制模式

根據 Martin Fowler 技術部落格的分析,harness 的控制機制分為兩類:

Feedforward(前饋控制)— 在 agent 行動前就設好規則,預防不想要的輸出。例如:system prompt 中的行為準則、工具白名單、檔案存取權限。

Feedback(回饋控制)— 在 agent 行動後檢查結果,允許自我修正。例如:執行測試確認程式碼正確、比對輸出與預期格式、偵測幻覺並重新生成。

好的 harness 同時使用兩種控制,既限制行為範圍又保留靈活性。

Harness Engineering 的產品化:Anthropic 怎麼做

Anthropic 在 2026 年 4 月密集推出的產品更新,幾乎都是 harness engineering 的產品化:

  • Managed Agents — 把 harness 的基礎設施(沙箱、排程、狀態管理)做成託管服務,開發者只需定義 agent 行為
  • Advisor 策略 — harness 層級的模型混用架構,自動判斷何時該諮詢更強的模型
  • Cowork 企業版 — 為非技術用戶提供完整的 harness(權限控制、支出管理、使用分析),讓他們不需要理解底層技術

Anthropic 產品負責人 trq212 的表述最為精準:「Prompting 是跟 agent 對話的技能,但它是被 harness 所中介的。我的核心目標是增大人類與 agent 之間的頻寬。」

對開發者的意義:新職業與新技能

Harness Engineering 正在成為一個獨立的工程領域。它需要的技能組合跟傳統後端工程或 ML 工程都不同:

  • 理解 LLM 的能力邊界與失敗模式
  • 設計可靠的工具呼叫與錯誤處理流程
  • 管理 context window — 什麼時候塞入什麼資訊
  • 建構可觀測性 — 追蹤 agent 的決策路徑與工具使用
  • 安全設計 — 限制 agent 的行為範圍而不扼殺其能力

對於正在學習 Vibe Coding 或使用 AI 工具開發的人來說,理解 harness 的概念將幫助你更有效地與 AI agent 協作 — 因為你會知道問題出在模型還是 harness,以及如何透過調整 harness 設定(而非反覆改 prompt)來改善結果。

結語:下一個十年的基礎設施之爭

AI 模型的競爭不會停止,但邊際收益正在遞減。Harness 層的競爭才剛開始 — 誰能建構最可靠、最靈活、最安全的 harness,誰就能把同樣的模型能力轉化為更好的產品體驗。

這也解釋了為什麼 Anthropic、OpenAI、Google 都在從「模型公司」轉型為「平台公司」— 他們賣的不再只是模型 API,而是完整的 harness 基礎設施。對開發者而言,理解 harness engineering 不是可選項,而是在 AI 時代建構產品的核心素養。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。