Berkeley GEPA 解析:不更新權重就能讓 AI 學會新任務、35 倍少訓練成本勝 RL

Elponcrab
分享
Berkeley GEPA 解析:不更新權重就能讓 AI 學會新任務、35 倍少訓練成本勝 RL

加州大學柏克萊分校研究團隊提出新的 AI 訓練方法 GEPA、已被 ICLR 2026 接收為 Oral 論文。GEPA 不更新模型權重、不需 GPU 訓練,只用一個「讀取訓練紀錄」的 LLM 反覆改寫 AI 系統的提示詞,便在 6 項任務上平均勝過主流強化學習方法 GRPO 6%、最高勝出 20%、所需訓練嘗試次數(rollouts)少 35 倍。研究經 AI 工程社群整理擴散後在 X 平台引發討論,目前已整合進 DSPy 成為一等優化器。

GEPA 在做什麼:把訓練紀錄當教材、不再只看分數

傳統強化學習方法(如 GRPO)的工作流是:讓 AI 跑一次任務、根據結果給一個「+1 或 -1」的分數,再用這個分數反覆調整模型權重。問題是 AI 跑這一次任務的過程通常包含上千 token 的推理步驟、工具呼叫、錯誤訊息—這些豐富細節全被壓縮成一個分數,過程資訊被丟掉。所以 RL 需要跑成千上萬次才能收斂。

GEPA 的做法相反:每次 AI 跑完任務,把整段過程(reasoning、工具呼叫、報錯紀錄)原原本本交給另一個「反思 LLM」閱讀。反思 LLM 像個資深工程師讀程式 log,找出哪一步出錯、為何出錯、應該如何修改提示詞,然後直接重寫該模組的提示。同樣一次跑任務、GEPA 從中提取的訊號量遠多於 RL 的單一分數。

廣告 - 內文未完請往下捲動

為何能贏:把「打分數」改成「讀整段過程」

GEPA 在 6 項任務上平均勝 GRPO 6%、最高勝 20%;對比另一個主流提示優化器 MIPROv2 也勝出 10% 以上(在 AIME-2025 數學題基準上提升 12%)。最關鍵的是訓練成本:GEPA 達到同等性能所需的 rollouts(一次完整跑任務)少 35 倍。

另一項數據是 GEPA 與 DSPy 整合後的「Full Program Adapter」可優化整個 DSPy 程式(包含 signature、模組、控制流),在 MATH 數學基準達 93% 準確率,大幅超過 DSPy 原本的 ChainOfThought 寫法的 67%。GEPA 也在 multi-module 工作流(多模組串接的 AI agent)上表現特別好—可精準鎖定某一個出錯的模組改寫提示,而不是調整整個系統。

誰會先用上:DSPy 一等公民、GitHub 已開源

GEPA 程式碼已開源於 GitHub,並以 dspy.GEPA 形式整合進 DSPy 框架、也獨立發布為 Python library。研究團隊跨 UC Berkeley、Stanford、Notre Dame、Anthropic 等機構,論文作者包含 Matei Zaharia(Databricks 共同創辦人、DSPy 主要作者)與 Omar Khattab(DSPy 主要作者)。

對開發者社群而言,GEPA 提供了「擁有大量 rollout 但不知如何利用」的新解法—多數團隊已累積成千上萬筆 agent 跑任務紀錄,但除了出錯時翻幾筆查 bug,並無系統性方法把這些紀錄轉成模型改進。下一個觀察點是 GEPA 在企業 agentic 工作流(如客服自動化、程式自動修復)的實際導入案例,以及是否會出現非 DSPy 框架的 GEPA 對應實作。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。