ChatGPT、Claude 金融判斷像盲猜?橋水基金與 Thinking Machine 合作微調模型

Neo
分享
ChatGPT、Claude 金融判斷像盲猜?橋水基金與 Thinking Machine 合作微調模型

全球最大避險基金之一橋水基金的 AIA Labs 與 Thinking Machines 合作發表研究〈Learning to Replicate Expert Judgment in Financial Tasks〉,指出大型語言模型即使在看似簡單的金融資訊篩選任務上,仍難以複製專業投資人的判斷。

研究團隊發現,若只是使用一般提示詞,GPT、Claude、Gemini 等前沿模型在多項金融任務上的平均準確率僅約 50%;即使經過專家撰寫提示詞與提示工程優化,表現也大多停留在 70% 中後段,仍未達投資人日常工作可放心使用的 80% 門檻。

這項研究的核心問題是:金融判斷能否被訓練出來?橋水基金 AIA Labs 的 Sarah Su、Kevin Zhu、Emily Xiao、Rohan Alur、Daniel Kang 與 Thinking Machines 合作後給出的答案是肯定的。研究團隊表示,只要使用高品質、由專業投資人標註的資料集進行微調,模型不只可以學會金融文本中的「專家品味」,甚至能在準確率與成本上同時超越前沿閉源模型。

廣告 - 內文未完請往下捲動

投資人的工作不只是閱讀,而是反覆判斷什麼值得讀

研究開頭指出,打敗市場本來就很困難。當所有投資人都能接觸同樣的公開資訊時,真正的 alpha 來源不是單純資訊取得,而是建立在經驗、品味與判斷上的獨特洞察。

投資人每天面對大量資訊,包括新聞、研究報告、公司文件、電子郵件、內部分析與各類文件。閱讀本身不是最困難的部分,真正耗費心力的是不斷判斷:哪些資訊重要?哪些只是背景噪音?哪些段落值得進一步閱讀?哪些內容雖然與金融有關,但對宏觀投資決策並不重要?

Bridgewater 團隊因此將問題縮小成一個看似簡單、但實際上高度仰賴專家判斷的任務:自動化資訊篩選與分流,找出哪些文件與段落真正值得投資人閱讀。

六大金融任務:看似簡單,模型卻容易失準

研究團隊設計了六項來自投資人日常工作流程的金融任務:

  • 第一,判斷一篇金融新聞是否與 C-suite 等級投資專業人士相關。
  • 第二,判斷央行文件是否透露未來利率走向。
  • 第三,給定投資人的問題與研究文件,判斷文件是否有助於回答問題。
  • 第四,判斷研究文件是重複性模板內容,還是包含一次性、議題導向分析,並找出議題分析內容的最後一頁。
  • 第五,判斷文件中從哪裡開始進入 boilerplate,也就是制式內容。
  • 第六,判斷電子郵件中從哪裡開始進入制式內容。

這些任務對真正的投資人來說並不困難,但難點在於,專家往往很難完整說明自己為什麼如此判斷。例如一篇關於「川普堅稱格陵蘭屬於他」的文章,雖然涉及地緣政治,但對美股投資決策不一定具有實質意義;另一篇關於「川普威脅對中國加徵新關稅導致美股重挫」的文章,則明顯具有市場相關性。兩者表面上都涉及政治與金融,但投資人會直覺判斷後者更重要。

提示工程有幫助,但無法突破專家判斷的天花板

橋水基金團隊先測試 GPT、Claude、Gemini 等前沿模型。若只使用簡單任務提示,這些模型在六項金融任務上的平均準確率約只有 50%,幾乎接近隨機猜測。

接著,研究團隊請內部專家撰寫更精準的任務說明,並重新設計部分任務框架。例如在金融新聞分類中,與其只要求模型判斷「相關」或「不相關」,不如將新聞分成三類:相關且有趣、相關但不重要、不相關。這種分類更貼近宏觀投資人的真實需求,因為一篇小型 IPO 新聞雖然金融上相關,但不一定對橋水基金這類宏觀投資機構有足夠意義。

經過人工提示工程與自動提示優化後,模型準確率從約 50% 提升到 70% 中段。不過,即使用上最佳提示詞,研究中的前沿模型仍未突破 80% 準確率,也就是橋水基金投資人認為可在日常工作中信任的門檻。

研究團隊由此得出一個關鍵結論:提示詞只能傳達專家能說出口的規則,但真正重要的判斷,往往正是專家難以用語言完整描述的部分。

非專家標註資料不夠好,模型會學到錯誤判斷

在訓練自有模型前,橋水基金首先嘗試使用外部供應商提供的非專家標註資料。但模型訓練後表現仍然不佳。研究團隊檢查模型推理軌跡後發現,問題不一定在模型,而是標註資料本身經常出錯。

由於金融判斷高度仰賴專業知識,非專家標註者即使能看懂文字,也未必能判斷哪些資訊對投資決策有價值。

為降低專家標註成本,研究團隊設計了一套驗證機制:先用非專家資料訓練模型,再讓模型回頭評估同一批資料;若模型答案與原標註者不同,就把這些有爭議的樣本交給投資專家重新判定。這背後的邏輯是,如果模型連自己的訓練資料都無法吻合,代表該樣本可能真的很困難,或原始標籤本身就是錯的。

最後,橋水基金用這套流程清理訓練資料,再以保留的測試集進行最終評估。

從 Qwen3-235B 出發,微調後大幅超越基礎模型

研究團隊選擇 Qwen3-235B 作為基礎模型,並在 Thinking Machines 的 Tinker 平台上進行訓練。Tinker 的優勢在於讓研究人員能快速迭代,不必自行處理 GPU 基礎設施。

最初,團隊使用標準 GRPO 與 importance-sampling loss 作為簡單的無 critic 起點。結果顯示,光是這一步就讓模型表現大幅提升:

模型 / 訓練方式 平均準確率 平均正類 F1

  • Qwen Base 44.8% 55.24%
  • Qwen + GRPO 73.48% 88.95%

不過,73.48% 仍低於內部設定的 80% 門檻,因此團隊進一步調整訓練配方。

三大訓練改良:交錯批次、CISPO、on-policy distillation

Bridgewater AIA Labs 表示,最終表現提升主要來自三項訓練設計。

第一是 interleaved batching,交錯批次訓練。由於模型需要同時學習多項金融任務,團隊比較了三種策略:依序訓練每個任務、在同一批次中完全混合任務,以及以 round-robin 方式每次交錯一個任務批次。結果顯示,交錯批次效果最好,相較完全混合批次,準確率提升 12.1%。

第二是使用 CISPO loss with asymmetric clipping 取代標準 importance-sampling loss。在團隊測試過的多種 loss function 與 clipping scheme 中,這個方法效果最佳,相較 importance-sampling baseline,準確率提升 10.1%。

第三是 on-policy distillation,線上策略蒸餾。團隊使用強 teacher model 來正則化 student model,讓模型在學習任務時不會偏離 teacher 分布太遠。每 20 個 step,若目前 checkpoint 在驗證集上創下新高,就將其升級為新的 teacher;若沒有達到新高,就不更新 teacher,避免模型往較弱版本蒸餾。這使表現相較固定 base-model teacher 再提升 3.1%。

最終結果:準確率 84.7%,錯誤比最佳前沿模型少近三成

最終,橋水基金訓練出的自有模型平均準確率達 84.66%,平均正類 F1 達 92.99%。相較之下,研究中表現最佳的前沿模型準確率約為 78.2%。Bridgewater 表示,這代表自訓模型的錯誤數比最佳前沿模型少 29.8%,已足以支援其日常工作流程。

更重要的是,成本也大幅降低。研究指出,由於自訓模型規模較小,推理成本相較前沿模型降低 13.8 倍。對於希望在組織內大規模部署多個任務專用模型的公司而言,成本差異可能比單純準確率更關鍵。

這篇研究最值得關注的地方,不只是橋水基金訓練出一個比 GPT、Claude、Gemini 更適合金融資訊篩選的模型,而是它指向一種 AI 發展方向:differentiated intelligence,差異化智能。

過去企業導入 AI,常把焦點放在誰使用最強的通用前沿模型。但 Bridgewater 的研究顯示,在專業場景中,真正的競爭力可能來自組織內部長期累積的判斷資料、工作流程與專家標註。模型本身不是唯一護城河,高品質專有資料與組織 know-how 才是關鍵。

對金融業而言,這尤其重要。投資判斷往往不是標準化考題,而是由大量細碎、模糊、難以明文化的判斷組成。這些判斷無法完全靠提示詞寫出來,但可以透過高品質標註與微調,讓模型逐步學會。

Bridgewater 的結論是,前沿模型在相對簡單的金融任務上仍會失準,而且新一代模型並未在這類任務上快速改善;相較之下,針對特定組織需求訓練的自有模型,不只更準,也更便宜。隨著 Tinker 這類訓練基礎設施降低微調門檻,未來企業可能不再只依賴通用模型,而是建立一組針對自身工作流程、專業判斷與組織文化調校的模型群。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。