ChatGPT、Claude 金融判斷像盲猜？橋水基金與 Thinking Machine 合作微調模型

Neo

1 小時前

全球最大避險基金之一橋水基金的 AIA Labs 與 Thinking Machines 合作發表研究〈Learning to Replicate Expert Judgment in Financial Tasks〉，指出大型語言模型即使在看似簡單的金融資訊篩選任務上，仍難以複製專業投資人的判斷。

研究團隊發現，若只是使用一般提示詞，GPT、Claude、Gemini 等前沿模型在多項金融任務上的平均準確率僅約 50%；即使經過專家撰寫提示詞與提示工程優化，表現也大多停留在 70% 中後段，仍未達投資人日常工作可放心使用的 80% 門檻。

這項研究的核心問題是：金融判斷能否被訓練出來？橋水基金 AIA Labs 的 Sarah Su、Kevin Zhu、Emily Xiao、Rohan Alur、Daniel Kang 與 Thinking Machines 合作後給出的答案是肯定的。研究團隊表示，只要使用高品質、由專業投資人標註的資料集進行微調，模型不只可以學會金融文本中的「專家品味」，甚至能在準確率與成本上同時超越前沿閉源模型。

廣告 - 內文未完請往下捲動

Table of Contents

投資人的工作不只是閱讀，而是反覆判斷什麼值得讀

研究開頭指出，打敗市場本來就很困難。當所有投資人都能接觸同樣的公開資訊時，真正的 alpha 來源不是單純資訊取得，而是建立在經驗、品味與判斷上的獨特洞察。

投資人每天面對大量資訊，包括新聞、研究報告、公司文件、電子郵件、內部分析與各類文件。閱讀本身不是最困難的部分，真正耗費心力的是不斷判斷：哪些資訊重要？哪些只是背景噪音？哪些段落值得進一步閱讀？哪些內容雖然與金融有關，但對宏觀投資決策並不重要？

Bridgewater 團隊因此將問題縮小成一個看似簡單、但實際上高度仰賴專家判斷的任務：自動化資訊篩選與分流，找出哪些文件與段落真正值得投資人閱讀。

六大金融任務：看似簡單，模型卻容易失準

研究團隊設計了六項來自投資人日常工作流程的金融任務：

第一，判斷一篇金融新聞是否與 C-suite 等級投資專業人士相關。
第二，判斷央行文件是否透露未來利率走向。
第三，給定投資人的問題與研究文件，判斷文件是否有助於回答問題。
第四，判斷研究文件是重複性模板內容，還是包含一次性、議題導向分析，並找出議題分析內容的最後一頁。
第五，判斷文件中從哪裡開始進入 boilerplate，也就是制式內容。
第六，判斷電子郵件中從哪裡開始進入制式內容。

這些任務對真正的投資人來說並不困難，但難點在於，專家往往很難完整說明自己為什麼如此判斷。例如一篇關於「川普堅稱格陵蘭屬於他」的文章，雖然涉及地緣政治，但對美股投資決策不一定具有實質意義；另一篇關於「川普威脅對中國加徵新關稅導致美股重挫」的文章，則明顯具有市場相關性。兩者表面上都涉及政治與金融，但投資人會直覺判斷後者更重要。

提示工程有幫助，但無法突破專家判斷的天花板

橋水基金團隊先測試 GPT、Claude、Gemini 等前沿模型。若只使用簡單任務提示，這些模型在六項金融任務上的平均準確率約只有 50%，幾乎接近隨機猜測。

接著，研究團隊請內部專家撰寫更精準的任務說明，並重新設計部分任務框架。例如在金融新聞分類中，與其只要求模型判斷「相關」或「不相關」，不如將新聞分成三類：相關且有趣、相關但不重要、不相關。這種分類更貼近宏觀投資人的真實需求，因為一篇小型 IPO 新聞雖然金融上相關，但不一定對橋水基金這類宏觀投資機構有足夠意義。

經過人工提示工程與自動提示優化後，模型準確率從約 50% 提升到 70% 中段。不過，即使用上最佳提示詞，研究中的前沿模型仍未突破 80% 準確率，也就是橋水基金投資人認為可在日常工作中信任的門檻。

研究團隊由此得出一個關鍵結論：提示詞只能傳達專家能說出口的規則，但真正重要的判斷，往往正是專家難以用語言完整描述的部分。

非專家標註資料不夠好，模型會學到錯誤判斷

在訓練自有模型前，橋水基金首先嘗試使用外部供應商提供的非專家標註資料。但模型訓練後表現仍然不佳。研究團隊檢查模型推理軌跡後發現，問題不一定在模型，而是標註資料本身經常出錯。

由於金融判斷高度仰賴專業知識，非專家標註者即使能看懂文字，也未必能判斷哪些資訊對投資決策有價值。

為降低專家標註成本，研究團隊設計了一套驗證機制：先用非專家資料訓練模型，再讓模型回頭評估同一批資料；若模型答案與原標註者不同，就把這些有爭議的樣本交給投資專家重新判定。這背後的邏輯是，如果模型連自己的訓練資料都無法吻合，代表該樣本可能真的很困難，或原始標籤本身就是錯的。

最後，橋水基金用這套流程清理訓練資料，再以保留的測試集進行最終評估。

從 Qwen3-235B 出發，微調後大幅超越基礎模型

研究團隊選擇 Qwen3-235B 作為基礎模型，並在 Thinking Machines 的 Tinker 平台上進行訓練。Tinker 的優勢在於讓研究人員能快速迭代，不必自行處理 GPU 基礎設施。

最初，團隊使用標準 GRPO 與 importance-sampling loss 作為簡單的無 critic 起點。結果顯示，光是這一步就讓模型表現大幅提升：

模型 / 訓練方式平均準確率平均正類 F1

Qwen Base 44.8% 55.24%
Qwen + GRPO 73.48% 88.95%

不過，73.48% 仍低於內部設定的 80% 門檻，因此團隊進一步調整訓練配方。

三大訓練改良：交錯批次、CISPO、on-policy distillation

Bridgewater AIA Labs 表示，最終表現提升主要來自三項訓練設計。

第一是 interleaved batching，交錯批次訓練。由於模型需要同時學習多項金融任務，團隊比較了三種策略：依序訓練每個任務、在同一批次中完全混合任務，以及以 round-robin 方式每次交錯一個任務批次。結果顯示，交錯批次效果最好，相較完全混合批次，準確率提升 12.1%。

第二是使用 CISPO loss with asymmetric clipping 取代標準 importance-sampling loss。在團隊測試過的多種 loss function 與 clipping scheme 中，這個方法效果最佳，相較 importance-sampling baseline，準確率提升 10.1%。

第三是 on-policy distillation，線上策略蒸餾。團隊使用強 teacher model 來正則化 student model，讓模型在學習任務時不會偏離 teacher 分布太遠。每 20 個 step，若目前 checkpoint 在驗證集上創下新高，就將其升級為新的 teacher；若沒有達到新高，就不更新 teacher，避免模型往較弱版本蒸餾。這使表現相較固定 base-model teacher 再提升 3.1%。

最終結果：準確率 84.7%，錯誤比最佳前沿模型少近三成

最終，橋水基金訓練出的自有模型平均準確率達 84.66%，平均正類 F1 達 92.99%。相較之下，研究中表現最佳的前沿模型準確率約為 78.2%。Bridgewater 表示，這代表自訓模型的錯誤數比最佳前沿模型少 29.8%，已足以支援其日常工作流程。

更重要的是，成本也大幅降低。研究指出，由於自訓模型規模較小，推理成本相較前沿模型降低 13.8 倍。對於希望在組織內大規模部署多個任務專用模型的公司而言，成本差異可能比單純準確率更關鍵。

這篇研究最值得關注的地方，不只是橋水基金訓練出一個比 GPT、Claude、Gemini 更適合金融資訊篩選的模型，而是它指向一種 AI 發展方向：differentiated intelligence，差異化智能。

過去企業導入 AI，常把焦點放在誰使用最強的通用前沿模型。但 Bridgewater 的研究顯示，在專業場景中，真正的競爭力可能來自組織內部長期累積的判斷資料、工作流程與專家標註。模型本身不是唯一護城河，高品質專有資料與組織 know-how 才是關鍵。

對金融業而言，這尤其重要。投資判斷往往不是標準化考題，而是由大量細碎、模糊、難以明文化的判斷組成。這些判斷無法完全靠提示詞寫出來，但可以透過高品質標註與微調，讓模型逐步學會。

Bridgewater 的結論是，前沿模型在相對簡單的金融任務上仍會失準，而且新一代模型並未在這類任務上快速改善；相較之下，針對特定組織需求訓練的自有模型，不只更準，也更便宜。隨著 Tinker 這類訓練基礎設施降低微調門檻，未來企業可能不再只依賴通用模型，而是建立一組針對自身工作流程、專業判斷與組織文化調校的模型群。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。