美團發布 LongCat-2.0:首款全程使用中國國產晶片訓練的兆級參數 AI 模型

Crumax
分享
美團發布 LongCat-2.0:首款全程使用中國國產晶片訓練的兆級參數 AI 模型

美團於 6 月 30 日正式發布並開源新一代大型語言模型 LongCat-2.0,總參數量達 1.6 兆,是中國目前規模最大、且聲稱完全在本土運算晶片上完成「預訓練、推理到部署」全流程的人工智慧模型。這款模型在程式代理(Code Agent)類跑分上已能與 Google Gemini 3.1 Pro、OpenAI GPT-5.5 等國際前沿模型正面競爭,但在知識密集型推理測驗上仍有明顯差距,但仍反映出中國 AI 產業在擺脫對輝達(Nvidia)GPU 依賴上所邁出的關鍵一步。

LongCat-2.0 現已在美團官方部落格開源,並提供 GitHubHuggingFace 程式庫及線上體驗、API 接入服務。

LongCat-2.0 是什麼?規模與架構總覽

LongCat-2.0 是一款混合專家(MoE)架構語言模型,總參數量 1.6 兆,但每個 token 實際僅激活約 480 億參數,模型稀疏度接近 97%,這也是同類型模型中相對極端的稀疏配置。模型支援高達 100 萬 token 的上下文窗口,這個規模讓它能夠處理長文件、大型程式碼庫等需要長程記憶的任務。

廣告 - 內文未完請往下捲動

美團在架構上延續了前代 LongCat-Flash 設計,並引入兩項關鍵改良:

  • LongCat 稀疏注意力(LSA):由 DeepSeek 的稀疏注意力機制(DSA)演進而來,針對索引器(Indexer)的延遲瓶頸做了流感知索引、跨層索引、層級化索引三項相互獨立的效率優化,目的是在不犧牲模型品質的前提下加速長上下文處理。
LSA 的「跨層索引(Cross-Layer Indexing)」機制圖解
  • N-gram Embedding 模組:新增約 1,350 億參數,透過 2 至 5 字詞組合擴展 embedding 空間,藉此用較低成本提升模型對局部上下文的表示能力,而非單純堆疊更多 MoE 專家參數。
N-gram Embedding 的運算流程

美團表示,LongCat-2.0 已深度整合 Claude Code、OpenClaw、Hermes 等主流開發者工具框架,模型定位面向程式理解、專業級程式碼修改與自動化智慧代理任務等應用場景。

5 萬張國產晶片成功撐起「全訓練流程本土化」,華為成關鍵推手?

LongCat-2.0 發布的意義不在於跑分高低,而在於美團用行動證明「全流程本土化訓練」這件事的可行性。根據美團官方部落格,LongCat-2.0 的預訓練在超過 5 萬片中國國產算力晶片組成的叢集上耗時數月完成,總計消耗超過 35 兆個 token,且全程沒有發生需要回滾的訓練中斷,也沒有出現不可恢復的損失函數異常突刺(loss spike)。

這個結果之所以重要,是因為過去中國本土晶片雖已廣泛用於模型推理,但業界普遍認為其顯存與軟體生態尚不足以支撐兆級參數模型的「預訓練」。預訓練作為運算強度遠高於推理的階段,模型需要在該階段消化海量資料以學習基礎語言模式。

美團雖未明確點名晶片供應商,但證實使用了華為的 HCCL,市場普遍猜測此次叢集是基於華為昇騰系晶片打造。為克服國產晶片單卡顯存遠低於輝達H800 80GB 的限制,美團團隊自行開發了一系列系統優化,包括在常規五維平行運算之外新增 EMBP 平行策略以加速 N-gram Embedding 運算、採用每組最多 48 台機器的「超節點」架構讓節點內維持高頻寬全互聯。美團表示,這些優化能將整體訓練吞吐量提升超過 35%。

跑分表現:程式代理任務強勁,知識推理測驗仍見差距

在美團官方公布的對比測試中,LongCat-2.0 與 Gemini 3.1 Pro、GPT-5.5 及三個版本的 Claude Opus(4.6、4.7、4.8)進行了多項基準測試比較,結果呈現出明顯的能力分布不均。

在程式代理類測驗中,LongCat-2.0 於 SWE-bench Pro 取得 59.5 分,優於 Gemini 3.1 Pro 的 54.2 分、GPT-5.5 的 58.6 分以及 Claude Opus 4.6 的 57.3 分,但落後於 Opus 4.7(64.3 分)與 Opus 4.8(69.2分);在 Terminal-Bench 2.1 與 SWE-bench Multilingual 兩項測驗中,LongCat-2.0 則大致與 Gemini 3.1 Pro、Claude Opus 4.6 打平,但同樣不敵 Opus 4.7 與 4.8。

相對地,在偏重廣泛知識與深度推理的基礎能力類測驗中,LongCat-2.0 的弱勢更為明顯:GPQA-diamond 測驗中僅取得 88.9 分,是六款模型裡最低分,明顯落後 Gemini 3.1 Pro 的 94.3 分與 GPT-5.5 的 93.6 分;在通用搜尋類的 BrowseComp 測驗中,LongCat-2.0 以 79.9 分同樣敬陪末座。

美團對此聲明,除標註星號者為其他廠商公開發布的外部數據外,其餘所有分數均為美團內部測得,而非出自 Artificial Analysis、Arena 等獨立第三方排行榜,因此讀者在解讀這些數據比較時應持保留態度。

為何這次發布意義重大?國產晶片路線的可行性驗證

從產業意義來看,LongCat-2.0 的價值不在於它是否打敗了 GPT-5.5 或 Claude,而在於它證明了「完全繞開輝達 GPU、用純國產晶片堆棧完成兆級參數模型預訓練」這件事在工程上是可行的。

知名科技分析師 TP Huang 表示,這次發布打消了外界對於華為 Atlas-950 超節點叢集是否有能力訓練大型語言模型的疑慮;理海大學(Lehigh University)專注於大語言模型研究的計算機科學博士生 Hanchi Sun 則指出,這是首次有模型在中國本土加速晶片上達到接近前沿水準的表現。

然而,美團也坦言,相較於成熟的輝達 GPU 生態系,國產晶片配套的軟體開發社群仍不夠成熟,中國 AI 產業要在晶片軟體生態層面仍難以完全擺脫對輝達 CUDA 體系的依賴。LongCat-2.0 已在美團官方部落格同步開源,並提供GitHub、HuggingFace程式碼倉庫及線上體驗、API接入服務。

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。