美團發布 LongCat-2.0：首款全程使用中國國產晶片訓練的兆級參數 AI 模型

Crumax

13 分鐘前

美團於 6 月 30 日正式發布並開源新一代大型語言模型 LongCat-2.0，總參數量達 1.6 兆，是中國目前規模最大、且聲稱完全在本土運算晶片上完成「預訓練、推理到部署」全流程的人工智慧模型。這款模型在程式代理（Code Agent）類跑分上已能與 Google Gemini 3.1 Pro、OpenAI GPT-5.5 等國際前沿模型正面競爭，但在知識密集型推理測驗上仍有明顯差距，但仍反映出中國 AI 產業在擺脫對輝達（Nvidia）GPU 依賴上所邁出的關鍵一步。

LongCat-2.0 現已在美團官方部落格開源，並提供 GitHub、HuggingFace 程式庫及線上體驗、API 接入服務。

Table of Contents

LongCat-2.0 是什麼？規模與架構總覽

LongCat-2.0 是一款混合專家（MoE）架構語言模型，總參數量 1.6 兆，但每個 token 實際僅激活約 480 億參數，模型稀疏度接近 97%，這也是同類型模型中相對極端的稀疏配置。模型支援高達 100 萬 token 的上下文窗口，這個規模讓它能夠處理長文件、大型程式碼庫等需要長程記憶的任務。

廣告 - 內文未完請往下捲動

美團在架構上延續了前代 LongCat-Flash 設計，並引入兩項關鍵改良：

LongCat 稀疏注意力（LSA）：由 DeepSeek 的稀疏注意力機制（DSA）演進而來，針對索引器（Indexer）的延遲瓶頸做了流感知索引、跨層索引、層級化索引三項相互獨立的效率優化，目的是在不犧牲模型品質的前提下加速長上下文處理。

N-gram Embedding 模組：新增約 1,350 億參數，透過 2 至 5 字詞組合擴展 embedding 空間，藉此用較低成本提升模型對局部上下文的表示能力，而非單純堆疊更多 MoE 專家參數。

美團表示，LongCat-2.0 已深度整合 Claude Code、OpenClaw、Hermes 等主流開發者工具框架，模型定位面向程式理解、專業級程式碼修改與自動化智慧代理任務等應用場景。

5 萬張國產晶片成功撐起「全訓練流程本土化」，華為成關鍵推手？

LongCat-2.0 發布的意義不在於跑分高低，而在於美團用行動證明「全流程本土化訓練」這件事的可行性。根據美團官方部落格，LongCat-2.0 的預訓練在超過 5 萬片中國國產算力晶片組成的叢集上耗時數月完成，總計消耗超過 35 兆個 token，且全程沒有發生需要回滾的訓練中斷，也沒有出現不可恢復的損失函數異常突刺（loss spike）。

這個結果之所以重要，是因為過去中國本土晶片雖已廣泛用於模型推理，但業界普遍認為其顯存與軟體生態尚不足以支撐兆級參數模型的「預訓練」。預訓練作為運算強度遠高於推理的階段，模型需要在該階段消化海量資料以學習基礎語言模式。

美團雖未明確點名晶片供應商，但證實使用了華為的 HCCL，市場普遍猜測此次叢集是基於華為昇騰系晶片打造。為克服國產晶片單卡顯存遠低於輝達H800 80GB 的限制，美團團隊自行開發了一系列系統優化，包括在常規五維平行運算之外新增 EMBP 平行策略以加速 N-gram Embedding 運算、採用每組最多 48 台機器的「超節點」架構讓節點內維持高頻寬全互聯。美團表示，這些優化能將整體訓練吞吐量提升超過 35%。

跑分表現：程式代理任務強勁，知識推理測驗仍見差距

在美團官方公布的對比測試中，LongCat-2.0 與 Gemini 3.1 Pro、GPT-5.5 及三個版本的 Claude Opus（4.6、4.7、4.8）進行了多項基準測試比較，結果呈現出明顯的能力分布不均。

在程式代理類測驗中，LongCat-2.0 於 SWE-bench Pro 取得 59.5 分，優於 Gemini 3.1 Pro 的 54.2 分、GPT-5.5 的 58.6 分以及 Claude Opus 4.6 的 57.3 分，但落後於 Opus 4.7（64.3 分）與 Opus 4.8（69.2分）；在 Terminal-Bench 2.1 與 SWE-bench Multilingual 兩項測驗中，LongCat-2.0 則大致與 Gemini 3.1 Pro、Claude Opus 4.6 打平，但同樣不敵 Opus 4.7 與 4.8。

相對地，在偏重廣泛知識與深度推理的基礎能力類測驗中，LongCat-2.0 的弱勢更為明顯：GPQA-diamond 測驗中僅取得 88.9 分，是六款模型裡最低分，明顯落後 Gemini 3.1 Pro 的 94.3 分與 GPT-5.5 的 93.6 分；在通用搜尋類的 BrowseComp 測驗中，LongCat-2.0 以 79.9 分同樣敬陪末座。

美團對此聲明，除標註星號者為其他廠商公開發布的外部數據外，其餘所有分數均為美團內部測得，而非出自 Artificial Analysis、Arena 等獨立第三方排行榜，因此讀者在解讀這些數據比較時應持保留態度。

為何這次發布意義重大？國產晶片路線的可行性驗證

從產業意義來看，LongCat-2.0 的價值不在於它是否打敗了 GPT-5.5 或 Claude，而在於它證明了「完全繞開輝達 GPU、用純國產晶片堆棧完成兆級參數模型預訓練」這件事在工程上是可行的。

知名科技分析師 TP Huang 表示，這次發布打消了外界對於華為 Atlas-950 超節點叢集是否有能力訓練大型語言模型的疑慮；理海大學（Lehigh University）專注於大語言模型研究的計算機科學博士生 Hanchi Sun 則指出，這是首次有模型在中國本土加速晶片上達到接近前沿水準的表現。

然而，美團也坦言，相較於成熟的輝達 GPU 生態系，國產晶片配套的軟體開發社群仍不夠成熟，中國 AI 產業要在晶片軟體生態層面仍難以完全擺脫對輝達 CUDA 體系的依賴。LongCat-2.0 已在美團官方部落格同步開源，並提供GitHub、HuggingFace程式碼倉庫及線上體驗、API接入服務。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。