馬斯克稱讚：令人印象深刻！中國 AI 模型 Kimi 的秘密武器是什麼?

Neo

2026/3/27

中國 AI 新創 Moonshot AI 旗下模型 Kimi 近日發布一篇技術報告，提出名為「Attention Residuals」的新架構，試圖改寫 Transformer 長期沿用的殘差設計。報告發布後不久，Elon Musk 也在社群上表示「Impressive work from Kimi (Kimi 的作品令人印象深刻)」，讓這項技術迅速受到關注。

Table of Contents

中國 AI 模型 Kimi 將 attention 延伸到模型之間

這次 Kimi 的重點，其實是在處理 Transformer 裡一個很核心、但很少被重新思考的機制：Residual Connection。自 ResNet 以來，大多數模型都是把每一層的輸出「直接加回去」，而且權重都一樣。這樣做簡單又穩定，但當模型變得很深時，問題也開始出現：前面累積的資訊會越來越多，新的訊號反而很難發揮作用，甚至會被淹沒，讓模型訓練變得更困難。

Kimi 的做法，是把 attention 機制從原本用在「token 之間」，延伸到「模型層與層之間」。在 Attention Residuals 中，每一層不再平均接收所有過去層的資訊，而是透過 attention 去「選擇」哪些層比較重要。也就是說，模型不再只是一直累加，而是會根據當下的輸入，主動挑選有用的資訊來用。

廣告 - 內文未完請往下捲動

Kimi 成功在不增加推論延遲下，提升 1.25 倍效率

但如果每一層都去看所有歷史層，成本會太高。因此 Kimi 又提出一個折衷做法，叫做 Block Attention Residuals：先把模型切成幾個區塊，區塊內維持原本的加總方式，但在區塊之間才用 attention 做選擇。這樣既能保留「選擇資訊」的能力，又能大幅降低記憶體和運算負擔，實際上可以直接套用在現有模型上。

從結果來看，Kimi 在一個大型模型上，幾乎沒有增加推論延遲（不到 2%），卻換來約 1.25 倍的效率提升，並且在多個測試指標上都有進步。這代表這種改法不只是理論漂亮，也具備實際落地的價值。過去 attention 解決的是「字與字之間的關係」，而 Kimi 進一步讓模型開始思考「不同層之間該用哪些資訊」。

簡單來說，模型不只是讀資料，還開始學會怎麼回頭找自己過去算過的內容。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。