馬斯克稱讚:令人印象深刻!中國 AI 模型 Kimi 的秘密武器是什麼?
中國 AI 新創 Moonshot AI 旗下模型 Kimi 近日發布一篇技術報告,提出名為「Attention Residuals」的新架構,試圖改寫 Transformer 長期沿用的殘差設計。報告發布後不久,Elon Musk 也在社群上表示「Impressive work from Kimi (Kimi 的作品令人印象深刻)」,讓這項技術迅速受到關注。
中國 AI 模型 Kimi 將 attention 延伸到模型之間
這次 Kimi 的重點,其實是在處理 Transformer 裡一個很核心、但很少被重新思考的機制:Residual Connection。自 ResNet 以來,大多數模型都是把每一層的輸出「直接加回去」,而且權重都一樣。這樣做簡單又穩定,但當模型變得很深時,問題也開始出現:前面累積的資訊會越來越多,新的訊號反而很難發揮作用,甚至會被淹沒,讓模型訓練變得更困難。
Kimi 的做法,是把 attention 機制從原本用在「token 之間」,延伸到「模型層與層之間」。在 Attention Residuals 中,每一層不再平均接收所有過去層的資訊,而是透過 attention 去「選擇」哪些層比較重要。也就是說,模型不再只是一直累加,而是會根據當下的輸入,主動挑選有用的資訊來用。
Kimi 成功在不增加推論延遲下,提升 1.25 倍效率
但如果每一層都去看所有歷史層,成本會太高。因此 Kimi 又提出一個折衷做法,叫做 Block Attention Residuals:先把模型切成幾個區塊,區塊內維持原本的加總方式,但在區塊之間才用 attention 做選擇。這樣既能保留「選擇資訊」的能力,又能大幅降低記憶體和運算負擔,實際上可以直接套用在現有模型上。
從結果來看,Kimi 在一個大型模型上,幾乎沒有增加推論延遲(不到 2%),卻換來約 1.25 倍的效率提升,並且在多個測試指標上都有進步。這代表這種改法不只是理論漂亮,也具備實際落地的價值。過去 attention 解決的是「字與字之間的關係」,而 Kimi 進一步讓模型開始思考「不同層之間該用哪些資訊」。
簡單來說,模型不只是讀資料,還開始學會怎麼回頭找自己過去算過的內容。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。

