美晶片投資專家:Google TPU 暫居上風,但 NVIDIA GPU 更具長期優勢

Louis Lin
分享
美晶片投資專家:Google TPU 暫居上風,但 NVIDIA GPU 更具長期優勢

美晶片投資專家 Gavin Baker 在最新訪談中深入解析輝達 GPU (Hopper、Blackwell) 與 Google TPU 的差異,包括從技術、效能、成本與協同運作等角度來深度剖析。他指出,Google TPU 在短期具暫時領先優勢,但從長期來看,NVIDIA 的 GPU 生態系仍具更強的壟斷力。

GPU 是全棧平台,TPU 是單點 ASIC

Baker 表示,AI 加速器的分歧從最底層的設計理念就已經出現。輝達的 GPU,從 Hopper、Blackwell 到未來的 Rubin,都強調是全棧平台,從 GPU 本體、GPU 雙向互連技術 NVLink、網路卡、交換器到 CUDA、TensorRT 等軟體層,全都由輝達一手包辦。企業買了 GPU 之後,等於可取得一整套能直接投入訓練和推論的完整環境,不需要再自行組裝網路或重新寫軟體。

廣告 - 內文未完請往下捲動

相較之下,Google TPU (v4、v5e、v6、v7) 本質是特殊應用積體電路 ASIC,也就是專門為特定 AI 運算打造的加速器。Google 負責前端邏輯設計,但後端由博通 (Broadcom) 製作,再交由台積電 (TSMC) 生產。TPU 其他不可或缺的零件,例如交換器、網路卡與軟體生態,Google 都要自己整合,供應鏈協作比 GPU 複雜許多。

整體來說,GPU 的優勢不在於單顆晶片的效能,而是整個平台與生態系的完整度。這也是兩者競爭差距越來越明顯的起點。

Blackwell 效能大躍進,TPU v6/v7 面臨更大壓力

Baker 指出,進入 2024 – 2025 年,GPU 與 TPU 的效能差距愈加明顯。Blackwell 的 GB200 到 GB300 是一次大幅度的架構跳躍,轉向液冷設計,單機櫃耗電達 130kW,整體複雜度更是前所未見。真正大量部署的時間距今不過三、四個月,仍處於非常新的階段。

下一代 GB300 又能直接插入 GB200 的機櫃,企業擴建速度因此會更快,其中 xAI 因為打造機房速度最快,被視為第一批能將 Blackwell 效能發揮到極致的客戶。Baker 比喻:

「如果 Hopper 被形容成二戰末最先進的飛機,那 TPU v6/v7 就像 F-4 Phantom,是再往後兩代的飛機。而 Blackwell 則是 F-35,屬於完全不同級別的性能。」

說明 TPU v6/v7 與 Blackwell 的硬體級別不同,也點出現階段 Google Gemini 3 使用的仍是 TPU v6/v7,而非 Blackwell 等級的設備。雖說 Google 在使用 TPU v6/v7 的狀態下就能訓練出 Gemini 3 這類高水準模型,但隨著 Blackwell 系列大規模推出,兩種架構之間的性能差異會越來越明顯。

TPU 曾是最低成本王,但 GB300 將改寫局面

Baker 表示,TPU 過去最關鍵的優勢,就是擁有全世界最低的訓練成本。而且 Google 確實使用這項優勢,壓縮競爭對手的募資與營運空間。

但 Baker 指出,一旦 GB300 大規模部署,市場上成本最低的訓練平台會轉向採用 GB300 的公司,尤其是像 XAI 這種具備垂直整合能力、自建機房的團隊。而 OpenAI 如果未來能突破算力瓶頸,具備自建硬體能力,也可能加入 GB300 陣營。

這代表,一旦 Google 不再掌握成本領先地位,先前的低價策略將難以維持。訓練成本的主導權,也會從長期由 TPU 掌控,轉變為由 GB300 重新分配。

GPU 擴展協同速度更快,TPU 整合負擔較重

大模型的進展越快,對大規模 GPU 協同運作的需求越高,而這也是 GPU 近年明顯壓過 TPU 的關鍵環節之一。Baker 指出,GPU 集群透過 NVLink,可把協同規模推到 20 萬到 30 萬顆 GPU,讓大型模型能夠使用更大的訓練預算。XAI 快速建置的大型資料中心,更迫使輝達提早釋出最佳化方案,加速整個 GPU 生態的演進。

反觀 TPU,由於 Google 要自行整合交換器與網路,還要協調博通與台積電的供應鏈,整體工程複雜度高於 GPU。

GPU 邁向一年一代,TPU 迭代受限於供應鏈

Baker 提到,為了回應 ASIC 的競爭壓力,輝達與 AMD 都在加快更新頻率,GPU 正朝「一年一代」的方向前進。這對大模型時代來說是極具優勢的節奏,因為模型規模擴張幾乎不會被中斷。

而 TPU 的迭代速度則較為受限。從 v1 到 v4,再到 v6,每一代都花了好幾年才趨於成熟。而未來的 v8、v9 更因為供應鏈涉及 Google、博通、台積電與其他業者,開發與迭代速度沒有辦法像 GPU 那麼快。因此在未來 3 年內,GPU 在迭代速度上的優勢將會越來越明顯。

(輝達 GPU 與 Google TPU 和亞馬遜 AWS 自研 AI 晶片的技術差異與未來市場走向)

三大巨頭明顯靠攏輝達,Google 孤守 TPU

目前全球四大前沿模型業者為 OpenAI、Gemini (Google)、Anthropic 與 xAI,但整體站隊情況越來越明顯偏向輝達。

Baker 表示,Anthropic 已簽下 50 億美元的輝達長期採購合約,正式與 GPU 陣營綁在一起。xAI 則是 Blackwell 的最大早期客戶,並大量投資建置 GPU 機房。而 OpenAI 因為需要向外租用算力而被加價,導致成本壓力過高,因此正寄望透過 Stargate 計畫來解決長期的算力瓶頸。

在四家之中,Google 是唯一大量使用 TPU 的陣營,但也面臨 TPU 成本競爭力下降、迭代速度較慢的壓力。整體形成「三打一」的算力格局,OpenAI、Anthropic、XAI 聚集在 GPU 陣營,而 Google 在 TPU 陣營相對孤立。

(輝達財報營收亮眼:AI 資料中心業務爆發,黃仁勳:Blackwell 賣到缺貨)

風險提示

加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。