打造 AI 通用推論層!vLLM 開源專案如何成為全球推論引擎的野心計畫?
隨著 AI 模型的快速演進,如何高效推論(Inference)這些大型模型,成為業界繞不開的關鍵課題。來自 UC Berkeley 的開源專案 vLLM 不僅正面迎戰這個技術挑戰,更逐步建立起自己的社群與生態系,甚至催生出專注於推論基礎建設的新創公司 Inferact。本文將帶你深入 vLLM 的起源、技術突破、開源社群發展,以及 Inferact 如何想要打造「AI 推論的通用引擎」。
從學術實驗到 GitHub 明星專案:vLLM 的誕生
vLLM 最初源於 UC Berkeley 的一項博士班研究計畫,旨在解決大型語言模型(LLM)推論效率低落的問題。當時,Meta 開源了 OPT 模型,vLLM 的早期貢獻者之一的 Woosuk Kwon 則試圖優化該模型的 Demo 服務,進而發現這背後是一個尚未解決的推論系統難題。「我們以為只要幾週就能完成,結果卻開啟了一條全新的研究與開發之路。」Kwon 回憶表示。
由下而上的挑戰:為什麼 LLM 推論與傳統 ML 不同?
vLLM 針對的是自回歸式(auto-regressive)語言模型,其推論過程動態、非同步、無法批次化處理,與傳統影像或語音模型大不相同。這類模型的輸入長度可從一句話到數百頁文檔不等,GPU 記憶體使用需精準調配,而計算步驟(token-level scheduling)與記憶體管理(KV cache handling)也變得格外複雜。
vLLM 的一項重要技術突破就是「Page Attention」,這個設計幫助系統更有效地管理記憶體,應對多樣化的請求與長序列輸出。
不只是寫程式:從校園走向開源社群的關鍵時刻
vLLM 團隊於 2023 年在矽谷舉辦第一次開源 meetup,原以為只會有十幾人參加,結果報名人數遠超預期、擠爆會場,成為社群發展的轉捩點。
此後,vLLM 社群成長迅速,如今已有超過 50 位常態貢獻者,並累積 2,000 多名 GitHub 貢獻者,是當今成長最快的開源專案之一,獲得 Meta、Red Hat、NVIDIA、AMD、AWS、Google 等多方支持。
多方勢力同場競技:打造「AI 的作業系統」
vLLM 的成功關鍵之一在於,它為模型開發者、晶片廠商與應用開發者建立了一個共通平台,不必彼此對接,只需對接 vLLM 一套,就能實現模型與硬體的最大兼容性。
這也意味著,vLLM 正試圖打造一種「AI 的作業系統」:讓所有模型、所有硬體都能跑在同一個通用推論引擎上。
推論越來越難?規模、硬體與代理智能的三重壓力
如今的推論挑戰不斷升級,包括:
-
模型規模暴增:從最初的百億參數到今日的兆級模型,如 Kim K2,推論所需的運算資源也水漲船高。
-
模型與硬體多樣性:Transformer 架構雖然一致,但內部細節越來越分歧,如 sparse attention、linear attention 等變種層出不窮。
-
代理系統(Agents)興起:模型不再只是回答一輪,而是參與連續對話、呼叫外部工具、執行 Python 腳本等,推論層需長時間維持狀態、處理非同步輸入,進一步拉高技術門檻。
進入實戰:vLLM 被大規模部署的案例
vLLM 不只是學術玩具,它已在 Amazon、LinkedIn、Character AI 等大型平台中上線。例如 Amazon 的智能助理「Rufus」就由 vLLM 驅動,成為購物搜尋背後的推論引擎。
甚至有工程師在 vLLM 的一項功能還在開發階段就直接部署至數百張 GPU 上,可見其在社群中的信任度之高。
vLLM 背後的公司:Inferact 的角色與願景
為了推動 vLLM 的進一步發展,核心開發者們創辦了 Inferact,並獲得多方投資支持。與一般商業公司不同,Inferact 將開源視為首要任務,創辦人之一 Simon Mo 表示:「我們的公司存在,是為了讓 vLLM 成為全球的標準推論引擎。」Inferact 的商業模式圍繞在維護與擴展 vLLM 生態系,同時提供企業級部署與支持,形成商業與開源的雙軌並行。
Inferact 正積極招募擁有 ML 基礎建設經驗的工程師,特別是擅長大型模型推論、分散式系統與硬體加速領域的人才。對於追求技術挑戰與深度系統優化的開發者而言,這是一個參與下一代 AI 基礎建設的機會。
團隊期望打造的是類似 OS 或資料庫那樣的「抽象層」,讓 AI 模型能無縫運行於多樣化硬體與應用場景中。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


