Google Gemma 4 12B 多模態：無編碼器、16GB 筆電可跑

Elponcrab

2026/6/4

Google 於 6/3 透過官方部落格發布開源模型 Gemma 4 12B，採 Apache 2.0 授權、120 億參數，是 Gemma 4 系列中介於 E4B（邊緣端）與 26B MoE（旗艦）之間的中型版本。本次發布最大的技術亮點是「無編碼器」（encoder-free, Unified）的多模態架構，把文字、影像、音訊三種輸入直接送進同一個 Transformer 主幹，跳過過去多模態模型需要的獨立編碼器層。

規格上，模型需要約 16GB 的 VRAM 或統一記憶體即可在筆電上本地運行，目前已開放透過 Hugging Face 與 Kaggle 下載預訓練權重，並支援 LM Studio、Ollama、llama.cpp、MLX、SGLang、vLLM、Unsloth 等主流開源推論框架；企業端使用者可透過 Google Cloud 的 Gemini Enterprise Agent Platform、Cloud Run 與 GKE 部署。

Table of Contents

無編碼器（Unified）架構：影像走輕量嵌入、音訊直接投影

本次架構創新的核心是「跳過傳統多模態編碼器」。一般多模態模型（如 GPT-4V、Claude 3、過去的 Gemma 多模態版本）需要為影像、音訊各自訓練一個編碼器，再把編碼後的特徵接到主 Transformer。Google 在 Gemma 4 12B 的處理方式是：影像輸入只經過「單一矩陣乘法、位置嵌入與正規化」三步驟組成的輕量嵌入模組，音訊則直接投影到與文字 token 相同的向量空間。

廣告 - 內文未完請往下捲動

這種設計的好處是顯著降低模型整體記憶體佔用與推論延遲，同時保留多模態理解能力。對於本地部署場景特別關鍵：過去 12B 級別的多模態模型在消費級 GPU 上跑得辛苦，主要瓶頸就在獨立的視覺編碼器佔了不少 VRAM 與計算時間。Gemma 4 12B 把這部分壓到極簡，讓 16GB 統一記憶體的筆電（如 M 系列 MacBook Pro、配備 RTX 4070 以上的 Windows 筆電）成為可行的本地多模態推論平台。

與 26B MoE 對比：性能接近、記憶體不到一半

Google 公布的基準分數顯示，Gemma 4 12B 在多項任務上的表現逼近 Gemma 4 26B MoE（混合專家）旗艦版本，但記憶體佔用不到一半。這個對比的策略意義是：26B MoE 雖然能力更強，但部署成本（記憶體、互連頻寬、伺服器規格）對中小型團隊偏高；12B 變體把「能力／硬體成本比」推到一個新的甜蜜點。

另一個性能優化是支援多 token 預測（Multi-Token Prediction, MTP）的 drafter 模型，能在推論時減少延遲，特別有利於需要持續快速回應的 agentic 工作流（如 AI 代理需要連續呼叫工具、處理多輪對話）。Google 直接把 Gemma 4 12B 定位為「強多步推理與 agentic 工作流」的開源選項。

Gemma 4 系列已累積 1.5 億次下載，開源多模態版圖加速

Google 同步公告 Gemma 4 系列家族（含 E2B、E4B、12B、26B 等）累計下載已超過 1.5 億次。這個數字反映 2026 年開源模型生態的爆發節奏：Qwen 3.6 27B 上個月才在 SWE-bench 程式編寫評測達 77.2%，智譜 GLM-5.1 同期推出 9B/32B/355B-A32B 三檔規格，Meta 的 Llama 4 Scout 109B MoE 也已穩定在 Ollama 等本地推論平台。

本次 Gemma 4 12B 加入後、本地開源多模態的選擇從過去主要由 Qwen-VL、Llava 等小團隊維護的視覺模型，擴展到由 Google 投入工程資源、原生支援文字／影像／音訊三模態的中型模型。對 Ollama、LM Studio 等本地推論平台來說，這也是同步擴充模型庫的具體新增項目—abmedia 過去更新的 Ollama 完整教學已涵蓋 Gemma 4 系列、本次 12B 變體會在後續版本同步補入熱門模型比較表。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。