NVIDIA 發表 Nemotron 3 Nano Omni 開源多模態
根據 NVIDIA 官方部落格 4 月 28 日公告(作者 Kari Briski),NVIDIA 發表 Nemotron 3 Nano Omni — 開源多模態模型,把視覺、語音與語言能力整合進單一模型,目標是為 AI agent 系統提供更低延遲、更省成本的「感知層」。
核心規格:30B-A3B MoE、256K context、9 倍吞吐量、登 6 個排行榜首位
關鍵架構:
- 30B-A3B hybrid mixture-of-experts(總參數 30B、活化 3B)
- 整合 Conv3D 與 EVS 編碼
- 256K context 長度
- 輸入:文字、影像、音訊、影片、文件、圖表、GUI 螢幕
- 輸出:文字
性能訊號:較其他開源 omni 模型在同等互動性下達 9 倍吞吐量;於文件智慧、影片理解、音訊理解三大類共 6 個基準排行榜取得首位(NVIDIA 公告未列出具體分數,引導讀者前往開發者部落格查看詳細資料)。
NVIDIA 把 Nemotron 3 Nano Omni 定位為 agent 系統中的「眼睛與耳朵」,可與 Nemotron 3 Super(高頻執行)、Nemotron 3 Ultra(複雜規劃)等同家族模型分工,亦可與第三方雲端模型互通。三個典型 agent 應用場景:
- 電腦操作代理(Computer Use Agent):原生 1920×1080 解析度視覺推理
- 文件智慧:跨圖、表、截圖與混合媒體輸入推理
- 音訊/影片理解:把講話、畫面、紀錄整合為單一推理串
採用方陣容:鴻海、Palantir 入列、H Company CEO 具名表態
NVIDIA 公告中明確區分「生產採用」與「正在評估」:
已生產採用:Aible、Applied Scientific Intelligence(ASI)、Eka Care、鴻海(Foxconn)、H Company、Palantir、Pyler
正在評估:Amdocs、Dell、Docusign、Infosys、IQVIA、Lila、Oracle、Quantiphi、TCS、Zefr 等
H Company 執行長 Gautier Cloix 在公告中具名表態:「To build useful agents, you can’t wait seconds for a model to interpret a screen. By building on Nemotron 3 Nano Omni, our agents can rapidly interpret full HD screen recordings — something that wasn’t practical before.」翻譯:「打造實用代理時,你不能等模型秒級解讀螢幕。建立在 Nemotron 3 Nano Omni 之上,我們的代理可快速解讀完整 HD 螢幕錄影 — 這在之前並不實際可行。」
開源策略與布署:weights / datasets / 訓練方法全公開
NVIDIA 在發布同時公開:
- 模型權重
- 訓練資料集
- 訓練技術/方法論
布署管道涵蓋三層:
- 本地工作站:NVIDIA DGX Spark、DGX Station
- NIM 微服務:build.nvidia.com
- 第三方平台:Hugging Face、OpenRouter,並透過 25 個以上 NVIDIA Cloud Partners、推理平台與雲端服務商提供
客製化工具則使用 NVIDIA NeMo。Nemotron 3 家族(Nano/Super/Ultra)過去一年在 Hugging Face 累積下載超過 5,000 萬次,本次 Omni 將該家族能力延伸至多模態與 agentic 領域。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


