Google 發布 Gemini Omni：任何輸入生成影片、首版限 10 秒

Elponcrab

2026/5/20

Google 在 5/19 Google I/O 開發者大會上發布全新多模態模型 Gemini Omni，宣傳語為「從任何輸入創造任何東西，從影片開始」。根據 TechCrunch 5/19 報導，使用者可將圖像、音訊、影片、文字混合在單一 prompt 中，模型會跨模態推理生成單一輸出、並可透過對話迭代修改。首版模型 Gemini Omni Flash 同日上線、單片影片時長上限 10 秒。

Table of Contents

能力：跨模態推理、對話式編輯、模擬物理

Gemini Omni 與「先拼接再生成」的舊式 pipeline 不同—它直接在多模態空間中推理。Google 表示模型能忠實執行從簡單到複雜的指令、模擬真實世界物理、並透過對話編輯影片。Logan Kilpatrick 在 X 將其定位為「Nano Banana for video」—把 Nano Banana 在圖像領域的對話式生成體驗，搬到影片。

Flash 10 秒上限：部署決策、非模型限制

首版 Gemini Omni Flash 將單片影片上限設定為 10 秒。Google 表示這是「部署決策」、而非模型本身能力上限—在運算需求高的階段，先以較短時長換取更廣泛的用戶接觸。更高階的 Omni Pro 版本尚未公布上線日期，Google 表示要等到「相對 Flash 有階躍式提升」才會釋出。

廣告 - 內文未完請往下捲動

同期 Google I/O 全套發布

Omni 是本次 Google I/O 多項 AI 發布的其中一項，同期還包括 Gemini 3.5 Flash 主力模型、Gemini Spark 個人 agent、Google 搜尋 25 年來最大 AI 改版、AI Studio 全新代理框架等。與 Anthropic 同日宣布 Karpathy 加入形成競爭對照—Google 用產品矩陣、Anthropic 用研究人才，兩種前沿 AI 競爭路線在 5/19 同一天明確展現。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。