Google：Gemini Omni Flash 在影片生成 3 項 SOTA、API 即將上線

Elponcrab

2 小時前

Google AI Studio 與 Gemini API 負責人 Logan Kilpatrick 2026 年 6 月 11 日於 X 宣布，Gemini Omni Flash 在影片生成的三項基準達到業界最高水準（SOTA）：image-to-video（圖生影片）、text-to-video（文字生影片）、video editing（影片編輯）。Logan 同時透露 Gemini Omni Flash 「即將透過 API 開放給開發者」。模型本身為 Google I/O 2026 大會（5 月 19 日）發表的 Omni 家族首發產品、本次為效能基準的後續確認與 API 接入預告。

Table of Contents

三項影片基準達 SOTA：產生與編輯並列

Logan Kilpatrick 在貼文中明確點名 Gemini Omni Flash 在三項影片任務領先：（1）image-to-video—以靜態圖像為輸入產生影片片段；（2）text-to-video—以文字描述生成影片；（3）video editing—以對話式指令修改現有影片內容。第三項「可對話式編輯」是 Omni Flash 相較其他純文生影片模型的差異化能力。第三方基準觀察方面，VBench I2V 評測中 Gemini Omni Flash 與 Grok-Imagine-Video、Kling 並列領先。

Omni Flash 是 Google「Omni 家族」首發模型、定位為「任何輸入、任何輸出」的多模態通用模型。Google 公告該家族先從影片輸出起步、未來規劃延伸至圖像與文字。模型同步支援多模態輸入—圖像、音訊、影片、文字皆可作為條件輸入、再由 Gemini 的「真實世界知識」基底產生對應影片。

廣告 - 內文未完請往下捲動

5/19 Google I/O 發表、訂閱戶 + YouTube 同步

Gemini Omni Flash 在 5/19 Google I/O 大會發表後即啟動分階段上線。目前已透過 Gemini app 與 Google Flow 開放給 Google AI Plus、Pro、Ultra 訂閱用戶使用、覆蓋全球地區。消費端另一條通路是 YouTube：YouTube Shorts Remix 與 YouTube Create 對 18 歲以上用戶免費開放、不需訂閱。

所有 Omni 生成的影片內嵌 SynthID 浮水印—Google 的不可見 AI 內容識別技術、可在後續流通中驗證來源。本次 6/11 的 Logan 公告主要面向開發者通路、宣告 API 接入「即將上線」、但未公布具體上線日期與定價結構。先前Gemini API 5 月推出 webhooks 即時推送已為長時影片生成任務鋪設基礎。

同期競爭：Sora 與 Veo 之外的第三條軸線

影片生成 AI 市場目前由 OpenAI Sora（已商用、整合 ChatGPT）、Google Veo（前一代）、Runway、Pika 等並列、新興競品包括 xAI Grok-Imagine-Video 與 Kling。Logan 公告把 Gemini Omni Flash 定位為與 Grok / Kling 並列領先的第三條主軸線、突破過去 Veo 對 Sora 的單線比較格局。

對開發者而言、API 上線時程是後續觀察重點。Omni Flash 的差異化能力在於「可對話式編輯」、若 API 定價與延遲落在合理區間、可能加速影片產業端整合 AI 工具的進程。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。