Google:Gemini Omni Flash 在影片生成 3 項 SOTA、API 即將上線
Google AI Studio 與 Gemini API 負責人 Logan Kilpatrick 2026 年 6 月 11 日於 X 宣布,Gemini Omni Flash 在影片生成的三項基準達到業界最高水準(SOTA):image-to-video(圖生影片)、text-to-video(文字生影片)、video editing(影片編輯)。Logan 同時透露 Gemini Omni Flash 「即將透過 API 開放給開發者」。模型本身為 Google I/O 2026 大會(5 月 19 日)發表的 Omni 家族首發產品、本次為效能基準的後續確認與 API 接入預告。
三項影片基準達 SOTA:產生與編輯並列
Logan Kilpatrick 在貼文中明確點名 Gemini Omni Flash 在三項影片任務領先:(1)image-to-video—以靜態圖像為輸入產生影片片段;(2)text-to-video—以文字描述生成影片;(3)video editing—以對話式指令修改現有影片內容。第三項「可對話式編輯」是 Omni Flash 相較其他純文生影片模型的差異化能力。第三方基準觀察方面,VBench I2V 評測中 Gemini Omni Flash 與 Grok-Imagine-Video、Kling 並列領先。
Omni Flash 是 Google「Omni 家族」首發模型、定位為「任何輸入、任何輸出」的多模態通用模型。Google 公告該家族先從影片輸出起步、未來規劃延伸至圖像與文字。模型同步支援多模態輸入—圖像、音訊、影片、文字皆可作為條件輸入、再由 Gemini 的「真實世界知識」基底產生對應影片。
5/19 Google I/O 發表、訂閱戶 + YouTube 同步
Gemini Omni Flash 在 5/19 Google I/O 大會發表後即啟動分階段上線。目前已透過 Gemini app 與 Google Flow 開放給 Google AI Plus、Pro、Ultra 訂閱用戶使用、覆蓋全球地區。消費端另一條通路是 YouTube:YouTube Shorts Remix 與 YouTube Create 對 18 歲以上用戶免費開放、不需訂閱。
所有 Omni 生成的影片內嵌 SynthID 浮水印—Google 的不可見 AI 內容識別技術、可在後續流通中驗證來源。本次 6/11 的 Logan 公告主要面向開發者通路、宣告 API 接入「即將上線」、但未公布具體上線日期與定價結構。先前Gemini API 5 月推出 webhooks 即時推送已為長時影片生成任務鋪設基礎。
同期競爭:Sora 與 Veo 之外的第三條軸線
影片生成 AI 市場目前由 OpenAI Sora(已商用、整合 ChatGPT)、Google Veo(前一代)、Runway、Pika 等並列、新興競品包括 xAI Grok-Imagine-Video 與 Kling。Logan 公告把 Gemini Omni Flash 定位為與 Grok / Kling 並列領先的第三條主軸線、突破過去 Veo 對 Sora 的單線比較格局。
對開發者而言、API 上線時程是後續觀察重點。Omni Flash 的差異化能力在於「可對話式編輯」、若 API 定價與延遲落在合理區間、可能加速影片產業端整合 AI 工具的進程。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。




