Google 發布 Gemini Omni:任何輸入生成影片、首版限 10 秒
Google 在 5/19 Google I/O 開發者大會上發布全新多模態模型 Gemini Omni,宣傳語為「從任何輸入創造任何東西,從影片開始」。根據 TechCrunch 5/19 報導,使用者可將圖像、音訊、影片、文字混合在單一 prompt 中,模型會跨模態推理生成單一輸出、並可透過對話迭代修改。首版模型 Gemini Omni Flash 同日上線、單片影片時長上限 10 秒。
能力:跨模態推理、對話式編輯、模擬物理
Gemini Omni 與「先拼接再生成」的舊式 pipeline 不同—它直接在多模態空間中推理。Google 表示模型能忠實執行從簡單到複雜的指令、模擬真實世界物理、並透過對話編輯影片。Logan Kilpatrick 在 X 將其定位為「Nano Banana for video」—把 Nano Banana 在圖像領域的對話式生成體驗,搬到影片。
Flash 10 秒上限:部署決策、非模型限制
首版 Gemini Omni Flash 將單片影片上限設定為 10 秒。Google 表示這是「部署決策」、而非模型本身能力上限—在運算需求高的階段,先以較短時長換取更廣泛的用戶接觸。更高階的 Omni Pro 版本尚未公布上線日期,Google 表示要等到「相對 Flash 有階躍式提升」才會釋出。
同期 Google I/O 全套發布
Omni 是本次 Google I/O 多項 AI 發布的其中一項,同期還包括 Gemini 3.5 Flash 主力模型、Gemini Spark 個人 agent、Google 搜尋 25 年來最大 AI 改版、AI Studio 全新代理框架等。與 Anthropic 同日宣布 Karpathy 加入形成競爭對照—Google 用產品矩陣、Anthropic 用研究人才,兩種前沿 AI 競爭路線在 5/19 同一天明確展現。
風險提示
加密貨幣投資具有高度風險,其價格可能波動劇烈,您可能損失全部本金。請謹慎評估風險。


