Google推出AI模型Lumiere!文字、圖片一鍵轉影片,還能客製化素材風格

Crumax
分享
Google推出AI模型Lumiere!文字、圖片一鍵轉影片,還能客製化素材風格

Google 近期推出了名為「Lumiere」的 AI 影片生成器,採用了時空擴散模型,能夠將文字或圖片轉換成逼真的影片,用戶甚至能根據需求自訂影片素材及風格,主打透過其創新的「時空 U-Net 架構」,展現出影片中逼真、多樣且連貫的運動狀況。

Google「Lumiere」文字轉影片生成工具

根據 Google Research 所發佈的研究論文,該團隊開發了名為「Lumiere」的時空擴散模型 (Space-Time Diffusion Model),同時也能作為文字轉影片的 AI 生成工具,聲稱其在生成影片時能考慮到空間與時間運動概念,以創造一致且流暢的動態影像。

Google Research「Lumiere」論文內容

據悉,Lumiere 採用了其所謂的「Space-Time U-Net 架構」,在生成過程中,Lumiere 會持續檢查物體的所在位置 (空間概念)、以及物體移動的持續時間及方式 (時間概念),並在一次運行中確保 2 個面向的一致性:

廣告 - 內文未完請往下捲動

我們的模型經過超過 3,000 萬個影像及文字素材的訓練及學習,在多個時空尺度上進行計算及處理,並直接以每秒 16 幀的速度生成高達 80 幀的影片。 

Lumiere 能做什麼?

具體來說,Lumiere 具有以下 3 項最為強大的功能:

文字、圖片轉影片

首先,用戶能夠透過文字敘述或上傳靜態圖片並向 Lumiere 提供指示,以生成動態影片,這與 ChatGPT 的文字生成影片功能類似。

(OpenAI 推出 GPT Store 提供用戶更多元的模型選擇與熱門趨勢推薦)

文字、圖片轉影片功能

7 種生成風格供選擇

另外,AI 生成內容往往都無法微調許多包括內容或風格等細節,不過,Lumiere 辦得到。

Lumiere 水彩風格

用戶能夠從「貼紙」、「線條」、「平面卡通」、「水彩」、「螢光」、「3D 融金」以及「3D 渲染」等,高達 7 種不同素材風格,依自身需求做調整。

影片編輯與後製

值得一提的是,Lumiere 還能就影片中部分內容進行編輯。用戶能夠要求僅讓火把繼續燃燒,而不讓上頭的雲朵移動;又或者是替走路的人們換套衣著。

能夠就部分影像進行動態化編輯

例如下圖,用戶還能夠讓運動中的物體變換品質或素材,以達到不同的需求效果。

能夠編輯跑步中的女生的組成元素

用戶仍無法體驗

即便即時且高品質的影片生成功能讓人躍躍欲試,但出於 Lumiere 僅是一個研究專案,用戶恐怕還得在等上一段時間才能親自嘗試。

然而據稱,Lumiere 可能會跟以往微軟、Google 及 Meta 等科技公司所釋出的研究結果一樣,該產品的底層技術及功能或將在未來整合到 Google 的其他產品中,而非作為獨立產品釋出。

Rowan Cheung:創造電影的道路將變得更加簡單

AI 領域新聞 The Rundown AI 創辦人 Rowan Cheung 也對此表達興奮,稱該產品是難以置信的技術性突破。

人工智慧的發展速度太瘋狂了,我相信在幾年內,人們或許能夠快速地透過手機來製作電影。

AI 訓練的智財權問題

順帶一提,顯而易見地,Google 並沒有在論文中提及用來訓練模型的文字、影像或其他資料來源,這在 AI 產業內一直是個敏感的企業倫理及版權問題,並被廣泛討論。

隨著 AI 生成模型使用的普遍性日趨增長,各地也因此出現了許多涉及侵犯智財權的訴訟案例。

(媒體與出版業的危機?紐約時報起訴 OpenAI 及微軟大規模侵犯版權)