文字或圖片就能創造遊戲?Google 推出生成式互動環境 AI 模型「Genie」

Crumax
分享
文字或圖片就能創造遊戲?Google 推出生成式互動環境 AI 模型「Genie」

Google DeepMind 近日推出了生成式互動環境 AI 模型 Genie,能夠透過文字或圖片提示產出互動式動畫遊戲,而無需事先在遊戲機制及運作上進行訓練。

Google DeepMind 推出生成式互動環境工具「Genie

作為一間於 2014 年被 Google 收購的人工智慧公司,Google DeepMind 於 23 日提交的論文指出,該公司推出了生成式互動環境 AI 模型 「Genie」,能夠僅透過文字、圖片或草圖描述,便生成可控制的互動虛擬環境。

內容寫道,Genie 透過大量公開可用的網路影片進行訓練,而非依賴於特定遊戲或場景的數據,這對遊戲開發及創意娛樂等領域,具有更加廣泛的應用性:

廣告 - 內文未完請往下捲動

作為生成式 AI 的全新創舉,我們推出了生成式互動環境「Genie」可以透過單一圖片提示產生互動式且可遊玩的環境。

什麼是 Genie?

多模型架構

首先,論文顯示,Genie 作為一個基礎世界模型,由時空影片分詞器 (Spatiotemporal video tokenizer)、自回歸動態模型 (Autoregressive dynamics model)、以及簡單且可擴展的潛在動作模型 (Scalable latent action model) 的 110 億個參數共同設定。

Genie 論文內容

因此,他能夠在未給予指令的情況下,從網路上的 2D 平台遊戲及機器人技術影片中,以無監督方式進行自主訓練;同時也能藉由我們所提供的外界圖像來提示,包括現實世界的照片或草圖,生成能夠供人們控制並互動的虛擬環境。

學習重現動作並辨識可控部分

Genie 的特別之處在於,他能夠從網路影片中學習並重現遊戲角色的控制內容,即便這些影片並沒有關於正在執行之動作的標籤,他也能夠從生成的環境中,推斷出一致或多種的潛在動作。

Gemie 能藉由重現動作來學習並辨識可控部分

同時,Genie 還能夠學習並辨識動作中哪些部分是能夠被控制的,並藉以產生互動式情境。

合成或現實圖片都能轉遊戲

另外,Genie 僅需一張圖片就能創造一個完整的新互動環境,首先採用文字轉影像的生成模型 Imagen 2 來產生關鍵影格 (Keyframe),再透過 Genie 給影像賦予動態效果。

Genie 能透過合成圖片來生成互動式動畫環境

同時,Genie 也能接收從未見過的圖片提示,包括現實世界照片或簡單草圖,使人們能夠與原先無法移動的現實事物進行互動。

Genie 能透過現實照片及繪畫草圖來生成互動式動畫環境

部落格文章寫道:

Genie 的功能讓任何人,甚至是兒童,都能夠創建並進入可控的模擬環境、或是具互動性的生成世界。

文末最後也提到 Genie 產品的遠大目標:

Genie 的應用不僅僅侷限於娛樂或創意開發,他還能夠作為訓練智慧型代理人 (Intelligent Agent) 的優秀測試平台,從而推動了 AI 領域的發展。

據悉,智慧型代理人指的是,一個能夠觀察周遭環境,並作出行動以達成目標的自主實體,這是目前 AI 研究的一個核心概念及重要目標。

Google、OpenAI 較勁意味濃厚

近幾個月來,Google 已釋出多個生成式 AI 模型的產品或資訊,包括最強 AI 顧問「Gemini」、文字轉影片生成工具「Lumiere」、以及關鍵字圖片生成工具「ImageFX」,無不吸引大眾目光。

另一方面,OpenAI 的文字轉影片工具 Sora 作為首個影片生成產品,也在幾週前引發了 AI 狂潮。

(給文字 AI 就能做電影!為什麼 OpenAI 的 Sora 能為 AI 影片生成帶來大飛躍)

然而,近期有關 Gemini 在生成圖像時涉及種族爭議,造成了母公司 Alphabet 單日 (26) 股價下跌逾 4%。

Google DeepMind 研究部門負責人 Demis Hassabis 在昨日的世界行動通訊大會 (MWC Barcelona 2024) 上則表示:

我們已將 Gemini 的該功能下架,將在未來幾週內修復問題並恢復。