商業應用產品技術

文字或圖片就能創造遊戲？Google 推出生成式互動環境 AI 模型「Genie」

Crumax

2024/2/28

Google DeepMind 近日推出了生成式互動環境 AI 模型 Genie，能夠透過文字或圖片提示產出互動式動畫遊戲，而無需事先在遊戲機制及運作上進行訓練。

Table of Contents

Google DeepMind 推出生成式互動環境工具「Genie」

作為一間於 2014 年被 Google 收購的人工智慧公司，Google DeepMind 於 23 日提交的論文指出，該公司推出了生成式互動環境 AI 模型「Genie」，能夠僅透過文字、圖片或草圖描述，便生成可控制的互動虛擬環境。

內容寫道，Genie 透過大量公開可用的網路影片進行訓練，而非依賴於特定遊戲或場景的數據，這對遊戲開發及創意娛樂等領域，具有更加廣泛的應用性：

廣告 - 內文未完請往下捲動

作為生成式 AI 的全新創舉，我們推出了生成式互動環境「Genie」，可以透過單一圖片提示產生互動式且可遊玩的環境。

什麼是 Genie？

多模型架構

首先，論文顯示，Genie 作為一個基礎世界模型，由時空影片分詞器 (Spatiotemporal video tokenizer)、自回歸動態模型 (Autoregressive dynamics model)、以及簡單且可擴展的潛在動作模型 (Scalable latent action model) 的 110 億個參數共同設定。

Genie 論文內容

因此，他能夠在未給予指令的情況下，從網路上的 2D 平台遊戲及機器人技術影片中，以無監督方式進行自主訓練；同時也能藉由我們所提供的外界圖像來提示，包括現實世界的照片或草圖，生成能夠供人們控制並互動的虛擬環境。

學習重現動作並辨識可控部分

Genie 的特別之處在於，他能夠從網路影片中學習並重現遊戲角色的控制內容，即便這些影片並沒有關於正在執行之動作的標籤，他也能夠從生成的環境中，推斷出一致或多種的潛在動作。

Gemie 能藉由重現動作來學習並辨識可控部分

同時，Genie 還能夠學習並辨識動作中哪些部分是能夠被控制的，並藉以產生互動式情境。

合成或現實圖片都能轉遊戲

另外，Genie 僅需一張圖片就能創造一個完整的新互動環境，首先採用文字轉影像的生成模型 Imagen 2 來產生關鍵影格 (Keyframe)，再透過 Genie 給影像賦予動態效果。

Genie 能透過合成圖片來生成互動式動畫環境

同時，Genie 也能接收從未見過的圖片提示，包括現實世界照片或簡單草圖，使人們能夠與原先無法移動的現實事物進行互動。

Genie 能透過現實照片及繪畫草圖來生成互動式動畫環境

部落格文章寫道：

Genie 的功能讓任何人，甚至是兒童，都能夠創建並進入可控的模擬環境、或是具互動性的生成世界。

文末最後也提到 Genie 產品的遠大目標：

Genie 的應用不僅僅侷限於娛樂或創意開發，他還能夠作為訓練智慧型代理人 (Intelligent Agent) 的優秀測試平台，從而推動了 AI 領域的發展。

據悉，智慧型代理人指的是，一個能夠觀察周遭環境，並作出行動以達成目標的自主實體，這是目前 AI 研究的一個核心概念及重要目標。

Google、OpenAI 較勁意味濃厚

近幾個月來，Google 已釋出多個生成式 AI 模型的產品或資訊，包括最強 AI 顧問「Gemini」、文字轉影片生成工具「Lumiere」、以及關鍵字圖片生成工具「ImageFX」，無不吸引大眾目光。

另一方面，OpenAI 的文字轉影片工具 Sora 作為首個影片生成產品，也在幾週前引發了 AI 狂潮。

(給文字 AI 就能做電影！為什麼 OpenAI 的 Sora 能為 AI 影片生成帶來大飛躍)

然而，近期有關 Gemini 在生成圖像時涉及種族爭議，造成了母公司 Alphabet 單日 (26) 股價下跌逾 4%。

Google DeepMind 研究部門負責人 Demis Hassabis 在昨日的世界行動通訊大會 (MWC Barcelona 2024) 上則表示：

我們已將 Gemini 的該功能下架，將在未來幾週內修復問題並恢復。

風險提示

加密貨幣投資具有高度風險，其價格可能波動劇烈，您可能損失全部本金。請謹慎評估風險。

AI Gemini Genie Google Google DeepMind ImageFX Lumiere OpenAI 生成式 AI

鏈新聞

衍伸閱讀