Roblox 邁向 4D 生成式人工智慧之路

發佈者摩根·麥奎爾，首席科學家

發佈日期 2024年6月17日

Roblox 正致力於開發 4D 生成式人工智慧，超越單一 3D 物件，邁向動態互動。
要解決 4D 的挑戰，需要涵蓋外觀、形狀、物理特性及腳本的多模態理解能力。
作為我們 4D 系統基礎的早期工具，已開始加速平台上的創作進程。

Roblox 透過提供創作者所需的工具、服務與支援，協助他們將創意化為現實，打造沉浸式的 3D 體驗、虛擬角色與配件。正是這些創作者打造了我們平台上生動活潑的內容，吸引超過 7,700 萬名每日活躍用戶（截至 2024 年第一季）。透過我們的免費 Roblox Studio 應用程式，我們已推出一套專為 Roblox 工作流程設計、並以 Roblox 特定內容訓練而成的生成式 AI 工具套件。

無論是專家或新手，這些工具都能讓創作過程更輕鬆、更高效且更有趣。「助理」支援 3D 工作區編輯；「動畫捕捉」可捕捉臉部與身體動作；「程式碼輔助」協助腳本編輯與編寫；「材質生成器」能生成可平鋪的材質外觀；而「紋理生成器」則支援特定資產的紋理映射。每項生成式 AI 工具皆能強化 3D 創作流程中的某個環節。

這些工具相互配合，不僅能擴充創作者的技能組合，更能大幅縮短從概念構思到作品完成的時程。我們運用自身的創新研究突破，以及來自更廣泛 AI 生態系統中的頂尖解決方案，打造了這些工具。它們涵蓋 1D（腳本）、2D（表面）和 3D（空間）等各層面的單一資產創作。我們已在多場國際研究會議上預覽了 3D 幾何生成與編輯實驗室的部分成果，包括我們自辦的 Roblox 開發者大會。

在整個產業中，1D 和 2D 已屬頂尖技術，而 3D 則是生成式 AI 的前沿領域。每項領域都代表著日益嚴峻的挑戰，並持續推動著令人振奮的技術進步。由於我們生活在 3D 空間中，這似乎是生成式 AI 的終極挑戰。然而，基於我們社群的需求，我們對這項工作的願景還延伸得更遠。

當前的進展

我們正致力於開發 4D 生成式 AI，其中第四維度即是「互動」。 Roblox 線上平台的強大之處在於互動——無論是人與人、物與物，還是人與環境之間的互動。有別於傳統線上電玩，Roblox 強大的執行引擎採用了專注於互動的獨特程式設計與模擬模型。此模型的靈感源自元宇宙的概念，其中各項元素以複雜、多對多且自發的方式相互交會，而非受制於既定且有限的模式。

1D、2D 和 3D 生成式 AI 工具僅能產出單一資產。我們在 4D 生成式 AI 方面面臨的挑戰，在於如何讓這些資產栩栩如生，並以適合我們平台的方式實現無拘無束的互動。舉例來說，這意味著一個虛擬角色不僅僅是形狀和顏色——它還包含骨骼、動畫，以及抓握工具和保持平衡的能力。該虛擬角色可以穿著並非專為其設計的服裝，這些服裝會自動調整以完美貼合身形，並追蹤所有動作。我們全新的「虛擬角色自動設定」工具，正是生成式 AI 如何協助自動化此類創作的早期範例。開發者現在只需幾分鐘即可完成此流程，而非耗費數小時或數天。

一輛跑車不僅僅是流線型的外觀與車身塗裝——它還包含引擎、可動部件，以及讓它能精準且受控地在虛擬街道上疾馳的物理骨架系統。在每種情況下，物件都會從 3D 延伸，透過物理系統與所有部件互動，並透過玩家的虛擬角色與使用者互動。

這些豐富且具互動性的 4D 元素皆可整合至更宏大的環境中，由生成式 AI 協調各元素的風格，並在物件之間以及物件與環境之間注入互動支援。如今，使用者透過化身參與街道競速，體驗損壞系統與高分挑戰，並在品牌時裝店前急停，選購新裝以慶祝勝利。

目前，要打造這類體驗，必須手動編寫腳本原始碼、建立工作區與資料模型結構，並製作 3D 幾何圖形、動畫及材質。我們現有的生成式 AI 工具可協助處理流程中的每個環節。我們正在建構一套能串聯所有這些元素並同步生成的系統。為此，我們必須以多模態方式訓練我們的 4D 生成式 AI 系統，也就是說，需同時處理多種資料類型。這項技術在圖像和文字領域已實現，並驅動了「材質生成器」（Material Generator）。透過啟用互動功能並為物理模擬加入專用優化器，我們將能邁向 4D 能力的下一階段。

僅在過去一年間，我們便見證了 Roblox 上內容創作方式的巨大變革。展望未來，我們預見一個無論身在何處、任何人都能透過輸入文字或語音指令，便能將創意化為現實的世界。為了實現這個願景，我們必須開始解決沿途將面臨的若干挑戰。

我們面前的挑戰

我們上述分享的實驗功能將於近期推出。放眼更長遠的未來，我們面臨三項亟待突破的明確挑戰：

1. 功能性：未來這套生成式 AI 工具所創造的物件必須具備實用功能。這意味著系統在面對卡車或飛機等具備 3D 形狀的物件時，不能將其視為封閉的不透明物體。系統應能在無需創作者介入的情況下，自動辨識哪些部位需要關節，或是網格該在何處開口。

這是一項系統必須解決的「人類級」AI難題——例如，找出正確的輪胎位置，並為輪胎添加軸承，使其運作方式與實體世界完全一致；或是定位車門位置，切出開口並添加鉸鏈，讓車門能夠開闔。

2. 互動性：透過這類未來生成式 AI 所創建的物件，不僅需具備獨立運作能力，還須能與環境中的其他物體互動。既然系統已為我們創建出一輛門能開啟、輪子能轉動的汽車，它就必須理解這輛車所處世界的物理法則。車輛在地形上如何移動？若撞上巨石，根據巨石的大小與車速，車身會在何處、以何種方式變形？

這項複雜的挑戰要求所創建的物體與其互動的環境或物體，必須相互理解彼此的物理特性。幸運的是，Roblox 在這方面佔有優勢，因為該平台是以物理引擎為基礎建構的，這意味著體驗中的所有物件都能具備物理特性。當生成式 AI 創建一個 4D 物件時，系統也會賦予其材質、質量和強度等物理屬性，使其能夠與世界中其他基於物理的物件進行互動。

3. 可控性：當今我們透過提示語與生成式 AI 互動。這是一門不完美的科學，宛如一場尋寶遊戲。當有人要求生成一隻兔子的圖像時，可能會收到五花八門的結果：真實的兔子、巧克力復活節兔、卡通兔、兔子畫作，或是穿著大衣的兔子插畫。因此，我們會精煉提示語，要求生成「寫實風格」或「特定風格」的圖像，以逐步貼近腦海中的畫面。這需要耗費時間並反覆嘗試，才能逐漸接近理想結果。

試想若要對一個具備功能且能與其他物件互動的 3D 物件（例如上文提到的卡車）進行此流程，此層級的提示工程複雜度將呈指數級增長——絕非任何人都能輕易駕馭。為了將創作者的構想化為現實，我們需要更快速、更簡便的溝通與精煉方式，本質上是與一位更像夥伴、而非尋寶遊戲的 AI 助理進行協作。

這是整個產業面臨的挑戰，許多公司正致力於提升生成式 AI 的可控性。我們透過 ControlNet 等工具已取得一些進展，該技術允許創作者在純文字提示之外提供額外的輸入條件，從而增強控制力。目前我們正在探索其他有望建立理想工作流程的方法，例如讓 AI 在關鍵步驟後暫停以等待使用者輸入。但要實現無縫的體驗，我們還有很長的路要走。

我們對迄今為止所見的影響感到振奮，對於未來更充滿期待。相較於未使用 Material Generator 測試版的創作者，使用者的物理基礎渲染（PBR）材質變體使用量增長了超過 100%——從 2023 年 3 月的僅一千多項，增加到 2024 年 6 月的超過兩千項。截至 2024 年 6 月 2 日，創作者已採用了約 5.35 億個由 Code Assist 建議的程式碼字元。

隨著我們逐步解決邁向 4D 之路上的各項挑戰，創作者將能更快地創造更多內容。我們也預期，隨著越來越多人有機會成為創作者，Roblox 上將呈現更加多元的體驗。他們所打造的內容及其創作方式，將指引我們該在哪些新工具與 AI 演算法上進行投資，以賦能這些新創作者，並與現有社群並肩前行。

憑藉 4D 生成式 AI，Roblox 為體驗與資產創作開闢了新疆界。儘管面臨的挑戰嶄新，但我們的創新流程已臻成熟。我們結合頂尖的內部研發團隊、與大學的合作，以及與社群攜手進行的原型快速迭代。

最新

更多結果

Roblox 邁向 4D 生成式人工智慧之路

當前的進展

我們面前的挑戰

Roblox 邁向 4D 生成式人工智慧之路

當前的進展

我們面前的挑戰

工程

透過新增 22 種語言與更精準的偵測能力，升級我們的「語音安全分類器」

新聞

人工智慧先驅創辦人聯手加速實現 Roblox 的現實願景

工程

CubePart：一款開放詞彙庫且可局部控制的 3D 生成器