本網站內容使用人工智慧(AI)或機器翻譯技術翻譯,可能存在錯誤。

Skip to content

Roblox 邁向 4D 生成式人工智慧之路

  • Roblox 正致力於開發 4D 生成式人工智慧,超越單一 3D 物件,邁向動態互動。 
  • 要解決 4D 的挑戰,需要涵蓋外觀、形狀、物理特性及腳本的多模態理解能力。
  • 作為我們 4D 系統基礎的早期工具,已開始加速平台上的創作進程。

Roblox 透過提供創作者所需的工具服務支援,協助他們將創意化為現實,打造沉浸式的 3D 體驗、虛擬角色與配件。 正是這些創作者打造了我們平台上生動活潑的內容,吸引超過 7,700 萬名每日活躍用戶(截至 2024 年第一季)。透過我們的免費 Roblox Studio 應用程式,我們已推出一套專為 Roblox 工作流程設計、並以 Roblox 特定內容訓練而成的生成式 AI 工具套件。

無論是專家或新手,這些工具都能讓創作過程更輕鬆、更高效且更有趣。「助理」支援 3D 工作區編輯;「動畫捕捉」可捕捉臉部與身體動作;「程式碼輔助」協助腳本編輯與編寫;「材質生成器」能生成可平鋪的材質外觀;而「紋理生成器」則支援特定資產的紋理映射。每項生成式 AI 工具皆能強化 3D 創作流程中的某個環節。

這些工具相互配合,不僅能擴充創作者的技能組合,更能大幅縮短從概念構思到作品完成的時程。 我們運用自身的創新研究突破,以及來自更廣泛 AI 生態系統中的頂尖解決方案,打造了這些工具。它們涵蓋 1D(腳本)、2D(表面)和 3D(空間)等各層面的單一資產創作。我們已在多場國際研究會議上預覽了 3D 幾何生成與編輯實驗室的部分成果,包括我們自辦的 Roblox 開發者大會。

在整個產業中,1D 和 2D 已屬頂尖技術,而 3D 則是生成式 AI 的前沿領域。每項領域都代表著日益嚴峻的挑戰,並持續推動著令人振奮的技術進步。由於我們生活在 3D 空間中,這似乎是生成式 AI 的終極挑戰。然而,基於我們社群的需求,我們對這項工作的願景還延伸得更遠。

當前的進展

我們正致力於開發 4D 生成式 AI,其中第四維度即是「互動」。 Roblox 線上平台的強大之處在於互動——無論是人與人、物與物,還是人與環境之間的互動。有別於傳統線上電玩,Roblox 強大的執行引擎採用了專注於互動的獨特程式設計與模擬模型。此模型的靈感源自元宇宙的概念,其中各項元素以複雜、多對多且自發的方式相互交會,而非受制於既定且有限的模式。 

1D、2D 和 3D 生成式 AI 工具僅能產出單一資產。我們在 4D 生成式 AI 方面面臨的挑戰,在於如何讓這些資產栩栩如生,並以適合我們平台的方式實現無拘無束的互動。舉例來說,這意味著一個虛擬角色不僅僅是形狀和顏色——它還包含骨骼、動畫,以及抓握工具和保持平衡的能力。 該虛擬角色可以穿著並非專為其設計的服裝,這些服裝會自動調整以完美貼合身形,並追蹤所有動作。我們全新的「虛擬角色自動設定」工具,正是生成式 AI 如何協助自動化此類創作的早期範例。開發者現在只需幾分鐘即可完成此流程,而非耗費數小時或數天。

一輛跑車不僅僅是流線型的外觀與車身塗裝——它還包含引擎、可動部件,以及讓它能精準且受控地在虛擬街道上疾馳的物理骨架系統。在每種情況下,物件都會從 3D 延伸,透過物理系統與所有部件互動,並透過玩家的虛擬角色與使用者互動。

這些豐富且具互動性的 4D 元素皆可整合至更宏大的環境中,由生成式 AI 協調各元素的風格,並在物件之間以及物件與環境之間注入互動支援。如今,使用者透過化身參與街道競速,體驗損壞系統與高分挑戰,並在品牌時裝店前急停,選購新裝以慶祝勝利。

目前,要打造這類體驗,必須手動編寫腳本原始碼、建立工作區與資料模型結構,並製作 3D 幾何圖形、動畫及材質。我們現有的生成式 AI 工具可協助處理流程中的每個環節。 我們正在建構一套能串聯所有這些元素並同步生成的系統。為此,我們必須以多模態方式訓練我們的 4D 生成式 AI 系統,也就是說,需同時處理多種資料類型。這項技術在圖像和文字領域已實現,並驅動了「材質生成器」(Material Generator)。透過啟用互動功能並為物理模擬加入專用優化器,我們將能邁向 4D 能力的下一階段。

僅在過去一年間,我們便見證了 Roblox 上內容創作方式的巨大變革。展望未來,我們預見一個無論身在何處、任何人都能透過輸入文字或語音指令,便能將創意化為現實的世界。為了實現這個願景,我們必須開始解決沿途將面臨的若干挑戰。

我們面前的挑戰

我們上述分享的實驗功能將於近期推出。放眼更長遠的未來,我們面臨三項亟待突破的明確挑戰: 

1. 功能性:未來這套生成式 AI 工具所創造的物件必須具備實用功能。這意味著系統在面對卡車或飛機等具備 3D 形狀的物件時,不能將其視為封閉的不透明物體。系統應能在無需創作者介入的情況下,自動辨識哪些部位需要關節,或是網格該在何處開口。

這是一項系統必須解決的「人類級」AI難題——例如,找出正確的輪胎位置,並為輪胎添加軸承,使其運作方式與實體世界完全一致;或是定位車門位置,切出開口並添加鉸鏈,讓車門能夠開闔。

2. 互動性:透過這類未來生成式 AI 所創建的物件,不僅需具備獨立運作能力,還須能與環境中的其他物體互動。既然系統已為我們創建出一輛門能開啟、輪子能轉動的汽車,它就必須理解這輛車所處世界的物理法則。 車輛在地形上如何移動?若撞上巨石,根據巨石的大小與車速,車身會在何處、以何種方式變形?

這項複雜的挑戰要求所創建的物體與其互動的環境或物體,必須相互理解彼此的物理特性。 幸運的是,Roblox 在這方面佔有優勢,因為該平台是以物理引擎為基礎建構的,這意味著體驗中的所有物件都能具備物理特性。當生成式 AI 創建一個 4D 物件時,系統也會賦予其材質、質量和強度等物理屬性,使其能夠與世界中其他基於物理的物件進行互動。

3. 可控性:當今我們透過提示語與生成式 AI 互動。這是一門不完美的科學,宛如一場尋寶遊戲。當有人要求生成一隻兔子的圖像時,可能會收到五花八門的結果:真實的兔子、巧克力復活節兔、卡通兔、兔子畫作,或是穿著大衣的兔子插畫。 因此,我們會精煉提示語,要求生成「寫實風格」或「特定風格」的圖像,以逐步貼近腦海中的畫面。這需要耗費時間並反覆嘗試,才能逐漸接近理想結果。

試想若要對一個具備功能且能與其他物件互動的 3D 物件(例如上文提到的卡車)進行此流程,此層級的提示工程複雜度將呈指數級增長——絕非任何人都能輕易駕馭。為了將創作者的構想化為現實,我們需要更快速、更簡便的溝通與精煉方式,本質上是與一位更像夥伴、而非尋寶遊戲的 AI 助理進行協作。 

這是整個產業面臨的挑戰,許多公司正致力於提升生成式 AI 的可控性。我們透過 ControlNet 等工具已取得一些進展,該技術允許創作者在純文字提示之外提供額外的輸入條件,從而增強控制力。目前我們正在探索其他有望建立理想工作流程的方法,例如讓 AI 在關鍵步驟後暫停以等待使用者輸入。但要實現無縫的體驗,我們還有很長的路要走。

我們對迄今為止所見的影響感到振奮,對於未來更充滿期待。相較於未使用 Material Generator 測試版的創作者,使用者的物理基礎渲染(PBR)材質變體使用量增長了超過 100%——從 2023 年 3 月的僅一千多項,增加到 2024 年 6 月的超過兩千項。 截至 2024 年 6 月 2 日,創作者已採用了約 5.35 億個由 Code Assist 建議的程式碼字元。 

隨著我們逐步解決邁向 4D 之路上的各項挑戰,創作者將能更快地創造更多內容。我們也預期,隨著越來越多人有機會成為創作者,Roblox 上將呈現更加多元的體驗。他們所打造的內容及其創作方式,將指引我們該在哪些新工具與 AI 演算法上進行投資,以賦能這些新創作者,並與現有社群並肩前行。 

憑藉 4D 生成式 AI,Roblox 為體驗與資產創作開闢了新疆界。儘管面臨的挑戰嶄新,但我們的創新流程已臻成熟。我們結合頂尖的內部研發團隊、與大學的合作,以及與社群攜手進行的原型快速迭代。