本網站內容使用人工智慧(AI)或機器翻譯技術翻譯,可能存在錯誤。

Skip to content

介紹 Roblox Cube:我們用於 3D 和 4D 的核心生成式 AI 系統

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • 我們正釋出用於生成式人工智慧的 Cube 3D 基礎模型。
  • 我們同時將 Cube 3D 基礎模型的某個版本開源。
  • Cube 3D 網格生成功能的測試版——包含 Roblox Studio 內建功能及體驗內 Lua API——將於本週上線。 

去年秋季,我們宣布了一項雄心勃勃的計畫,旨在打造一個開源的 3D 基礎模型,用於在 Roblox 上創建 3D 物件和場景。本週,我們將在 GitHubHuggingFace 上開源此模型的首個版本,讓 Roblox 平台內外的任何人都能使用。 我們將此模型命名為 Cube 3D。同時,我們也將透過網格生成 API 的測試版發布,推出其首項功能。Cube 將成為未來數年我們所開發眾多 AI 工具的基礎,包括高度複雜的場景生成工具。它最終將成為一個多模態模型,透過文字、圖像、影片及其他類型的輸入進行訓練,並將與我們現有的 AI 創作工具整合。

Cube 3D 能直接根據文字(未來亦將支援圖像)生成 3D 模型與環境。 當今最先進的 3D 生成技術,通常是透過影像與重建方法來建構 3D 物件。當 3D 訓練資料不足時,這不失為一個好選擇。然而,得益於我們平台的特性,我們直接使用原生 3D 資料進行訓練。生成的物件完全相容於當今的遊戲引擎,並可進一步擴展以賦予物件功能。 

其中的差異,類似於賽車場的電影場景。在電視上,您可能會看到看似功能齊全的賽車場,配備看台、車庫和勝利車道。但若您實際走進那個場景,很快就會發現那些結構其實是平面的。要打造真正沉浸式的 3D 世界,需要完整且具備功能性的結構,例如可以駛入的車庫、可以入座的看台,以及配備功能性頒獎台的勝利車道。

為實現此目標,我們從最先進的模型中汲取靈感——這些模型是透過訓練文字代碼(或字符集)來預測下一個代碼以構成句子。我們的創新正是基於相同的核心理念。 我們開發了將 3D 物件分詞,並將形狀視為分詞的能力,並訓練 Cube 3D 預測下一個形狀分詞以建構完整的 3D 物件。當我們將此技術擴展至完整場景生成時,Cube 3D 便會預測佈局,並遞迴預測形狀以完成該佈局。

任何人都能針對自身需求,對 Cube 3D 進行微調、開發外掛程式,或利用自有資料進行訓練。我們堅信 AI 工具應建立在開放與透明的基礎上,這正是我們致力成為開源 AI 社群夥伴的原因。 我們釋出其中一個 AI 安全模型,是因為我們堅信分享 AI 安全方面的進展,有助於整個產業加速創新與技術進步。基於此,我們也協助創立了 ROOST——一個致力於運用開源安全工具來解決數位安全重要領域的新非營利組織。透過將 Cube 3D 開源,我們的目標是讓研究人員、開發者以及更廣泛的 AI 社群能夠學習、增強並推動整個產業的 3D 生成技術。

用於創作的 Cube 3D

我們先前曾探討過 AI 如何加速 3D 資產、配件及體驗的創作。最終,AI 將能實現更沉浸且個人化的遊戲體驗與人際連結。我們投資建構基礎設施,以在創作週期的每個階段支援 AI 應用——無論是針對打造這些體驗的開發者,還是沉浸其中的使用者。 我們展望一個未來:開發者將透過在體驗中啟用 AI,為使用者提供嶄新的創作方式。這將使超過 8,500 萬名每日活躍使用者在遊戲過程中,親身掌握 AI 的力量。

過去一年間,我們透過 Roblox Studio 內建的 AI 驅動助理,推出了多項新功能,為開發者提供所需的工具與能力,協助他們進行創作並省去數小時的手動作業。透過 Cube,我們旨在提升 3D 創作的效率。借助 3D 網格生成功能,開發者能迅速探索新的創意方向,並透過快速決定要推進哪個方向來提高生產力。

試想製作一款賽車遊戲。如今,您只需在 Assistant 中輸入簡短指令,例如「/generate a motorcycle」或「/generate orange safety cone」,即可使用網格生成 API。短短數秒內,API 便會生成這些物件的網格版本。隨後,您可透過貼圖、色彩等元素對其進行細部調整。借助此 API,您能更快速地建模道具或設計空間——無需耗費數小時來建模簡單的物件。 這讓你能專注於更有趣的部分,例如設計賽道佈局或微調車輛操控性。此 API 能為每個物件節省數小時的製作時間,讓你能將省下的時間用於嘗試新點子,無需擔心耗費過多時間或精力。長遠來看,我們計畫支援更複雜且具功能性的物件,甚至整個場景。

這項技術將惠及每天在 Roblox 上遊玩並建立連結的數千萬創意人士。我們預見未來開發者將透過 AI 讓使用者化身創作者。啟用 Mesh Generation API 後,玩家能將任何想像中的事物化為現實。 若玩家想要一輛未來感十足的汽車,只需輸入「帶側翼的紅色未來車」或「黑色皮革機車夾克」,即可見其生成。這類遊戲內的 AI 生成技術將開啟前所未有的創意新境界。玩家能以開發者從未想像過的方式打造專屬體驗,這將使遊戲變得更加引人入勝。

幕後解析:3D 與文字/圖像標記之間的跨模態注意力機制

關鍵的技術挑戰在於將文字與圖像與 3D 形狀建立連結。我們的核心技術突破在於 3D 分詞技術,這使我們能夠像將文字表示為詞元一樣,將 3D 物件表示為詞元。這讓我們能夠預測下一個形狀,就像語言模型預測句子中的下一個單字一樣。

為了實現 3D 生成,我們設計了一套統一的架構,用於單一物件的自回歸生成、形狀補全,以及多物件/場景佈局生成。自回歸變換器是一種神經網路,會利用前面的輸入來預測下一個元件。此架構兼具可擴展性與多模態相容性,因此隨著我們擴展模型,它將能處理多種不同類型的輸入(文字、視覺、音訊和 3D)。 我們將此模型開源。在初期階段,創作者將能根據文字提示生成 3D 物件。未來,我們計劃讓創作者能夠根據多模態輸入生成完整的場景。

為了訓練用於形狀生成的生成式預訓練變換器(GPT),我們採用離散的 3D 形狀標記,並將其與文字提示對齊。這項創新方法為我們開創了可互動的 3D 場景生成世界。

Cube 的發展方向

如今,全球多數地區都運用人工智慧處理文字,用以預測句子中的單字。許多人也將其應用於影像,用以預測像素。然而,當涉及場景建構時,情況便變得複雜許多——所有這些元素匯聚一處,必須在特定情境下相互配合運作。舉例來說,試想一個簡單的場景體驗,其描述為「一名虛擬角色騎著機車,身後是種植著樹木的賽道」。 

建構這項體驗涉及眾多元素。樹木是由兩個 3D 網格組合而成,摩托車則是包含細節與三角面的密集網格,而建築物則由 Roblox 零件構成。騎在摩托車上的虛擬角色,其身體、四肢和頭部具有更複雜的幾何特徵。 最後,我們需要透過佈局將所有元素串聯起來。為此,我們需要使用「邊界框」——這種輪廓框能定義物件的大小與位置,讓我們知道該如何排列這些幾何結構。這雖是個費時費力的過程,但人工智慧能協助每個步驟。借助人工智慧,創作者能更快完成初版,並有更多時間測試新點子或精修場景。 

當我們達成此目標時,期望所創建的 3D 物件與場景能具備完整的功能。我們稱之為「4D 創作」,其中第四維度指的是物件、環境與人之間的互動。要實現這一點,不僅需要建構沉浸式 3D 物件與場景的能力,還必須理解這些物件之間的脈絡與關係。這正是我們透過 Cube 所致力達成的目標。 

除了網格生成這個最初的應用案例之外,我們還計劃將功能擴展至場景生成與理解。 我們將能為使用者提供他們最感興趣的體驗,並透過在情境中添加物件來增強場景。舉例來說,在一個森林場景的體驗中,開發者可以要求助理將樹上所有蔥鬱的綠葉替換為秋葉,以呈現季節的變換。我們的 AI 助理工具會對開發者的請求做出反應,協助他們快速建立、調整並擴展他們的體驗。 

隨著我們持續改進並擴展基礎模型,我們將分享最新動態與新功能。在此之前,我們希望您能盡情使用並基於我們的開源版 Cube 3D 模型進行開發,您可透過 GitHubHuggingFace 取得該模型。