本网站内容使用人工智能(AI)或机器翻译技术翻译,可能存在错误。

Skip to content

Roblox Cube 正式发布:我们用于 3D 和 4D 的核心生成式人工智能系统

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • 我们正在发布用于生成式人工智能的 Cube 3D 基础模型。
  • 我们还将开源 Cube 3D 基础模型的一个版本。
  • Cube 3D 网格生成功能的测试版——可在 Roblox Studio 中使用,并作为体验内的 Lua API 提供——将于本周上线。 

去年秋天,我们宣布了一项雄心勃勃的计划,旨在构建一个开源的 3D 基础模型,用于在 Roblox 上创建 3D 物体和场景。本周,我们将该模型的首个版本开源,通过 GitHubHuggingFace 向 Roblox 平台内外所有用户开放使用。 我们将该模型命名为 Cube 3D。随着网格生成 API 的测试版发布,我们也正式推出了该模型的首项功能。Cube 将支撑我们未来数年内开发的众多 AI 工具,包括高度复杂的场景生成工具。它最终将成为一个多模态模型,基于文本、图像、视频及其他类型的输入进行训练,并将与我们现有的 AI 创作工具集成。

Cube 3D 能够直接根据文本(未来还将支持图像)生成 3D 模型和环境。 目前,最先进的 3D 生成技术通常采用图像和重建方法来构建 3D 对象。当 3D 训练数据不足时,这是一种不错的选择。然而,得益于我们平台的特性,我们直接使用原生 3D 数据进行训练。生成的对象与当今的游戏引擎完全兼容,并可进一步扩展以实现对象的功能化。 

这种差异类似于赛车电影的布景。在电视上,您可能会看到一个看似功能齐全的赛道,配有看台、维修站和胜利车道。但如果您在那个布景中走动,很快就会发现这些结构实际上是平面的。构建一个真正沉浸式的3D世界需要完整且功能齐全的结构,包括可以驶入的维修站、可以入座的看台,以及配备功能性领奖台的胜利车道。

为实现这一目标,我们借鉴了基于文本令牌(或字符集)训练的尖端模型,这些模型能够预测下一个令牌以构成句子。我们的创新正是基于这一核心理念。 我们开发了将3D物体分词并将其形状视为分词的能力,并训练Cube 3D预测下一个形状分词以构建完整的3D物体。当我们将这一能力扩展到完整场景生成时,Cube 3D便会预测布局,并递归预测形状以完成该布局。

任何人都可以根据自身需求,对 Cube 3D 进行微调、开发插件,或使用自有数据进行训练。我们坚信 AI 工具应建立在开放与透明的基础上,因此我们始终是开源 AI 社区的坚定合作伙伴。 我们发布了一款AI安全模型,因为我们坚信分享AI安全领域的进展有助于整个行业加速创新和技术进步。出于这一原因,我们还协助创立了ROOST——一个致力于通过开源安全工具解决数字安全重要领域的新型非营利组织。通过将Cube 3D开源,我们的目标是让研究人员、开发者以及更广泛的AI社区能够学习、增强并推动整个行业的3D生成技术发展。

用于创作的 Cube 3D

我们此前曾探讨过 AI 如何加速 3D 资产、配件及体验的创作。最终,AI 将带来更加沉浸式且个性化的游戏体验与社交互动。我们投资建设基础设施,旨在支持创作周期各阶段的 AI 应用——无论是为这些体验的开发者,还是为沉浸其中的用户。 我们憧憬一个未来:开发者通过在体验中启用 AI,为用户提供全新的创作方式。这将使超过 8500 万日活跃用户在游戏过程中,能够亲身掌握 AI 的力量。

过去一年中,我们通过 Roblox Studio 内的 AI 驱动助手推出了多项新功能,为开发者提供所需工具与能力,助力创作并省去数小时的手动工作。借助 Cube,我们旨在提升 3D 创作效率。通过 3D 网格生成功能,开发者可以快速探索新的创意方向,并通过迅速决定推进方向来提高生产力。

试想制作一款赛道游戏。如今,您只需在助手中输入简短提示,例如“/生成摩托车”或“/生成橙色安全锥”,即可调用网格生成 API。几秒钟内,API 就会生成这些物体的网格模型。随后,您可以通过添加纹理、颜色等元素来完善它们。借助此 API,您可以更快地建模道具或设计场景——无需花费数小时来建模简单的物体。 这让你能专注于更有趣的部分,比如设计赛道布局和微调车辆操控。该 API 能为每个创建的对象节省数小时,让你有更多时间去尝试新创意,而无需担心耗费过多时间或精力。长远来看,我们计划支持更复杂、功能更丰富的对象,甚至整个场景。

这项技术惠及每天在 Roblox 上游玩和互动的数千万创意人士。我们展望未来,开发者将借助 AI 技术让用户化身创作者。启用 Mesh Generation API 后,玩家可以将任何想象中的事物化为现实。 如果玩家想要一辆未来感十足的汽车,只需输入“带侧翼的红色未来汽车”或“黑色皮质机车夹克”,即可看到生成效果。这种游戏内的 AI 生成技术将开启一个全新的创意维度。玩家能够以开发者从未想象过的方式个性化自己的游戏体验,这也将使游戏变得更加引人入胜。

幕后揭秘:3D与文本/图像令牌之间的跨模态注意力机制

关键的技术挑战在于将文本和图像与3D形状建立联系。我们的核心技术突破是3D分词技术,它使我们能够像将文本表示为词元一样,将3D物体表示为词元。这让我们能够像语言模型预测句子中的下一个单词一样,预测下一个形状。

为了实现3D生成,我们设计了一种统一的架构,用于单对象的自回归生成、形状补全以及多对象/场景布局生成。自回归变换器是一种利用先前输入来预测下一个组件的神经网络。该架构兼具可扩展性和多模态兼容性,因此随着模型的扩展,它将能够处理多种不同类型的输入(文本、视觉、音频和3D)。 我们将该模型开源。在初期阶段,创作者将能够基于文本提示生成3D物体。未来,我们计划让创作者能够基于多模态输入生成完整的场景。

为了训练用于形状生成的生成式预训练变换器(GPT),我们采用离散的3D形状令牌,并将其与文本提示进行对齐。这一创新方法为我们迈向可交互的3D场景生成领域奠定了基础。

Cube的发展方向

如今,全球许多地方都在利用人工智能处理文本,用于预测句子中的单词。也有许多人将其应用于图像处理,用于预测像素。但在创建场景时,情况就变得复杂得多——所有这些元素汇聚在一起,需要在上下文中相互协作。例如,想象一个简单的场景体验,可以描述为“一个骑着摩托车、身处赛道前、周围有树木的虚拟角色”。 

构建这一体验涉及众多元素。树木由两个3D网格组合而成,摩托车是一个包含细节和三角面的密集网格,而建筑物则由Roblox组件构成。骑在摩托车上的虚拟角色,其身体、四肢和头部具有更复杂的几何特征。 最后,我们需要通过布局将所有元素整合在一起。为此,我们需要使用边界框——它通过勾勒物体轮廓来定义其大小和位置,从而确定如何排列这些几何体。这是一个费时费力的过程,但人工智能能够协助完成每个步骤。借助人工智能,创作者可以更快地完成初版,从而有更多时间测试新想法或优化场景。 

当我们达到这一阶段时,希望所创建的3D物体和场景能够具备完全的功能。我们称之为4D创作,其中第四维度是指物体、环境与人之间的交互。要实现这一点,不仅需要构建沉浸式3D物体和场景的能力,还需理解这些物体之间的语境和关系。这正是我们通过Cube所致力于实现的目标。 

除了网格生成的这一首个用例外,我们计划进一步扩展至场景生成与理解。 我们将能够为用户提供他们最感兴趣的体验,并通过在场景中添加符合上下文的物体来增强场景。例如,在森林场景的体验中,开发者可以要求助手将树上所有郁郁葱葱的绿叶替换为秋叶,以体现季节的变换。我们的AI助手工具会对开发者的请求做出响应,帮助他们快速创建、调整和扩展体验。 

随着我们持续改进和扩展基础模型,我们将分享最新进展和新功能。在此之前,希望您能尽情使用并基于我们的开源版 Cube 3D 模型进行开发,您可以在 GitHubHuggingFace 上获取该模型。