Roblox迈向4D生成式AI之路

作者摩根·麦奎尔，首席科学家

已发布 2024年6月17日

Roblox正致力于开发4D生成式AI，超越单一的3D物体，实现动态交互。
要解决 4D 领域的挑战，需要对外观、形状、物理特性及脚本进行多模态理解。
作为我们 4D 系统基础的早期工具，已显著加速了平台上的创作进程。

Roblox 通过提供创作者将创意变为现实所需的工具、服务和支持，赋能他们打造沉浸式 3D 体验、虚拟形象及配件。正是这些创作者构建了我们平台上丰富多彩的内容，吸引了超过 7700 万日活跃用户（截至 2024 年第一季度）。通过我们的免费 Roblox Studio 应用，我们发布了一套生成式 AI 工具，这些工具专为 Roblox 工作流程设计，并基于 Roblox 特有的内容进行训练。

无论对专家还是新手而言，这些工具都能让创作变得更轻松、更高效、更有趣。Assistant支持3D工作区编辑，Animation Capture支持面部和身体动作捕捉，Code Assist协助脚本编辑与编写，Material Generator支持贴图材质外观生成，而Texture Generator则支持针对特定资源的纹理映射。这些生成式AI工具各自强化了3D创作流程中的某个环节。

这些工具协同作用，不仅能拓展创作者的技能储备，更能大幅缩短从构思到完成的作品制作周期。我们结合自身创新性的研究突破以及更广泛的人工智能生态系统中的顶尖解决方案，打造了这些工具。它们涵盖了1D（脚本）、2D（曲面）和3D（空间）中单个资产的创作。我们在包括Roblox开发者大会在内的各类国际研究会议上，展示了3D几何生成与编辑实验室的部分成果。

在整个行业中，1D 和 2D 技术已处于领先水平，而 3D 技术则是生成式 AI 的前沿领域。每一项都面临着日益严峻的挑战，这些挑战不断推动着令人振奋的技术进步。由于我们生活在 3D 空间中，这似乎是生成式 AI 的终极挑战。然而，基于我们社区的需求，我们对这项工作的愿景还远不止于此。

当前进展

我们正致力于开发4D生成式AI，其中第四维度即为交互。 Roblox在线平台的强大之处在于交互——即人与人、物体与物体、以及人与环境之间的交互。与传统在线电子游戏不同，Roblox强大的运行时引擎采用了一种专注于交互的独特编程与模拟模型。该模型的灵感源自元宇宙的概念，在元宇宙中，各种元素以复杂、多对多且自发的方式相互交汇，而非受制于预设的、有限的模式。

1D、2D 和 3D 生成式 AI 工具仅能生成独立的资产。我们在 4D 生成式 AI 方面面临的挑战，在于如何让这些资产“活”起来，并以适合我们平台的方式实现无限制的交互。例如，这意味着一个虚拟角色不仅拥有形状和颜色，还包含骨骼、动画，以及抓取工具和保持平衡的能力。该虚拟角色可以穿着并非专门为其设计的服装，这些服装会自动调整以完美贴合身形，并追踪所有动作。我们的全新“虚拟角色自动设置”工具，正是生成式AI如何帮助自动化此类创作的早期范例。开发者现在只需几分钟即可完成这一过程，而非数小时或数天。

一辆跑车不仅仅拥有流线型的外观和车身涂装——它还包含引擎、可动部件以及物理骨骼系统，正是这些使其能够精准且可控地在虚拟街道上疾驰。在每种情况下，对象都从3D维度延伸出来，通过物理引擎与所有部件互动，并通过用户的虚拟形象与用户互动。

这些高度互动的4D元素均可融入更广阔的环境中，生成式AI会协调各元素的风格，并在物体之间以及物体与环境之间注入交互支持。如今，用户可通过虚拟形象参与带有损伤效果和高分机制的街头竞速，并在品牌时尚店前急刹停下，选购新装以庆祝胜利。

如今，要打造此类体验，需要手动编写脚本源代码、构建工作区和数据模型结构，并创建3D几何体、动画及材质。我们现有的生成式AI工具可协助处理流程中的每个环节。我们正在构建一个能够将所有这些元素连接起来并同时生成的系统。为实现这一目标，我们必须以多模态方式（即同时处理多种类型的数据）来训练我们的 4D 生成式 AI 系统。对于图像和文本，这一工作已经完成，并为“材质生成器”提供了动力。通过实现交互功能并添加专为物理特性设计的优化器，我们将实现 4D 能力的下一阶段。

仅在过去一年里，我们目睹了 Roblox 上内容创作方式的巨大变革。展望未来，我们期待一个无论身处何地、任何人都能通过简单输入或语音指令将创意变为现实的世界。为了实现这一愿景，我们需要着手解决前进道路上将面临的一些挑战。

我们面临的挑战

我们上述分享的实验功能将在不久的将来推出。放眼长远，我们需要攻克以下三个明确的挑战：

1. 功能性：未来生成式 AI 工具所创建的物体必须具备功能性。这意味着系统在面对卡车或飞机等具有 3D 形状的物体时，不能将其视为封闭的不透明物体。无需创作者干预，系统就能自动识别：哪些部位需要关节，或者网格需要在哪里打开。

这是这些系统必须解决的人类级AI难题——例如，寻找正确的车轮位置，然后为车轮添加车轴，使其运作方式与物理世界中的车轮相同。还要找出车门的位置，然后切开开口并添加铰链，使车门能够开合。

2. 交互性：利用这种未来生成式AI创建的物体，不仅需要能够独立运作，还需能与环境中的其他物体进行交互。因此，当系统为我们生成了一辆车门可开、车轮可转的汽车后，它还需要理解汽车所处环境的物理规律。车辆在地形上如何移动？如果它撞上巨石，根据巨石的大小和车辆的速度，它会在何处、以何种方式变形？

这一复杂挑战要求所创建的物体及其交互的环境或物体，彼此理解对方的物理特性。幸运的是，Roblox 在这方面具有先发优势，因为该平台本身就是基于物理引擎构建的，这意味着体验中的所有物体都具备物理属性。当生成式 AI 创建一个 4D 物体时，材料、质量和强度等物理属性也会被赋予，以便它能与世界中其他基于物理的物体进行交互。

3. 可控性：如今，我们通过提示词与生成式 AI 进行交互。这门“科学”尚不成熟，宛如一场寻宝游戏。当有人要求生成一只兔子的图像时，可能会收到五花八门的结果：真实的兔子、巧克力复活节兔子、卡通兔子、兔子画作，或是穿着大衣的兔子插画。因此，我们会不断优化提示词，要求生成“照片级真实感”的图像或“特定风格”的图像，以此逐步接近脑海中的构想。这一过程需要耗费时间并反复尝试，才能逐渐接近理想结果。

试想一下，如果要为一个具有功能且能与其他物体交互的3D对象（如上文示例中的卡车）进行这一过程，提示工程的复杂度将呈指数级增长——这绝非任何人都能轻易驾驭。为了将创作者的构想变为现实，我们需要一种更快、更简便的沟通与优化方式，本质上是与AI助手进行协作，使其更像合作伙伴，而非一场寻宝游戏。

这是整个行业面临的挑战，许多公司都在努力提升生成式AI的可控性。我们通过ControlNet等工具取得了一些进展，该技术允许创作者在文本提示之外提供额外的输入条件，从而增强了控制力。目前，我们正在探索其他有望实现理想工作流的方法，例如让AI在关键步骤后暂停以等待用户输入。但要实现无缝体验，我们还有很长的路要走。

我们对迄今取得的成果感到振奋，更对未来的发展充满期待。与未使用Material Generator测试版的内容创作者相比，使用该功能的用户对基于物理的渲染（PBR）材质变体的使用量增长了100%以上——从2023年3月的仅千余次增至2024年6月的两千余次。截至 2024 年 6 月 2 日，创作者已采用 Code Assist 建议的约 5.35 亿行代码。

随着我们逐步攻克通往4D道路上的挑战，创作者将能够更快地创造更多内容。随着我们让更多人成为创作者，我们预计Roblox上将呈现更加丰富多样的体验。他们构建的内容及其构建方式，将指引我们如何投资于新工具和AI算法，从而赋能这些新创作者，并与现有社区共同成长。

凭借4D生成式AI，Roblox为体验和资产创作开辟了新天地。尽管面临的是全新的挑战，但我们的创新流程已臻成熟。我们整合了顶尖的内部研发团队、高校合作资源，并携手社区对原型进行快速迭代。

最新

更多结果

Roblox迈向4D生成式AI之路

当前进展

我们面临的挑战

Roblox迈向4D生成式AI之路

当前进展

我们面临的挑战

工程

通过新增22种语言和更精准的检测能力，升级我们的语音安全分类器

新闻

人工智能领域先驱创始人联手加速实现 Roblox 的现实愿景

工程

CubePart：一款支持开放词汇表且可控部件的3D生成器