利用生成式人工智能革新Roblox上的创作

作者丹尼尔·斯特曼，Roblox首席技术官

已发布 2023年9月11日

Revolutionizing Creation on Roblox with Generative AI

今年早些时候，我们分享了关于 Roblox 上生成式人工智能（AI）的愿景，以及那些将使每位用户都能成为创作者的直观新工具。随着这些工具在整个行业中迅速发展，我想就我们取得的进展、实现生成式 AI 创作民主化所面临的挑战，以及我们为何认为生成式 AI 是 Roblox 未来发展的重要组成部分，提供一些最新动态。

生成式AI和大型语言模型（LLMs）的进步带来了绝佳机遇，通过实现更简单、更快速的创作，同时确保安全且无需消耗海量计算资源，从而开启沉浸式体验的未来。此外，多模态AI模型的进步——即通过图像、代码、文本、3D模型和音频等多类内容进行训练——为创作工具的创新开辟了新路径。这些模型也开始生成多模态输出，例如既能生成文本，又能生成与文本相辅相成的视觉内容。我们认为这些AI突破是一个巨大的机遇，既能提升经验丰富创作者的效率，又能让更多人通过Roblox将精彩创意变为现实。在今年的Roblox开发者大会（RDC）上，我们发布了多项新工具，将生成式AI引入Roblox Studio及更广泛的应用场景，帮助Roblox上的每位用户更快地扩展规模、加速迭代，并提升技能以创作更优质的内容。

Roblox Assistant

Roblox 一直致力于为创作者提供构建沉浸式 3D 体验所需的工具、服务和支持。与此同时，我们也注意到创作者们开始使用第三方生成式和对话式 AI 辅助创作。虽然这些现成工具有助于减轻创作者的工作负担，但它们并非为 Roblox 的端到端工作流程而设计，也未针对 Roblox 的代码、俚语和行话进行训练。这意味着创作者若要利用这些工具为 Roblox 创作内容，将面临大量额外工作。我们一直在探索将这些工具的价值引入 Roblox Studio 的方法，并在 RDC 上分享了 Assistant 的早期示例。

Assistant 是我们的对话式人工智能，它能让不同技能水平的创作者大幅减少在创作过程中繁琐重复任务上花费的时间，从而将更多精力投入到叙事、游戏玩法和体验设计等高价值活动中。得益于海量的公开 3D 模型用于训练、将模型与平台 API 集成以及日益丰富的创新 AI 解决方案，Roblox 拥有得天独厚的优势，能够为沉浸式 3D 世界构建这一对话式 AI 模型。创作者将能够使用自然语言文本提示来创建场景、编辑 3D 模型，并为对象添加交互行为。Assistant 将支持创作的三个阶段：学习、编码和构建：

学习：无论创作者是初次接触 Roblox 开发，还是经验丰富的资深开发者，Roblox Assistant 都将通过自然语言帮助解答各类问题。
编码：Assistant 将进一步扩展我们近期推出的 Code Assist 工具。例如，开发者可以要求 Assistant 优化代码、解释代码片段，或协助调试并为运行异常的代码提供修复建议。
构建：Assistant 将帮助创作者快速将新想法转化为原型。例如，新手创作者只需输入“在这条路上添加一些路灯”或“创建一片由不同树种组成的森林，现在再添加一些灌木和花朵”等提示，即可生成完整的场景并尝试不同版本。

与 Assistant 的协作将具有协作性、交互性和迭代性，创作者可以提供反馈，让 Assistant 据此提供正确的解决方案。这就像拥有了一位专家级创作伙伴，你可以与之探讨创意，不断尝试直到找到最佳方案。

为了让 Assistant 成为最优秀的伙伴，我们在 RDC 上发布了另一项公告：我们邀请开发者选择加入，贡献其匿名化的 Luau 脚本数据。这些脚本数据将帮助我们的 AI 工具（如 Code Assist 和 Assistant）显著提升代码建议和生成效率，从而回馈使用这些工具的 Roblox 开发者。此外，若开发者选择在 Roblox 平台之外分享数据，其脚本数据将被纳入一个向第三方开放的数据集，用于训练他们的 AI 聊天工具，从而更好地建议 Luau 代码，回馈全球的 Luau 开发者。

需要明确的是，通过全面的用户调研以及与顶尖开发者的透明沟通，我们设计了这一基于自愿参与的机制，并将确保所有参与者充分理解并同意该计划的具体内容。为感谢选择与 Roblox 共享脚本数据的开发者，我们将向其开放由该社区训练模型驱动的更强大版本的 Assistant 和 Code Assist。未选择加入的开发者将继续使用现有版本的 Assistant 和 Code Assist。

更简便的虚拟形象创建

归根结底，我们希望 6550 万日活跃用户中的每一位都能拥有一个真正代表自己、展现真实自我的虚拟形象。我们近期已向 UGC 计划成员开放了创建并销售虚拟形象躯干及独立头部模型的功能。目前，该流程需要使用 Studio 或加入 UGC 计划，且需具备相当高的技术水平，并耗费数天时间来实现面部表情、身体动作、3D 骨骼绑定等功能。这使得虚拟形象的制作过程十分耗时，也限制了现有选项的数量。我们希望更进一步。

为了让每位 Roblox 用户都能拥有个性化且富有表现力的虚拟形象，我们需要让虚拟形象的生成和定制变得极其简单。在RDC大会上，我们宣布将于2024年推出一款新工具，它将支持用户通过单张或多张图片轻松创建定制化虚拟形象。借助该工具，任何拥有Studio或UGC计划访问权限的创作者都能上传图片，生成专属虚拟形象，并按需进行修改。长远来看，我们还计划将此功能直接集成到Roblox的各类体验中。

为实现这一目标，我们正在基于 Roblox 的虚拟形象架构及 Roblox 自有的一组 3D 虚拟形象模型对 AI 模型进行训练。其中一种方法利用了从 2D 图像生成 3D 风格化虚拟形象的研究成果。我们还计划利用预训练的文本到图像扩散模型，结合2D生成技术来补充有限的3D训练数据，并采用基于生成对抗网络（GAN）的3D生成网络进行训练。最后，我们正在研究使用ControlNet技术，通过叠加预定义姿势来引导生成虚拟角色的多视角图像。

该流程将生成虚拟角色的3D网格。接下来，我们利用基于3D虚拟角色姿势训练的3D语义分割研究成果，对该3D网格进行调整，添加相应的面部特征、骨骼框架、绑定系统和纹理，从而将静态3D网格转化为Roblox虚拟角色。最后，通过网格编辑工具，用户可以对模型进行变形和调整，使其更接近自己想象中的样子。整个过程非常迅速——仅需几分钟——即可生成一个新的虚拟角色，该角色可以导入Roblox并在体验中使用。

语音通信的审核

对我们而言，AI不仅关乎内容创作，更是确保社区在规模化运营中保持多元化、安全且文明的更高效系统。随着我们开始推出包括语音聊天、Roblox Connect、以虚拟形象进行通话的新功能以及在RDC上发布的API在内的一系列新语音功能，我们面临着一个新挑战——实时审核语音内容。当前行业的标准做法是采用一种称为自动语音识别（ASR）的过程，其基本原理是获取音频文件，将其转录为文本，然后分析文本以查找不当语言、关键词等。

对于小规模应用该技术的公司而言，这种方法效果良好，但当我们尝试使用相同的 ASR 流程来审核语音通信时，很快意识到在我们的规模下，这既困难又低效。此外，这种方法还会丢失说话者音量和语调中蕴含的极其宝贵的信息，以及对话的整体语境。在我们每天需要转录的数百万分钟跨语言对话中，可能被判定为不当内容的占比微乎其微。而且随着业务规模持续扩大，该系统将需要越来越多的计算能力才能维持运行。因此，我们深入研究了如何更高效地实现这一目标，最终构建了一条从实时音频直接到内容标注的管道，用于判断内容是否违反我们的政策。

最终，我们成功构建了一套自研的语音检测系统：先利用语音识别（ASR）技术对内部语音数据集进行分类，再利用这些分类后的语音数据对系统进行训练。具体而言，在训练该新系统时，我们首先获取音频并生成转录文本。随后，我们将转录文本输入 Roblox 文本过滤系统进行分类。该文本过滤系统在检测 Roblox 平台上的违规语言方面表现优异，因为我们多年来一直针对 Roblox 特有的俚语、缩写和行话对该系统进行优化。经过多层训练后，我们最终获得了一个能够实时直接从音频中检测政策违规的模型。

虽然该系统确实具备检测脏话等特定关键词的能力，但政策违规行为很少仅由一个词构成。同一个词在某种语境下可能显得有问题，而在另一种语境下却完全正常。本质上，此类违规涉及你说什么、怎么说以及发言的语境。

为了更好地理解语境，我们利用了基于Transformer架构的固有优势——该架构在序列摘要方面表现尤为出色。它能够处理音频流等序列数据，并为用户生成摘要。这种架构使我们能够保留更长的音频序列，从而不仅能检测单词，还能捕捉语境和语调。当所有这些要素结合在一起时，我们就构建出了最终系统：其输入是音频，输出则是分类结果——是否违反政策。该系统不仅能检测关键词和违反政策短语，还能识别语调、情感以及其他对判断意图至关重要的上下文信息。这一直接从音频中检测违规言论的新系统，其计算效率远高于传统语音识别（ASR）系统，这将极大简化系统扩展流程，助力我们持续重塑人们的互动方式。

此外，我们需要一种新方法，向语音通讯工具的用户警示此类言论可能带来的后果。借助这一创新检测系统，我们正在探索影响在线行为的各种方式，以维护安全的环境。我们理解用户有时会无意中违反政策，因此希望了解适时的提醒是否有助于防止后续违规。为此，我们正在尝试通过通知提供实时用户反馈。如果系统检测到您多次发表违反政策的内容，我们将在您的屏幕上显示弹出通知，告知您的言论违反了政策，并引导您查阅政策详情。

不过，语音流通知仅是审核系统的一个环节。我们还会综合分析平台上的行为模式以及其他 Roblox 用户的投诉，以此作为整体审核决策的依据。这些信号的综合评估可能导致更严厉的后果，包括撤销音频功能使用权限，或针对更严重的违规行为，直接禁止用户使用平台。随着多模态 AI 模型、生成式 AI 和大型语言模型（LLMs）的融合发展，为创作者带来了令人惊叹的新工具和能力，因此维护社区的安全与文明至关重要。

我们相信，为创作者提供这些工具既能降低经验不足创作者的入门门槛，也能让经验丰富的创作者从繁琐的流程中解脱出来。这将使他们有更多时间专注于微调和构思等富有创造力的环节。我们所有这些举措的目标，是让世界各地的每个人都能将创意变为现实，并大幅增加 Roblox 上可用虚拟形象、物品和体验的多样性。我们还分享信息和工具，以帮助保护新创作。

我们已经预见到了令人惊叹的可能性：假设有人能直接根据照片创建一个分身虚拟形象，随后便可对其进行定制，使其变得更高挑，或将其渲染成动漫风格。又或者，他们可以要求助手添加汽车、建筑和风景，设置光照或风力条件，甚至改变地形，从而构建出独特的体验。在此基础上，他们只需通过与助手进行文字对话，即可不断迭代以完善作品。我们深知，随着这些工具的普及，人们实际创造出的成果必将远超我们的想象。

利用生成式人工智能革新Roblox上的创作

Roblox Assistant

更简便的虚拟形象创建

语音通信的审核

工程

通过新增22种语言和更精准的检测能力，升级我们的语音安全分类器

新闻

人工智能领域先驱创始人联手加速实现 Roblox 的现实愿景

工程

CubePart：一款支持开放词汇表且可控部件的3D生成器