Roblox 如何利用人工智能进行大规模内容审核
每天实时审核25种语言的数十亿条内容

- 为了主动审核 Roblox 上发布的内容,我们利用人工智能构建可扩展系统已有约五年时间。
- 如今,我们的基础设施、机器学习模型以及数千名人工审核专家通力协作,致力于让 Roblox 成为一个更安全、更文明的用户社区。
- 我们开发所有这些系统,旨在实现规模化、高效运行,并借助高质量数据持续优化。
安全是 Roblox 一切工作的基石。从一开始,我们就积极对内容进行审核,因为我们深知,对于一个基于用户生成内容的平台而言,内容审核至关重要。在 Roblox 规模还很小的时候,这项工作由人工审核员负责——包括我们的创始人兼首席执行官,他在早期也曾亲自参与内容审核。 随着时间推移,平台的规模和速度都已超出了人工审核员的能力范围。在推出任何新产品时,安全始终是我们首要考虑的因素。
Roblox 平均拥有 9780 万日活跃用户¹,他们在此游玩、交流和创作。每天,用户平均发送 61 亿条聊天消息,并进行 110 万小时的语音交流,涉及 28 种不同语言。创作者每天上传数百万个资源,还有数千件新物品被添加到我们的虚拟形象市场中。 在这数十亿件创作内容和消息中,绝大多数都是文明的。就像在现实世界中一样——这是大多数人相互交流的方式。但当出现不当内容时,我们的文本过滤系统会在问题内容触达用户前将其拦截,语音违规行为也会被实时评估。如果我们收到关于非法内容的通知,我们的平均响应时间仅为十分钟。
要在毫秒内持续审核如此海量的内容,仅靠人力是无法完成的——无论我们有多少人手。若要达到这种规模和速度,需要数十万名人工审核员全天候工作,不分周末或假期——而这仅仅是审核聊天消息。 若要审核Roblox上的所有其他内容类型,我们还需要数千名审核员。Roblox上每日产生的海量内容,需要可扩展的基础设施、机器学习(ML)模型以及专门设计的工具。
机器学习能在毫秒内做出这些决策,且能全天候不间断地重复执行。对于那些需要根据具体情境进行更深入、更细致的人工判断的罕见案例,我们仍然需要并雇佣人工来处理。我们将强大且创新的安全与审核工具,与全球数千名人工专家相结合,由他们对系统进行监督并持续培训,以应对不断出现的新挑战。Roblox的所有审核系统均基于以下原则:
- 我们对 Roblox 上的内容采取主动审核。
- 我们尽可能向用户提供实时反馈,因为用户往往并不了解相关规则。
- 我们仅在 AI 的大规模表现(包括准确率和召回率)显著优于人类时才部署 AI。
- 我们利用人工力量来持续改进 AI,处理演变中的情况、罕见案例、复杂调查以及申诉。
为了高效管理 Roblox 上日益增长的内容量,我们始终在规模、速度和质量这三个维度上进行创新,这需要持续的改进。
规模:每日处理数十亿条内容
2024年2月至12月期间,用户上传了约1万亿条内容。在这数十亿条文本聊天、音频、语音和图片中,仅有0.01%被检测为违反了我们的任何政策。而且,几乎所有违反政策的内容都在用户看到之前就被自动预筛查并移除了。虽然这种规模相对较新,但我们对内容审核的承诺由来已久。 十多年前,我们构建了基于规则的文本过滤器。大约五年前,我们部署了当时最先进的基于Transformer的文本过滤器。如今,我们的文本过滤器每天平均处理61亿条聊天消息,这些处理工作由众多专为不同类型政策违规而设计的模型提供支持。
其中一个模型是用于检测游戏内及平台聊天中个人身份信息(PII)的过滤器。用户索要他人PII往往是引发更严重问题的第一步,因此我们始终坚决防止PII的分享。每条发送的聊天消息都相当于一个“请求”,要求系统审查并判定其中是否提及任何PII。 该文本过滤模型每秒处理的请求量(RPS)如此之大,以至于现有的基于 CPU 的服务架构已难以支撑。因此,我们利用蜂窝网络基础设施,在 GPU 上构建了一个全新的服务架构。为满足这些高 RPS 需求,我们首先将分词与推理分离,随后通过量化及大型模型的蒸馏技术来加速推理。这些改进共同使我们的 RPS 提升了四倍。
在新架构上,PII过滤器在峰值时可处理37万RPS。改进后的PII过滤器将误报率降低了30%,这使得系统在所有支持语言中自动检测到的PII提及量增加了25%。 我们正在将这一改进推广至其他多种语言,并计划为其他文本过滤器和界面带来类似的优化。尽管我们为这些改进感到自豪,但我们深知个人身份信息(PII)的传播方式始终在演变,因此我们也在随着这些变化不断优化系统。
支撑我们整个审核系统的,是基于Transformer的大型模型,它们具备跨多种模态的知识。根据运营和生产需求,我们对这些模型进行蒸馏和量化,以确保系统运行快速高效。这些技术对于运行各类多模态模型至关重要,目前管理我们文本过滤器的模型已能高效处理超过750,000 RPS。

速度:通过实时反馈改变用户行为

如果用户持续违反我们的政策,后果将日益严重,从简短警告到失去语音聊天权限不等。内部研究表明,封号措施的影响可持续长达三周,可降低再犯率和用户举报数量。早期实验表明,此类即时干预和后果对维护文明氛围具有积极作用。 我们最新版本的语音分类器召回率比初始版本提高了92%,误报率为1%,峰值处理能力可达每秒8,300次请求。我们正在继续探索进一步提高精确率和召回率的方法。
基于语音聊天中通知功能的成功经验,我们已开始在文字聊天中实施实时反馈。近期实验表明,在应用内发送文字聊天通知并实施超时限制后,被过滤的聊天消息减少了5%,因违规举报而产生的处理措施也减少了6%。此外,我们还开始尝试在创作者上传作品时向其提供实时反馈。
数据质量:训练模型以实现持续改进
我们训练这些系统以减少漏报——宁可多删也不要漏删任何可能涉及政策违规的内容。我们也深知,当用户认为合规的内容被下架时,他们会感到沮丧。因此,我们也在不断改进系统,以最大限度地减少误报。正确标注的数据对于提高所有分类器的准确性至关重要。
构建稳健的训练和评估数据集,既需要足够数量的高质量示例,也需要人工专家进行准确标注。有时我们会因场景罕见或属于边界情况而面临数据不足的问题;有时数据过剩,需要从中筛选出最具代表性的示例;此外,数据还必须与 Roblox 平台上的实际情况相符,这包括俚语或网络梗等瞬息万变的内容。 我们的用户群体——儿童、青少年和游戏玩家——不断向我们展示新的俚语、新趋势以及规避内容审核工具的新方法。他们时刻让我们保持警惕,这也是我们持续测试和评估内容审核工具及政策的原因。
我们采用多种采样策略来构建这些数据集,并借助人工智能和人工专家共同生成并标注这些数据样本。我们的政策专家会人工精选样本,我们称之为“黄金样本集”。这些样本最能体现我们希望系统检测出的问题。我们从海量数据集中进行采样,采用多种采样策略,其中包括不确定性采样——即针对模型此前曾产生混淆的边界案例进行采样。 我们还从人工专家和人工智能辅助红队(更多关于 AARTs 的信息)处获取样本,他们通过模拟对抗性攻击来测试系统,从而探查其弱点。
随着我们发现新的问题、俚语、网络梗等,我们还会不断扩展和完善训练集。其中部分示例来自申诉流程——用户可通过该流程申请复核。若裁决被推翻,该示例便会纳入数据集,帮助系统在下次做出正确判断。
其余样本则来自我们强大的滥用举报系统,该系统实质上将数千万关心平台体验和社区的用户纳入了人工审核团队。我们最近优化了举报工具,用户现在可以选择截取整个场景(包括头像和对象 ID),并标注需要举报的部分。 用户对此功能接受度很高,约15%符合条件的举报提供了视觉标注。这些额外信息有助于我们主动识别用户频繁举报的问题场景。鉴于模型训练并非即时完成,我们还正在探索如何根据用户举报自动生成AI驱动的规则,以提升响应速度。

我们通过合成数据对这些数据集进行补充,即利用大型语言模型(LLMs)生成模拟真实世界示例的人工数据样本及其标签。其优势在于能够生成数百万个样本和标签,即使针对罕见或边缘案例亦是如此。一旦获得足够的标注数据,我们会将其拆分为两个数据集:一个用于训练,另一个用于评估。 拥有一个可靠的评估数据集至关重要:如果评估集过于简单,模型的指标看似表现良好——但在实际生产环境中却会失效。数据的准确性比数据量更为重要。“垃圾进,垃圾出”是机器学习中一个切实的担忧,因为模型的性能在很大程度上取决于用于训练和评估的数据的准确性。
获得可靠的评估数据集后,我们会基于两个关键指标进行评估:一致性和质量。为了测试一致性,我们会将相同的示例发送给多名人工审核员进行标注,并观察他们的标注是否一致(或对齐)。如果标注的一致性达到80%或更高,这意味着我们的审核员能够在大规模场景下做出一致的决策。如果低于80%,则可能表明政策或培训存在混淆之处,我们需要进行迭代优化。 为了测试质量,我们会将黄金数据集发送给人工审核员,评估其是否违反政策,并确保他们做出正确决策。我们还会抽取部分决策供专家复核。如果专家们都做出了正确判断,则说明我们的政策能够被正确执行。高一致性和高质量表明我们的政策能够被正确且一致地执行。若非如此,我们将回溯并重新评估政策和训练集。
像 Roblox 这样的平台具有高度的创造性,用户可以自由创作和交流几乎任何内容,这意味着它始终在不断演变。我们的内容审核方法必须同样快速地进化,以保持社区的安全与文明。随着语言的演变、用户行为模式的变化以及现实世界事件的发生,我们的主动学习系统会持续更新模型。我们正在不断构建可扩展、快速、准确且能够持续适应我们所处动态世界的系统。
1截至2025年第一季度。
2涵盖2024年2月17日至2024年12月31日的报告期。


