尖端LLM助力保障Roblox上无限文本生成功能的安全
Roblox Guard 1.0:通过强大的防护措施提升安全性

- 今天,我们宣布推出 Roblox Guard 1.0,这是一个面向开发者和平台的开源安全工具包。
- Roblox Guard的首项功能——一款用于大型语言模型(LLM)安全的最先进(SOTA)防护模型——现已发布,在各大主流安全基准测试中树立了新标杆。
- 我们同时发布了 Roblox Guard-Eval,这是一个用于安全基准测试的数据集。
挑战
创新
Roblox Guard 1.0 工具包的首项功能是一个经过指令微调的 SOTA 大型语言模型(LLM),旨在帮助保障我们的文本生成 API 的安全。该模型在提示词和响应两个层面进行安全分类,判断每个输入或输出是否违反我们的政策。这种双层评估对于审核用户查询和模型自身生成的输出都至关重要。
在标准基准测试中,我们的 LLM 目前表现优于 Meta 的 Llama Guard、Google AI 的 ShieldGemma、NVIDIA NeMo Guardrails、OpenAI 的 GPT-4o 等主流 LLM 防护模型。Roblox Guard 1.0 LLM 在具有未知分类体系的域外数据集上也展现出强大的泛化能力。 我们已将首项功能所用的 LLM 权重以及 Roblox Guard-Eval 基准测试数据集开源。
我们系统的核心是一个基于 Llama-3.1-8B-Instruct 模型微调而成的 LLM。在训练过程中,我们特别注重高质量的指令微调,以优化安全判断性能。这一过程中至关重要的一步是精心筛选提示词和响应,以反映多样化的现实世界安全场景。
我们的指令集未使用任何专有数据,仅结合了合成数据(由LLM生成)和开源数据,这使我们能够更轻松地扩展训练数据并利用规模法则,从而使这款首款Roblox Guard LLM成为当前最先进(SOTA)的模型。在整合各种开源和合成数据集时,我们发现采用数据集特有的分类法是构建指令的最佳方法,因为任务多样性有助于LLM在不同类型的提示词上进行训练。 由此构建出的模型表现稳健,能够泛化至不同的安全分类体系。此外,我们还在指令集中融入了“思维链”推理机制,引导模型清晰阐述其推理过程。这些中间推理步骤为模型提供了更强有力的语境支撑。
结果

我们在涵盖提示词和响应内容的全面开源数据集以及 Roblox Guard-Eval 数据集上对模型进行了基准测试。这使我们能够同时评估模型在域内和域外数据集上的表现。 我们以二元分类(违规/不违规)的F1分数报告结果。在上表中,我们将我们的性能与几个知名模型进行了比较。这一首个Roblox Guard功能在泛化到域外数据集时表现优于其他模型。
我们正在持续改进安全系统,包括 Roblox Guard 1.0 工具,并计划在不久的将来发布更多功能。请关注我们在 HuggingFace 和 GitHub 上的页面,了解未来的更新、改进以及开源版本的发布。


