最先端のLLMが、Robloxにおける無制限のテキスト生成の安全性を確保
Roblox Guard 1.0:堅牢な安全対策で安全性を向上

- 本日、開発者およびプラットフォーム向けのオープンソース安全ツールキット「Roblox Guard 1.0」を発表いたします。
- Roblox Guardの最初の機能である、LLMの安全性に向けた最先端(SOTA)のガードレールモデルが利用可能となり、主要な安全性ベンチマーク全体で新たな基準を打ち立てました。
- また、安全性のベンチマーク評価用データセット「Roblox Guard-Eval」も公開します。
課題
当社は先日、開発者が大規模言語モデル(LLM)の力を活用し、体験内でテキストを生成することで、より豊かで没入感のある体験を構築できる「テキスト生成API」をリリースしました。例えば、開発者は完全にインタラクティブなNPCを作成したり、ゲームの遊び方に関するインタラクティブなチュートリアルを提供したりすることが可能になります。
Robloxでは創業当初から、当社の製品がRobloxの高い安全性およびマナー基準を満たすよう努めており、プラットフォーム上のコンテンツの大部分を積極的に管理してきました。テキスト生成APIをリリースするにあたり、私たちはまず安全性を確保する方法を検討しました。その結果、入力(ユーザーからのプロンプト)と出力(APIから生成されたテキスト)の両方を保護するための新しいモデルを開発しました。
イノベーション
Roblox Guard 1.0 ツールキットの最初の機能は、当社のテキスト生成 API を保護するために設計された、SOTA(最先端)の指示付き微調整済み LLM です。これはプロンプトレベルと応答レベルの両方で安全性分類を行い、各入力や出力が当社のポリシーに違反しているかどうかを判断します。この 2 段階の評価は、ユーザーのクエリとモデル自身が生成した出力の両方をモデレートするために不可欠です。
当社のLLMは現在、標準的なベンチマークにおいて、MetaのLlama Guard、Google AIのShieldGemma、NVIDIA NeMo Guardrails、OpenAIのGPT-4oなど、一般的なLLMガードレールモデルを上回る性能を発揮しています。また、Roblox Guard 1.0のLLMは、未見の分類体系を持つドメイン外のデータセットに対しても、高い汎化能力を示しています。 我々は、最初の機能向けのLLM重みと、Roblox Guard-Evalベンチマークデータセットの両方をオープンソース化しました。
当システムの核となるのは、Llama-3.1-8B-Instructモデルから微調整されたLLMです。このLLMのトレーニングでは、安全性判断のパフォーマンスを最適化するため、高品質な指示による微調整に特に重点を置きました。このプロセスにおける重要なステップは、現実世界の多様な安全シナリオを反映するよう、プロンプトと応答を慎重に選定することでした。
当社のインストラクションセットには独自データは一切使用されておらず、合成データ(LLM生成)とオープンソースデータの組み合わせのみを使用しています。これにより、トレーニングデータの拡張が容易になり、スケーリング法則を活用できるため、この最初のRoblox Guard LLMはSOTA(最先端)を実現しています。様々なオープンソースおよび合成データセットを統合する中で、タスクの多様性がLLMが異なるタイプのプロンプトで学習するのに役立つため、データセット固有の分類法を使用することがインストラクションをキュレーションする最良のアプローチであることがわかりました。 その結果、異なる安全分類体系にも汎用可能な堅牢なモデルが実現しました。また、モデルが推論プロセスを明確に説明するよう促す「思考の連鎖(Chain-of-Thought)」による根拠説明を、指示セットに組み込みました。これらの中間的な推論ステップにより、モデルは文脈に対するより強固な基盤を得ることができました。
結果

我々は、プロンプトとレスポンスの両方に関する包括的なオープンソースデータセットおよびRoblox Guard-Evalを用いて、モデルのベンチマーク評価を行った。これにより、ドメイン内およびドメイン外のデータセットの両方でモデルを評価することが可能となる。 結果は、違反/非違反の二値分類におけるF1スコアとして報告しています。上の表では、当社の性能をいくつかの著名なモデルと比較しています。この最初のRoblox Guard機能は、ドメイン外のデータセットに対しても汎化性能を発揮し、他のモデルを上回る結果を示しています。
我々は、Roblox Guard 1.0 ツールを含む安全システムを継続的に改善しており、近い将来、さらなる機能をリリースする予定です。今後のアップデートや改善、およびオープンソース版のリリースについては、HuggingFace および GitHub のページをご確認ください。


