最先端のLLMが、Robloxにおける無制限のテキスト生成の安全性を確保

Roblox Guard 1.0：堅牢な安全対策で安全性を向上

作：マヘシュ・ナンドワナ、アダム・マクファーリン、ニシャイ・カンナ

公開日 2025/07/22

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

本日、開発者およびプラットフォーム向けのオープンソース安全ツールキット「Roblox Guard 1.0」を発表いたします。
Roblox Guardの最初の機能である、LLMの安全性に向けた最先端（SOTA）のガードレールモデルが利用可能となり、主要な安全性ベンチマーク全体で新たな基準を打ち立てました。
また、安全性のベンチマーク評価用データセット「Roblox Guard-Eval」も公開します。

課題

当社は先日、開発者が大規模言語モデル（LLM）の力を活用し、体験内でテキストを生成することで、より豊かで没入感のある体験を構築できる「テキスト生成API」をリリースしました。例えば、開発者は完全にインタラクティブなNPCを作成したり、ゲームの遊び方に関するインタラクティブなチュートリアルを提供したりすることが可能になります。

Robloxでは創業当初から、当社の製品がRobloxの高い安全性およびマナー基準を満たすよう努めており、プラットフォーム上のコンテンツの大部分を積極的に管理してきました。テキスト生成APIをリリースするにあたり、私たちはまず安全性を確保する方法を検討しました。その結果、入力（ユーザーからのプロンプト）と出力（APIから生成されたテキスト）の両方を保護するための新しいモデルを開発しました。

イノベーション

Roblox Guard 1.0 ツールキットの最初の機能は、当社のテキスト生成 API を保護するために設計された、SOTA（最先端）の指示付き微調整済み LLM です。これはプロンプトレベルと応答レベルの両方で安全性分類を行い、各入力や出力が当社のポリシーに違反しているかどうかを判断します。この 2 段階の評価は、ユーザーのクエリとモデル自身が生成した出力の両方をモデレートするために不可欠です。

当社のLLMは現在、標準的なベンチマークにおいて、MetaのLlama Guard、Google AIのShieldGemma、NVIDIA NeMo Guardrails、OpenAIのGPT-4oなど、一般的なLLMガードレールモデルを上回る性能を発揮しています。また、Roblox Guard 1.0のLLMは、未見の分類体系を持つドメイン外のデータセットに対しても、高い汎化能力を示しています。我々は、最初の機能向けのLLM重みと、Roblox Guard-Evalベンチマークデータセットの両方をオープンソース化しました。

当システムの核となるのは、Llama-3.1-8B-Instructモデルから微調整されたLLMです。このLLMのトレーニングでは、安全性判断のパフォーマンスを最適化するため、高品質な指示による微調整に特に重点を置きました。このプロセスにおける重要なステップは、現実世界の多様な安全シナリオを反映するよう、プロンプトと応答を慎重に選定することでした。

当社のインストラクションセットには独自データは一切使用されておらず、合成データ（LLM生成）とオープンソースデータの組み合わせのみを使用しています。これにより、トレーニングデータの拡張が容易になり、スケーリング法則を活用できるため、この最初のRoblox Guard LLMはSOTA（最先端）を実現しています。様々なオープンソースおよび合成データセットを統合する中で、タスクの多様性がLLMが異なるタイプのプロンプトで学習するのに役立つため、データセット固有の分類法を使用することがインストラクションをキュレーションする最良のアプローチであることがわかりました。その結果、異なる安全分類体系にも汎用可能な堅牢なモデルが実現しました。また、モデルが推論プロセスを明確に説明するよう促す「思考の連鎖（Chain-of-Thought）」による根拠説明を、指示セットに組み込みました。これらの中間的な推論ステップにより、モデルは文脈に対するより強固な基盤を得ることができました。

結果

当社の安全チームは、Robloxのコンテンツ安全分類体系全体（25のサブカテゴリ）を網羅する、高品質なカスタム評価データセットを開発しました。この評価セットは、内部でのレッドチーム活動を通じて作成されたもので、敵対的攻撃をシミュレートしてシステムの脆弱性を探すテストが行われており、ユーザー生成データや個人データは含まれていません。この評価データセットには、プロンプトと応答のペアが含まれており、応答部分は品質確保のため、ポリシー専門家チームによって手作業でラベル付けされています。幅広い種類の違反タイプを網羅しており、評価のためのより正確で有意義なラベル作成に役立っています。最終的な評価セットには2,873件の事例が含まれています。この評価データセットはオープンソース化されており、LLMのガードレールやモデレーションシステムのベンチマークに役立つ、拡張可能な安全分類体系を備えています。

我々は、プロンプトとレスポンスの両方に関する包括的なオープンソースデータセットおよびRoblox Guard-Evalを用いて、モデルのベンチマーク評価を行った。これにより、ドメイン内およびドメイン外のデータセットの両方でモデルを評価することが可能となる。結果は、違反/非違反の二値分類におけるF1スコアとして報告しています。上の表では、当社の性能をいくつかの著名なモデルと比較しています。この最初のRoblox Guard機能は、ドメイン外のデータセットに対しても汎化性能を発揮し、他のモデルを上回る結果を示しています。

我々は、Roblox Guard 1.0 ツールを含む安全システムを継続的に改善しており、近い将来、さらなる機能をリリースする予定です。今後のアップデートや改善、およびオープンソース版のリリースについては、HuggingFace および GitHub のページをご確認ください。

最新

その他の結果

最先端のLLMが、Robloxにおける無制限のテキスト生成の安全性を確保

課題

イノベーション

結果

最先端のLLMが、Robloxにおける無制限のテキスト生成の安全性を確保

課題

イノベーション

結果

エンジニアリング

22の新しい言語とより精度の高い検出機能を備えた「Voice Safety」分類器のアップグレード

ニュース

先駆的なAI起業家たちが参画、Robloxの「Reality」ビジョンを加速へ

エンジニアリング

CubePart：オープンボキャブラリー対応のパーツ制御型3Dジェネレーター