Un LLM de pointe contribue à sécuriser la génération illimitée de texte sur Roblox

Roblox Guard 1.0 : renforcer la sécurité grâce à des garde-fous robustes

Par Mahesh Nandwana, Adam McFarlin et Nishchaie Khanna

Publié 22 juil. 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

Aujourd'hui, nous annonçons Roblox Guard 1.0, une boîte à outils open source dédiée à la sécurité destinée aux développeurs et aux plateformes.
La première fonctionnalité de Roblox Guard, un modèle de garde-fou de pointe (SOTA) pour la sécurité des modèles de langage (LLM), est désormais disponible et établit une nouvelle norme parmi les principaux benchmarks de sécurité.
Nous publions également Roblox Guard-Eval, un ensemble de données destiné à l'évaluation comparative de la sécurité.

Le défi

Nous avons récemment lancé une API de génération de texte qui permet aux développeurs d'exploiter la puissance des grands modèles linguistiques (LLM) pour créer des expériences plus riches et plus immersives en générant du texte au sein de leurs expériences. Par exemple, un développeur pourrait créer un PNJ entièrement interactif ou proposer un tutoriel interactif sur la façon de jouer au jeu.

Nous modérons de manière proactive la plupart des contenus sur Roblox depuis nos débuts, car nous nous efforçons de maintenir nos produits conformes aux normes élevées de Roblox en matière de sécurité et de civilité. Avant de lancer l'API de génération de texte, nous avons d'abord examiné comment intégrer la sécurité. Nous avons développé un nouveau modèle pour aider à protéger à la fois les entrées (suggestions des utilisateurs) et les sorties (texte généré par l'API).

L'Innovation

La première fonctionnalité de la boîte à outils Roblox Guard 1.0 est un modèle LLM de pointe (SOTA) finement ajusté, conçu pour aider à protéger notre API de génération de texte. Il effectue une classification de sécurité à la fois au niveau de la requête et de la réponse, déterminant si chaque entrée ou sortie enfreint ou non nos politiques. Cette évaluation à deux niveaux est essentielle pour modérer à la fois les requêtes des utilisateurs et les sorties générées par le modèle lui-même.

Notre LLM surpasse actuellement les modèles de garde-fous LLM populaires tels que Llama Guard de Meta, ShieldGemma de Google AI, NVIDIA NeMo Guardrails, GPT-4o d'OpenAI et d'autres sur des benchmarks standard. Le LLM Roblox Guard 1.0 fait également preuve d'une forte généralisation sur des ensembles de données hors domaine avec une taxonomie inédite. Nous avons mis en open source à la fois les poids du LLM pour notre première fonctionnalité et notre ensemble de données de benchmarking Roblox Guard-Eval.

Au cœur de notre système se trouve un LLM qui a été affiné à partir du modèle Llama-3.1-8B-Instruct. Nous avons entraîné ce LLM en mettant particulièrement l'accent sur un réglage des instructions de haute qualité afin d'optimiser les performances en matière de jugement de sécurité. Une étape cruciale de ce processus a consisté à sélectionner avec soin les invites et les réponses afin de refléter un large éventail de scénarios de sécurité réels.

Notre ensemble d'instructions n'utilise aucune donnée propriétaire, mais uniquement une combinaison de données synthétiques (générées par le LLM) et open source, ce qui nous permet de faire évoluer plus facilement les données d'entraînement et de tirer parti des lois d'échelle, faisant ainsi de ce premier LLM Roblox Guard le meilleur de sa catégorie (SOTA). En fusionnant divers ensembles de données open source et synthétiques, nous avons constaté que l'utilisation d'une taxonomie spécifique à l'ensemble de données était la meilleure approche pour sélectionner les instructions, car la diversité des tâches aide les LLM à s'entraîner sur différents types de prompts. Cela a abouti à un modèle robuste pouvant être généralisé à différentes taxonomies de sécurité. Nous avons également intégré dans l’ensemble d’instructions des justifications de type « chaîne de pensée », qui encouragent le modèle à articuler son processus de raisonnement. Ces étapes intermédiaires de raisonnement ont donné au modèle un ancrage contextuel plus solide.

Les résultats

Notre équipe chargée de la sécurité a développé un ensemble de données d'évaluation personnalisé et de haute qualité couvrant la taxonomie de sécurité du contenu de Roblox, qui comprend 25 sous-catégories. Cet ensemble d'évaluation est créé par le biais d'une simulation d'attaques internes, au cours de laquelle nous testons le système en simulant des attaques adversaires afin de détecter des vulnérabilités, et ne contient aucune donnée générée par les utilisateurs ni aucune donnée personnelle. Cet ensemble de données d'évaluation contient des paires de requêtes et de réponses, ces dernières ayant été annotées manuellement par un groupe d'experts en matière de politiques afin d'en garantir la qualité. Il couvre un large éventail de types d'infractions, ce qui nous aide à créer des étiquettes plus précises et plus pertinentes pour l'évaluation. L'ensemble d'évaluation final comprend 2 873 exemples. Nous avons mis cet ensemble de données d'évaluation en open source ; il comprend une taxonomie de sécurité extensible destinée à faciliter l'évaluation comparative des garde-fous des modèles de langage à grande échelle (LLM) et des systèmes de modération.

Nous évaluons nos modèles sur un ensemble complet de jeux de données open source, tant pour les invites que pour les réponses, ainsi que sur Roblox Guard-Eval. Cela nous permet d'évaluer notre modèle sur des jeux de données à la fois intra-domaine et extra-domaine. Nous présentons nos résultats en termes de score F-1 pour la classification binaire « violation/non-violation ». Dans le tableau ci-dessus, nous comparons nos performances à celles de plusieurs modèles bien connus. Cette première fonctionnalité de Roblox Guard surpasse les autres modèles tout en s'adaptant aux ensembles de données hors domaine.

Nous améliorons continuellement nos systèmes de sécurité, y compris nos outils Roblox Guard 1.0, et prévoyons de lancer des fonctionnalités supplémentaires dans un avenir proche. Veuillez consulter nos pages sur HuggingFace et GitHub pour les mises à jour et améliorations à venir, ainsi que pour les futures versions open source.

Récents

Plus de résultats

Un LLM de pointe contribue à sécuriser la génération illimitée de texte sur Roblox

Le défi

L'Innovation

Les résultats

Un LLM de pointe contribue à sécuriser la génération illimitée de texte sur Roblox

Le défi

L'Innovation

Les résultats

Ingénierie

Amélioration de notre classificateur de sécurité vocale avec 22 nouvelles langues et des capacités de détection plus précises

Actualités

Des fondateurs pionniers de l'IA s'associent pour accélérer la vision de la réalité de Roblox

Ingénierie

CubePart : un générateur 3D à vocabulaire ouvert et contrôlable par parties