Comment Roblox utilise l'IA pour modérer le contenu à grande échelle

Modération de milliards de contenus par jour dans 25 langues, en temps réel

Par Naren Koneru, vice-président de l'ingénierie et de la sécurité

Publié 9 juil. 2025

Afin de modérer de manière proactive le contenu publié sur Roblox, nous développons depuis environ cinq ans des systèmes évolutifs s'appuyant sur l'IA.
Aujourd'hui, notre infrastructure, nos modèles d'apprentissage automatique et des milliers d'experts travaillent ensemble pour faire de Roblox un espace plus sûr et plus respectueux pour nos utilisateurs.
Nous développons tous ces systèmes dans un souci d'évolutivité, de rapidité et d'amélioration continue grâce à des données de haute qualité.

La sécurité est au cœur de tout ce que nous faisons chez Roblox. Dès le début, nous avons modéré le contenu de manière proactive, car nous savions que la modération était essentielle pour une plateforme reposant sur du contenu généré par les utilisateurs. Lorsque Roblox était beaucoup plus petit, cette tâche était assurée par des modérateurs humains, y compris notre fondateur et PDG, qui a lui-même passé du temps à modérer le contenu au tout début. Au fil du temps, la plateforme s’est développée (tant en taille qu’en vitesse) au-delà des capacités des modérateurs humains. Lors du lancement de tout nouveau produit, la sécurité est toujours le premier élément que nous prenons en compte.

En moyenne, 97,8 millions d’utilisateurs actifs quotidiens¹ viennent sur Roblox pour jouer, communiquer et créer. Chaque jour, les utilisateurs envoient en moyenne 6,1 milliards de messages de chat et échangent 1,1 million d’heures de communication vocale dans 28 langues différentes. Les créateurs mettent en ligne des millions de ressources par jour, et des milliers d’autres éléments sont ajoutés à notre boutique d’avatars. La grande majorité de ces milliards de créations et de messages est courtoise. Comme dans le monde réel, c’est ainsi que la plupart des gens communiquent entre eux. Mais lorsque ce n’est pas le cas, notre système de filtrage de texte aide à bloquer les contenus problématiques avant qu’ils n’atteignent les utilisateurs, et les violations vocales sont évaluées en temps réel. Et lorsque nous recevons un signalement de contenu illégal, notre délai médian d’intervention est de dix minutes.

Modérer en permanence ce volume de contenu en quelques millisecondes est une tâche que les humains ne peuvent pas gérer seuls, quel que soit leur nombre. Travailler à cette échelle et à cette vitesse nécessiterait des centaines de milliers de modérateurs humains travaillant 24 heures sur 24, 7 jours sur 7, sans compter les week-ends ni les vacances — et cela ne concernerait que la modération des messages de chat. Il nous en faudrait des milliers d’autres pour modérer tous les autres types de contenu sur Roblox. Le volume de contenu produit quotidiennement sur Roblox exige une infrastructure évolutive, des modèles d’apprentissage automatique (ML) et des outils spécialement conçus.

L'apprentissage automatique peut prendre ces décisions en quelques millisecondes, de manière répétée, cohérente et 24 heures sur 24. Nous avons toujours besoin, et nous employons, des humains pour traiter les cas moins courants où un jugement humain plus nuancé est nécessaire en fonction du contexte. Nous combinons des outils de sécurité et de modération robustes et innovants avec des milliers d'experts humains à travers le monde qui assurent la supervision et la formation continue de nos systèmes afin de relever des défis nouveaux et en constante évolution. Tous les systèmes de modération de Roblox reposent sur les principes suivants :

Nous modérons de manière proactive le contenu sur Roblox.
Nous fournissons des retours en temps réel aux utilisateurs dans la mesure du possible, car souvent, les gens ne connaissent pas les règles.
Nous ne déployons l'IA que lorsqu'elle affiche des performances nettement supérieures à celles des humains, tant en termes de précision que de rappel, à grande échelle.
Nous faisons appel à des humains pour améliorer en permanence l'IA, pour les cas rares et complexes, ainsi que pour les enquêtes et les recours.

Afin de modérer efficacement le volume croissant de contenu produit sur Roblox, nous innovons constamment dans trois domaines : l'échelle, la vitesse et la qualité, ce qui nécessite une amélioration continue.

Échelle : modération de milliards de contenus par jour

De février à décembre 2024¹, les utilisateurs ont mis en ligne environ 1 000 milliards de contenus. À peine 0,01 % de ces milliards de discussions textuelles, fichiers audio, enregistrements vocaux et images ont été détectés comme enfreignant l'une de nos politiques. Et la quasi-totalité des contenus qui enfreignaient nos politiques ont été automatiquement filtrés et supprimés avant même que les utilisateurs ne les voient. Si cette ampleur est relativement nouvelle, notre engagement en matière de modération ne l'est pas. Il y a plus de dix ans, nous avons mis au point un filtre de texte basé sur des règles. Il y a environ cinq ans, nous avons déployé ce qui était alors un filtre de texte de pointe basé sur un transformateur. Aujourd’hui, nos filtres de texte traitent en moyenne 6,1 milliards de messages de chat par jour, grâce à de nombreux modèles spécialement conçus pour différents types de violations de nos politiques.

L’un de ces modèles est notre filtre dédié aux informations personnelles identifiables (PII) pour le chat en jeu et sur la plateforme. Demander des PII à d’autres utilisateurs peut constituer un premier pas vers des problèmes plus graves ; c’est pourquoi nous avons toujours adopté une position ferme pour empêcher le partage de PII. Chaque message de chat envoyé est une « requête » demandant au système d’examiner et de déterminer si des PII sont mentionnées. Ce modèle de filtrage de texte traitait un nombre si élevé de requêtes par seconde (RPS) qu’il devenait difficile à prendre en charge sur notre pile de serveurs existante basée sur des processeurs (CPU). Nous avons donc construit une toute nouvelle pile de serveurs sur des processeurs graphiques (GPU), en tirant parti de notre infrastructure cellulaire. Pour répondre à ces exigences élevées en matière de RPS, nous avons d’abord séparé la tokenisation de l’inférence, puis accéléré l’inférence par quantification et distillation de modèles plus volumineux. Ensemble, ces améliorations ont quadruplé notre RPS.

Sur la nouvelle pile, le filtre PII traite désormais 370 000 RPS en pic. Notre filtre PII amélioré a réduit les faux positifs de 30 %, ce qui a entraîné une augmentation de 25 % des mentions de PII détectées automatiquement par le système dans toutes les langues prises en charge. Nous travaillons déjà à déployer cette amélioration dans plusieurs autres langues et à apporter des améliorations similaires à d’autres filtres de texte et interfaces. Bien que nous soyons fiers de ces améliorations, nous savons que les méthodes utilisées pour partager les PII évoluent constamment et nous faisons évoluer nos systèmes en fonction de ces changements.

Notre système de modération repose sur de grands modèles basés sur des transformateurs, dotés de connaissances dans diverses modalités. En fonction des exigences opérationnelles et de production, nous distillons et quantifions ces modèles afin de garantir la rapidité et l'efficacité du système. Ces techniques sont essentielles pour faire fonctionner une variété de modèles multimodaux ; ceux qui gèrent nos filtres de texte traitent désormais efficacement plus de 750 000 RPS.

Vitesse : modifier le comportement des utilisateurs grâce à un retour d'information en temps réel

Une communication naturelle et en temps réel nécessite un filtrage quasi instantané pour que la conversation reste fluide. L'itération et la collaboration autour d'idées exigent un retour rapide pour que la créativité reste vivante. Notre système de défense multicouche comprend des mesures proactives telles que des notifications d'avertissement, des temps morts et des suspensions. Lors du filtrage du texte, nous pouvons réagir en temps réel pour bloquer en quelques millisecondes les termes enfreignant nos règles, tels que les informations personnelles identifiables, les propos grossiers et les discours haineux, empêchant ainsi les utilisateurs d'être exposés à des contenus inappropriés.

Les communications vocales ne peuvent pas être bloquées de la même manière, c'est pourquoi nous sensibilisons les utilisateurs via des notifications à l'écran. Nos notifications d'avertissement ont efficacement modifié le comportement des utilisateurs et amélioré à la fois la courtoisie et l'engagement. Notre classificateur de sécurité vocale modère les conversations en moins de 15 secondes dans huit langues. Nous avons également open-sourcé ce modèle dans le cadre de notre engagement plus large à partager nos innovations en matière de sécurité avec le secteur.

Les notifications aident les utilisateurs à comprendre quelles règles ils enfreignent et leur offrent la possibilité de contester la décision du système.

Si un utilisateur continue d'enfreindre nos règles, les sanctions deviennent de plus en plus sévères, allant d'un simple avertissement à la perte d'accès au chat vocal. Des recherches internes ont montré que les suspensions ont un impact pouvant durer jusqu'à trois semaines après leur application, réduisant ainsi les taux de récidive et le nombre de signalements d'utilisateurs. Les premières expériences ont montré que ce type d'interventions et de sanctions immédiates a un effet positif sur le respect des autres. La dernière version de notre classificateur vocal affiche un taux de rappel supérieur de 92 % à celui de notre version initiale, avec un taux de faux positifs de 1 %, et traite, en période de pointe, jusqu’à 8 300 RPS. Nous continuons à explorer d’autres moyens d’améliorer à la fois la précision et le rappel.

Forts du succès rencontré avec les notifications dans le chat vocal, nous avons également commencé à mettre en place un système de feedback en temps réel pour le chat textuel. Lors d’expériences récentes, nous avons constaté que l’envoi de notifications et l’application de délais d’attente dans le chat textuel entraînaient une réduction de 5 % des messages filtrés et une diminution de 6 % des sanctions résultant de signalements d’abus. Nous commençons également à tester le feedback en temps réel auprès des créateurs lors du téléchargement de leurs créations.

Qualité des données : modèles d'apprentissage pour une amélioration continue

Nous formons ces systèmes à optimiser le nombre de faux négatifs, en privilégiant la suppression de tout élément susceptible d'enfreindre une règle. Nous savons également qu'il est frustrant pour les utilisateurs de voir supprimé un contenu qu'ils estiment conforme. C'est pourquoi nous améliorons continuellement nos systèmes afin de minimiser également les faux positifs. Des données correctement étiquetées sont essentielles pour améliorer la précision de tous nos classificateurs.

La constitution d’ensembles de données d’entraînement et d’évaluation robustes nécessite à la fois des exemples de haute qualité en nombre suffisant et des experts humains pour les étiqueter avec précision. Il arrive que nous ne disposions pas de données suffisantes parce qu’il s’agit d’un scénario rare ou d’un cas limite. Parfois, nous avons trop de données et devons identifier les exemples les plus pertinents. Et nous avons besoin de données qui correspondent à ce qui se passe réellement sur Roblox. Cela inclut des exemples éphémères, comme l’argot ou les mèmes. Notre public, composé d’enfants, d’adolescents et de joueurs, nous fait constamment découvrir de nouveaux termes d’argot, de nouvelles tendances et de nouvelles façons de contourner nos outils de modération. Ils nous obligent à rester vigilants, c’est pourquoi nous testons et évaluons en permanence nos outils de modération et nos politiques.

Nous utilisons diverses stratégies d'échantillonnage pour constituer ces ensembles de données, et nous faisons appel à la fois à l'IA et à des experts humains pour générer et étiqueter ces exemples de données. Nos experts en politiques sélectionnent manuellement des exemples, que nous appelons le « golden set ». Il s'agit d'exemples qui correspondent le plus étroitement aux problèmes que nous voulons que le système détecte. Nous prélevons des échantillons à partir d'ensembles de données très volumineux en utilisant plusieurs stratégies d'échantillonnage, y compris l'échantillonnage d'incertitude, où nous prélevons des cas limites dans lesquels le modèle avait auparavant été induit en erreur. Nous obtenons des échantillons auprès d’experts humains et d’équipes rouges assistées par l’IA (en savoir plus sur les AART), qui testent le système en simulant des attaques adversaires afin d’en détecter les faiblesses.

Nous élargissons et améliorons également nos ensembles d'entraînement à mesure que nous identifions de nouveaux problèmes, de l'argot, des mèmes, etc. Nous obtenons certains de ces exemples via notre procédure de recours, qui permet aux utilisateurs de demander un réexamen. Si la décision est infirmée, cet exemple est intégré à notre ensemble de données afin d'aider notre système à prendre la bonne décision la prochaine fois.

Nous en obtenons d'autres grâce à notre solide système de signalement des abus, qui élargit efficacement notre équipe de modérateurs humains pour inclure des dizaines de millions d'utilisateurs soucieux de ces expériences et de la communauté. Nous avons récemment amélioré notre outil de signalement afin que les utilisateurs aient la possibilité de capturer une scène entière, y compris les identifiants d'avatar et d'objet, et de mettre en évidence la partie qu'ils souhaitent signaler. Nous avons constaté une forte adoption par les utilisateurs, environ 15 % des signalements éligibles comportant des annotations visuelles. Ce contexte supplémentaire nous aide à identifier de manière proactive les expériences problématiques pour lesquelles les utilisateurs signalent fréquemment des préoccupations. Comme l'entraînement des modèles n'est pas instantané, nous explorons également la création automatique de règles basées sur l'IA à partir des signalements des utilisateurs afin d'améliorer notre réactivité.

L'interface utilisateur du rapport d'expérience permet désormais aux utilisateurs de mettre en évidence ce qu'ils souhaitent signaler (c'est-à-dire le cercle vert autour de l'avatar du canard).

Nous complétons ces ensembles de données par des données synthétiques, où de grands modèles linguistiques (LLM) génèrent des exemples de données artificielles et des étiquettes qui imitent des exemples du monde réel. L'avantage ici est la capacité à générer des millions d'exemples et d'étiquettes, même pour des cas rares ou marginaux. Une fois que nous disposons de suffisamment de données étiquetées, nous les divisons en deux ensembles : un pour l'entraînement et un pour l'évaluation. Il est essentiel de disposer d'un ensemble de données d'évaluation robuste : si un ensemble d'évaluation est trop facile, les métriques du modèle donneront l'impression qu'il fonctionne bien, mais il échouera en production. La précision des données est plus importante que leur volume. Le principe « garbage in, garbage out » (si l'on entre des données erronées, on obtient des résultats erronés) est une préoccupation réelle en matière d'apprentissage automatique, car les performances du modèle dépendent fortement de la précision des données utilisées pour l'entraîner et l'évaluer.

Une fois que nous disposons d’un ensemble de données d’évaluation robuste, nous l’évaluons en fonction de deux indicateurs clés : l’alignement et la qualité. Pour tester l’alignement, les mêmes exemples sont envoyés à plusieurs personnes afin qu’elles les étiquettent et que nous vérifiions si leurs étiquettes concordent (ou s’alignent). Si l’alignement entre leurs étiquettes est de 80 % ou plus, cela signifie que nos modérateurs peuvent prendre des décisions cohérentes à grande échelle. S’il est inférieur à 80 %, la politique ou la formation peut prêter à confusion, et nous devons itérer. Pour tester la qualité, nous envoyons l’ensemble de référence à des modérateurs humains afin qu’ils évaluent si les exemples enfreignent ou non la politique et s’assurent qu’ils prennent la bonne décision. Nous prélevons également des échantillons de décisions pour que des experts les examinent. S’ils parviennent tous à la bonne décision, cela signifie que notre politique peut être appliquée correctement. Un alignement et une qualité élevés indiquent que notre politique peut être appliquée correctement et de manière cohérente. Si ce n’est pas le cas, nous revenons en arrière et réévaluons à la fois la politique et l’ensemble de formation.

La nature créative d’une plateforme comme Roblox, où les utilisateurs sont libres de créer et de communiquer presque tout ce qu’ils veulent, signifie qu’elle est en constante évolution. Nos méthodes de modération doivent évoluer tout aussi rapidement pour garantir la sécurité et le respect au sein de notre communauté. Nos systèmes d’apprentissage actif mettent continuellement à jour les modèles à mesure que le langage évolue, que les comportements des utilisateurs changent et que des événements du monde réel se produisent. Nous développons en permanence des systèmes évolutifs, rapides, précis et capables de s’adapter de manière cohérente au monde dynamique dans lequel nous vivons tous.

¹Au premier trimestre 2025.

²Couvre la période de référence allant du 17 février 2024 au 31 décembre 2024.

Récents

Plus de résultats

Comment Roblox utilise l'IA pour modérer le contenu à grande échelle

Échelle : modération de milliards de contenus par jour

Vitesse : modifier le comportement des utilisateurs grâce à un retour d'information en temps réel

Qualité des données : modèles d'apprentissage pour une amélioration continue

Comment Roblox utilise l'IA pour modérer le contenu à grande échelle

Échelle : modération de milliards de contenus par jour

Vitesse : modifier le comportement des utilisateurs grâce à un retour d'information en temps réel

Qualité des données : modèles d'apprentissage pour une amélioration continue

Ingénierie

Comment fonctionne le journalisme en jeu sur Roblox

Ingénierie

Amélioration de notre classificateur de sécurité vocale avec 22 nouvelles langues et des capacités de détection plus précises

Actualités

Des fondateurs pionniers de l'IA s'associent pour accélérer la vision de la réalité de Roblox