Le contenu de ce site a été traduit à l'aide de l'intelligence artificielle (IA) ou d'une technologie de traduction automatique, et peut contenir des erreurs.

Skip to content

Amélioration de notre classificateur de sécurité vocale avec 22 nouvelles langues et des capacités de détection plus précises

De nouvelles langues, 2 nouvelles catégories d'infractions et un taux de rappel accru de 14 %

Roblox traite quotidiennement des millions de minutes de données vocales dans 30 langues, ce qui représente un défi considérable en matière de sécurité en temps réel à grande échelle. Au cours des deux dernières années, nos systèmes internes ont considérablement évolué — passant de 94,6 millions à 320 millions de paramètres et de cinq à huit catégories de violations des règles — pour traiter désormais 10 000 requêtes par seconde en période de pointe. 

Nous avons mis en open source notre modèle de classification de sécurité vocale sous-jacent en 2024 afin de contribuer à faire progresser la sécurité vocale dans l’ensemble du secteur, et nous publions aujourd’hui la version 3 de ce modèle, qui offre aux utilisateurs la prise en charge de 22 nouvelles langues et de deux catégories supplémentaires de violations des règles, avec un rappel accru de 14 % et une précision supérieure de 5 % par rapport à la version précédente.

De la version 1 à la version 3 et au-delà 

Lorsque nous avons entrepris de développer un système de sécurité vocale en temps réel, nous nous sommes d’abord concentrés sur l’anglais. Nous avons mis en place un pipeline d’étiquetage automatisé pour générer un volume important de données d’entraînement. En 2024, la version 1 du modèle open source a utilisé 2 400 heures de données en anglais étiquetées automatiquement pour l’entraînement du modèle. Suite au lancement initial et à la mise en place du système de signalement, les taux de signalement d’abus aux États-Unis ont chuté de plus de 50 % par heure de conversation. 

En 2025, nous avons ajouté d’autres langues, affiné davantage le modèle et publié la version 2 de celui-ci. Pour l’entraînement de la dernière version 3 du modèle en 2026, nous avons utilisé 250 000 heures de données multilingues étiquetées automatiquement et 29 000 heures de données multilingues étiquetées manuellement. Chaque modèle a été évalué à l’aide d’ensembles de données étiquetés manuellement.

La version v3 du modèle open source atteint un taux de rappel de 61 %, pondéré en fonction de la répartition linguistique du chat vocal de Roblox, avec un taux de faux positifs de 1 %. En comparant uniquement les langues prises en charge par la version v2 du modèle, la version v3 affiche une amélioration relative de 14 % du taux de rappel, pondérée en fonction de la prévalence linguistique.

La sécurité vocale est un enjeu trop important pour être traité de manière isolée. Nous avons mis notre classificateur de sécurité vocale en open source et avons rejoint ROOST en tant que partenaire fondateur, car nous sommes convaincus que le partage des avancées en matière de technologies de sécurité renforce l’ensemble du secteur. Le modèle a été téléchargé plus de 70 000 fois sur Hugging Face depuis sa première version, et chaque mise à jour s’est appuyée sur les enseignements tirés de l’exploitation à grande échelle de nos modèles internes au sein de notre communauté. Nous continuons à faire évoluer nos systèmes de sécurité et nous avons hâte de partager d’autres mises à jour à l’avenir. 

Remerciements : Nous tenons à remercier Thomas Bui, Meghatrisa Chatterjee, Bridget Daly, Jason Golubock, Hannes Heikinheimo, Marek Kapolka, Cheryl Kwan, Markus Lang, Aashna Sharma, Hao-En Sung, Tingting Tang et Alex Trimm pour leur travail sur ce projet.