Lancement de nouvelles langues pour notre modèle open source de sécurité vocale

- Nous mettons à jour notre classificateur open source de sécurité vocale en augmentant le nombre de ses paramètres de 94,6 millions à 120,2 millions et en l'étendant à sept langues supplémentaires.
- Depuis la première version du classificateur, nous avons amélioré la précision pour atteindre un taux de rappel de 59,1 % sur les données de chat vocal en anglais, avec un taux de faux positifs de 1 %. Cela représente une amélioration de 92 % par rapport au taux de rappel de 30,9 % de la version précédente.
La promotion de la sécurité et du respect a toujours été au cœur de tout ce que nous faisons chez Roblox. Nous avons passé près de deux décennies à mettre en place des systèmes de sécurité robustes, et nous les développons et les faisons évoluer en permanence à mesure que de nouvelles technologies deviennent disponibles. En 2024, nous avons déployé plus de 40 améliorations en matière de sécurité, notamment une refonte de notre contrôle parental, que nous mettons à jour à nouveau aujourd’hui. Nous avons également lancé l’un des tout premiers classificateurs vocaux de sécurité open source du secteur, qui a été téléchargé plus de 23 000 fois. Aujourd’hui, nous publions une version mise à jour, encore plus précise et fonctionnant dans davantage de langues.
Bon nombre des systèmes de sécurité qui contribuent à protéger nos utilisateurs, y compris ce classificateur, s’appuient sur des modèles d’IA. Nous mettons certains d’entre eux en open source, car nous savons que le partage des avancées en matière de sécurité de l’IA profite à l’ensemble de notre secteur. C’est également la raison pour laquelle nous avons récemment rejoint ROOST — une nouvelle organisation à but non lucratif dédiée à la résolution de problèmes importants en matière de sécurité numérique par la promotion d’outils de sécurité open source — en tant que partenaire fondateur.
Pour gérer le volume de contenu et d’interactions qui ont lieu chaque jour sur notre plateforme à travers le monde, l’IA est un élément essentiel pour assurer la sécurité des utilisateurs. Nous sommes convaincus que les modèles que nous avons développés répondent à nos besoins. Au quatrième trimestre 2024, par exemple, les utilisateurs de Roblox ont mis en ligne 300 milliards d’éléments de contenu. Seuls 0,01 % de ces milliards de vidéos, fichiers audio, textes, chats vocaux, avatars et expériences 3D ont été détectés comme enfreignant nos politiques. Et la quasi-totalité de ce contenu non conforme a été automatiquement filtrée et supprimée avant même que les utilisateurs ne puissent le voir.
Nous avons mis à jour la version open source de notre classificateur de sécurité vocale afin de le rendre plus précis et de nous aider à modérer le contenu dans davantage de langues. Le nouveau modèle :
- Détecte les violations dans sept langues supplémentaires — l'espagnol, l'allemand, le français, le portugais, l'italien, le coréen et le japonais — grâce à un apprentissage sur des données multilingues.
- Affiche un taux de rappel global accru de 59,1 %, soit une amélioration de 92 % par rapport au taux de 30,9 % de la version précédente, avec de faibles taux de faux positifs.
- est optimisé pour fonctionner à grande échelle, traitant jusqu’à 8 300 requêtes (dont la majorité ne contient aucune infraction) par seconde en période de pointe.
Depuis la sortie du premier modèle, nous avons constaté une réduction de plus de 50 % du taux de signalements d'abus par heure de conversation chez les utilisateurs américains. Cela nous a également permis de modérer des millions de minutes de chat vocal par jour avec plus de précision que des modérateurs humains. Nous ne cessons jamais d'améliorer nos systèmes de sécurité et nous continuerons également à mettre à jour la version open source.
Classificateur multilingue efficace pour la sécurité vocale
Notre premier classificateur de sécurité vocale open source était basé sur un modèle WavLM base+, affiné à l’aide d’échantillons audio de conversations vocales en anglais étiquetés par des machines. Les résultats encourageants de cette architecture de bout en bout ont conduit à de nouvelles expériences avec une architecture personnalisée. Nous avons utilisé la distillation de connaissances pour optimiser la complexité et la précision du modèle, ce qui est intéressant pour le service d’inférence à grande échelle. Notre nouveau classificateur utilise ces éléments fondamentaux, tout en améliorant et en étendant le travail en matière d'utilisation des données et d'affinement de l'architecture.
Grâce à un apprentissage sur des données multilingues, notre modèle de classificateur unique peut fonctionner de manière transparente dans n'importe laquelle de nos huit principales langues prises en charge. Et grâce à nos améliorations en matière d'apprentissage, le modèle est à la fois plus précis et 20 % à 30 % plus rapide à exécuter dans un scénario d'inférence typique que la première version.
Le nouveau classificateur de sécurité vocale repose toujours sur l’architecture WavLM, mais la configuration des couches diffère de celle de la version précédente et des modèles pré-entraînés WavLM. Nous avons notamment ajouté une couche convolutive supplémentaire afin de réduire la résolution temporelle interne des couches du transformateur. Au total, notre nouvelle architecture de modèle compte 120,2 millions de paramètres, soit une augmentation de 27 % par rapport aux 94,6 millions de la version précédente. Malgré cette augmentation, le nouveau modèle consomme 20 % à 30 % de temps de calcul en moins lorsqu’il est utilisé avec des segments d’entrée de 4 à 15 secondes. Cela est possible car le modèle compresse le signal d’entrée en une représentation plus courte qu’auparavant.
Utilisation de diverses stratégies d'étiquetage
L'entraînement supervisé d'un modèle de bout en bout nécessite des paires sélectionnées de données audio et d'étiquettes de classe. Nous avons apporté des améliorations significatives à notre pipeline de données afin de garantir un flux constant de données étiquetées. Le matériel d'entraînement repose sur un vaste ensemble de données étiquetées automatiquement, comprenant plus de 100 000 heures d'enregistrements vocaux dans les langues prises en charge. Nous avons automatiquement transcrit les enregistrements vocaux et les avons traités à l'aide de notre classificateur de toxicité textuel interne, qui reprend les catégories de politique et de toxicité souhaitées. La collecte de données échantillonne les contenus abusifs avec une probabilité plus élevée que les discours inoffensifs afin de mieux capturer les cas limites et les violations de politique moins courantes.

Les étiquettes basées sur des transcriptions vocales et la classification textuelle ne permettent pas de saisir pleinement les nuances observées dans le contenu des conversations vocales. Nous avons donc utilisé des données étiquetées par des humains pour affiner le modèle issu de la phase d'entraînement précédente. Bien que la tâche de classification reste la même, cette dernière phase d'entraînement permet d'affiner les limites de décision et de mettre l'accent sur la réactivité face aux expressions spécifiques aux conversations vocales. Il s'agit d'une forme d'apprentissage par curriculum qui nous aide à tirer le meilleur parti des précieux exemples étiquetés par des humains.
L'un des défis de l'entraînement des modèles de bout en bout réside dans le fait que les étiquettes cibles peuvent devenir obsolètes si la politique d'étiquetage évolue au fil du temps. Ainsi, à mesure que nous affinons notre politique relative aux contenus vocaux acceptables, nous devons traiter de manière spécifique les données utilisant d'anciennes normes d'étiquetage. Pour cela, nous avons utilisé une approche multitâche qui permet au modèle d'apprendre à partir d'ensembles de données qui ne correspondent pas à la politique actuelle en matière de chat vocal. Cela implique de consacrer une tête de classification distincte à l'ancienne politique, ce qui permet au tronc du modèle d'apprendre à partir de l'ancien ensemble de données sans affecter les étiquettes cibles ni la tête principale.
Un modèle calibré pour un déploiement plus facile
L'utilisation du modèle de classification nécessite de déterminer le point de fonctionnement et d'ajuster la sensibilité du classificateur en fonction des exigences de la tâche. Afin de faciliter le déploiement du modèle, nous avons calibré les sorties du modèle, en les optimisant pour la modération des chats vocaux. Nous avons estimé des transformations linéaires par morceaux à partir d'un ensemble de données de validation, en procédant séparément pour chaque tête de sortie et chaque langue prise en charge. Ces transformations ont été appliquées lors de la distillation du modèle, ce qui a permis de garantir que le modèle final était calibré de manière native. Cela a éliminé le besoin de post-traitement lors de l'inférence.
Nous sommes ravis de partager ce nouveau modèle open source avec la communauté et nous avons hâte de vous faire part des futures mises à jour dès qu'elles seront disponibles.


