Révolutionner la création sur Roblox grâce à l'IA générative

Au début de l'année, nous avons partagé notre vision de l'intelligence artificielle (IA) générative sur Roblox et des nouveaux outils intuitifs qui permettront à chaque utilisateur de devenir un créateur. Alors que ces outils évoluent rapidement dans l'ensemble du secteur, je souhaitais vous faire part des dernières avancées, du chemin qu'il nous reste à parcourir pour démocratiser la création par IA générative, et des raisons pour lesquelles nous pensons que l'IA générative est un élément essentiel pour l'avenir de Roblox.
Les avancées en matière d'IA générative et de grands modèles linguistiques (LLM) offrent une opportunité incroyable de débloquer l'avenir des expériences immersives en permettant une création plus facile et plus rapide, tout en garantissant la sécurité et sans nécessiter d'énormes ressources informatiques. De plus, les progrès réalisés dans les modèles d'IA multimodaux, c'est-à-dire formés à partir de plusieurs types de contenu (tels que des images, du code, du texte, des modèles 3D et de l'audio), ouvrent la voie à de nouvelles avancées dans les outils de création. Ces mêmes modèles commencent également à produire des résultats multimodaux, comme un modèle capable de générer un texte ainsi que des éléments visuels qui le complètent. Nous considérons ces avancées en matière d’IA comme une formidable opportunité d’améliorer l’efficacité des créateurs expérimentés tout en permettant à un public encore plus large de donner vie à ses idées sur Roblox. Lors de la Roblox Developers Conference (RDC) de cette année, nous avons annoncé plusieurs nouveaux outils qui intégreront l’IA générative dans Roblox Studio et au-delà, afin d’aider tous les utilisateurs de Roblox à se développer plus rapidement, à itérer plus vite et à améliorer leurs compétences pour créer un contenu encore meilleur.
Roblox Assistant
Roblox a toujours fourni aux créateurs les outils, les services et l’assistance dont ils ont besoin pour créer des expériences 3D immersives. Parallèlement, nous avons vu nos créateurs commencer à utiliser des IA génératives et conversationnelles tierces pour les aider dans leur travail. Bien qu'elles soient utiles pour réduire la charge de travail des créateurs, ces versions prêtes à l'emploi n'ont pas été conçues pour les workflows Roblox de bout en bout ni formées au code, à l'argot et au jargon de Roblox. Cela signifie que les créateurs doivent fournir un travail supplémentaire considérable pour utiliser ces versions afin de créer du contenu pour Roblox. Nous avons travaillé sur des moyens d'intégrer la valeur de ces outils dans Roblox Studio, et lors de la RDC, nous avons partagé un premier exemple d'Assistant.
Assistant est notre IA conversationnelle qui permet aux créateurs de tous niveaux de passer nettement moins de temps sur les tâches banales et répétitives liées à la création, et davantage de temps sur des activités à forte valeur ajoutée, telles que la narration, le gameplay et la conception d’expériences. Roblox est idéalement placé pour développer ce modèle d'IA conversationnelle destiné aux mondes 3D immersifs, grâce à notre accès à un vaste ensemble de modèles 3D publics pour l'entraînement, à notre capacité à intégrer un modèle à nos API de plateforme, et à notre suite croissante de solutions d'IA innovantes. Les créateurs pourront utiliser des invites textuelles en langage naturel pour créer des scènes, modifier des modèles 3D et appliquer des comportements interactifs à des objets. L'Assistant prendra en charge les trois phases de la création : l'apprentissage, le codage et la construction :
- Apprentissage : qu'un créateur soit novice dans le développement sur Roblox ou un vétéran chevronné, Roblox Assistant l'aidera à répondre à des questions sur un large éventail de sujets en utilisant le langage naturel.
- Codage : Assistant viendra compléter notre récent outil Code Assist. Par exemple, les développeurs pourront demander à Assistant d’améliorer leur code, d’expliquer une section de code, ou de les aider à déboguer et à proposer des corrections pour le code qui ne fonctionne pas correctement.
- Construction : Assistant aidera les créateurs à prototyper rapidement de nouvelles idées. Par exemple, un nouveau créateur pourrait générer des scènes entières et tester différentes versions simplement en saisissant une commande telle que « Ajoute des lampadaires le long de cette route » ou « Crée une forêt avec différents types d’arbres. Ajoute maintenant des buissons et des fleurs. »
Le travail avec Assistant sera collaboratif, interactif et itératif, permettant aux créateurs de donner leur avis et de laisser Assistant trouver la bonne solution. Ce sera comme avoir un créateur expert comme partenaire avec qui échanger des idées et tester des concepts jusqu’à ce que le résultat soit parfait.
Afin de faire d'Assistant le meilleur partenaire possible, nous avons fait une autre annonce lors de la RDC : nous avons invité les développeurs à choisir de partager leurs données de scripts Luau anonymisées. Ces données de scripts contribueront à améliorer considérablement nos outils d'IA, tels que Code Assist et Assistant, en leur permettant de suggérer et de créer un code plus efficace, ce qui profitera aux développeurs Roblox qui les utilisent. De plus, si les développeurs choisissent de partager ces données au-delà de Roblox, leurs données de script seront ajoutées à un ensemble de données mis à la disposition de tiers afin de former leurs outils de chat IA à mieux suggérer du code Luau, ce qui profitera aux développeurs Luau du monde entier.
Pour être clair, grâce à des recherches approfondies auprès des utilisateurs et à des discussions transparentes avec les meilleurs développeurs, nous avons conçu ce programme sur la base d’une participation volontaire et veillerons à ce que tous les participants comprennent et acceptent ce que le programme implique. En guise de remerciement à ceux qui choisissent de participer au partage de données de script avec Roblox, nous leur accorderons l'accès aux versions plus puissantes d'Assistant et de Code Assist, qui s'appuient sur ce modèle formé par la communauté. Ceux qui n'ont pas opté pour ce programme continueront d'avoir accès à notre version existante d'Assistant et de Code Assist.
Création d'avatars simplifiée
À terme, nous souhaitons que chacun de nos 65,5 millions d'utilisateurs quotidiens dispose d'un avatar qui le représente véritablement et exprime qui il est. Nous avons récemment donné aux membres de notre programme UGC la possibilité de créer et de vendre à la fois des corps d’avatar et des têtes autonomes. Aujourd’hui, ce processus nécessite un accès à Studio ou à notre programme UGC, un niveau de compétence assez élevé, et plusieurs jours de travail pour mettre en place les expressions faciales, les mouvements du corps, le rigging 3D, etc. Cela rend la création d’avatars chronophage et a, jusqu’à présent, limité le nombre d’options disponibles. Nous voulons aller encore plus loin.
Pour permettre à tous les utilisateurs de Roblox de disposer d’un avatar personnalisé et expressif, nous devons rendre la création et la personnalisation des avatars très faciles. Lors du RDC, nous avons annoncé un nouvel outil que nous lancerons en 2024 et qui permettra de créer facilement un avatar personnalisé à partir d’une ou de plusieurs images. Grâce à cet outil, tout créateur ayant accès à Studio ou à notre programme UGC pourra télécharger une image, faire créer un avatar à son effigie, puis le modifier à sa guise. À plus long terme, nous avons également l’intention de rendre cette fonctionnalité disponible directement au sein des expériences sur Roblox.
Pour y parvenir, nous entraînons des modèles d'IA sur le schéma d'avatar de Roblox et un ensemble de modèles d'avatars 3D appartenant à Roblox. Une approche s'appuie sur la recherche visant à générer des avatars 3D stylisés à partir d'images 2D. Nous étudions également l'utilisation de modèles de diffusion texte-image pré-entraînés pour enrichir les données d'entraînement 3D limitées à l'aide de techniques génératives 2D, ainsi que l'utilisation d'un réseau de génération 3D basé sur un réseau antagoniste génératif (GAN) pour l'entraînement. Enfin, nous travaillons à l'utilisation de ControlNet pour superposer des poses prédéfinies afin de guider les images multi-vues résultantes des avatars.
Ce processus produit un maillage 3D pour l'avatar. Ensuite, nous exploitons la recherche en segmentation sémantique 3D, entraînée sur des poses d'avatars 3D, pour prendre ce maillage 3D et l'ajuster afin d'y ajouter les traits faciaux, le caging, le rigging et les textures appropriés, transformant ainsi le maillage 3D statique en un avatar Roblox. Enfin, un outil d'édition de maillage permet aux utilisateurs de modifier et d'ajuster le modèle pour qu'il ressemble davantage à la version qu'ils imaginent. Et tout cela se fait rapidement — en quelques minutes —, générant un nouvel avatar qui peut être importé dans Roblox et utilisé dans une expérience.
Modération des communications vocales
Pour nous, l'IA ne se limite pas à la création ; c'est aussi un système bien plus efficace pour garantir une communauté diversifiée, sûre et courtoise, à grande échelle. Alors que nous commençons à déployer de nouvelles fonctionnalités vocales, notamment le chat vocal et Roblox Connect, la nouvelle fonctionnalité permettant d'appeler via son avatar, ainsi que les API annoncées lors de la RDC, nous sommes confrontés à un nouveau défi : la modération du langage parlé en temps réel. La norme actuelle dans ce domaine est un processus appelé « reconnaissance vocale automatique » (ASR), qui consiste essentiellement à prendre un fichier audio, à le transcrire pour le convertir en texte, puis à analyser ce texte à la recherche de propos inappropriés, de mots-clés, etc.
Cela fonctionne bien pour les entreprises qui l'utilisent à petite échelle, mais lorsque nous avons envisagé d'utiliser ce même processus ASR pour modérer les communications vocales, nous avons rapidement réalisé que c'était difficile et inefficace à notre échelle. Cette approche fait également perdre des informations extrêmement précieuses qui sont codées dans le volume et le ton de la voix de l'orateur, ainsi que dans le contexte plus large de la conversation. Sur les millions de minutes de conversation que nous devrions transcrire chaque jour, dans différentes langues, seul un très faible pourcentage pourrait éventuellement contenir des propos inappropriés. Et à mesure que nous continuons à nous développer, ce système nécessiterait de plus en plus de puissance de calcul pour suivre le rythme. Nous avons donc examiné de plus près comment nous pourrions faire cela plus efficacement, en mettant en place un pipeline qui passe directement de l’audio en direct à l’étiquetage du contenu pour indiquer s’il enfreint ou non nos politiques.
Au final, nous avons pu développer un système interne de détection vocale sur mesure en utilisant l’ASR pour classer nos ensembles de données vocales internes, puis en utilisant ces données vocales classées pour entraîner le système. Plus précisément, pour entraîner ce nouveau système, nous commençons par l’audio et créons une transcription. Nous soumettons ensuite cette transcription à notre système de filtrage de texte Roblox afin de classer l’audio. Ce système de filtrage de texte est très efficace pour détecter les propos contraires à nos politiques sur Roblox, car nous l’optimisons depuis des années pour le jargon, les abréviations et le langage spécifiques à Roblox. À l’issue de ces différentes étapes d’entraînement, nous disposons d’un modèle capable de détecter les violations de nos politiques directement à partir de l’audio, en temps réel.
Bien que ce système soit capable de détecter des mots-clés spécifiques tels que les grossièretés, les violations des règles se limitent rarement à un seul mot. Un mot peut souvent sembler problématique dans un contexte et tout à fait acceptable dans un autre. Essentiellement, ce type de violations dépend de ce que vous dites, de la manière dont vous le dites et du contexte dans lequel les propos sont tenus.
Pour mieux comprendre le contexte, nous exploitons la puissance native d’une architecture basée sur un transformateur, qui est très performante en matière de synthèse de séquences. Elle peut prendre une séquence de données, comme un flux audio, et la résumer pour vous. Cette architecture nous permet de conserver une séquence audio plus longue afin de pouvoir détecter non seulement les mots, mais aussi le contexte et les intonations. Une fois tous ces éléments réunis, nous obtenons un système final dont l'entrée est audio et la sortie une classification : violation de la politique ou non. Ce système peut détecter des mots-clés et des expressions contraires à la politique, mais aussi le ton, le sentiment et d’autres éléments contextuels importants pour déterminer l’intention. Ce nouveau système, qui détecte les propos contraires à la politique directement à partir de l’audio, est nettement plus efficace en termes de calcul qu’un système ASR traditionnel, ce qui facilitera grandement sa mise à l’échelle alors que nous continuons à repenser la manière dont les gens se rassemblent.
Nous avions également besoin d’un nouveau moyen d’avertir les utilisateurs de nos outils de communication vocale des conséquences potentielles de ce type de langage. Grâce à ce système de détection innovant, nous expérimentons actuellement des moyens d’influencer les comportements en ligne afin de maintenir un environnement sûr. Nous savons que les utilisateurs enfreignent parfois nos règles sans le vouloir et nous souhaitons déterminer si un rappel occasionnel pourrait aider à prévenir de nouvelles infractions. Pour y parvenir, nous testons actuellement un système de retour d'information en temps réel via des notifications. Si le système détecte que vous avez tenu des propos contraires à nos règles un certain nombre de fois, nous afficherons une notification contextuelle sur votre écran vous informant que votre langage enfreint nos règles et vous redirigeant vers nos règles pour plus d'informations.
Les notifications sur les flux vocaux ne constituent toutefois qu'un élément du système de modération. Nous examinons également les schémas comportementaux sur la plateforme, ainsi que les plaintes d'autres utilisateurs de Roblox, pour orienter nos décisions de modération globales. L'ensemble de ces signaux pourrait entraîner des conséquences plus sévères, notamment la suppression de l'accès aux fonctionnalités audio ou, pour les infractions plus graves, l'exclusion totale de la plateforme. Il est essentiel de préserver la sécurité et la civilité de notre communauté alors que les progrès en matière de modèles d'IA multimodaux, d'IA générative et de LLM se combinent pour offrir aux créateurs de nouveaux outils et capacités incroyables.
Nous pensons que fournir ces outils aux créateurs permettra à la fois de réduire les obstacles à l'entrée pour les créateurs moins expérimentés et de libérer les créateurs plus expérimentés des tâches les plus fastidieuses de ce processus. Cela leur permettra de consacrer plus de temps aux aspects créatifs du peaufinage et de la conception. Notre objectif est de permettre à chacun, partout dans le monde, de donner vie à ses idées et d’accroître considérablement la diversité des avatars, des objets et des expériences disponibles sur Roblox. Nous partageons également des informations et des outils pour aider à protéger les nouvelles créations.
Nous imaginons déjà des possibilités incroyables : par exemple, si quelqu’un parvient à créer un avatar sosie directement à partir d’une photo, il pourrait ensuite personnaliser son avatar pour le rendre plus grand ou lui donner un style anime. Ou bien, il pourrait créer une expérience en demandant à Assistant d’ajouter des voitures, des bâtiments et des décors, de régler l’éclairage ou les conditions de vent, ou de modifier le terrain. À partir de là, il pourrait itérer pour affiner les détails simplement en échangeant des messages avec Assistant. Nous savons que ce que les gens créeront avec ces outils, une fois qu’ils seront disponibles, ira bien au-delà de ce que nous pouvons même imaginer.




