Le parcours de Roblox vers l'IA générative 4D

- Roblox s'oriente vers l'IA générative 4D, allant au-delà des simples objets 3D pour proposer des interactions dynamiques.
- Relever le défi de la 4D nécessitera une compréhension multimodale couvrant l'apparence, la forme, la physique et les scripts.
- Les premiers outils, qui constituent la base de notre système 4D, accélèrent déjà la création sur la plateforme.
Roblox donne aux créateurs les moyens de créer des expériences 3D immersives, des avatars et des accessoires en leur fournissant les outils, les services et l'assistance dont ils ont besoin pour donner vie à leurs idées. Ce sont ces créateurs qui développent le contenu dynamique de notre plateforme, qui attire plus de 77 millions d’utilisateurs actifs quotidiens (au premier trimestre 2024). Grâce à notre application gratuite Roblox Studio, nous avons lancé une suite d’outils d’IA générative spécialement conçus pour les flux de travail Roblox et entraînés sur du contenu spécifique à Roblox.
Ces outils rendent la création plus facile, plus efficace et plus ludique, tant pour les experts que pour les novices. Assistant permet l’édition de l’espace de travail 3D, Animation Capture permet la capture des mouvements du visage et du corps, Code Assist facilite l’édition et la création de scripts, Material Generator permet de créer des textures en mosaïque, et Texture Generator permet le mappage de textures spécifiques aux ressources. Chacun de ces outils d’IA générative améliore une partie du processus de création 3D.
Ensemble, ces outils enrichissent les compétences des créateurs et réduisent le temps nécessaire entre la conception et la réalisation. Nous les avons développés en nous appuyant sur nos propres avancées de recherche innovantes ainsi que sur les meilleures solutions issues de l’écosystème plus large de l’IA. Ils couvrent la création d’éléments individuels en 1D (scripts), 2D (surfaces) et 3D (espaces). Nous présentons en avant-première certains des résultats de notre laboratoire de génération et d’édition de géométrie 3D lors de diverses conférences internationales de recherche, y compris notre propre Roblox Developers Conference.
Dans l’ensemble du secteur, la 1D et la 2D sont à la pointe de la technologie, tandis que la 3D est à l’avant-garde de l’IA générative. Chacun de ces domaines représente un défi de plus en plus important qui stimule en permanence des avancées techniques passionnantes. Comme nous vivons dans un espace 3D, cela peut sembler être le défi ultime de l’IA générative. Cependant, en fonction des besoins de notre communauté, notre vision pour ce travail va encore plus loin.
Où en sommes-nous aujourd'hui
Nous travaillons à la mise au point d’une IA générative 4D, où la quatrième dimension est l’interaction. La puissance de la plateforme en ligne de Roblox réside dans l’interaction — entre les personnes, les objets et les environnements. Contrairement aux jeux vidéo en ligne traditionnels, le puissant moteur d’exécution de Roblox s’appuie sur un modèle de programmation et de simulation unique axé sur l’interaction. Ce modèle s’inspire du concept de métaverse, où les éléments se rencontrent de manière complexe, multiple et spontanée, plutôt que de manière prédéfinie et limitée.
Les outils d’IA générative 1D, 2D et 3D produisent des ressources individuelles. Le défi auquel nous sommes confrontés avec l’IA générative 4D consiste à donner vie à ces ressources de manière à permettre des interactions sans restriction adaptées à notre plateforme. Cela signifie, par exemple, qu’un avatar n’est pas seulement une forme et une couleur : c’est aussi un squelette, des animations, ainsi que la capacité de saisir des outils et de garder l’équilibre. Cet avatar peut porter des vêtements qui n’ont pas été conçus spécifiquement pour lui et qui s’ajustent automatiquement pour s’adapter parfaitement et suivre tous ses mouvements. Notre nouvel outil Avatar AutoSetup est un premier exemple de la manière dont l’IA générative peut aider à automatiser ce type de création. Les développeurs peuvent désormais mener à bien ce processus en quelques minutes plutôt qu’en plusieurs heures ou jours.
Une voiture de sport n’est pas seulement une forme élégante et une peinture de surface : c’est aussi le moteur, les pièces mobiles et le système physique qui lui permettent de foncer dans les rues virtuelles avec précision et contrôle. Dans chaque cas, l’objet est étendu de la 3D pour interagir avec toutes ses parties via la physique et avec un utilisateur via son avatar.
Chacun de ces éléments 4D richement interactifs peut être intégré dans un environnement plus vaste où l’IA générative harmonise le style de chaque élément et ajoute une dimension interactive entre les objets et avec l’environnement. Désormais, un utilisateur, via son avatar, peut participer à une course de rue avec des modificateurs de dégâts et des meilleurs scores, puis déraper jusqu’à s’arrêter devant une boutique de mode de marque, où il achète de nouveaux vêtements pour fêter sa victoire.
Aujourd'hui, la création de telles expériences nécessite la création manuelle du code source du script, de l'espace de travail et de la structure du modèle de données, de la géométrie 3D, des animations et des matériaux. Nos outils d'IA générative existants facilitent chaque étape du processus. Nous développons un système qui reliera tous ces éléments et les générera simultanément. Pour y parvenir, nous devons entraîner notre système d'IA générative 4D de manière multimodale, c'est-à-dire en combinant plusieurs types de données. C'est déjà le cas pour les images et le texte, qui alimentent Material Generator. C'est en permettant l'interaction et en ajoutant des optimiseurs spécialement conçus pour la physique que nous atteindrons le prochain niveau de capacité 4D.
Au cours de la seule année écoulée, nous avons constaté d’énormes changements dans la manière dont le contenu est créé sur Roblox. À l’avenir, nous envisageons un monde où n’importe qui, n’importe où, pourra donner vie à une idée en tapant ou en prononçant simplement une commande. Pour y parvenir, nous devons commencer à relever certains des défis qui se présenteront à nous.
Les défis qui nous attendent
Les expériences que nous avons présentées ci-dessus seront disponibles dans un avenir proche. À plus long terme, nous sommes confrontés à trois défis clairs que nous devrons relever :
1. Fonctionnalité : les objets créés par ce futur outil d’IA générative doivent être fonctionnels. Il s’agit pour le système d’examiner un camion ou un avion dont la forme 3D est définie, et de ne pas le traiter comme un objet opaque et fermé. Sans intervention du créateur, il doit pouvoir reconnaître automatiquement quelles parties nécessitent des articulations, ou à quel endroit le maillage doit s’ouvrir.
C'est un problème d'IA de niveau humain que ces systèmes doivent résoudre : déterminer le bon emplacement des roues, par exemple, puis ajouter un essieu pour que celles-ci fonctionnent comme elles le feraient dans le monde physique. Il s'agit également de repérer l'emplacement de la porte, de découper une ouverture et d'ajouter des charnières pour que la porte puisse s'ouvrir et se fermer.
2. Interactivité : les objets créés à l’aide de cette future IA générative doivent non seulement fonctionner de manière autonome, mais aussi interagir avec les autres objets de l’environnement. Ainsi, maintenant que le système a créé pour nous une voiture dotée d’une porte qui s’ouvre et de roues qui tournent, il doit comprendre la physique du monde dans lequel la voiture est placée. Comment le véhicule se déplace-t-il sur le terrain ? S’il percute un rocher, où et comment se déforme-t-il, en fonction de la taille du rocher et de la vitesse du véhicule ?
Ce défi complexe exige que l’objet créé et l’environnement ou les objets avec lesquels il interagit comprennent la physique de l’autre. Heureusement, Roblox a une longueur d’avance sur ce point, car la plateforme a été conçue comme un moteur physique, ce qui signifie que tous les objets des expériences peuvent être physiques. Lorsque l’IA générative crée un objet 4D, des propriétés physiques telles que le matériau, la masse et la résistance lui sont également attribuées afin de le préparer à interagir avec d’autres objets physiques du monde.
3. Contrôlable : aujourd’hui, nous interagissons avec l’IA générative à l’aide de prompts. Il s’agit d’une science imparfaite, s’apparentant à une chasse au trésor. Une personne demandant une image d’un lapin pourrait obtenir une grande variété de résultats : un vrai lapin, un lapin de Pâques en chocolat, un lapin de dessin animé, une peinture représentant un lapin ou une illustration d’un lapin portant un manteau. Nous affinons donc les invites, en demandant des images photoréalistes ou des images « dans le style de », à mesure que nous précisons la vision que nous avons en tête. Cela prend du temps et nécessite des essais répétés pour se rapprocher de ce que nous recherchons.
Imaginez devoir suivre ce processus pour un objet 3D qui fonctionne et interagit avec d’autres objets, comme le camion de notre exemple ci-dessus. L’ingénierie des invites à ce niveau serait d’une complexité exponentielle — ce n’est pas quelque chose que n’importe qui pourrait facilement utiliser. Pour donner vie à l’idée d’un créateur, nous avons besoin d’un moyen plus rapide et plus simple de communiquer et d’affiner, en collaborant essentiellement avec un assistant IA qui soit davantage un partenaire qu’une chasse au trésor.
Il s’agit d’un défi à l’échelle de l’industrie, et de nombreuses entreprises s’efforcent d’apporter une plus grande contrôlabilité à l’IA générative. Nous avons fait quelques progrès dans ce domaine grâce à des outils tels que ControlNet, qui renforce le contrôle en permettant au créateur de fournir des conditions d’entrée supplémentaires au-delà des simples invites textuelles. Nous explorons actuellement d’autres méthodes prometteuses pour un flux de travail satisfaisant, comme le fait de faire en sorte que l’IA marque une pause après des étapes critiques pour attendre l’intervention de l’utilisateur. Mais nous avons encore un long chemin à parcourir pour parvenir à une expérience fluide.
Nous sommes ravis de l’impact observé jusqu’à présent et encore plus enthousiastes à l’idée de ce qui nous attend. Par rapport aux créateurs qui n’utilisent pas la version bêta de Material Generator, ceux qui l’utilisent ont augmenté leur utilisation des variations de matériaux basées sur le rendu physique (PBR) de plus de 100 % : elles sont passées d’un peu plus d’un millier en mars 2023 à plus de deux mille en juin 2024. Au 2 juin 2024, les créateurs avaient adopté environ 535 millions de caractères de code suggérés par Code Assist.
À mesure que nous commencerons à relever les défis sur cette voie vers la 4D, nos créateurs pourront créer davantage, plus rapidement. Nous nous attendons également à voir une plus grande diversité d’expériences sur Roblox à mesure que nous permettons à davantage de personnes de devenir créateurs. Ce qu’ils construiront et la manière dont ils le feront nous indiqueront où investir dans de nouveaux outils et algorithmes d’IA pour donner les moyens d’agir à ces nouveaux créateurs, aux côtés de notre communauté existante.
Grâce à l'IA générative 4D, Roblox a ouvert une nouvelle frontière pour la création d'expériences et de ressources. Si les défis sont nouveaux, notre processus d'innovation est quant à lui bien rodé. Nous combinons nos équipes internes de recherche et développement de premier ordre, des collaborations avec des universités et une itération rapide sur des prototypes en partenariat avec notre communauté.



