Le contenu de ce site a été traduit à l'aide de l'intelligence artificielle (IA) ou d'une technologie de traduction automatique, et peut contenir des erreurs.

Skip to content

Présentation de Roblox Cube : notre système d'IA générative de base pour la 3D et la 4D

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • Nous publions notre modèle de base Cube 3D pour l'IA générative.
  • Nous mettons également en open source une version du modèle de base Cube 3D.
  • La version bêta de la génération de maillages Cube 3D — dans Roblox Studio et sous forme d'API Lua intégrée à l'expérience — sera disponible cette semaine. 

L'automne dernier, nous avons annoncé un projet ambitieux visant à créer un modèle de base 3D open source pour générer des objets et des scènes 3D sur Roblox. Cette semaine, nous mettons en open source la première version de ce modèle afin de le rendre accessible à tous, sur la plateforme Roblox ou en dehors, à la fois sur GitHub et HuggingFace. Nous avons baptisé ce modèle « Cube 3D ». Nous lançons également la première de ses fonctionnalités, avec le lancement en version bêta de notre API de génération de maillages. Cube servira de base à de nombreux outils d'IA que nous développerons dans les années à venir, y compris des outils de génération de scènes très complexes. Il s'agira à terme d'un modèle multimodal, entraîné sur du texte, des images, des vidéos et d'autres types d'entrées, et s'intégrera à nos outils de création IA existants.

Cube 3D génère des modèles et des environnements 3D directement à partir de texte et, à l'avenir, d'images. Aujourd’hui, la génération 3D de pointe utilise des images et une approche de reconstruction pour créer des objets 3D. C’est une bonne option lorsqu’il n’y a pas suffisamment de données d’entraînement 3D. Cependant, grâce à la nature de notre plateforme, nous nous entraînons sur des données 3D natives. L’objet généré est entièrement compatible avec les moteurs de jeu actuels et peut être étendu pour rendre les objets fonctionnels. 

La différence ici est similaire à celle d’un décor de circuit automobile au cinéma. À la télévision, vous pouvez voir ce qui ressemble à un circuit entièrement fonctionnel, avec des tribunes, des stands et une ligne d’arrivée. Mais si vous vous promeniez sur ce décor, vous vous rendriez vite compte que les structures sont en réalité plates. Construire un monde 3D véritablement immersif nécessite des structures complètes et fonctionnelles, avec des stands dans lesquels on peut entrer en voiture, des tribunes où l’on peut s’asseoir et une ligne d’arrivée dotée d’un podium fonctionnel.

Pour y parvenir, nous nous sommes inspirés de modèles de pointe entraînés sur des tokens de texte (ou ensembles de caractères) afin qu’ils puissent prédire le token suivant pour former une phrase. Notre innovation repose sur le même principe de base. Nous avons développé la capacité de tokeniser des objets 3D et de comprendre les formes en tant que tokens, puis nous avons entraîné Cube 3D à prédire le token de forme suivant pour construire un objet 3D complet. Lorsque nous étendons cela à la génération de scènes complètes, Cube 3D prédit alors la disposition et prédit de manière récursive la forme nécessaire pour compléter cette disposition.

Chacun peut affiner, développer des plug-ins ou entraîner Cube 3D sur ses propres données pour l'adapter à ses besoins. Nous pensons que les outils d'IA doivent reposer sur l'ouverture et la transparence, c'est pourquoi nous sommes un partenaire engagé au sein de la communauté open source de l'IA. Nous avons publié l’un de nos modèles de sécurité IA car nous sommes convaincus que le partage des avancées en matière de sécurité IA aide l’ensemble du secteur à accélérer l’innovation et les progrès techniques. C’est pourquoi nous avons également contribué à la création de ROOST, une nouvelle organisation à but non lucratif dédiée à la résolution de problèmes majeurs en matière de sécurité numérique à l’aide d’outils de sécurité open source. En rendant Cube 3D open source, notre objectif est de permettre aux chercheurs, aux développeurs et à la communauté IA au sens large d’apprendre, d’enrichir et de faire progresser la génération 3D à l’échelle du secteur.

Cube 3D pour la création

Nous avons déjà évoqué la manière dont l’IA peut accélérer la création d’actifs 3D, d’accessoires et d’expériences. À terme, l’IA permettra des expériences de jeu et des interactions encore plus immersives et personnalisées. Nous investissons dans des infrastructures pour soutenir l’IA à chaque étape du cycle de création, tant pour les développeurs de ces expériences que pour les utilisateurs qui y passent du temps. Nous envisageons un avenir où les développeurs offriront à leurs utilisateurs de nouvelles façons de créer en intégrant l’IA dans leurs expériences. Cela mettra la puissance de l’IA entre les mains de plus de 85 millions d’utilisateurs actifs quotidiens dans le cadre de leur expérience de jeu.

Au cours de l’année écoulée, nous avons introduit plusieurs nouvelles fonctionnalités via notre Assistant alimenté par l’IA au sein de Roblox Studio afin de fournir aux développeurs les outils et les capacités dont ils ont besoin pour créer et éliminer des heures de travail manuel. Avec Cube, nous avons l’intention de rendre la création 3D plus efficace. Grâce à la génération de maillages 3D, les développeurs peuvent rapidement explorer de nouvelles directions créatives et augmenter leur productivité en décidant rapidement lesquelles retenir.

Imaginez que vous créiez un jeu de course automobile. Aujourd’hui, vous pourriez utiliser l’API de génération de maillages dans l’Assistant en saisissant une commande rapide, comme « /generate a motorcycle » ou « /generate orange safety cone ». En quelques secondes, l’API générerait une version maillée de ces objets. Ceux-ci pourraient ensuite être enrichis de textures, de couleurs, etc. Grâce à cette API, vous pouvez modéliser des accessoires ou concevoir votre espace beaucoup plus rapidement — plus besoin de passer des heures à modéliser des objets simples. Elle vous permet de vous concentrer sur les aspects ludiques, comme la conception du tracé du circuit et le réglage fin de la maniabilité de la voiture. Cette API vous fait gagner des heures sur chaque objet créé et vous redonne ce temps pour expérimenter de nouvelles idées sans vous soucier de consacrer trop de temps ou d’efforts. À plus long terme, nous prévoyons de prendre en charge des objets plus complexes et fonctionnels, voire des scènes.

Cette technologie s'adresse aux dizaines de millions de créatifs qui jouent et interagissent chaque jour sur Roblox. Nous envisageons un avenir où les développeurs permettront à leurs utilisateurs de devenir des créateurs grâce à l'IA. Grâce à l'API Mesh Generation, les joueurs peuvent donner vie à tout ce qu'ils peuvent imaginer. Si un joueur souhaite une voiture futuriste, il lui suffit de taper « voiture rouge du futur avec ailerons latéraux » ou « veste de moto en cuir noir » pour la voir apparaître. Ce type de génération par IA en jeu va ouvrir la voie à un tout nouveau niveau de créativité. Les joueurs pourront personnaliser leur expérience d’une manière que les développeurs n’auraient jamais imaginée, ce qui rendra leurs jeux encore plus captivants.

Dans les coulisses : attention croisée entre les tokens 3D et les tokens texte/image

Le principal défi technique consistait à relier le texte et les images à des formes 3D. Notre avancée technique majeure réside dans la tokenisation 3D, qui nous permet de représenter des objets 3D sous forme de tokens, de la même manière que le texte peut être représenté par des tokens. Cela nous donne la capacité de prédire la forme suivante, tout comme les modèles linguistiques prédisent le mot suivant dans une phrase.

Pour permettre la génération 3D, nous avons conçu une architecture unifiée pour la génération autorégressive d’un objet unique, la complétion de formes et la génération de dispositions multi-objets/scènes. Les transformateurs autorégressifs sont des réseaux neuronaux qui utilisent les entrées précédentes pour prédire le composant suivant. Cette architecture offre à la fois évolutivité et compatibilité multimodale, de sorte que, à mesure que nous développons le modèle, il fonctionnera avec de nombreux types d’entrées différents (texte, visuel, audio et 3D). Nous mettons ce modèle en open source. Dans cette phase initiale, les créateurs pourront générer des objets 3D à partir de prompts textuels. À terme, nous souhaitons que les créateurs puissent générer des scènes entières à partir d’entrées multimodales.

Pour entraîner un transformateur génératif pré-entraîné (GPT) à la génération de formes, nous utilisons des jetons de forme 3D discrets et les alignons avec des invites textuelles. Cette approche novatrice nous ouvre la voie vers un monde de génération de scènes 3D interactives.

Vers quoi se dirige Cube

Aujourd'hui, une grande partie du monde utilise l'IA pour le texte, afin de prédire les mots d'une phrase. Beaucoup l'utilisent également pour les images, afin de prédire les pixels. Cela devient beaucoup plus complexe lorsqu'il s'agit de créer des scènes, où tous ces éléments se rejoignent et doivent fonctionner en contexte les uns avec les autres. Par exemple, imaginez une expérience avec une scène simple pouvant être décrite comme « un avatar sur une moto devant un circuit de course avec des arbres ». 

De nombreux éléments entrent en jeu pour construire cette expérience. Les arbres sont une combinaison de deux maillages 3D, la moto est un maillage dense avec des détails et des triangles, et les bâtiments sont constitués de pièces Roblox. L’avatar sur la moto présente des caractéristiques géométriques plus complexes pour son corps, ses membres et sa tête. Enfin, il nous faut un moyen de relier le tout à l’aide d’une mise en page. Pour cela, nous avons besoin de boîtes englobantes, qui délimitent un objet pour définir sa taille et son emplacement, afin de savoir comment agencer cette géométrie. C’est un processus minutieux, mais l’IA est capable d’aider à chaque étape. Grâce à l’IA, les créateurs peuvent obtenir la première version plus rapidement et disposer de plus de temps pour tester de nouvelles idées ou peaufiner leur scène. 

Une fois ce stade atteint, nous voulons que les objets et scènes 3D que nous créons soient pleinement fonctionnels. C'est ce que nous appelons la création 4D, où la quatrième dimension est l'interaction entre les objets, les environnements et les personnes. Pour y parvenir, il faut non seulement être capable de construire des objets et des scènes 3D immersifs, mais aussi de comprendre les contextes et les relations entre ces objets. C'est vers cela que nous nous dirigeons avec Cube. 

Au-delà de ce premier cas d'utilisation de la génération de maillages, nous prévoyons de nous étendre à la génération et à la compréhension de scènes. Nous serons en mesure d’offrir aux utilisateurs les expériences qui les intéressent le plus et d’enrichir les scènes en y ajoutant des objets en fonction du contexte. Par exemple, dans une expérience mettant en scène une forêt, un développeur pourrait demander à l’Assistant de remplacer toutes les feuilles vertes luxuriantes des arbres par un feuillage d’automne pour indiquer le changement de saison. Nos outils d’Assistant IA réagissent aux demandes du développeur, l’aidant ainsi à créer, adapter et faire évoluer rapidement ses expériences. 

Nous partagerons les mises à jour et les nouvelles fonctionnalités à mesure que nous continuerons à améliorer et à étendre notre modèle de base. D'ici là, nous espérons que vous apprécierez d'utiliser et de développer notre version open source du modèle 3D Cube, accessible sur GitHub et HuggingFace.