Presentazione di Roblox Cube: il nostro sistema di IA generativa di base per il 3D e il 4D

- Stiamo rilasciando il nostro modello di base Cube 3D per l'IA generativa.
- Stiamo inoltre rendendo open source una versione del modello di base Cube 3D.
- La versione beta della generazione di mesh Cube 3D, disponibile in Roblox Studio e come API Lua integrata nell'esperienza, sarà disponibile questa settimana.
Lo scorso autunno abbiamo annunciato un progetto ambizioso per la creazione di un modello di base 3D open source per la creazione di oggetti e scene 3D su Roblox. Questa settimana rendiamo open source la prima versione di questo modello per renderlo disponibile a chiunque, all'interno o all'esterno della piattaforma Roblox, sia su GitHub che su HuggingFace. Abbiamo chiamato questo modello Cube 3D. Stiamo inoltre lanciando la prima delle sue funzionalità, con il lancio in versione beta della nostra API per la generazione di mesh. Cube sarà alla base di molti degli strumenti di IA che svilupperemo nei prossimi anni, compresi strumenti altamente complessi per la generazione di scene. Diventerà infine un modello multimodale, addestrato su testo, immagini, video e altri tipi di input, e si integrerà con i nostri attuali strumenti di creazione basati sull'IA.
Cube 3D genera modelli e ambienti 3D direttamente dal testo e, in futuro, da input di immagini. Oggi, la generazione 3D all'avanguardia utilizza immagini e un approccio di ricostruzione per costruire oggetti 3D. Questa è una buona opzione quando non ci sono dati di addestramento 3D sufficienti. Tuttavia, grazie alla natura della nostra piattaforma, ci addestriamo su dati 3D nativi. L'oggetto generato è pienamente compatibile con i motori di gioco odierni e può essere esteso per rendere gli oggetti funzionali.
La differenza in questo caso è simile a quella tra un set cinematografico di un circuito automobilistico. In TV, potresti vedere quello che sembra un circuito completamente funzionante, con tribune, box e una zona di premiazione. Ma se dovessi camminare su quel set, ti renderesti subito conto che le strutture sono in realtà piatte. Costruire un mondo 3D veramente immersivo richiede strutture complete e funzionali, con box in cui puoi entrare in auto, tribune su cui puoi sederti e una zona di premiazione con un podio funzionante.
Per raggiungere questo obiettivo, abbiamo tratto ispirazione da modelli all'avanguardia addestrati su token di testo (o insiemi di caratteri) in modo che possano prevedere il token successivo per formare una frase. La nostra innovazione si basa sulla stessa idea di fondo. Abbiamo sviluppato la capacità di tokenizzare oggetti 3D e interpretare le forme come token, e abbiamo addestrato Cube 3D a prevedere il token di forma successivo per costruire un oggetto 3D completo. Quando estendiamo questo processo alla generazione di scene complete, Cube 3D prevede il layout e, in modo ricorsivo, la forma necessaria a completarlo.
Chiunque può mettere a punto, sviluppare plug-in o addestrare Cube 3D sui propri dati per soddisfare le proprie esigenze. Crediamo che gli strumenti di IA debbano essere basati su apertura e trasparenza, ed è per questo che siamo un partner impegnato nella comunità open-source dell'IA. Abbiamo rilasciato uno dei nostri modelli di sicurezza IA perché siamo fermamente convinti che la condivisione dei progressi nella sicurezza IA aiuti l'intero settore ad accelerare l'innovazione e i progressi tecnici. Per questo motivo, abbiamo anche contribuito a fondare ROOST, una nuova organizzazione senza scopo di lucro dedicata ad affrontare aree importanti della sicurezza digitale con strumenti di sicurezza open source. Rendendo Cube 3D open source, il nostro obiettivo è consentire a ricercatori, sviluppatori e alla più ampia comunità IA di apprendere, potenziare e far progredire la generazione 3D a livello di settore.
Cube 3D per la creazione
Abbiamo già parlato in precedenza di come l'IA possa accelerare la creazione di risorse 3D, accessori ed esperienze. In definitiva, l'IA consentirà un'esperienza di gioco e connessioni ancora più immersive e personalizzate. Investiamo in infrastrutture per supportare l'IA in ogni fase del ciclo di creazione, sia per gli sviluppatori di queste esperienze che per gli utenti che vi trascorrono del tempo. Immaginiamo un futuro in cui gli sviluppatori offriranno ai propri utenti nuovi modi di creare, integrando l'IA nelle loro esperienze. Questo metterà il potere dell'IA nelle mani di oltre 85 milioni di utenti attivi al giorno come parte del loro gameplay.
Nell'ultimo anno, abbiamo introdotto diverse nuove funzionalità tramite il nostro Assistant basato sull'IA all'interno di Roblox Studio per fornire agli sviluppatori gli strumenti e le capacità di cui hanno bisogno per creare ed eliminare ore di lavoro manuale. Con Cube, intendiamo rendere la creazione 3D più efficiente. Con la generazione di mesh 3D, gli sviluppatori possono esplorare rapidamente nuove direzioni creative e aumentare la loro produttività decidendo rapidamente con quale procedere.
Immaginate di creare un gioco di corse automobilistiche. Oggi potreste utilizzare l'API Mesh Generation all'interno dell'Assistente digitando un breve comando, come "/generate a motorcycle" o "/generate orange safety cone". In pochi secondi, l'API genererebbe una versione mesh di questi oggetti. Questi potrebbero poi essere arricchiti con texture, colori, ecc. Con questa API, potete modellare oggetti di scena o progettare il vostro spazio molto più velocemente, senza dover passare ore a modellare oggetti semplici. Ti permette di concentrarti sulle cose divertenti, come progettare il tracciato e mettere a punto la manovrabilità dell'auto. Questa API fa risparmiare ore su ogni oggetto creato e ti restituisce quel tempo per sperimentare nuove idee senza preoccuparti di dedicarci troppo tempo o sforzo. A lungo termine, abbiamo in programma di abilitare oggetti più complessi e funzionali, persino scene.






Dietro le quinte: attenzione incrociata tra 3D e token di testo/immagine
La sfida tecnica principale era quella di collegare testo e immagini con forme 3D. La nostra principale innovazione tecnica è la tokenizzazione 3D, che ci permette di rappresentare oggetti 3D come token allo stesso modo in cui il testo può essere rappresentato come token. Questo ci dà la possibilità di prevedere la forma successiva proprio come i modelli linguistici prevedono la parola successiva in una frase.

Per ottenere la generazione 3D, abbiamo progettato un'architettura unificata per la generazione autoregressiva di singoli oggetti, il completamento delle forme e la generazione di layout multi-oggetto/scena. I trasformatori autoregressivi sono reti neurali che utilizzano gli input precedenti per prevedere il componente successivo. Questa architettura offre sia scalabilità che compatibilità multimodale, in modo che, man mano che espandiamo il modello, esso funzioni con molti tipi diversi di input (testo, immagini, audio e 3D). Stiamo rendendo questo modello open source. In questa fase iniziale, i creatori potranno generare oggetti 3D sulla base di prompt testuali. In futuro, intendiamo consentire ai creatori di generare intere scene sulla base di input multimodali.
Per addestrare un generative pretrained transformer (GPT) per la generazione di forme, utilizziamo token di forme 3D discreti e li allineiamo con i prompt di testo. Questo approccio innovativo ci apre le porte al mondo della generazione di scene 3D interattive.

Dove sta andando Cube
Oggi, gran parte del mondo utilizza l'IA per il testo, per prevedere le parole in una frase. Molti la utilizzano anche per le immagini, per prevedere i pixel. La questione si complica notevolmente quando si creano scene, dove tutti questi elementi si uniscono e devono interagire tra loro nel contesto. Ad esempio, immaginate un'esperienza con una scena semplice che può essere descritta come "un avatar su una motocicletta davanti a una pista da corsa con alberi".
Ci sono molti elementi che contribuiscono a costruire questa esperienza. Gli alberi sono una combinazione di due mesh 3D, la moto è una mesh densa con dettagli e triangoli, e gli edifici sono composti da parti di Roblox. L'avatar sulla moto ha caratteristiche geometriche più complesse per il corpo, gli arti e la testa. Infine, abbiamo bisogno di un modo per legare tutto insieme con un layout. Per questo, abbiamo bisogno di bounding box, che delineano un oggetto per definirne le dimensioni e la posizione, per sapere come disporre questa geometria. Si tratta di un processo meticoloso, ma l'IA è in grado di aiutare in ogni fase. Con l'IA, i creatori possono arrivare alla prima versione più velocemente e avere più tempo per testare nuove idee o perfezionare la loro scena.
Una volta raggiunto questo obiettivo, vogliamo che gli oggetti e le scene 3D che creiamo siano pienamente funzionali. Chiamiamo questo processo "creazione 4D", dove la quarta dimensione è l'interazione tra oggetti, ambienti e persone. Raggiungere questo obiettivo richiede non solo la capacità di costruire oggetti e scene 3D immersivi, ma anche di comprendere i contesti e le relazioni tra tali oggetti. È questa la direzione che stiamo seguendo con Cube.
Oltre a questo primo caso d'uso della generazione di mesh, abbiamo in programma di estenderci alla generazione e alla comprensione delle scene. Saremo in grado di offrire agli utenti le esperienze a cui sono più interessati e di arricchire le scene aggiungendo oggetti nel contesto. Ad esempio, in un'esperienza con una scena di foresta, uno sviluppatore potrebbe chiedere all'Assistente di sostituire tutte le foglie verdi rigogliose sugli alberi con fogliame autunnale per indicare il cambio di stagione. I nostri strumenti di Assistente AI reagiscono alle richieste dello sviluppatore, aiutandolo a creare, adattare e scalare rapidamente le sue esperienze.
Condivideremo aggiornamenti e nuove funzionalità man mano che continueremo a migliorare ed espandere il nostro modello di base. Fino ad allora, speriamo che vi divertiate a utilizzare e a sviluppare sulla base della nostra versione open source del modello 3D Cube, a cui potete accedere su GitHub e HuggingFace.



