Roblox' weg naar 4D generatieve AI

- Roblox werkt aan 4D generatieve AI, waarbij het verder gaat dan afzonderlijke 3D-objecten naar dynamische interacties.
- Om de uitdaging van 4D op te lossen, is multimodaal begrip nodig op het gebied van uiterlijk, vorm, fysica en scripts.
- De eerste tools die de basis vormen voor ons 4D-systeem versnellen nu al het creatieve proces op het platform.
Roblox stelt makers in staat om meeslepende 3D-ervaringen, avatars en accessoires te bouwen door de tools, diensten en ondersteuning te bieden die ze nodig hebben om hun ideeën tot leven te brengen. Het zijn deze makers die de levendige content op ons platform bouwen, die dagelijks meer dan 77 miljoen actieve gebruikers trekt (vanaf het eerste kwartaal van 2024). Via onze gratis Roblox Studio-app hebben we een reeks generatieve AI-tools uitgebracht die speciaal zijn ontworpen voor Roblox-workflows en zijn getraind op Roblox-specifieke content.
Deze tools maken het creëren gemakkelijker, efficiënter en leuker voor zowel experts als beginners. Assistant maakt het bewerken van de 3D-werkruimte mogelijk, Animation Capture maakt gezichts- en lichaamsbewegingen mogelijk, Code Assist helpt bij het bewerken en maken van scripts, Material Generator maakt het betegelen van materiaal mogelijk en Texture Generator maakt asset-specifieke textuurmapping mogelijk. Elk van deze generatieve AI-tools verbetert een onderdeel van het creatieve 3D-proces.
Samen vergroten deze tools de vaardigheden van een maker en verkorten ze de tijd van concept tot voltooiing. We hebben deze tools ontwikkeld op basis van onze eigen innovatieve doorbraken in onderzoek en de beste oplossingen uit het bredere AI-ecosysteem. Ze richten zich op het creëren van individuele assets in 1D (scripts), 2D (oppervlakken) en 3D (ruimtes). We geven een voorproefje van enkele resultaten uit ons lab voor het genereren en bewerken van 3D-geometrie op diverse internationale onderzoeksconferenties, waaronder onze eigen Roblox Developers Conference.
In de hele sector zijn 1D en 2D state-of-the-art, en 3D bevindt zich in de voorhoede van generatieve AI. Elk daarvan vormt een steeds grotere uitdaging die voortdurend leidt tot spannende technische vooruitgang. Aangezien we in een 3D-ruimte leven, lijkt dit misschien de ultieme uitdaging voor generatieve AI. Op basis van de behoeften van onze community reikt onze visie voor dit werk echter nog verder.
Waar we vandaag staan
We werken aan 4D generatieve AI, waarbij de vierde dimensie interactie is. De kracht van het online platform van Roblox is interactie – tussen mensen, objecten en omgevingen. In tegenstelling tot traditionele online videogames maakt de krachtige runtime-engine van Roblox gebruik van een uniek programmeer- en simulatiemodel dat gericht is op interactie. Dit model is geïnspireerd door het concept van een metaverse, waar elementen elkaar op complexe, veel-op-veel en spontane manieren ontmoeten, in plaats van op voorgeschreven en beperkte manieren.
1D-, 2D- en 3D-generatieve AI-tools produceren individuele assets. De uitdaging waar we voor staan met 4D generatieve AI is om die assets tot leven te brengen op manieren die onbeperkte interacties mogelijk maken die geschikt zijn voor ons platform. Dit betekent bijvoorbeeld dat een avatar niet alleen vorm en kleur is – het is ook een skelet, animaties en het vermogen om gereedschap vast te pakken en in evenwicht te blijven. Die avatar kan kleding dragen die niet specifiek voor hem is ontworpen en die zich automatisch aanpast om perfect te passen en alle bewegingen volgt. Onze nieuwe Avatar AutoSetup-tool is een vroeg voorbeeld van hoe generatieve AI kan helpen bij het automatiseren van dit soort creaties. Ontwikkelaars kunnen dit proces nu in minuten voltooien in plaats van uren of dagen.
Een sportwagen is niet alleen een gestroomlijnde vorm en laklaag – het is ook de motor, de bewegende onderdelen en de fysica-rig die ervoor zorgen dat hij met precisie en controle door virtuele straten kan razen. In elk geval wordt het object uitgebreid van 3D om via fysica met al zijn onderdelen te communiceren en met een gebruiker via diens avatar.
Elk van deze rijk interactieve 4D-elementen kan worden toegevoegd aan een grotere omgeving waar de generatieve AI de stijl van elk element harmoniseert en interactieve ondersteuning tussen de objecten en met de omgeving toevoegt. Nu kan een gebruiker, via zijn of haar avatar, meedoen aan een straatrace met schademodificatoren en topscores, en slippend tot stilstand komen bij een modewinkel, waar hij of zij nieuwe kleding koopt om de overwinning te vieren.
Tegenwoordig vereist het creëren van dergelijke ervaringen het handmatig maken van de scriptbroncode, de werkruimte- en datamodelstructuur, 3D-geometrie, animaties en materialen. Onze bestaande generatieve AI-tools helpen bij elk onderdeel van de pijplijn. We bouwen een systeem dat al deze elementen met elkaar verbindt en ze tegelijkertijd genereert. Om dit te bereiken, moeten we ons 4D-generatieve AI-systeem op een multimodale manier trainen, wat betekent dat we meerdere soorten gegevens samen gebruiken. Dit is al gedaan voor afbeeldingen en tekst, die de basis vormen voor Material Generator. Door interactie mogelijk te maken en speciaal ontwikkelde optimalisaties voor fysica toe te voegen, bereiken we het volgende niveau van 4D-mogelijkheden.
Alleen al in het afgelopen jaar hebben we enorme veranderingen gezien in de manier waarop content op Roblox wordt gecreëerd. Als we vooruitkijken, zien we een toekomst waarin iedereen, waar dan ook, een idee tot leven kan brengen door simpelweg een commando te typen of uit te spreken. Om daar te komen, moeten we beginnen met het oplossen van enkele uitdagingen die we onderweg zullen tegenkomen.
De uitdagingen die voor ons liggen
De experimenten die we hierboven hebben gedeeld, zullen in de nabije toekomst beschikbaar zijn. Op langere termijn staan we voor drie duidelijke uitdagingen die we moeten overwinnen:
1. Functioneel: De objecten die door deze toekomstige generatieve AI-tool worden gecreëerd, moeten functioneel zijn. Het gaat erom dat het systeem naar een vrachtwagen of een vliegtuig kijkt waarvan je de 3D-vorm hebt — en deze niet behandelt als een gesloten, ondoorzichtig object. En zonder dat de maker hoeft in te grijpen, kan het automatisch herkennen: dit zijn de onderdelen die verbindingen moeten hebben, of dit is waar de mesh moet openen.
Dit is een AI-probleem op menselijk niveau dat deze systemen moeten oplossen – bijvoorbeeld zoeken naar de juiste plaatsing van de wielen en vervolgens een as voor de wielen toevoegen, zodat ze op dezelfde manier werken als in de fysieke wereld. En zoeken waar de deur is en vervolgens een opening uitsnijden en scharnieren toevoegen, zodat de deur kan openen en sluiten.
2. Interactief: Items die met deze toekomstige generatieve AI worden gecreëerd, moeten niet alleen zelfstandig kunnen functioneren, maar ook kunnen interageren met andere objecten in de omgeving. Dus nu het systeem voor ons een auto heeft gecreëerd met een deur die opengaat en wielen die draaien, moet het de fysica begrijpen van de wereld waarin de auto is geplaatst. Hoe beweegt het voertuig zich over het terrein? Als het tegen een rotsblok botst, waar en hoe vervormt het dan, op basis van de grootte van het rotsblok en de snelheid van het voertuig?
Deze complexe uitdaging vereist dat zowel het gecreëerde object als de omgeving of objecten waarmee het interactie heeft, elkaars fysica begrijpen. Gelukkig heeft Roblox op dit vlak een voorsprong, aangezien het platform is gebouwd als een physics-engine, wat betekent dat alle objecten in ervaringen fysiek kunnen zijn. Wanneer generatieve AI een 4D-object creëert, worden ook fysieke eigenschappen zoals materiaal, massa en sterkte toegevoegd om het voor te bereiden op interactie met andere fysiek gebaseerde objecten in de wereld.
3. Beheersbaar: Tegenwoordig communiceren we met generatieve AI via prompts. Dit is een onvolmaakte wetenschap, vergelijkbaar met een speurtocht. Iemand die om een afbeelding van een konijn vraagt, kan een enorme verscheidenheid aan resultaten krijgen: een echt konijn, een chocolade paashazen, een cartoonkonijn, een schilderij van een konijn of een illustratie van een konijn met een jas aan. Daarom verfijnen we de prompts en vragen we om fotorealistische afbeeldingen of afbeeldingen 'in de stijl van', terwijl we het beeld in ons hoofd verder uitwerken. Dit kost tijd en herhaalde pogingen om dichter bij te komen wat we zoeken.
Stel je voor dat je dit proces moet volgen voor een 3D-object dat functioneert en interactie heeft met andere objecten, zoals de vrachtwagen in ons voorbeeld hierboven. Prompt engineering op dit niveau zou exponentieel complex zijn – niet iets dat zomaar iedereen gemakkelijk zou kunnen gebruiken. Om het idee van een maker tot leven te brengen, hebben we een snellere, eenvoudigere manier nodig om te communiceren en te verfijnen, in wezen samenwerkend met een AI-assistent die meer een partner is en minder een speurtocht.
Dit is een uitdaging voor de hele sector, en veel bedrijven werken eraan om generatieve AI beter beheersbaar te maken. We hebben hier enige vooruitgang geboekt met tools zoals ControlNet, dat de controle vergroot door de maker in staat te stellen aanvullende invoervoorwaarden te geven die verder gaan dan alleen tekstprompts. We onderzoeken momenteel andere methoden die veelbelovend zijn voor een bevredigende workflow, zoals het laten pauzeren van de AI na cruciale stappen om te wachten op gebruikersinvoer. Maar we hebben nog een lange weg te gaan om een naadloze ervaring te bereiken.
We zijn enthousiast over de impact die we tot nu toe hebben gezien en nog enthousiaster over wat de toekomst in petto heeft. In vergelijking met makers die de bètaversie van Material Generator niet gebruiken, hebben degenen die deze wel gebruiken hun gebruik van op fysica gebaseerde rendering (PBR) materiaalvariaties met meer dan 100 procent verhoogd – van iets meer dan duizend in maart 2023 tot meer dan tweeduizend in juni 2024. Op 2 juni 2024 hadden makers ongeveer 535 miljoen tekens aan code overgenomen die door Code Assist was voorgesteld.
Naarmate we de uitdagingen op deze weg naar 4D beginnen op te lossen, zullen onze makers meer en sneller kunnen creëren. We verwachten ook een grotere diversiteit aan ervaringen op Roblox te zien, aangezien we het voor meer mensen mogelijk maken om maker te worden. Wat ze bouwen en hoe ze dat doen, zal ons laten zien waar we moeten investeren in nieuwe tools en AI-algoritmen om deze nieuwe makers, naast onze bestaande community, te ondersteunen.
Met 4D generatieve AI heeft Roblox een nieuw tijdperk ingeluid voor het creëren van ervaringen en assets. Hoewel de uitdagingen nieuw zijn, is ons innovatieproces goed geolied. We combineren onze uitmuntende interne onderzoeks- en ontwikkelingsteams, samenwerkingen met universiteiten en snelle iteratie op prototypes in samenwerking met onze community.



