Een revolutie in het creëren op Roblox met generatieve AI

Door Daniel Sturman, Chief Technology Officer, Roblox

Gepubliceerd 11 sep 2023

Revolutionizing Creation on Roblox with Generative AI

Eerder dit jaar deelden we onze visie op generatieve kunstmatige intelligentie (AI) op Roblox en de intuïtieve nieuwe tools waarmee elke gebruiker een maker kan worden. Aangezien deze tools zich in de hele sector snel ontwikkelen, wil ik graag een update geven over de vooruitgang die we hebben geboekt, de weg die we nog te gaan hebben om het creëren met generatieve AI te democratiseren, en waarom we denken dat generatieve AI een cruciaal element is voor de toekomst van Roblox.

Vooruitgang op het gebied van generatieve AI en grote taalmodellen (LLM's) biedt een ongelooflijke kans om de toekomst van meeslepende ervaringen te ontsluiten door eenvoudiger en sneller creëren mogelijk te maken, met behoud van veiligheid en zonder dat er enorme rekenkracht nodig is. Bovendien openen de vorderingen in AI-modellen die multimodaal zijn – wat betekent dat ze zijn getraind met meerdere soorten content, zoals afbeeldingen, code, tekst, 3D-modellen en audio – de deur naar nieuwe ontwikkelingen in creatietools. Dezezelfde modellen beginnen ook multimodale outputs te produceren, zoals een model dat een tekstoutput kan genereren, evenals enkele visuele elementen die de tekst aanvullen. Wij zien deze AI-doorbraken als een enorme kans om tegelijkertijd de efficiëntie voor meer ervaren makers te verhogen en nog meer mensen in staat te stellen geweldige ideeën tot leven te brengen op Roblox. Tijdens de Roblox Developers Conference (RDC) van dit jaar hebben we verschillende nieuwe tools aangekondigd die generatieve AI naar Roblox Studio en daarbuiten zullen brengen om iedereen op Roblox te helpen sneller op te schalen, sneller te itereren en hun vaardigheden uit te breiden om nog betere content te creëren.

Roblox Assistant

Roblox heeft makers altijd voorzien van de tools, diensten en ondersteuning die ze nodig hebben om meeslepende 3D-ervaringen te bouwen. Tegelijkertijd hebben we gezien dat onze makers generatieve en conversationele AI van derden zijn gaan gebruiken om hen te helpen bij het creëren. Hoewel deze kant-en-klare versies nuttig zijn om de werkdruk van de maker te verminderen, zijn ze niet ontworpen voor end-to-end Roblox-workflows en niet getraind op Roblox-code, -jargon en -taalgebruik. Dat betekent dat makers aanzienlijk extra werk moeten verzetten om deze versies te gebruiken voor het maken van content voor Roblox. We hebben gewerkt aan manieren om de waarde van deze tools naar Roblox Studio te brengen, en tijdens de RDC hebben we een vroeg voorbeeld van Assistant gedeeld.

Assistant is onze conversationele AI die makers van alle niveaus in staat stelt aanzienlijk minder tijd te besteden aan de alledaagse, repetitieve taken die bij het creëren komen kijken, en meer tijd aan activiteiten met hoge toegevoegde waarde, zoals verhaallijnen, gameplay en het ontwerpen van ervaringen. Roblox bevindt zich in een unieke positie om dit conversational AI-model voor meeslepende 3D-werelden te bouwen, dankzij onze toegang tot een grote verzameling openbare 3D-modellen om mee te trainen, ons vermogen om een model te integreren met onze platform-API's en onze groeiende reeks innovatieve AI-oplossingen. Makers kunnen tekstprompts in natuurlijke taal gebruiken om scènes te creëren, 3D-modellen te bewerken en interactief gedrag toe te passen op objecten. Assistant ondersteunt de drie fasen van het creatieproces: leren, coderen en bouwen:

Leren: of een maker nu helemaal nieuw is in het ontwikkelen op Roblox of een doorgewinterde veteraan, Roblox Assistant helpt bij het beantwoorden van vragen over een breed scala aan onderwerpen met behulp van natuurlijke taal.
Coderen: Assistant bouwt voort op onze recente Code Assist-tool. Ontwikkelaars kunnen Assistant bijvoorbeeld vragen om hun code te verbeteren, een deel van de code uit te leggen of te helpen bij het opsporen van fouten en het voorstellen van oplossingen voor code die niet goed werkt.
Bouwen: Assistant helpt makers om snel prototypes van nieuwe ideeën te maken. Een nieuwe maker kan bijvoorbeeld complete scènes genereren en verschillende versies uitproberen door simpelweg een opdracht in te voeren zoals “Voeg wat straatlantaarns toe langs deze weg” of “Maak een bos met verschillende soorten bomen. Voeg nu wat struiken en bloemen toe.”

Het werken met Assistant zal collaboratief, interactief en iteratief zijn, waardoor makers feedback kunnen geven en Assistant de juiste oplossing kan bieden. Het zal zijn alsof je een deskundige maker als partner hebt met wie je ideeën kunt uitwisselen en ideeën kunt uitproberen totdat je het juiste resultaat hebt bereikt.

Om van Assistant de best mogelijke partner te maken, hebben we tijdens RDC nog een aankondiging gedaan: we hebben ontwikkelaars uitgenodigd om zich aan te melden om hun geanonimiseerde Luau-scriptgegevens bij te dragen. Deze scriptgegevens zullen onze AI-tools, zoals Code Assist en Assistant, aanzienlijk helpen bij het voorstellen en creëren van efficiëntere code, wat ten goede komt aan de Roblox-ontwikkelaars die er gebruik van maken. Bovendien, als ontwikkelaars ervoor kiezen om hun gegevens buiten Roblox te delen, worden hun scriptgegevens toegevoegd aan een dataset die beschikbaar wordt gesteld aan derden om hun AI-chattools te trainen, zodat deze beter worden in het voorstellen van Luau-code, wat ten goede komt aan Luau-ontwikkelaars overal ter wereld.

Voor alle duidelijkheid: door uitgebreid gebruikersonderzoek en transparante gesprekken met topontwikkelaars hebben we dit zo ontworpen dat het opt-in is en zullen we ervoor zorgen dat alle deelnemers begrijpen en instemmen met wat het programma inhoudt. Als dank aan degenen die ervoor kiezen om scriptgegevens met Roblox te delen, verlenen we toegang tot de krachtigere versies van Assistant en Code Assist die worden aangedreven door dit door de community getrainde model. Degenen die zich niet hebben aangemeld, blijven toegang houden tot onze bestaande versie van Assistant en Code Assist.

Eenvoudigere avatarcreatie

Uiteindelijk willen we dat elk van onze 65,5 miljoen dagelijkse gebruikers een avatar heeft die hen echt vertegenwoordigt en uitdrukt wie ze zijn. We hebben onlangs de mogelijkheid gelanceerd voor leden van ons UGC-programma om zowel avatarlichamen als losse hoofden te maken en te verkopen. Op dit moment vereist dat proces toegang tot Studio of ons UGC-programma, een vrij hoog vaardigheidsniveau en meerdere dagen werk om gezichtsuitdrukkingen, lichaamsbewegingen, 3D-rigging enz. mogelijk te maken. Dit maakt het maken van avatars tijdrovend en heeft tot nu toe het aantal beschikbare opties beperkt. We willen nog verder gaan.

Om iedereen op Roblox in staat te stellen een gepersonaliseerde, expressieve avatar te hebben, moeten we het maken en aanpassen van avatars heel eenvoudig maken. Op RDC hebben we een nieuwe tool aangekondigd die we in 2024 uitbrengen en waarmee je eenvoudig een aangepaste avatar kunt maken op basis van één of meerdere afbeeldingen. Met deze tool kan elke maker met toegang tot Studio of ons UGC-programma een afbeelding uploaden, een avatar voor zichzelf laten maken en deze vervolgens naar eigen wens aanpassen. Op langere termijn zijn we van plan dit ook rechtstreeks beschikbaar te maken binnen ervaringen op Roblox.

Om dit mogelijk te maken, trainen we AI-modellen op het avatarschema van Roblox en een set 3D-avatar-modellen die eigendom zijn van Roblox. Eén benadering maakt gebruik van onderzoek naar het genereren van gestileerde 3D-avatars op basis van 2D-afbeeldingen. We kijken ook naar het gebruik van vooraf getrainde tekst-naar-beeld-diffusiemodellen om beperkte 3D-trainingsdata aan te vullen met 2D-generatieve technieken, en het gebruik van een op generatieve adversarial networks (GAN's) gebaseerd 3D-generatienetwerk voor training. Ten slotte werken we aan het gebruik van ControlNet om vooraf gedefinieerde poses in te voegen om de resulterende multi-view-afbeeldingen van de avatars te sturen.

Dit proces levert een 3D-mesh voor de avatar op. Vervolgens maken we gebruik van onderzoek naar 3D-semantische segmentatie, getraind op 3D-avatarposes, om die 3D-mesh aan te passen en de juiste gelaatstrekken, caging, rigging en texturen toe te voegen, waardoor de statische 3D-mesh in wezen een Roblox-avatar wordt. Ten slotte stelt een mesh-bewerkingstool gebruikers in staat om het model te morphen en aan te passen, zodat het meer lijkt op de versie die ze zich voorstellen. En dit alles gebeurt snel – binnen enkele minuten – waardoor een nieuwe avatar wordt gegenereerd die in Roblox kan worden geïmporteerd en in een ervaring kan worden gebruikt.

Modereren van spraakcommunicatie

AI gaat voor ons niet alleen over creatie, het is ook een veel efficiënter systeem om op grote schaal een diverse, veilige en beschaafde gemeenschap te garanderen. Nu we beginnen met de uitrol van nieuwe spraakfuncties, waaronder voicechat en Roblox Connect, de nieuwe functie 'bellen als je avatar' en API's die op RDC zijn aangekondigd, staan we voor een nieuwe uitdaging: het in realtime modereren van gesproken taal. De huidige industriestandaard hiervoor is een proces dat bekend staat als Automatic Speech Recognition (ASR), waarbij in feite een audiobestand wordt getranscribeerd om het om te zetten in tekst, waarna de tekst wordt geanalyseerd op ongepast taalgebruik, trefwoorden, enz.

Dit werkt goed voor bedrijven die het op kleinere schaal gebruiken, maar toen we onderzochten of we ditzelfde ASR-proces konden gebruiken om spraakcommunicatie te modereren, realiseerden we ons al snel dat dit op onze schaal moeilijk en inefficiënt is. Deze aanpak gaat ook voorbij aan ongelooflijk waardevolle informatie die vervat zit in het volume en de toon van de spreker, evenals de bredere context van het gesprek. Van de miljoenen minuten aan gesprekken die we elke dag zouden moeten transcriberen, in verschillende talen, zou slechts een zeer klein percentage mogelijk ongepast klinken. En naarmate we verder opschalen, zou dat systeem steeds meer rekenkracht nodig hebben om bij te blijven. Daarom hebben we nader onderzocht hoe we dit efficiënter konden doen, door een pijplijn te bouwen die rechtstreeks van de live-audio naar het labelen van inhoud gaat om aan te geven of deze in strijd is met ons beleid of niet.

Uiteindelijk zijn we erin geslaagd een intern, op maat gemaakt spraakdetectiesysteem te bouwen door ASR te gebruiken om onze interne spraakdatasets te classificeren, en vervolgens die geclassificeerde spraakdata te gebruiken om het systeem te trainen. Om dit nieuwe systeem te trainen, beginnen we met audio en maken we een transcriptie. Vervolgens voeren we het transcript door ons Roblox-tekstfiltersysteem om de audio te classificeren. Dit tekstfiltersysteem is uitstekend in het detecteren van taal die in strijd is met het beleid op Roblox, aangezien we ditzelfde filtersysteem al jaren optimaliseren voor Roblox-specifieke slang, afkortingen en jargon. Aan het einde van deze trainingsfasen beschikken we over een model dat in staat is om beleidsschendingen rechtstreeks uit audio in realtime te detecteren.

Hoewel dit systeem wel in staat is om specifieke trefwoorden zoals grof taalgebruik te detecteren, bestaan beleidsschendingen zelden uit slechts één woord. Eén woord kan in de ene context vaak problematisch lijken en in een andere context prima zijn. In wezen hebben dit soort schendingen te maken met wat je zegt, hoe je het zegt en de context waarin de uitspraken worden gedaan.

Om de context beter te begrijpen, maken we gebruik van de ingebouwde kracht van een op transformatoren gebaseerde architectuur, die zeer goed is in het samenvatten van reeksen. Deze kan een reeks gegevens, zoals een audiostream, nemen en deze voor je samenvatten. Deze architectuur stelt ons in staat om een langere audioreeks te behouden, zodat we niet alleen woorden maar ook context en intonaties kunnen detecteren. Zodra al deze elementen samenkomen, hebben we een definitief systeem waarbij de input audio is en de output een classificatie: in strijd met het beleid of niet. Dit systeem kan niet alleen trefwoorden en zinnen die het beleid schenden detecteren, maar ook toon, sentiment en andere context die belangrijk is om de intentie te bepalen. Dit nieuwe systeem, dat uitspraken die het beleid schenden direct uit audio detecteert, is aanzienlijk rekenkracht-efficiënter dan een traditioneel ASR-systeem, waardoor het veel gemakkelijker te schalen is terwijl we blijven herzien hoe mensen met elkaar in contact komen.

We hadden ook een nieuwe manier nodig om de gebruikers van onze spraakcommunicatietools te waarschuwen voor de mogelijke gevolgen van dit soort taalgebruik. Met dit innovatieve detectiesysteem tot onze beschikking, experimenteren we nu met manieren om online gedrag te beïnvloeden om een veilige omgeving te handhaven. We weten dat mensen soms onbedoeld ons beleid overtreden en we willen begrijpen of een incidentele herinnering kan helpen om verdere overtredingen te voorkomen. Om hierbij te helpen, experimenteren we met realtime gebruikersfeedback via meldingen. Als het systeem detecteert dat je een aantal keren iets hebt gezegd dat ons beleid schendt, tonen we een pop-upmelding op je scherm waarin we je informeren dat je taal ons beleid schendt en je doorverwijzen naar ons beleid voor meer informatie.

Meldingen in de spraakstream zijn echter slechts één onderdeel van het moderatiesysteem. We kijken ook naar gedragspatronen op het platform, evenals naar klachten van anderen op Roblox, om onze algemene moderatiebeslissingen te sturen. De combinatie van deze signalen kan leiden tot strengere consequenties, waaronder het intrekken van de toegang tot audiofuncties, of bij ernstigere overtredingen, een volledige uitsluiting van het platform. Het is van cruciaal belang om onze community veilig en beschaafd te houden, aangezien deze ontwikkelingen op het gebied van multimodale AI-modellen, generatieve AI en LLM's samenkomen om ongelooflijke nieuwe tools en mogelijkheden voor makers mogelijk te maken.

Wij zijn van mening dat het aanbieden van deze tools aan makers zowel de drempel voor minder ervaren makers zal verlagen als meer ervaren makers zal bevrijden van de meer vervelende taken van dit proces. Hierdoor kunnen zij meer tijd besteden aan de creatieve aspecten van het verfijnen en bedenken van ideeën. Ons doel met dit alles is om iedereen, waar dan ook, in staat te stellen zijn of haar ideeën tot leven te brengen en de diversiteit aan avatars, items en ervaringen die beschikbaar zijn op Roblox enorm te vergroten. We delen ook informatie en tools om nieuwe creaties te helpen beschermen.

We zien nu al geweldige mogelijkheden voor ons: stel dat iemand rechtstreeks vanuit een foto een avatar-dubbelganger kan maken, dan zou hij of zij die avatar vervolgens kunnen aanpassen om hem of haar langer te maken of in anime-stijl weer te geven. Of ze zouden een ervaring kunnen bouwen door Assistant te vragen auto's, gebouwen en landschappen toe te voegen, de verlichting of windomstandigheden in te stellen, of het terrein te veranderen. Van daaruit zouden ze kunnen itereren om dingen te verfijnen door simpelweg heen en weer te typen met Assistant. We weten dat wat mensen met deze tools gaan maken zodra ze beschikbaar zijn, veel verder zal gaan dan we ons nu kunnen voorstellen.

Nieuwste

Meer resultaten

Een revolutie in het creëren op Roblox met generatieve AI

Roblox Assistant

Eenvoudigere avatarcreatie

Modereren van spraakcommunicatie

Een revolutie in het creëren op Roblox met generatieve AI

Roblox Assistant

Eenvoudigere avatarcreatie

Modereren van spraakcommunicatie

Techniek

Hoe verslaggeving in de game werkt op Roblox

Techniek

Uitbreiding van onze Voice Safety Classifier met 22 nieuwe talen en verbeterde detectiemogelijkheden

Nieuws

Baanbrekende AI-oprichters sluiten zich aan om de visie van Roblox Reality te versnellen