Rivoluzionare la creazione su Roblox con l'IA generativa

All'inizio di quest'anno abbiamo condiviso la nostra visione dell'intelligenza artificiale generativa (AI) su Roblox e dei nuovi strumenti intuitivi che consentiranno a ogni utente di diventare un creatore. Poiché questi strumenti si stanno evolvendo rapidamente in tutto il settore, desidero fornire alcuni aggiornamenti sui progressi che abbiamo compiuto, sul percorso che ci attende per democratizzare la creazione tramite AI generativa e sul motivo per cui riteniamo che l'AI generativa sia un elemento fondamentale per il futuro di Roblox.
I progressi nell'IA generativa e nei modelli linguistici di grandi dimensioni (LLM) rappresentano un'incredibile opportunità per sbloccare il futuro delle esperienze immersive, consentendo una creazione più facile e veloce, mantenendo la sicurezza e senza richiedere enormi risorse di calcolo. Inoltre, i progressi nei modelli di IA multimodali, ovvero addestrati con più tipi di contenuti — come immagini, codice, testo, modelli 3D e audio — aprono la strada a nuovi progressi negli strumenti di creazione. Questi stessi modelli stanno iniziando a produrre anche output multimodali, come un modello in grado di generare un testo e immagini che lo completano. Consideriamo queste innovazioni nell'IA come un'enorme opportunità per aumentare l'efficienza dei creatori più esperti e consentire a un numero ancora maggiore di persone di dare vita a grandi idee su Roblox. Alla Roblox Developers Conference (RDC) di quest'anno, abbiamo annunciato diversi nuovi strumenti che porteranno l'IA generativa in Roblox Studio e oltre, per aiutare chiunque su Roblox a scalare più velocemente, iterare più rapidamente e potenziare le proprie competenze per creare contenuti ancora migliori.
Roblox Assistant
Roblox ha sempre fornito ai creatori gli strumenti, i servizi e il supporto necessari per realizzare esperienze 3D coinvolgenti. Allo stesso tempo, abbiamo visto i nostri creatori iniziare a utilizzare l'IA generativa e conversazionale di terze parti per aiutarli nella creazione. Sebbene siano utili per ridurre il carico di lavoro dei creatori, queste versioni pronte all'uso non sono state progettate per i flussi di lavoro end-to-end di Roblox né addestrate sul codice, lo slang e il gergo di Roblox. Ciò significa che i creatori devono affrontare un notevole carico di lavoro aggiuntivo per utilizzare queste versioni e creare contenuti per Roblox. Abbiamo lavorato su modi per portare il valore di questi strumenti in Roblox Studio e, in occasione dell'RDC, abbiamo condiviso un primo esempio di Assistant.
Assistant è la nostra IA conversazionale che consente ai creatori di ogni livello di competenza di dedicare molto meno tempo alle attività banali e ripetitive legate alla creazione e più tempo ad attività di alto valore, come la narrazione, il gameplay e la progettazione dell'esperienza. Roblox è in una posizione unica per costruire questo modello di IA conversazionale per mondi 3D immersivi, grazie al nostro accesso a un ampio set di modelli 3D pubblici su cui addestrarlo, alla nostra capacità di integrare un modello con le API della nostra piattaforma e alla nostra suite in continua crescita di soluzioni innovative di IA. I creatori potranno utilizzare prompt di testo in linguaggio naturale per creare scene, modificare modelli 3D e applicare comportamenti interattivi agli oggetti. Assistant supporterà le tre fasi della creazione: apprendimento, codifica e costruzione:
- Apprendimento: che un creatore sia alle prime armi con lo sviluppo su Roblox o un veterano esperto, Roblox Assistant lo aiuterà a rispondere a domande su una vasta gamma di argomenti utilizzando il linguaggio naturale.
- Codifica: Assistant amplierà il nostro recente strumento Code Assist. Ad esempio, gli sviluppatori potrebbero chiedere ad Assistant di migliorare il loro codice, spiegare una sezione di codice o aiutare a eseguire il debug e suggerire correzioni per il codice che non funziona correttamente.
- Costruzione: Assistant aiuterà i creatori a prototipare rapidamente nuove idee. Ad esempio, un nuovo creatore potrebbe generare scene intere e provare diverse versioni semplicemente digitando un comando come "Aggiungi dei lampioni lungo questa strada" o "Crea una foresta con diversi tipi di alberi. Ora aggiungi dei cespugli e dei fiori".
Lavorare con Assistant sarà collaborativo, interattivo e iterativo, consentendo ai creatori di fornire feedback e di far sì che Assistant lavori per fornire la soluzione giusta. Sarà come avere un creatore esperto come partner con cui scambiare idee e sperimentare fino a ottenere il risultato desiderato.
Per rendere Assistant il miglior partner possibile, abbiamo fatto un altro annuncio all'RDC: abbiamo invitato gli sviluppatori a scegliere di contribuire con i loro dati di script Luau anonimizzati. Questi dati di script aiuteranno a migliorare significativamente i nostri strumenti di IA, come Code Assist e Assistant, nel suggerire e creare codice più efficiente, restituendo un valore agli sviluppatori Roblox che li utilizzano. Inoltre, se gli sviluppatori decidono di condividere i dati al di fuori di Roblox, i loro dati relativi agli script verranno aggiunti a un set di dati messo a disposizione di terze parti per addestrare i loro strumenti di chat basati sull'IA a suggerire codice Luau in modo più efficace, a vantaggio degli sviluppatori Luau di tutto il mondo.
Per chiarezza, attraverso una ricerca approfondita sugli utenti e conversazioni trasparenti con i migliori sviluppatori, abbiamo progettato questo programma in modo che la partecipazione sia facoltativa e ci assicureremo che tutti i partecipanti comprendano e acconsentano a ciò che il programma comporta. Come ringraziamento a coloro che scelgono di partecipare alla condivisione dei dati degli script con Roblox, garantiremo l'accesso alle versioni più potenti di Assistant e Code Assist, alimentate da questo modello addestrato dalla comunità. Coloro che non hanno aderito continueranno ad avere accesso alla nostra versione esistente di Assistant e Code Assist.
Creazione di avatar più semplice
In definitiva, vogliamo che ciascuno dei nostri 65,5 milioni di utenti giornalieri abbia un avatar che lo rappresenti veramente ed esprima chi è. Recentemente abbiamo reso disponibile ai membri del nostro Programma UGC la possibilità di creare e vendere sia corpi di avatar che teste separate. Oggi, tale processo richiede l'accesso a Studio o al nostro Programma UGC, un livello di competenza piuttosto elevato e diversi giorni di lavoro per abilitare espressioni facciali, movimenti del corpo, rigging 3D, ecc. Ciò rende la creazione degli avatar dispendiosa in termini di tempo e, ad oggi, ha limitato il numero di opzioni disponibili. Vogliamo andare ancora oltre.
Per consentire a tutti su Roblox di avere un avatar personalizzato ed espressivo, dobbiamo rendere gli avatar molto facili da generare e personalizzare. All'RDC abbiamo annunciato un nuovo strumento che lanceremo nel 2024 e che consentirà di creare facilmente un avatar personalizzato a partire da un'immagine o da più immagini. Con questo strumento, qualsiasi creatore con accesso a Studio o al nostro programma UGC potrà caricare un'immagine, farsi creare un avatar e poi modificarlo a proprio piacimento. A lungo termine, intendiamo rendere questa funzionalità disponibile anche direttamente all'interno delle esperienze su Roblox.
Per rendere possibile tutto ciò, stiamo addestrando modelli di IA sullo schema degli avatar di Roblox e su una serie di modelli di avatar 3D di proprietà di Roblox. Un approccio sfrutta la ricerca per la generazione di avatar 3D stilizzati da immagini 2D. Stiamo inoltre valutando l'utilizzo di modelli di diffusione da testo a immagine pre-addestrati per potenziare i dati di addestramento 3D limitati con tecniche generative 2D, e l'utilizzo di una rete di generazione 3D basata su una rete generativa avversaria (GAN) per l'addestramento. Infine, stiamo lavorando all'utilizzo di ControlNet per sovrapporre pose predefinite e guidare le immagini multi-vista risultanti degli avatar.
Questo processo produce una mesh 3D per l'avatar. Successivamente, sfruttiamo la ricerca sulla segmentazione semantica 3D, addestrata sulle pose degli avatar 3D, per prendere quella mesh 3D e adattarla in modo da aggiungere caratteristiche facciali, caging, rigging e texture appropriate, trasformando in sostanza la mesh 3D statica in un avatar Roblox. Infine, uno strumento di modifica della mesh consente agli utenti di trasformare e adattare il modello per renderlo più simile alla versione che stanno immaginando. E tutto questo avviene rapidamente, in pochi minuti, generando un nuovo avatar che può essere importato in Roblox e utilizzato in un'esperienza.
Moderazione della comunicazione vocale
Per noi l'IA non riguarda solo la creazione, ma è anche un sistema molto più efficiente per garantire una comunità diversificata, sicura e civile, su larga scala. Con l'introduzione di nuove funzionalità vocali, tra cui la chat vocale e Roblox Connect, la nuova funzione "chiama come avatar" e le API annunciate all'RDC, ci troviamo di fronte a una nuova sfida: la moderazione del linguaggio parlato in tempo reale. L'attuale standard del settore per questo è un processo noto come Riconoscimento Automatico del Discorso (ASR), che essenzialmente prende un file audio, lo trascrive per convertirlo in testo, quindi analizza il testo per cercare linguaggio inappropriato, parole chiave, ecc.
Questo funziona bene per le aziende che lo utilizzano su scala ridotta, ma quando abbiamo valutato l'utilizzo di questo stesso processo ASR per moderare la comunicazione vocale, ci siamo subito resi conto che è difficile e inefficiente alla nostra scala. Questo approccio perde anche informazioni incredibilmente preziose codificate nel volume e nel tono di voce di chi parla, oltre che nel contesto più ampio della conversazione. Tra i milioni di minuti di conversazione che dovremmo trascrivere ogni giorno, in diverse lingue, solo una percentuale molto piccola potrebbe sembrare inappropriata. E man mano che continuiamo a crescere, quel sistema richiederebbe sempre più potenza di calcolo per stare al passo. Abbiamo quindi esaminato più da vicino come poterlo fare in modo più efficiente, creando una pipeline che va direttamente dall'audio in diretta all'etichettatura dei contenuti per indicare se violano o meno le nostre politiche.
Alla fine, siamo riusciti a costruire un sistema di rilevamento vocale personalizzato internamente utilizzando l'ASR per classificare i nostri set di dati vocali interni, per poi utilizzare quei dati vocali classificati per addestrare il sistema. Più specificamente, per addestrare questo nuovo sistema, partiamo dall'audio e creiamo una trascrizione. Successivamente, facciamo passare la trascrizione attraverso il nostro sistema di filtraggio del testo di Roblox per classificare l'audio. Questo sistema di filtraggio del testo è ottimo per rilevare il linguaggio che viola le politiche su Roblox, poiché abbiamo ottimizzato questo stesso sistema di filtraggio per anni in base al gergo, alle abbreviazioni e al linguaggio specifico di Roblox. Al termine di questi livelli di addestramento, disponiamo di un modello in grado di rilevare le violazioni delle politiche direttamente dall'audio in tempo reale.
Sebbene questo sistema abbia la capacità di rilevare parole chiave specifiche come le parolacce, le violazioni delle politiche raramente consistono in una sola parola. Una parola può spesso sembrare problematica in un contesto e perfettamente accettabile in un altro. Essenzialmente, questi tipi di violazioni riguardano ciò che si dice, come lo si dice e il contesto in cui vengono fatte le affermazioni.
Per comprendere meglio il contesto, sfruttiamo la potenza intrinseca di un'architettura basata su Transformer, che è molto efficace nella sintesi delle sequenze. È in grado di prendere una sequenza di dati, come un flusso audio, e sintetizzarla per te. Questa architettura ci consente di conservare una sequenza audio più lunga, in modo da poter rilevare non solo le parole, ma anche il contesto e le intonazioni. Una volta che tutti questi elementi si uniscono, otteniamo un sistema finale in cui l'input è l'audio e l'output è una classificazione: viola la politica o no. Questo sistema è in grado di rilevare parole chiave e frasi che violano le politiche, ma anche il tono, il sentiment e altri elementi contestuali importanti per determinare l'intento. Questo nuovo sistema, che rileva i discorsi che violano le politiche direttamente dall'audio, è significativamente più efficiente in termini di elaborazione rispetto a un sistema ASR tradizionale, il che renderà molto più facile la scalabilità mentre continuiamo a reinventare il modo in cui le persone interagiscono.
Avevamo anche bisogno di un nuovo modo per avvertire chi utilizza i nostri strumenti di comunicazione vocale delle potenziali conseguenze di questo tipo di linguaggio. Con questo innovativo sistema di rilevamento a nostra disposizione, stiamo ora sperimentando modi per influenzare il comportamento online al fine di mantenere un ambiente sicuro. Sappiamo che a volte le persone violano le nostre politiche involontariamente e vogliamo capire se un promemoria occasionale possa aiutare a prevenire ulteriori violazioni. Per facilitare questo processo, stiamo sperimentando un feedback in tempo reale agli utenti tramite notifiche. Se il sistema rileva che hai detto qualcosa che viola le nostre politiche un certo numero di volte, mostreremo una notifica pop-up sullo schermo per informarti che il tuo linguaggio viola le nostre politiche e indirizzarti alle nostre politiche per ulteriori informazioni.
Le notifiche relative allo streaming vocale sono tuttavia solo un elemento del sistema di moderazione. Prendiamo in considerazione anche i modelli comportamentali sulla piattaforma, così come i reclami da parte di altri utenti su Roblox, per guidare le nostre decisioni di moderazione complessive. L'insieme di questi segnali potrebbe comportare conseguenze più severe, tra cui la revoca dell'accesso alle funzionalità audio o, per infrazioni più gravi, il ban totale dalla piattaforma. Garantire la sicurezza e la civiltà della nostra comunità è fondamentale, poiché questi progressi nei modelli di IA multimodale, nell'IA generativa e negli LLM si combinano per offrire nuovi strumenti e funzionalità incredibili ai creatori.
Riteniamo che fornire questi strumenti ai creatori abbasserà la barriera all'ingresso per i creatori meno esperti e libererà quelli più esperti dai compiti più noiosi di questo processo. Ciò consentirà loro di dedicare più tempo agli aspetti creativi della messa a punto e dell'ideazione. Il nostro obiettivo è consentire a chiunque, ovunque, di dare vita alle proprie idee e aumentare notevolmente la diversità di avatar, oggetti ed esperienze disponibili su Roblox. Stiamo inoltre condividendo informazioni e strumenti per aiutare a proteggere le nuove creazioni.
Stiamo già immaginando possibilità incredibili: supponiamo che qualcuno sia in grado di creare un avatar doppelganger direttamente da una foto, potrebbe poi personalizzare il proprio avatar per renderlo più alto o in stile anime. Oppure potrebbe costruire un'esperienza chiedendo ad Assistant di aggiungere auto, edifici e scenari, impostare le condizioni di illuminazione o del vento, o modificare il terreno. Da lì, potrebbe iterare per perfezionare le cose semplicemente digitando avanti e indietro con Assistant. Sappiamo che ciò che le persone creeranno con questi strumenti, man mano che saranno disponibili, andrà ben oltre ciò che possiamo immaginare.




