Come Roblox utilizza l'intelligenza artificiale per moderare i contenuti su vasta scala
Moderazione di miliardi di contenuti al giorno in 25 lingue, in tempo reale

- Per moderare in modo proattivo i contenuti pubblicati su Roblox, da circa cinque anni stiamo sviluppando sistemi scalabili che sfruttano l'intelligenza artificiale.
- Oggi, la nostra infrastruttura, i modelli di ML e migliaia di esperti umani lavorano insieme per rendere Roblox un luogo più sicuro e civile per i nostri utenti.
- Sviluppiamo tutti questi sistemi per garantire scalabilità, velocità e miglioramento continuo con dati di alta qualità.
La sicurezza è fondamentale per tutto ciò che facciamo su Roblox. Fin dall'inizio, abbiamo moderato i contenuti in modo proattivo perché sapevamo che la moderazione era fondamentale per una piattaforma basata su contenuti generati dagli utenti. Quando Roblox era molto più piccolo, questo compito era svolto da revisori umani, tra cui il nostro fondatore e CEO, che all'inizio dedicava parte del suo tempo alla moderazione dei contenuti. Nel corso del tempo, la piattaforma è cresciuta (sia in termini di dimensioni che di velocità) oltre le capacità dei moderatori umani. Quando lanciamo un nuovo prodotto, la sicurezza è sempre il primo elemento che prendiamo in considerazione.
Una media di 97,8 milioni di utenti attivi al giorno1 visita Roblox per giocare, comunicare e creare. Ogni giorno, gli utenti inviano in media 6,1 miliardi di messaggi in chat e 1,1 milioni di ore di comunicazione vocale in 28 lingue diverse. I creatori caricano milioni di risorse al giorno e migliaia di altri oggetti vengono aggiunti al nostro marketplace degli avatar. La stragrande maggioranza di questi miliardi di creazioni e messaggi è civile. Come nel mondo reale: è il modo in cui la maggior parte delle persone comunica tra loro. Ma quando non lo è, il nostro sistema di filtraggio dei testi aiuta a bloccare i testi problematici prima che raggiungano gli utenti e le violazioni vocali vengono valutate in tempo reale. E nel caso in cui riceviamo una segnalazione di contenuti illegali, il nostro tempo medio di intervento è di dieci minuti.
Moderare costantemente questo volume di contenuti in pochi millisecondi è un lavoro che gli esseri umani non possono gestire da soli, indipendentemente da quanti ne abbiamo. Lavorare su questa scala e a questa velocità richiederebbe centinaia di migliaia di moderatori umani che lavorino 24 ore su 24, 7 giorni su 7, esclusi i fine settimana e le ferie, e questo solo per moderare i messaggi di chat. Ne servirebbero altre migliaia per moderare tutti gli altri tipi di contenuti su Roblox. Il volume di contenuti prodotti quotidianamente su Roblox richiede un'infrastruttura scalabile, modelli di machine learning (ML) e strumenti appositamente progettati.
L'ML è in grado di prendere queste decisioni in pochi millisecondi, in modo ripetitivo, coerente e 24 ore su 24. Abbiamo ancora bisogno, e impieghiamo, esseri umani per affrontare i casi meno comuni in cui è richiesto un giudizio umano più approfondito e sfumato a seconda del contesto. Combiniamo strumenti di sicurezza e moderazione robusti e innovativi con migliaia di esperti umani in tutto il mondo che forniscono supervisione e formazione continua dei nostri sistemi per affrontare sfide nuove e in continua evoluzione. Tutti i sistemi di moderazione di Roblox si basano sui seguenti principi:
- Moderiamo in modo proattivo i contenuti su Roblox.
- Forniamo feedback in tempo reale agli utenti ogni volta che è possibile, poiché spesso le persone non conoscono le regole.
- Utilizziamo l'IA solo quando offre prestazioni significativamente superiori rispetto agli esseri umani in termini di precisione e richiamo su larga scala.
- Ci avvaliamo di esseri umani per migliorare continuamente l'IA, per i casi rari e in evoluzione, per le indagini complesse e per i ricorsi.
Per moderare in modo efficiente il volume crescente di contenuti prodotti su Roblox, innoviamo costantemente su tre fronti: portata, velocità e qualità, e ciò richiede un miglioramento continuo.
Scala: moderazione di miliardi di contenuti al giorno
Da febbraio a dicembre 20241, gli utenti hanno caricato circa 1.000 miliardi di contenuti. Solo lo 0,01% di quei miliardi di chat di testo, audio, voce e immagini è stato rilevato come violazione di una delle nostre politiche. E quasi tutti i contenuti che hanno violato le nostre politiche sono stati automaticamente preselezionati e rimossi prima ancora che gli utenti potessero vederli. Sebbene questa portata sia relativamente nuova, il nostro impegno nella moderazione non lo è. Più di dieci anni fa, abbiamo creato un filtro di testo basato su regole. Circa cinque anni fa, abbiamo implementato quello che all'epoca era un filtro di testo all'avanguardia basato su Transformer. Oggi, i nostri filtri di testo elaborano in media 6,1 miliardi di messaggi di chat al giorno, grazie a numerosi modelli appositamente progettati per diversi tipi di violazioni delle nostre politiche.
Uno di questi modelli è il nostro filtro per le informazioni di identificazione personale (PII) per le chat in-game e sulla piattaforma. Gli utenti che chiedono ad altri le PII possono essere un primo passo verso problemi più gravi, quindi abbiamo sempre adottato una posizione forte per impedire la condivisione delle PII. Ogni messaggio di chat inviato è una "richiesta" che chiede al sistema di esaminare e determinare se vengono menzionate delle PII. Questo modello di filtro testuale gestiva così tante richieste al secondo (RPS) che stava diventando difficile supportarlo sul nostro stack di elaborazione esistente basato su CPU. Abbiamo quindi costruito uno stack di elaborazione completamente nuovo su GPU, sfruttando la nostra infrastruttura cellulare. Per supportare queste elevate esigenze di RPS, abbiamo prima separato la tokenizzazione dall'inferenza e poi accelerato l'inferenza tramite quantizzazione e distillazione di modelli più grandi. Insieme, questi miglioramenti hanno quadruplicato il nostro RPS.
Sul nuovo stack, il filtro PII gestisce ora 370.000 RPS al picco. Il nostro filtro PII migliorato ha ridotto i falsi positivi del 30%, il che ha portato a un aumento del 25% delle menzioni di PII rilevate automaticamente dal sistema in tutte le lingue supportate. Stiamo già lavorando per estendere questo miglioramento a diverse altre lingue e per apportare miglioramenti simili ad altri filtri di testo e interfacce. Sebbene siamo orgogliosi di questi miglioramenti, sappiamo che i metodi utilizzati per condividere le PII sono in continua evoluzione e stiamo evolvendo i nostri sistemi di pari passo con questi cambiamenti.
Alla base del nostro intero sistema di moderazione ci sono modelli di grandi dimensioni basati su trasformatori, con conoscenze che abbracciano varie modalità. A seconda dei requisiti operativi e di produzione, distilliamo e quantizziamo questi modelli per mantenere il sistema veloce ed efficiente. Queste tecniche sono essenziali per l'esecuzione di una varietà di modelli multimodali; quelli che gestiscono i nostri filtri di testo stanno ora gestendo in modo efficiente più di 750.000 RPS.

Velocità: cambiare il comportamento degli utenti con un feedback in tempo reale
Una comunicazione naturale e in tempo reale richiede un filtraggio quasi immediato per mantenere il flusso della conversazione. Lo scambio e la collaborazione sulle idee richiedono un feedback rapido per mantenere viva la creatività. Il nostro sistema di difesa a più livelli include misure proattive come notifiche di avviso, time-out e sospensioni. Quando filtriamo il testo, possiamo reagire in tempo reale per bloccare in pochi millisecondi termini che violano le nostre politiche, come informazioni personali identificative, parolacce e incitamento all'odio, impedendo agli utenti di essere esposti a contenuti inappropriati.
Le comunicazioni vocali non possono essere bloccate allo stesso modo, quindi istruiamo gli utenti tramite notifiche sullo schermo. Le nostre notifiche di avviso hanno effettivamente modificato il comportamento degli utenti e aumentato sia la civiltà che il coinvolgimento. Il nostro classificatore di sicurezza vocale modera la chat entro 15 secondi in otto lingue. Abbiamo anche reso open source questo modello come parte del nostro più ampio impegno a condividere le innovazioni in materia di sicurezza con il settore.

Se un utente continua a violare le nostre politiche, le conseguenze diventano sempre più severe, andando da un breve avvertimento alla perdita dell'accesso alla chat vocale. Ricerche interne hanno dimostrato che le sospensioni hanno un impatto fino a tre settimane dopo, riducendo i tassi di recidiva e il numero di segnalazioni inviate dagli utenti. I primi esperimenti hanno dimostrato che questo tipo di interventi immediati e le relative conseguenze hanno un effetto positivo sulla civiltà. L'ultima versione del nostro classificatore vocale ha un tasso di richiamo superiore del 92% rispetto alla versione iniziale, con un tasso di falsi positivi dell'1%, e gestisce, nei momenti di picco, fino a 8.300 RPS. Continuiamo a esplorare ulteriori modi per migliorare sia la precisione che il richiamo.
Sulla base del successo ottenuto con le notifiche nella chat vocale, abbiamo anche iniziato a implementare un feedback in tempo reale per la chat testuale. In recenti esperimenti, abbiamo riscontrato che l'invio di notifiche e time-out all'interno dell'esperienza di chat testuale ha portato a una riduzione del 5% dei messaggi di chat filtrati e a una riduzione del 6% delle conseguenze derivanti dalle segnalazioni di abuso. Stiamo inoltre iniziando a sperimentare il feedback in tempo reale ai creatori durante il caricamento delle loro creazioni.
Qualità dei dati: modelli di formazione per il miglioramento continuo
Addestriamo questi sistemi per ottimizzare il numero di falsi negativi, preferendo rimuovere qualsiasi contenuto che possa comportare una violazione delle norme. Sappiamo anche che è frustrante per gli utenti quando viene rimosso qualcosa che ritengono conforme. Pertanto, miglioriamo continuamente i nostri sistemi per ridurre al minimo anche i falsi positivi. Dati correttamente etichettati sono essenziali per migliorare l'accuratezza di tutti i nostri classificatori.
La creazione di set di dati di addestramento e valutazione robusti richiede sia esempi di alta qualità in quantità sufficiente, sia esperti umani che li etichettino con precisione. Ci sono casi in cui non disponiamo di dati sufficienti perché si tratta di scenari rari o casi limite. A volte abbiamo troppi dati e dobbiamo identificare gli esempi più efficaci. Inoltre, abbiamo bisogno di dati che corrispondano a ciò che accade realmente su Roblox. Ciò include esempi transitori, come il gergo o i meme. Il nostro pubblico di bambini, adolescenti e giocatori ci presenta continuamente nuovi termini gergali, nuove tendenze e nuovi modi per eludere i nostri strumenti di moderazione. Ci tengono sempre all'erta, ed è per questo che testiamo e valutiamo continuamente sia i nostri strumenti di moderazione che le nostre politiche.
Utilizziamo una varietà di strategie di campionamento per curare questi set di dati e ci avvaliamo sia dell'IA che di esperti umani per generare ed etichettare questi esempi di dati. I nostri esperti di politiche curano manualmente gli esempi, che chiamiamo "golden set". Si tratta di esempi che corrispondono più da vicino ai problemi che vogliamo che il sistema rilevi. Effettuiamo il campionamento da set di dati molto grandi con diverse strategie, tra cui il campionamento di incertezza, in cui campioniamo casi limite in cui il modello era precedentemente confuso. Otteniamo campioni da esperti umani e da red team assistiti dall'IA (maggiori informazioni sugli AART), che testano il sistema simulando attacchi avversari per individuare eventuali punti deboli.
Inoltre, ampliamo e miglioriamo i nostri set di addestramento man mano che individuiamo nuovi problemi, slang, meme, ecc. Otteniamo alcuni di questi esempi attraverso la nostra procedura di ricorso, in cui gli utenti possono richiedere una revisione aggiuntiva. Se la decisione viene ribaltata, quell'esempio diventa parte del nostro set di dati per aiutare il nostro sistema a fare la scelta giusta la prossima volta.
Ne otteniamo altri dal nostro solido sistema di segnalazione degli abusi, che di fatto amplia il nostro team di moderatori umani includendo decine di milioni di utenti che hanno a cuore queste esperienze e la comunità. Recentemente abbiamo migliorato il nostro strumento di segnalazione in modo che gli utenti abbiano la possibilità di catturare un'intera scena, inclusi gli ID degli avatar e degli oggetti, ed evidenziare la parte che desiderano segnalare. Abbiamo riscontrato un'ampia adozione da parte degli utenti, con circa il 15% delle segnalazioni idonee che forniscono annotazioni visive. Questo contesto aggiuntivo ci aiuta a identificare in modo proattivo le esperienze problematiche per cui gli utenti segnalano frequentemente delle preoccupazioni. Poiché l'addestramento del modello non è istantaneo, stiamo anche valutando la possibilità di creare automaticamente regole basate sull'intelligenza artificiale a partire dalle segnalazioni degli utenti per aumentare la nostra reattività.

Integriamo questi set di dati con dati sintetici, in cui i modelli linguistici di grandi dimensioni (LLM) generano esempi di dati artificiali ed etichette che emulano esempi del mondo reale. Il vantaggio in questo caso è la capacità di generare milioni di esempi ed etichette, anche per casi rari o limite. Una volta che disponiamo di dati etichettati sufficienti, li dividiamo in due set di dati: uno per l'addestramento e uno per la valutazione. Disporre di un set di dati di valutazione solido è fondamentale: se un set di valutazione è troppo facile, le metriche del modello sembreranno indicare che funziona bene, ma in produzione fallirà. L'accuratezza dei dati è più importante del volume. Il principio "garbage in, garbage out" (se entrano dati spazzatura, escono dati spazzatura) è una preoccupazione reale nel ML, poiché le prestazioni del modello dipendono fortemente dall'accuratezza dei dati utilizzati per addestrarlo e valutarlo.
Una volta ottenuto un set di dati di valutazione solido, lo valutiamo in base a due metriche chiave: allineamento e qualità. Per testare l'allineamento, gli stessi esempi vengono inviati a più persone affinché li etichettino e si verifichi se le loro etichette concordano (o sono allineate). Se l'allineamento tra le loro etichette è pari o superiore all'80%, significa che i nostri moderatori possono prendere decisioni coerenti su larga scala. Se è inferiore all'80%, la politica o l'addestramento potrebbero essere confusi e dobbiamo iterare. Per testare la qualità, inviamo il set di riferimento a persone reali per valutare se viola o meno la politica e assicurarci che prendano la decisione corretta. Campioniamo anche le decisioni affinché gli esperti le esaminino. Se tutti giungono alla decisione corretta, allora la nostra politica può essere applicata correttamente. Un elevato allineamento e un'elevata qualità indicano che la nostra politica può essere applicata in modo corretto e coerente. In caso contrario, torniamo indietro e valutiamo sia la politica che il set di addestramento.
La natura creativa di una piattaforma come Roblox, dove gli utenti sono liberi di creare e comunicare praticamente qualsiasi cosa, implica che sia in continua evoluzione. I nostri metodi di moderazione devono evolversi altrettanto rapidamente per mantenere la nostra comunità sicura e civile. I nostri sistemi di apprendimento attivo aggiornano continuamente i modelli man mano che il linguaggio si evolve, i modelli di comportamento degli utenti cambiano e si verificano eventi nel mondo reale. Stiamo continuamente sviluppando sistemi scalabili, veloci, accurati e in grado di adattarsi costantemente al mondo dinamico in cui viviamo tutti.
1A partire dal primo trimestre del 2025.
2Copre il periodo di riferimento dal 17 febbraio 2024 al 31 dicembre 2024.


