Lancio di ulteriori lingue per il nostro modello di sicurezza vocale open source

Di Naren Koneru, Vicepresidente, Ingegneria, e Janne Pylkkonen

Pubblicato 2 apr 2025

Stiamo aggiornando il nostro classificatore open source per la sicurezza vocale aumentando i suoi parametri da 94,6 milioni a 120,2 milioni ed estendendolo a sette lingue aggiuntive.
Dalla prima versione del classificatore, abbiamo aumentato la precisione fino a un recall del 59,1% sui dati delle chat vocali in lingua inglese con un tasso di falsi positivi dell'1%. Si tratta di un miglioramento del 92% rispetto al recall del 30,9% della versione precedente.

Promuovere la sicurezza e la civiltà è sempre stato fondamentale in tutto ciò che facciamo in Roblox. Abbiamo dedicato quasi due decenni alla creazione di sistemi di sicurezza solidi e li stiamo continuamente ampliando ed evolvendo man mano che diventano disponibili nuove tecnologie. Nel 2024 abbiamo implementato più di 40 miglioramenti alla sicurezza, tra cui un rinnovamento del nostro Controllo Genitoriale, che stiamo aggiornando nuovamente oggi. Abbiamo anche lanciato uno dei primi classificatori di sicurezza vocale open source del settore, che è stato scaricato più di 23.000 volte. Oggi rilasciamo una versione aggiornata, che è ancora più accurata e funziona in più lingue.

Molti dei sistemi di sicurezza che aiutano a proteggere i nostri utenti, compreso questo classificatore, sono basati su modelli di IA. Ne rendiamo open source alcuni perché sappiamo che condividere i progressi dell'IA in materia di sicurezza va a vantaggio dell'intero settore. Questo è anche il motivo per cui recentemente abbiamo aderito a ROOST, una nuova organizzazione no profit dedicata ad affrontare aree importanti della sicurezza digitale promuovendo strumenti di sicurezza open source, in qualità di partner fondatori.

Quando si gestisce il volume di contenuti e interazioni che avvengono ogni giorno sulla nostra piattaforma in tutto il mondo, l'IA è un elemento essenziale per garantire la sicurezza degli utenti. Siamo certi che i modelli che abbiamo creato stiano contribuendo a soddisfare le nostre esigenze. Nel quarto trimestre del 2024, ad esempio, gli utenti di Roblox hanno caricato 300 miliardi di contenuti. Solo lo 0,01% di quei miliardi di video, audio, testi, chat vocali, avatar ed esperienze 3D è stato rilevato come in violazione delle nostre politiche. E quasi tutti quei contenuti in violazione delle politiche sono stati automaticamente preselezionati e rimossi prima ancora che gli utenti potessero vederli.

Abbiamo aggiornato la versione open source del nostro classificatore di sicurezza vocale per renderlo più accurato e per aiutarci a moderare i contenuti in più lingue. Il nuovo modello:

Rileva le violazioni in sette lingue aggiuntive — spagnolo, tedesco, francese, portoghese, italiano, coreano e giapponese — grazie all’addestramento su dati multilingue.
Ha un tasso di richiamo complessivo aumentato del 59,1%, con un miglioramento del 92% rispetto al 30,9% della versione precedente, e bassi tassi di falsi positivi.
È ottimizzato per funzionare su larga scala, gestendo fino a 8.300 richieste (la maggior parte delle quali non contiene violazioni) al secondo nei momenti di picco.

Dal rilascio del primo modello, abbiamo registrato una riduzione dei tassi di segnalazione di abusi tra gli utenti statunitensi di oltre il 50% per ora di conversazione. Ci ha anche aiutato a moderare milioni di minuti di chat vocale al giorno in modo più accurato rispetto ai moderatori umani. Non smettiamo mai di migliorare i nostri sistemi di sicurezza e continueremo ad aggiornare anche la versione open source.

Classificatore multilingue efficiente per la sicurezza vocale

Il nostro classificatore di sicurezza vocale open source iniziale era basato su un modello WavLM base+, ottimizzato con campioni audio di chat vocali in lingua inglese etichettati automaticamente. I risultati incoraggianti di questa architettura end-to-end hanno portato a ulteriori esperimenti con un'architettura personalizzata. Abbiamo utilizzato la distillazione delle conoscenze per ottimizzare la complessità e l'accuratezza del modello, il che è interessante per i servizi di inferenza su larga scala. Il nostro nuovo classificatore utilizza questi elementi fondamentali e amplia ed estende il lavoro in termini di utilizzo dei dati e perfezionamenti dell'architettura.

Grazie all'addestramento su dati multilingue, il nostro modello di classificazione unico è in grado di funzionare senza soluzione di continuità su qualsiasi delle nostre otto principali lingue supportate. Inoltre, i miglioramenti apportati all'addestramento rendono il modello più accurato e, in uno scenario di inferenza tipico, più veloce del 20-30% rispetto alla prima versione.

Il nuovo classificatore di sicurezza vocale si basa ancora sull'architettura WavLM, ma la configurazione dei livelli si discosta dalla versione precedente e da quella dei modelli preaddestrati WavLM. In particolare, abbiamo aggiunto un ulteriore livello convoluzionale per ridurre la risoluzione temporale interna dei livelli del trasformatore. In totale, la nostra nuova architettura del modello ha 120,2 milioni di parametri, con un aumento del 27% rispetto ai 94,6 milioni della versione precedente. Nonostante questo aumento, il nuovo modello consuma dal 20% al 30% in meno di tempo di calcolo quando viene utilizzato con segmenti di input da 4 a 15 secondi. Ciò è possibile perché il modello comprime il segnale di input in una rappresentazione più breve rispetto a prima.

Utilizzo di una varietà di strategie di etichettatura

L'addestramento supervisionato di un modello end-to-end richiede coppie curate di audio ed etichette di classe. Abbiamo apportato miglioramenti significativi alla nostra pipeline di dati che hanno garantito un flusso costante di dati etichettati. La base del materiale di addestramento è un ampio set di dati etichettato automaticamente di oltre 100.000 ore di parlato che comprende le lingue supportate. Abbiamo trascritto automaticamente il parlato e lo abbiamo elaborato tramite il nostro classificatore di tossicità basato su testo, sviluppato internamente, che condivide le categorie di politica e tossicità desiderate. La raccolta dati campiona i contenuti offensivi con una probabilità maggiore rispetto al parlato innocuo, per cogliere meglio i casi limite e le violazioni delle politiche meno comuni.

Le etichette basate sulle trascrizioni vocali e sulla classificazione testuale non riescono a cogliere appieno le sfumature osservate nei contenuti delle chat vocali. Abbiamo quindi utilizzato dati etichettati manualmente per mettere a punto il modello rispetto alla fase di addestramento precedente. Sebbene il compito di classificazione sia lo stesso, quest'ultima fase di addestramento aiuta a perfezionare i confini decisionali e a enfatizzare la reattività alle espressioni specifiche delle chat vocali. Si tratta di una forma di apprendimento curricolare che ci aiuta a trarre il massimo beneficio dai preziosi esempi etichettati manualmente.

Una delle sfide dell'addestramento dei modelli end-to-end è che le etichette di destinazione possono diventare obsolete se la politica di etichettatura cambia nel tempo. Pertanto, man mano che perfezioniamo la nostra politica vocale accettabile, abbiamo bisogno di una gestione speciale per i dati che utilizzano standard di etichettatura più vecchi. A tal fine, abbiamo utilizzato un approccio multitasking che consente al modello di apprendere da set di dati che non corrispondono all'attuale politica di chat vocale. Ciò comporta l'utilizzo di un'unità di classificazione separata per la vecchia politica, consentendo al tronco del modello di apprendere dal vecchio set di dati senza influire sulle etichette di destinazione o sull'unità principale.

Un modello calibrato per una distribuzione più semplice

L'utilizzo del modello di classificazione richiede la scelta del punto di funzionamento e l'adeguamento della sensibilità del classificatore in base ai requisiti dell'attività. Per facilitare l'implementazione del modello, abbiamo calibrato i risultati del modello, ottimizzati per la moderazione delle chat vocali. Abbiamo stimato trasformazioni lineari a tratti da un set di dati tenuto da parte, operando separatamente per ogni testa di output e lingua supportata. Queste trasformazioni sono state applicate durante la distillazione del modello, garantendo che il modello finale fosse calibrato in modo nativo. Ciò ha eliminato la necessità di post-elaborazione durante l’inferenza.

Siamo entusiasti di condividere questo nuovo modello open source con la comunità e non vediamo l'ora di condividere i futuri aggiornamenti non appena saranno disponibili.

Recenti

Altri risultati

Lancio di ulteriori lingue per il nostro modello di sicurezza vocale open source

Classificatore multilingue efficiente per la sicurezza vocale

Utilizzo di una varietà di strategie di etichettatura

Un modello calibrato per una distribuzione più semplice

Lancio di ulteriori lingue per il nostro modello di sicurezza vocale open source

Classificatore multilingue efficiente per la sicurezza vocale

Utilizzo di una varietà di strategie di etichettatura

Un modello calibrato per una distribuzione più semplice

Ingegneria

Miglioramento del nostro classificatore di sicurezza vocale con 22 nuove lingue e capacità di rilevamento più precise

Notizie

I fondatori pionieri dell'IA si uniscono per accelerare la visione di Roblox Reality

Ingegneria

CubePart: un generatore 3D a vocabolario aperto e controllabile per parti