Un LLM all'avanguardia contribuisce a proteggere la generazione illimitata di testo su Roblox

Roblox Guard 1.0: migliorare la sicurezza con solide misure di protezione

Di Mahesh Nandwana, Adam McFarlin e Nishchaie Khanna

Pubblicato 22 lug 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

Oggi annunciamo Roblox Guard 1.0, un toolkit open source dedicato alla sicurezza per sviluppatori e piattaforme.
La prima funzionalità di Roblox Guard, un modello di guardrail all'avanguardia (SOTA) per la sicurezza LLM, è ora disponibile e stabilisce un nuovo standard tra i principali benchmark di sicurezza.
Stiamo inoltre rilasciando Roblox Guard-Eval, un set di dati per il benchmarking della sicurezza.

La sfida

Recentemente abbiamo rilasciato un'API di generazione di testo che consente agli sviluppatori di sfruttare la potenza dei modelli linguistici di grandi dimensioni (LLM) per creare esperienze più ricche e coinvolgenti generando testo all'interno delle loro esperienze. Ad esempio, uno sviluppatore potrebbe creare un NPC completamente interattivo o fornire un tutorial interattivo su come giocare.

Abbiamo moderato in modo proattivo la maggior parte dei contenuti su Roblox sin dai primi giorni, poiché ci impegniamo a mantenere i nostri prodotti in linea con gli elevati standard di sicurezza e civiltà di Roblox. Prima di rilasciare l'API di generazione di testo, abbiamo valutato come integrare la sicurezza in primo luogo. Abbiamo sviluppato un nuovo modello per aiutare a salvaguardare sia gli input (prompt degli utenti) che gli output (testo generato dall'API).

L'innovazione

La prima funzionalità del toolkit Roblox Guard 1.0 è un LLM ottimizzato con istruzioni SOTA, progettato per aiutare a salvaguardare la nostra API di generazione di testo. Esegue la classificazione di sicurezza sia a livello di prompt che di risposta, decidendo se ogni input o output violi o meno le nostre politiche. Questa valutazione a doppio livello è essenziale per moderare sia le query degli utenti che gli output generati dal modello stesso.

Il nostro LLM sta attualmente superando i popolari modelli LLM guardrail come Llama Guard di Meta, ShieldGemma di Google AI, NVIDIA NeMo Guardrails, GPT-4o di OpenAI e altri su benchmark standard. L'LLM Roblox Guard 1.0 mostra inoltre una forte generalizzazione su set di dati fuori dominio con tassonomia non vista. Abbiamo reso open source sia i pesi LLM per la nostra prima funzionalità sia il nostro set di dati di benchmarking Roblox Guard-Eval.

Il cuore del nostro sistema è un LLM che è stato ottimizzato a partire dal modello Llama-3.1-8B-Instruct. Abbiamo addestrato questo LLM con particolare attenzione alla messa a punto di istruzioni di alta qualità per ottimizzare le prestazioni di valutazione della sicurezza. Un passo cruciale in questo processo è stato curare attentamente i prompt e le risposte per riflettere una vasta gamma di scenari di sicurezza del mondo reale.

Il nostro set di istruzioni non utilizza dati proprietari, ma solo una combinazione di dati sintetici (generati dall'LLM) e open source, il che ci permette di scalare più facilmente i dati di addestramento e sfruttare le leggi di scalabilità, rendendo questo primo LLM di Roblox Guard il migliore (SOTA). Durante la fusione di vari set di dati open source e sintetici, abbiamo scoperto che l'uso di una tassonomia specifica per il set di dati era l'approccio migliore per la selezione delle istruzioni, poiché la diversità dei compiti aiuta gli LLM ad addestrarsi su diversi tipi di prompt. Ciò ha portato a un modello robusto che può essere generalizzato per diverse tassonomie di sicurezza. Abbiamo anche incorporato nel set di istruzioni le motivazioni della catena di pensiero, in cui il modello è incoraggiato ad articolare il proprio processo di ragionamento. Questi passaggi intermedi di ragionamento hanno fornito al modello una base contestuale più solida.

I risultati

Il nostro team dedicato alla sicurezza ha sviluppato un set di dati di valutazione personalizzato e di alta qualità che copre la tassonomia della sicurezza dei contenuti di Roblox, rappresentando 25 sottocategorie. Questo set di valutazione è stato creato tramite un processo interno di "red teaming", in cui testiamo il sistema simulando attacchi ostili per individuare eventuali vulnerabilità, e non contiene dati generati dagli utenti né dati personali. Questo set di dati di valutazione contiene coppie di prompt e risposte, con le risposte etichettate manualmente da un gruppo di esperti di politiche per garantirne la qualità. Copre un ampio spettro di tipi di violazioni, aiutandoci a creare etichette più precise e significative per la valutazione. Il set di valutazione finale include 2.873 esempi. Abbiamo reso open source questo set di dati di valutazione, che presenta una tassonomia di sicurezza estensibile per aiutare a valutare i sistemi di moderazione e le misure di sicurezza dei modelli di linguaggio di grandi dimensioni (LLM).

Abbiamo valutato i nostri modelli su un insieme completo di set di dati open source sia per i prompt che per le risposte, oltre che su Roblox Guard-Eval. Questo ci permette di valutare il nostro modello su set di dati sia all'interno che al di fuori del dominio. Riportiamo i nostri risultati in termini di punteggio F-1 per la classificazione binaria violazione/non violazione. Nella tabella sopra riportata, confrontiamo le nostre prestazioni con quelle di diversi modelli ben noti. Questa prima funzionalità di Roblox Guard supera gli altri modelli nella generalizzazione su set di dati fuori dominio.

Stiamo migliorando continuamente i nostri sistemi di sicurezza, compresi i nostri strumenti Roblox Guard 1.0, e prevediamo di rilasciare ulteriori funzionalità nel prossimo futuro. Vi invitiamo a seguire le nostre pagine su HuggingFace e GitHub per futuri aggiornamenti e miglioramenti, nonché per future versioni open source.

Recenti

Altri risultati

Un LLM all'avanguardia contribuisce a proteggere la generazione illimitata di testo su Roblox

La sfida

L'innovazione

I risultati

Un LLM all'avanguardia contribuisce a proteggere la generazione illimitata di testo su Roblox

La sfida

L'innovazione

I risultati

Ingegneria

Miglioramento del nostro classificatore di sicurezza vocale con 22 nuove lingue e capacità di rilevamento più precise

Notizie

I fondatori pionieri dell'IA si uniscono per accelerare la visione di Roblox Reality

Ingegneria

CubePart: un generatore 3D a vocabolario aperto e controllabile per parti