Un LLM all'avanguardia contribuisce a proteggere la generazione illimitata di testo su Roblox
Roblox Guard 1.0: migliorare la sicurezza con solide misure di protezione

- Oggi annunciamo Roblox Guard 1.0, un toolkit open source dedicato alla sicurezza per sviluppatori e piattaforme.
- La prima funzionalità di Roblox Guard, un modello di guardrail all'avanguardia (SOTA) per la sicurezza LLM, è ora disponibile e stabilisce un nuovo standard tra i principali benchmark di sicurezza.
- Stiamo inoltre rilasciando Roblox Guard-Eval, un set di dati per il benchmarking della sicurezza.
La sfida
Recentemente abbiamo rilasciato un'API di generazione di testo che consente agli sviluppatori di sfruttare la potenza dei modelli linguistici di grandi dimensioni (LLM) per creare esperienze più ricche e coinvolgenti generando testo all'interno delle loro esperienze. Ad esempio, uno sviluppatore potrebbe creare un NPC completamente interattivo o fornire un tutorial interattivo su come giocare.
Abbiamo moderato in modo proattivo la maggior parte dei contenuti su Roblox sin dai primi giorni, poiché ci impegniamo a mantenere i nostri prodotti in linea con gli elevati standard di sicurezza e civiltà di Roblox. Prima di rilasciare l'API di generazione di testo, abbiamo valutato come integrare la sicurezza in primo luogo. Abbiamo sviluppato un nuovo modello per aiutare a salvaguardare sia gli input (prompt degli utenti) che gli output (testo generato dall'API).
L'innovazione
La prima funzionalità del toolkit Roblox Guard 1.0 è un LLM ottimizzato con istruzioni SOTA, progettato per aiutare a salvaguardare la nostra API di generazione di testo. Esegue la classificazione di sicurezza sia a livello di prompt che di risposta, decidendo se ogni input o output violi o meno le nostre politiche. Questa valutazione a doppio livello è essenziale per moderare sia le query degli utenti che gli output generati dal modello stesso.
Il nostro LLM sta attualmente superando i popolari modelli LLM guardrail come Llama Guard di Meta, ShieldGemma di Google AI, NVIDIA NeMo Guardrails, GPT-4o di OpenAI e altri su benchmark standard. L'LLM Roblox Guard 1.0 mostra inoltre una forte generalizzazione su set di dati fuori dominio con tassonomia non vista. Abbiamo reso open source sia i pesi LLM per la nostra prima funzionalità sia il nostro set di dati di benchmarking Roblox Guard-Eval.
Il cuore del nostro sistema è un LLM che è stato ottimizzato a partire dal modello Llama-3.1-8B-Instruct. Abbiamo addestrato questo LLM con particolare attenzione alla messa a punto di istruzioni di alta qualità per ottimizzare le prestazioni di valutazione della sicurezza. Un passo cruciale in questo processo è stato curare attentamente i prompt e le risposte per riflettere una vasta gamma di scenari di sicurezza del mondo reale.
Il nostro set di istruzioni non utilizza dati proprietari, ma solo una combinazione di dati sintetici (generati dall'LLM) e open source, il che ci permette di scalare più facilmente i dati di addestramento e sfruttare le leggi di scalabilità, rendendo questo primo LLM di Roblox Guard il migliore (SOTA). Durante la fusione di vari set di dati open source e sintetici, abbiamo scoperto che l'uso di una tassonomia specifica per il set di dati era l'approccio migliore per la selezione delle istruzioni, poiché la diversità dei compiti aiuta gli LLM ad addestrarsi su diversi tipi di prompt. Ciò ha portato a un modello robusto che può essere generalizzato per diverse tassonomie di sicurezza. Abbiamo anche incorporato nel set di istruzioni le motivazioni della catena di pensiero, in cui il modello è incoraggiato ad articolare il proprio processo di ragionamento. Questi passaggi intermedi di ragionamento hanno fornito al modello una base contestuale più solida.
I risultati

Abbiamo valutato i nostri modelli su un insieme completo di set di dati open source sia per i prompt che per le risposte, oltre che su Roblox Guard-Eval. Questo ci permette di valutare il nostro modello su set di dati sia all'interno che al di fuori del dominio. Riportiamo i nostri risultati in termini di punteggio F-1 per la classificazione binaria violazione/non violazione. Nella tabella sopra riportata, confrontiamo le nostre prestazioni con quelle di diversi modelli ben noti. Questa prima funzionalità di Roblox Guard supera gli altri modelli nella generalizzazione su set di dati fuori dominio.
Stiamo migliorando continuamente i nostri sistemi di sicurezza, compresi i nostri strumenti Roblox Guard 1.0, e prevediamo di rilasciare ulteriori funzionalità nel prossimo futuro. Vi invitiamo a seguire le nostre pagine su HuggingFace e GitHub per futuri aggiornamenti e miglioramenti, nonché per future versioni open source.


