Geavanceerde LLM helpt onbeperkte tekstgeneratie op Roblox te beveiligen
Roblox Guard 1.0: meer veiligheid met robuuste veiligheidsmaatregelen

- Vandaag kondigen we Roblox Guard 1.0 aan, een open-source veiligheidstoolkit voor ontwikkelaars en platforms.
- De eerste functie van Roblox Guard, een state-of-the-art (SOTA) guardrail-model voor LLM-veiligheid, is nu beschikbaar en zet een nieuwe standaard binnen toonaangevende veiligheidsbenchmarks.
- We brengen ook Roblox Guard-Eval uit, een dataset voor veiligheidsbenchmarking.
De uitdaging
We hebben onlangs een Text Generation API uitgebracht waarmee ontwikkelaars de kracht van grote taalmodellen (LLM's) kunnen benutten om rijkere, meeslepende ervaringen te bouwen door tekst te genereren binnen hun ervaringen. Een ontwikkelaar kan bijvoorbeeld een volledig interactieve NPC maken of een interactieve tutorial aanbieden over hoe het spel gespeeld moet worden.
We hebben vanaf het begin het grootste deel van de content op Roblox proactief gemodereerd, omdat we ernaar streven onze producten in overeenstemming te houden met de hoge veiligheids- en beleefdheidsnormen van Roblox. Voordat we de Text Generation API uitbrachten, hebben we eerst gekeken hoe we veiligheid konden inbouwen. We hebben een nieuw model ontwikkeld om zowel de input (prompts van gebruikers) als de output (gegenereerde tekst van de API) te helpen beveiligen.
De innovatie
De eerste functie in de Roblox Guard 1.0-toolkit is een SOTA-instructie, een fijn afgestemd LLM, ontworpen om onze Text Generation API te helpen beveiligen. Het voert veiligheidsclassificatie uit op zowel het prompt- als het responsniveau, waarbij wordt bepaald of elke invoer of uitvoer in strijd is met ons beleid. Deze beoordeling op twee niveaus is essentieel voor het modereren van zowel gebruikersvragen als de door het model zelf gegenereerde uitvoer.
Onze LLM presteert momenteel beter dan populaire LLM-guardrail-modellen zoals Llama Guard van Meta, ShieldGemma van Google AI, NVIDIA NeMo Guardrails, GPT-4o van OpenAI en andere op standaardbenchmarks. De Roblox Guard 1.0 LLM vertoont ook een sterke generalisatie op datasets buiten het domein met onbekende taxonomie. We hebben zowel de LLM-gewichten voor onze eerste functionaliteit als onze Roblox Guard-Eval-benchmarkdataset open source gemaakt.
De kern van ons systeem wordt gevormd door een LLM die is gefinetuned op basis van het Llama-3.1-8B-Instruct-model. We hebben deze LLM getraind met een bijzondere focus op het afstemmen van hoogwaardige instructies om de prestaties op het gebied van veiligheidsbeoordeling te optimaliseren. Een cruciale stap in dit proces was het zorgvuldig samenstellen van prompts en reacties om een breed scala aan realistische veiligheidsscenario's weer te geven.
Onze instructieset maakt geen gebruik van eigen gegevens, maar alleen van een combinatie van synthetische (door de LLM gegenereerde) en open-sourcegegevens. Hierdoor kunnen we de trainingsgegevens gemakkelijker opschalen en gebruikmaken van schaalwetten, waardoor deze eerste Roblox Guard LLM de beste in zijn klasse is. Bij het samenvoegen van verschillende open-source- en synthetische datasets ontdekten we dat het gebruik van datasetspecifieke taxonomie de beste aanpak was voor het samenstellen van instructies, omdat de diversiteit aan taken de LLM's helpt om te trainen op verschillende soorten prompts. Dit resulteerde in een robuust model dat kan worden gegeneraliseerd voor verschillende veiligheidstaxonomieën. We hebben ook 'chain-of-thought'-redeneringen, waarbij het model wordt aangemoedigd om zijn redeneringsproces te verwoorden, in de instructieset opgenomen. Deze tussenliggende redeneringsstappen gaven het model een sterkere contextuele basis.
De resultaten

We benchmarken onze modellen op een uitgebreide set open-source datasets voor zowel prompts als antwoorden, evenals op Roblox Guard-Eval. Dit stelt ons in staat om ons model te evalueren op zowel in-domain als out-of-domain datasets. We rapporteren onze resultaten in termen van F-1-score voor binaire classificatie van overtredingen/geen overtredingen. In de bovenstaande tabel vergelijken we onze prestaties met die van verschillende bekende modellen. Deze eerste Roblox Guard-functie presteert beter dan andere modellen bij het generaliseren op datasets buiten het domein.
We blijven onze veiligheidssystemen, waaronder onze Roblox Guard 1.0-tools, voortdurend verbeteren en zijn van plan om in de nabije toekomst extra functies uit te brengen. Houd onze pagina's op HuggingFace en GitHub in de gaten voor toekomstige updates en verbeteringen, evenals toekomstige open-source releases.


