De content op deze site is vertaald met behulp van kunstmatige intelligentie (AI) of machinevertalingstechnologie en kan fouten bevatten.

Skip to content

Geavanceerde LLM helpt onbeperkte tekstgeneratie op Roblox te beveiligen

Roblox Guard 1.0: meer veiligheid met robuuste veiligheidsmaatregelen

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations
  • Vandaag kondigen we Roblox Guard 1.0 aan, een open-source veiligheidstoolkit voor ontwikkelaars en platforms.  
  • De eerste functie van Roblox Guard, een state-of-the-art (SOTA) guardrail-model voor LLM-veiligheid, is nu beschikbaar en zet een nieuwe standaard binnen toonaangevende veiligheidsbenchmarks.
  • We brengen ook Roblox Guard-Eval uit, een dataset voor veiligheidsbenchmarking. 
De uitdaging

We hebben onlangs een Text Generation API uitgebracht waarmee ontwikkelaars de kracht van grote taalmodellen (LLM's) kunnen benutten om rijkere, meeslepende ervaringen te bouwen door tekst te genereren binnen hun ervaringen. Een ontwikkelaar kan bijvoorbeeld een volledig interactieve NPC maken of een interactieve tutorial aanbieden over hoe het spel gespeeld moet worden.

We hebben vanaf het begin het grootste deel van de content op Roblox proactief gemodereerd, omdat we ernaar streven onze producten in overeenstemming te houden met de hoge veiligheids- en beleefdheidsnormen van Roblox. Voordat we de Text Generation API uitbrachten, hebben we eerst gekeken hoe we veiligheid konden inbouwen. We hebben een nieuw model ontwikkeld om zowel de input (prompts van gebruikers) als de output (gegenereerde tekst van de API) te helpen beveiligen. 

De innovatie

De eerste functie in de Roblox Guard 1.0-toolkit is een SOTA-instructie, een fijn afgestemd LLM, ontworpen om onze Text Generation API te helpen beveiligen. Het voert veiligheidsclassificatie uit op zowel het prompt- als het responsniveau, waarbij wordt bepaald of elke invoer of uitvoer in strijd is met ons beleid. Deze beoordeling op twee niveaus is essentieel voor het modereren van zowel gebruikersvragen als de door het model zelf gegenereerde uitvoer. 

Onze LLM presteert momenteel beter dan populaire LLM-guardrail-modellen zoals Llama Guard van Meta, ShieldGemma van Google AI, NVIDIA NeMo Guardrails, GPT-4o van OpenAI en andere op standaardbenchmarks. De Roblox Guard 1.0 LLM vertoont ook een sterke generalisatie op datasets buiten het domein met onbekende taxonomie. We hebben zowel de LLM-gewichten voor onze eerste functionaliteit als onze Roblox Guard-Eval-benchmarkdataset open source gemaakt. 

De kern van ons systeem wordt gevormd door een LLM die is gefinetuned op basis van het Llama-3.1-8B-Instruct-model. We hebben deze LLM getraind met een bijzondere focus op het afstemmen van hoogwaardige instructies om de prestaties op het gebied van veiligheidsbeoordeling te optimaliseren. Een cruciale stap in dit proces was het zorgvuldig samenstellen van prompts en reacties om een breed scala aan realistische veiligheidsscenario's weer te geven. 

Onze instructieset maakt geen gebruik van eigen gegevens, maar alleen van een combinatie van synthetische (door de LLM gegenereerde) en open-sourcegegevens. Hierdoor kunnen we de trainingsgegevens gemakkelijker opschalen en gebruikmaken van schaalwetten, waardoor deze eerste Roblox Guard LLM de beste in zijn klasse is. Bij het samenvoegen van verschillende open-source- en synthetische datasets ontdekten we dat het gebruik van datasetspecifieke taxonomie de beste aanpak was voor het samenstellen van instructies, omdat de diversiteit aan taken de LLM's helpt om te trainen op verschillende soorten prompts. Dit resulteerde in een robuust model dat kan worden gegeneraliseerd voor verschillende veiligheidstaxonomieën. We hebben ook 'chain-of-thought'-redeneringen, waarbij het model wordt aangemoedigd om zijn redeneringsproces te verwoorden, in de instructieset opgenomen. Deze tussenliggende redeneringsstappen gaven het model een sterkere contextuele basis.

De resultaten
Ons veiligheidsteam heeft een op maat gemaakte evaluatiedataset van hoge kwaliteit ontwikkeld voor de taxonomie voor inhoudsveiligheid van Roblox, die 25 subcategorieën omvat. Deze evaluatieset is gemaakt door middel van interne red-teaming, waarbij we het systeem testen door vijandige aanvallen te simuleren om kwetsbaarheden op te sporen, en bevat geen door gebruikers gegenereerde of persoonlijke gegevens. Deze evaluatiedataset bevat prompt- en responsparen, waarbij de responsen handmatig zijn gelabeld door een groep beleidsexperts om de kwaliteit ervan te waarborgen. De dataset bestrijkt een breed spectrum aan soorten overtredingen, waardoor we nauwkeurigere en zinvollere labels voor evaluatie kunnen creëren. De uiteindelijke evaluatieset bevat 2.873 voorbeelden. We hebben deze evaluatiedataset open source gemaakt. De dataset bevat een uitbreidbare veiligheidstaxonomie om LLM-beveiligingsmaatregelen en moderatiesystemen te helpen benchmarken. 

We benchmarken onze modellen op een uitgebreide set open-source datasets voor zowel prompts als antwoorden, evenals op Roblox Guard-Eval. Dit stelt ons in staat om ons model te evalueren op zowel in-domain als out-of-domain datasets. We rapporteren onze resultaten in termen van F-1-score voor binaire classificatie van overtredingen/geen overtredingen. In de bovenstaande tabel vergelijken we onze prestaties met die van verschillende bekende modellen. Deze eerste Roblox Guard-functie presteert beter dan andere modellen bij het generaliseren op datasets buiten het domein.

We blijven onze veiligheidssystemen, waaronder onze Roblox Guard 1.0-tools, voortdurend verbeteren en zijn van plan om in de nabije toekomst extra functies uit te brengen. Houd onze pagina's op HuggingFace en GitHub in de gaten voor toekomstige updates en verbeteringen, evenals toekomstige open-source releases.