Modernstes LLM trägt dazu bei, die unbegrenzte Textgenerierung auf Roblox zu sichern
Roblox Guard 1.0: Mehr Sicherheit durch robuste Schutzmaßnahmen

- Heute stellen wir Roblox Guard 1.0 vor, ein Open-Source-Sicherheits-Toolkit für Entwickler und Plattformen.
- Die erste Funktion von Roblox Guard, ein hochmodernes (SOTA) Guardrail-Modell für die Sicherheit von LLM, ist nun verfügbar und setzt einen neuen Standard bei den führenden Sicherheits-Benchmarks.
- Außerdem veröffentlichen wir Roblox Guard-Eval, einen Datensatz für Sicherheits-Benchmarking.
Die Herausforderung
Wir haben kürzlich eine Textgenerierungs-API veröffentlicht, die es Entwicklern ermöglicht, die Leistungsfähigkeit großer Sprachmodelle (LLMs) zu nutzen, um reichhaltigere, immersivere Erlebnisse zu schaffen, indem sie Text innerhalb ihrer Erlebnisse generieren. So könnte ein Entwickler beispielsweise einen vollständig interaktiven NPC erstellen oder ein interaktives Tutorial zur Spielweise bereitstellen.
Wir haben die meisten Inhalte auf Roblox von Anfang an proaktiv moderiert, da wir bestrebt sind, unsere Produkte im Einklang mit den hohen Sicherheits- und Verhaltensstandards von Roblox zu halten. Bevor wir die Textgenerierungs-API veröffentlicht haben, haben wir uns zunächst damit befasst, wie wir Sicherheit in den Vordergrund stellen können. Wir haben ein neues Modell entwickelt, um sowohl die Eingaben (Eingabeaufforderungen von Nutzern) als auch die Ausgaben (von der API generierter Text) zu schützen.
Die Innovation
Die erste Funktion im Roblox Guard 1.0-Toolkit ist ein nach dem neuesten Stand der Technik (SOTA) feingestelltes LLM, das zum Schutz unserer Textgenerierungs-API entwickelt wurde. Es führt eine Sicherheitsklassifizierung sowohl auf der Ebene der Eingabeaufforderung als auch auf der Ebene der Antwort durch und entscheidet, ob eine jeweilige Eingabe oder Ausgabe gegen unsere Richtlinien verstößt. Diese zweistufige Bewertung ist unerlässlich für die Moderation sowohl von Nutzeranfragen als auch der vom Modell selbst generierten Ausgaben.
Unser LLM übertrifft derzeit beliebte LLM-Guardrail-Modelle wie Llama Guard von Meta, ShieldGemma von Google AI, NVIDIA NeMo Guardrails, GPT-4o von OpenAI und andere bei Standard-Benchmarks. Das Roblox Guard 1.0 LLM zeigt zudem eine starke Generalisierungsfähigkeit bei Datensätzen außerhalb des Domänenbereichs mit unbekannter Taxonomie. Wir haben sowohl die LLM-Gewichte für unsere erste Funktion als auch unseren Roblox Guard-Eval-Benchmark-Datensatz als Open Source veröffentlicht.
Das Herzstück unseres Systems ist ein LLM, das auf Basis des Llama-3.1-8B-Instruct-Modells feinabgestimmt wurde. Wir haben dieses LLM mit besonderem Fokus auf eine hochwertige Anweisungsoptimierung trainiert, um die Leistung bei der Sicherheitsbeurteilung zu optimieren. Ein entscheidender Schritt in diesem Prozess war die sorgfältige Zusammenstellung von Eingabeaufforderungen und Antworten, um ein breites Spektrum realer Sicherheitsszenarien abzubilden.
Unser Anweisungssatz verwendet keine proprietären Daten – lediglich eine Kombination aus synthetischen (LLM-generierten) und Open-Source-Daten, was es uns ermöglicht, Trainingsdaten einfacher zu skalieren und Skalierungsgesetze zu nutzen – wodurch dieses erste Roblox Guard LLM zum SOTA wird. Bei der Zusammenführung verschiedener Open-Source- und synthetischer Datensätze stellten wir fest, dass die Verwendung einer datensatzspezifischen Taxonomie der beste Ansatz für die Zusammenstellung der Anweisungen war, da die Aufgabenvielfalt den LLMs hilft, auf verschiedene Arten von Eingabeaufforderungen trainiert zu werden. Dies führte zu einem robusten Modell, das auf verschiedene Sicherheitstaxonomien verallgemeinert werden kann. Wir haben außerdem „Chain-of-Thought“-Begründungen in den Anweisungssatz integriert, bei denen das Modell dazu angeregt wird, seinen Denkprozess zu artikulieren. Diese zwischengeschalteten Denkschritte verliehen dem Modell eine stärkere kontextuelle Verankerung.
Die Ergebnisse

Wir bewerten unsere Modelle anhand eines umfassenden Satzes von Open-Source-Datensätzen sowohl für Prompts als auch für Antworten sowie anhand von Roblox Guard-Eval. Dies ermöglicht es uns, unser Modell sowohl an datensatzspezifischen als auch an datensatzübergreifenden Datensätzen zu bewerten. Wir berichten über unsere Ergebnisse anhand des F-1-Scores für die binäre Klassifizierung „Verstoss/Kein Verstoss“. In der obigen Tabelle vergleichen wir unsere Leistung mit der mehrerer bekannter Modelle. Diese erste Roblox Guard-Funktion übertrifft andere Modelle bei der Generalisierung auf Datensätze ausserhalb des Domänenbereichs.
Wir verbessern unsere Sicherheitssysteme, einschließlich unserer Roblox Guard 1.0-Tools, kontinuierlich und planen, in naher Zukunft weitere Funktionen zu veröffentlichen. Bitte besuchen Sie unsere Seiten auf HuggingFace und GitHub, um über zukünftige Updates und Verbesserungen sowie künftige Open-Source-Veröffentlichungen auf dem Laufenden zu bleiben.


