Modernstes LLM trägt dazu bei, die unbegrenzte Textgenerierung auf Roblox zu sichern

Roblox Guard 1.0: Mehr Sicherheit durch robuste Schutzmaßnahmen

Von Mahesh Nandwana, Adam McFarlin und Nishchaie Khanna

Veröffentlicht 22.07.2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

Heute stellen wir Roblox Guard 1.0 vor, ein Open-Source-Sicherheits-Toolkit für Entwickler und Plattformen.
Die erste Funktion von Roblox Guard, ein hochmodernes (SOTA) Guardrail-Modell für die Sicherheit von LLM, ist nun verfügbar und setzt einen neuen Standard bei den führenden Sicherheits-Benchmarks.
Außerdem veröffentlichen wir Roblox Guard-Eval, einen Datensatz für Sicherheits-Benchmarking.

Die Herausforderung

Wir haben kürzlich eine Textgenerierungs-API veröffentlicht, die es Entwicklern ermöglicht, die Leistungsfähigkeit großer Sprachmodelle (LLMs) zu nutzen, um reichhaltigere, immersivere Erlebnisse zu schaffen, indem sie Text innerhalb ihrer Erlebnisse generieren. So könnte ein Entwickler beispielsweise einen vollständig interaktiven NPC erstellen oder ein interaktives Tutorial zur Spielweise bereitstellen.

Wir haben die meisten Inhalte auf Roblox von Anfang an proaktiv moderiert, da wir bestrebt sind, unsere Produkte im Einklang mit den hohen Sicherheits- und Verhaltensstandards von Roblox zu halten. Bevor wir die Textgenerierungs-API veröffentlicht haben, haben wir uns zunächst damit befasst, wie wir Sicherheit in den Vordergrund stellen können. Wir haben ein neues Modell entwickelt, um sowohl die Eingaben (Eingabeaufforderungen von Nutzern) als auch die Ausgaben (von der API generierter Text) zu schützen.

Die Innovation

Die erste Funktion im Roblox Guard 1.0-Toolkit ist ein nach dem neuesten Stand der Technik (SOTA) feingestelltes LLM, das zum Schutz unserer Textgenerierungs-API entwickelt wurde. Es führt eine Sicherheitsklassifizierung sowohl auf der Ebene der Eingabeaufforderung als auch auf der Ebene der Antwort durch und entscheidet, ob eine jeweilige Eingabe oder Ausgabe gegen unsere Richtlinien verstößt. Diese zweistufige Bewertung ist unerlässlich für die Moderation sowohl von Nutzeranfragen als auch der vom Modell selbst generierten Ausgaben.

Unser LLM übertrifft derzeit beliebte LLM-Guardrail-Modelle wie Llama Guard von Meta, ShieldGemma von Google AI, NVIDIA NeMo Guardrails, GPT-4o von OpenAI und andere bei Standard-Benchmarks. Das Roblox Guard 1.0 LLM zeigt zudem eine starke Generalisierungsfähigkeit bei Datensätzen außerhalb des Domänenbereichs mit unbekannter Taxonomie. Wir haben sowohl die LLM-Gewichte für unsere erste Funktion als auch unseren Roblox Guard-Eval-Benchmark-Datensatz als Open Source veröffentlicht.

Das Herzstück unseres Systems ist ein LLM, das auf Basis des Llama-3.1-8B-Instruct-Modells feinabgestimmt wurde. Wir haben dieses LLM mit besonderem Fokus auf eine hochwertige Anweisungsoptimierung trainiert, um die Leistung bei der Sicherheitsbeurteilung zu optimieren. Ein entscheidender Schritt in diesem Prozess war die sorgfältige Zusammenstellung von Eingabeaufforderungen und Antworten, um ein breites Spektrum realer Sicherheitsszenarien abzubilden.

Unser Anweisungssatz verwendet keine proprietären Daten – lediglich eine Kombination aus synthetischen (LLM-generierten) und Open-Source-Daten, was es uns ermöglicht, Trainingsdaten einfacher zu skalieren und Skalierungsgesetze zu nutzen – wodurch dieses erste Roblox Guard LLM zum SOTA wird. Bei der Zusammenführung verschiedener Open-Source- und synthetischer Datensätze stellten wir fest, dass die Verwendung einer datensatzspezifischen Taxonomie der beste Ansatz für die Zusammenstellung der Anweisungen war, da die Aufgabenvielfalt den LLMs hilft, auf verschiedene Arten von Eingabeaufforderungen trainiert zu werden. Dies führte zu einem robusten Modell, das auf verschiedene Sicherheitstaxonomien verallgemeinert werden kann. Wir haben außerdem „Chain-of-Thought“-Begründungen in den Anweisungssatz integriert, bei denen das Modell dazu angeregt wird, seinen Denkprozess zu artikulieren. Diese zwischengeschalteten Denkschritte verliehen dem Modell eine stärkere kontextuelle Verankerung.

Die Ergebnisse

Unser Sicherheitsteam hat einen maßgeschneiderten, hochwertigen Bewertungsdatensatz für die gesamte Taxonomie zur Inhaltssicherheit von Roblox entwickelt, der 25 Unterkategorien umfasst. Dieser Bewertungsdatensatz wurde im Rahmen interner Red-Team-Tests erstellt, bei denen wir das System durch die Simulation böswilliger Angriffe auf Schwachstellen testen; er enthält keine benutzergenerierten oder personenbezogenen Daten. Dieser Bewertungsdatensatz enthält Prompt- und Antwortpaare, wobei die Antworten von einer Gruppe von Richtlinienexperten manuell gekennzeichnet wurden, um ihre Qualität sicherzustellen. Er deckt ein breites Spektrum an Verstossarten ab und hilft uns dabei, präzisere und aussagekräftigere Kennzeichnungen für die Bewertung zu erstellen. Der endgültige Bewertungsdatensatz umfasst 2.873 Beispiele. Wir haben diesen Bewertungsdatensatz als Open Source veröffentlicht. Er verfügt über eine erweiterbare Sicherheitstaxonomie, um LLM-Sicherheitsvorkehrungen und Moderationssysteme zu bewerten.

Wir bewerten unsere Modelle anhand eines umfassenden Satzes von Open-Source-Datensätzen sowohl für Prompts als auch für Antworten sowie anhand von Roblox Guard-Eval. Dies ermöglicht es uns, unser Modell sowohl an datensatzspezifischen als auch an datensatzübergreifenden Datensätzen zu bewerten. Wir berichten über unsere Ergebnisse anhand des F-1-Scores für die binäre Klassifizierung „Verstoss/Kein Verstoss“. In der obigen Tabelle vergleichen wir unsere Leistung mit der mehrerer bekannter Modelle. Diese erste Roblox Guard-Funktion übertrifft andere Modelle bei der Generalisierung auf Datensätze ausserhalb des Domänenbereichs.

Wir verbessern unsere Sicherheitssysteme, einschließlich unserer Roblox Guard 1.0-Tools, kontinuierlich und planen, in naher Zukunft weitere Funktionen zu veröffentlichen. Bitte besuchen Sie unsere Seiten auf HuggingFace und GitHub, um über zukünftige Updates und Verbesserungen sowie künftige Open-Source-Veröffentlichungen auf dem Laufenden zu bleiben.

Aktuell

Weitere Ergebnisse

Modernstes LLM trägt dazu bei, die unbegrenzte Textgenerierung auf Roblox zu sichern

Die Herausforderung

Die Innovation

Die Ergebnisse

Modernstes LLM trägt dazu bei, die unbegrenzte Textgenerierung auf Roblox zu sichern

Die Herausforderung

Die Innovation

Die Ergebnisse

Technik

Erweiterung unseres Klassifikators für Sprachsicherheit um 22 neue Sprachen und präzisere Erkennungsfunktionen

Nachrichten

Pionierhafte KI-Gründer schließen sich zusammen, um die „Roblox Reality“-Vision voranzutreiben

Technik

CubePart: Ein 3D-Generator mit offenem Vokabular und Teilsteuerung