Wie Roblox KI einsetzt, um Inhalte in großem Umfang zu moderieren
Tägliche Moderation von Milliarden von Inhalten in 25 Sprachen – in Echtzeit

- Um die auf Roblox veröffentlichten Inhalte proaktiv zu moderieren, entwickeln wir seit etwa fünf Jahren skalierbare Systeme, die KI nutzen.
- Heute arbeiten unsere Infrastruktur, ML-Modelle und Tausende von Experten Hand in Hand daran, Roblox zu einem sichereren und zivilisierteren Ort für unsere Nutzer zu machen.
- Wir entwickeln all diese Systeme mit Blick auf Skalierbarkeit, Geschwindigkeit und kontinuierliche Verbesserung unter Verwendung hochwertiger Daten.
Sicherheit ist die Grundlage für alles, was wir bei Roblox tun. Von Anfang an haben wir die Inhalte proaktiv moderiert, da wir wussten, dass Moderation für eine Plattform, die auf nutzergenerierten Inhalten basiert, von entscheidender Bedeutung ist. Als Roblox noch deutlich kleiner war, übernahmen menschliche Prüfer diese Aufgabe – darunter auch unser Gründer und CEO, der zu Beginn Zeit damit verbrachte, Inhalte zu moderieren. Im Laufe der Zeit wuchs die Plattform (sowohl in Bezug auf Umfang als auch Geschwindigkeit) über die Kapazitäten menschlicher Moderatoren hinaus. Bei der Einführung eines neuen Produkts ist Sicherheit immer das erste Element, das wir berücksichtigen.
Durchschnittlich 97,8 Millionen aktive Nutzer1 besuchen Roblox täglich, um zu spielen, zu kommunizieren und Inhalte zu erstellen. Jeden Tag versenden Nutzer durchschnittlich 6,1 Milliarden Chat-Nachrichten und führen 1,1 Millionen Stunden Sprachkommunikation in 28 verschiedenen Sprachen. Entwickler laden täglich Millionen von Assets hoch – und Tausende weiterer Artikel werden unserem Avatar-Marktplatz hinzugefügt. Die überwiegende Mehrheit dieser Milliarden von Kreationen und Nachrichten ist höflich. Wie in der realen Welt – so kommunizieren die meisten Menschen miteinander. Ist dies jedoch nicht der Fall, hilft unser Textfiltersystem dabei, problematische Texte zu blockieren, bevor sie die Nutzer erreichen, und Verstöße in der Sprachkommunikation werden in Echtzeit bewertet. Und falls wir einen Hinweis auf illegale Inhalte erhalten, beträgt unsere durchschnittliche Reaktionszeit zehn Minuten.
Diese Menge an Inhalten innerhalb von Millisekunden konsequent zu moderieren, ist eine Aufgabe, die Menschen allein nicht bewältigen können – unabhängig davon, wie viele wir haben. Um in diesem Umfang und Tempo zu arbeiten, wären Hunderttausende menschlicher Moderatoren erforderlich, die rund um die Uhr arbeiten, ohne Wochenenden oder Urlaub – und das nur, um Chat-Nachrichten zu moderieren. Wir bräuchten Tausende weitere, um alle anderen Inhaltstypen auf Roblox zu moderieren. Das täglich auf Roblox produzierte Inhaltsvolumen erfordert eine skalierbare Infrastruktur, Modelle des maschinellen Lernens (ML) und speziell entwickelte Tools.
ML kann diese Entscheidungen in Millisekunden treffen – wiederholt, konsistent und rund um die Uhr. Wir benötigen und setzen nach wie vor Menschen ein, um seltenere Fälle zu bearbeiten, in denen je nach Kontext ein differenzierteres menschliches Urteilsvermögen erforderlich ist. Wir kombinieren robuste, innovative Sicherheits- und Moderations-Tools mit Tausenden von menschlichen Experten auf der ganzen Welt, die unsere Systeme überwachen und kontinuierlich schulen, um neuen und sich wandelnden Herausforderungen zu begegnen. Alle Moderationssysteme von Roblox basieren auf den folgenden Prinzipien:
- Wir moderieren Inhalte auf Roblox proaktiv.
- Wir geben den Nutzern nach Möglichkeit Echtzeit-Feedback, da die Nutzer die Regeln oft nicht kennen.
- Wir setzen KI nur dann ein, wenn sie in großem Maßstab sowohl bei der Präzision als auch beim Recall deutlich besser abschneidet als Menschen.
- Wir setzen Menschen ein, um die KI kontinuierlich zu verbessern, sowie für seltene Fälle, komplexe Untersuchungen und Einsprüche.
Um das wachsende Volumen an Inhalten auf Roblox effizient zu moderieren, arbeiten wir ständig an Innovationen in drei Bereichen: Umfang, Geschwindigkeit und Qualität – und das erfordert kontinuierliche Verbesserung.
Umfang: Tägliche Moderation von Milliarden von Inhalten
Von Februar bis Dezember 20241 haben Nutzer etwa 1 Billion Inhalte hochgeladen. Nur 0,01 % dieser Milliarden von Text-Chats, Audio- und Sprachaufnahmen sowie Bildern wurden als Verstoß gegen unsere Richtlinien erkannt. Und fast alle Inhalte, die gegen unsere Richtlinien verstießen, wurden automatisch vorab geprüft und entfernt, bevor Nutzer sie überhaupt zu Gesicht bekamen. Während dieses Ausmaß relativ neu ist, ist unser Engagement für die Moderation es nicht. Vor über einem Jahrzehnt haben wir einen regelbasierten Textfilter entwickelt. Vor etwa fünf Jahren haben wir einen damals hochmodernen, auf Transformern basierenden Textfilter eingeführt. Heute verarbeiten unsere Textfilter durchschnittlich 6,1 Milliarden Chat-Nachrichten pro Tag, unterstützt von zahlreichen Modellen, die speziell für verschiedene Arten von Richtlinienverstößen entwickelt wurden.
Eines dieser Modelle ist unser Filter für personenbezogene Daten (PII) im Spiel- und Plattform-Chat. Nutzer, die andere nach PII fragen, können ein erster Schritt in Richtung schwerwiegenderer Probleme sein, daher haben wir stets eine strenge Haltung eingenommen, um die Weitergabe von PII zu verhindern. Jede gesendete Chat-Nachricht ist eine „Anfrage“, die das System auffordert, zu prüfen und festzustellen, ob PII erwähnt werden. Dieses Textfiltermodell verarbeitete so viele Anfragen pro Sekunde (RPS), dass es auf unserem bestehenden CPU-basierten Serverstack kaum noch zu bewältigen war. Deshalb haben wir einen völlig neuen Serverstack auf GPUs aufgebaut und dabei unsere Mobilfunkinfrastruktur genutzt. Um diese hohen RPS-Anforderungen zu bewältigen, haben wir zunächst die Tokenisierung von der Inferenz getrennt und dann die Inferenz durch Quantisierung und Destillation größerer Modelle beschleunigt. Zusammen haben diese Verbesserungen unsere RPS vervierfacht.
Auf dem neuen Stack verarbeitet der PII-Filter nun in Spitzenzeiten 370.000 RPS. Unser verbesserter PII-Filter hat Fehlalarme um 30 % reduziert, was zu einem Anstieg der vom System automatisch erkannten PII-Erwähnungen um 25 % in allen unterstützten Sprachen geführt hat. Wir arbeiten bereits daran, diese Verbesserung auf mehrere andere Sprachen auszuweiten und ähnliche Verbesserungen für andere Textfilter und Oberflächen einzuführen. Wir sind zwar stolz auf diese Verbesserungen, wissen aber, dass sich die Methoden zur Weitergabe von PII ständig weiterentwickeln, und wir passen unsere Systeme entsprechend diesen Veränderungen an.
Unser gesamtes Moderationssystem basiert auf großen, transformatorbasierten Modellen mit Wissen über verschiedene Modalitäten hinweg. Je nach den betrieblichen und produktionstechnischen Anforderungen destillieren und quantisieren wir diese Modelle, um das System schnell und effizient zu halten. Diese Techniken sind für den Betrieb einer Vielzahl multimodaler Modelle unerlässlich; die Modelle, die unsere Textfilter verwalten, bewältigen nun effizient mehr als 750.000 RPS.

Geschwindigkeit: Veränderung des Nutzerverhaltens durch Echtzeit-Feedback
Natürliche Kommunikation in Echtzeit erfordert eine nahezu sofortige Filterung, um den Gesprächsfluss aufrechtzuerhalten. Das Ausarbeiten und gemeinsame Erarbeiten von Ideen erfordert schnelles Feedback, um die Kreativität am Laufen zu halten. Unser mehrschichtiges Verteidigungssystem umfasst proaktive Maßnahmen wie Warnmeldungen, Zeitüberschreitungen und Sperren. Bei der Textfilterung können wir in Echtzeit reagieren und richtlinienwidrige Begriffe wie personenbezogene Daten, Obszönitäten und Hassreden innerhalb von Millisekunden blockieren, wodurch verhindert wird, dass Nutzer unangemessenen Inhalten ausgesetzt werden.
Sprachkommunikation kann nicht auf die gleiche Weise blockiert werden, daher klären wir Nutzer über Bildschirmbenachrichtigungen auf. Unsere Warnmeldungen haben das Nutzerverhalten effektiv verändert und sowohl den Umgangston als auch das Engagement verbessert. Unser Sprach-Sicherheitsklassifikator moderiert Chats innerhalb von 15 Sekunden in acht Sprachen. Wir haben dieses Modell zudem als Open-Source-Projekt veröffentlicht, als Teil unseres umfassenden Engagements, Sicherheitsinnovationen mit der Branche zu teilen.

Wenn ein Nutzer weiterhin gegen unsere Richtlinien verstößt, werden die Konsequenzen immer strenger und reichen von einer kurzen Verwarnung bis hin zum Verlust des Zugangs zum Voice-Chat. Interne Untersuchungen haben gezeigt, dass Sperren bis zu drei Wochen nach ihrer Verhängung Wirkung zeigen und die Rückfallquote sowie die Anzahl der eingereichten Nutzerberichte senken. Erste Versuche haben gezeigt, dass diese Art von sofortigen Eingriffen und Konsequenzen einen positiven Effekt auf das Verhalten der Nutzer haben. Die neueste Version unseres Sprachklassifikators weist eine um 92 % höhere Wiederauffindungsrate als unsere ursprüngliche Version auf, bei einer Falsch-Positiv-Rate von 1 % – und verarbeitet in Spitzenzeiten bis zu 8.300 RPS. Wir suchen weiterhin nach Möglichkeiten, sowohl die Präzision als auch die Wiederauffindungsrate zu verbessern.
Aufgrund des Erfolgs, den wir mit Benachrichtigungen im Sprachchat erzielt haben, haben wir auch damit begonnen, Echtzeit-Feedback für den Text-Chat zu implementieren. In jüngsten Experimenten haben wir festgestellt, dass die Ausgabe von Benachrichtigungen und Time-outs direkt im Text-Chat zu einer Reduzierung der gefilterten Chat-Nachrichten um 5 % und einer Verringerung der Konsequenzen aus Missbrauchsmeldungen um 6 % führte. Wir beginnen außerdem damit, mit Echtzeit-Feedback für Creator beim Hochladen ihrer Inhalte zu experimentieren.
Datenqualität: Trainingsmodelle für kontinuierliche Verbesserung
Wir trainieren diese Systeme so, dass sie auf möglichst wenige Fehlalarme (False Negatives) optimiert sind – wobei wir lieber auf Nummer sicher gehen und alles entfernen, was einen Verstoß gegen die Richtlinien darstellen könnte. Wir wissen aber auch, dass es für Nutzer frustrierend ist, wenn etwas, das ihrer Meinung nach den Richtlinien entspricht, entfernt wird. Deshalb verbessern wir unsere Systeme kontinuierlich, um auch Fehlalarme (False Positives) zu minimieren. Korrekt gekennzeichnete Daten sind unerlässlich, um die Genauigkeit all unserer Klassifikatoren zu verbessern.
Der Aufbau robuster Trainings- und Bewertungsdatensätze erfordert sowohl ausreichend hochwertige Beispiele als auch menschliche Experten, die diese präzise kennzeichnen. Es gibt Fälle, in denen wir nicht über genügend Daten verfügen, da es sich um seltene Szenarien oder Grenzfälle handelt. Manchmal haben wir zu viele Daten und müssen die aussagekräftigsten Beispiele identifizieren. Und wir benötigen Daten, die dem tatsächlichen Geschehen auf Roblox entsprechen. Dazu gehören auch kurzlebige Beispiele wie Slang oder Memes. Unsere Zielgruppe aus Kindern, Jugendlichen und Spielern macht uns ständig mit neuen Slang-Ausdrücken, neuen Trends und neuen Wegen vertraut, unsere Moderationswerkzeuge zu umgehen. Sie halten uns auf Trab, weshalb wir sowohl unsere Moderationswerkzeuge als auch unsere Richtlinien kontinuierlich testen und bewerten.
Wir nutzen eine Vielzahl von Stichprobenstrategien, um diese Datensätze zusammenzustellen, und setzen sowohl KI als auch menschliche Experten ein, um diese Datenbeispiele zu generieren und zu kennzeichnen. Unsere Richtlinienexperten stellen Beispiele manuell zusammen, die wir als „Golden Set“ bezeichnen. Dies sind Beispiele, die am ehesten den Problemen entsprechen, die das System erkennen soll. Wir entnehmen Stichproben aus sehr großen Datensätzen mit verschiedenen Stichprobenstrategien, darunter auch Unsicherheitsstichproben, bei denen wir Randfälle auswählen, bei denen das Modell zuvor verwirrt war. Wir erhalten Stichproben von menschlichen Experten und KI-gestützten Red Teams (mehr über AARTs), die das System testen, indem sie feindliche Angriffe simulieren, um Schwachstellen aufzudecken.
Wir erweitern und verbessern unsere Trainingsdatensätze zudem, sobald wir neue Probleme, Slang, Memes usw. entdecken. Einige dieser Beispiele erhalten wir über unser Einspruchsverfahren, bei dem Nutzer eine zusätzliche Überprüfung beantragen können. Wird die Entscheidung aufgehoben, wird dieses Beispiel Teil unseres Datensatzes, damit unser System es beim nächsten Mal richtig macht.
Andere Beispiele erhalten wir über unser robustes System zur Meldung von Missbrauch, das unser Team aus menschlichen Moderatoren effektiv um Millionen von Nutzern erweitert, denen diese Erfahrungen und die Community am Herzen liegen. Wir haben unser Meldetool kürzlich verbessert, sodass Nutzer nun die Möglichkeit haben, eine gesamte Szene einschließlich Avatar- und Objekt-IDs zu erfassen und den Teil zu markieren, den sie melden möchten. Wir verzeichnen eine hohe Akzeptanz bei den Nutzern: Etwa 15 % der zulässigen Meldungen enthalten visuelle Anmerkungen. Dieser zusätzliche Kontext hilft uns, problematische Erfahrungen, zu denen Nutzer häufig Bedenken melden, proaktiv zu identifizieren. Da das Modelltraining nicht sofort erfolgt, prüfen wir zudem die automatische Erstellung KI-gesteuerter Regeln auf Basis von Nutzerberichten, um unsere Reaktionsfähigkeit zu verbessern.

Wir ergänzen diese Datensätze durch synthetische Daten, bei denen große Sprachmodelle (LLMs) künstliche Datenbeispiele und Labels generieren, die reale Beispiele nachahmen. Der Vorteil dabei ist die Möglichkeit, Millionen von Beispielen und Labels zu generieren, selbst für seltene oder Randfälle. Sobald wir über ausreichend gelabelte Daten verfügen, teilen wir diese in zwei Datensätze auf: einen für das Training und einen für die Bewertung. Ein robuster Bewertungsdatensatz ist entscheidend: Ist ein Bewertungssatz zu einfach, sehen die Metriken des Modells so aus, als würde es gut funktionieren – doch in der Produktion versagt es. Die Genauigkeit der Daten ist wichtiger als die Menge. „Garbage in, garbage out“ ist bei ML ein echtes Problem, da die Leistung des Modells stark von der Genauigkeit der Daten abhängt, die zu seinem Training und seiner Bewertung verwendet werden.
Sobald wir über einen robusten Bewertungsdatensatz verfügen, bewerten wir ihn anhand von zwei Schlüsselkennzahlen: Übereinstimmung und Qualität. Um die Übereinstimmung zu testen, werden dieselben Beispiele an mehrere Personen gesendet, die sie kennzeichnen sollen, um zu sehen, ob ihre Kennzeichnungen übereinstimmen (oder „align“). Wenn die Übereinstimmung zwischen ihren Kennzeichnungen bei 80 % oder mehr liegt, bedeutet dies, dass unsere Moderatoren konsistente Entscheidungen in großem Maßstab treffen können. Liegt sie unter 80 %, sind die Richtlinien oder das Training möglicherweise verwirrend, und wir müssen iterieren. Um die Qualität zu testen, senden wir den Golden Set an Menschen, damit diese beurteilen, ob er gegen die Richtlinie verstößt, und sicherstellen, dass sie die richtige Entscheidung treffen. Wir wählen außerdem Stichproben von Entscheidungen aus, die von Experten überprüft werden. Wenn alle die richtige Entscheidung treffen, kann unsere Richtlinie korrekt durchgesetzt werden. Eine hohe Übereinstimmung und hohe Qualität deuten darauf hin, dass unsere Richtlinie korrekt und konsistent durchgesetzt werden kann. Ist dies nicht der Fall, gehen wir zurück und bewerten sowohl die Richtlinie als auch den Trainingsdatensatz.
Der kreative Charakter einer Plattform wie Roblox, auf der Nutzer fast alles erstellen und kommunizieren können, bedeutet, dass sie sich ständig weiterentwickelt. Unsere Moderationsmethoden müssen sich ebenso schnell weiterentwickeln, um unsere Community sicher und höflich zu halten. Unsere aktiven Lernsysteme aktualisieren Modelle kontinuierlich, während sich die Sprache weiterentwickelt, Nutzerverhalten sich ändert und Ereignisse in der realen Welt stattfinden. Wir entwickeln ständig Systeme, die skalierbar, schnell und genau sind und sich konsequent an die dynamische Welt anpassen, in der wir alle leben.
1Stand: erstes Quartal 2025.
2Bezieht sich auf den Berichtszeitraum vom 17. Februar 2024 bis zum 31. Dezember 2024.


