Hoe Roblox AI gebruikt om content op grote schaal te modereren

Miljarden stukken content per dag in 25 talen modereren – in realtime

Door Naren Koneru, Vice President Engineering, Safety

Gepubliceerd 9 jul 2025

Om de inhoud die op Roblox wordt gepubliceerd proactief te modereren, bouwen we al ongeveer vijf jaar schaalbare systemen die gebruikmaken van AI.
Vandaag de dag werken onze infrastructuur, ML-modellen en duizenden menselijke experts samen om van Roblox een veiligere, beschaafdere plek voor onze gebruikers te maken.
We ontwikkelen al deze systemen met het oog op schaalbaarheid, snelheid en continue verbetering met behulp van hoogwaardige data.

Veiligheid vormt de basis van alles wat we bij Roblox doen. Vanaf het begin hebben we de inhoud proactief gemodereerd, omdat we wisten dat moderatie cruciaal was voor een platform dat is gebouwd op door gebruikers gegenereerde inhoud. Toen Roblox nog aanzienlijk kleiner was, deden menselijke beoordelaars dit – inclusief onze oprichter en CEO, die in het begin tijd besteedde aan het modereren van inhoud. Na verloop van tijd groeide het platform (zowel in omvang als snelheid) verder dan de capaciteit van menselijke moderators. Bij de lancering van een nieuw product is veiligheid altijd het eerste element waarmee we rekening houden.

Gemiddeld komen 97,8 miljoen dagelijkse actieve gebruikers¹ naar Roblox om te spelen, te communiceren en te creëren. Elke dag versturen gebruikers gemiddeld 6,1 miljard chatberichten en 1,1 miljoen uur aan spraakcommunicatie in 28 verschillende talen. Makers uploaden miljoenen items per dag – en er worden nog eens duizenden items toegevoegd aan onze avatar-marktplaats. Het overgrote deel van deze miljarden creaties en berichten is beleefd. Net als in de echte wereld is dat de manier waarop de meeste mensen met elkaar communiceren. Maar als dat niet het geval is, helpt ons tekstfiltersysteem om problematische tekst te blokkeren voordat deze gebruikers bereikt, en worden overtredingen in spraakberichten in realtime beoordeeld. En als we een melding van illegale inhoud ontvangen, is onze gemiddelde reactietijd tien minuten.

Het consistent modereren van deze hoeveelheid content binnen milliseconden is een taak die mensen niet alleen aankunnen – ongeacht hoeveel we er hebben. Om op deze schaal en snelheid te werken, zouden er honderdduizenden menselijke moderators nodig zijn die 24/7 werken, zonder rekening te houden met weekends of vakanties – en dat is alleen al om chatberichten te modereren. We zouden er nog duizenden meer nodig hebben om alle andere soorten content op Roblox te modereren. De hoeveelheid content die dagelijks op Roblox wordt geproduceerd, vraagt om een schaalbare infrastructuur, machine learning (ML)-modellen en speciaal ontwikkelde tools.

ML kan deze beslissingen in milliseconden nemen, herhaaldelijk, consistent en 24 uur per dag. We hebben nog steeds mensen nodig, en zetten die ook in, om minder vaak voorkomende gevallen aan te pakken waar een diepgaander, genuanceerd menselijk oordeel vereist is, afhankelijk van de context. We combineren robuuste, innovatieve veiligheids- en moderatietools met duizenden menselijke experts over de hele wereld die toezicht houden op en voortdurende training geven aan onze systemen om nieuwe en veranderende uitdagingen aan te pakken. Alle moderatiesystemen van Roblox zijn gebaseerd op de volgende principes:

We modereren content op Roblox proactief.
We geven gebruikers waar mogelijk realtime feedback, omdat mensen vaak de regels niet kennen.
We zetten AI alleen in wanneer deze op grote schaal aanzienlijk beter presteert dan mensen, zowel wat betreft precisie als recall.
We maken gebruik van mensen voor het continu verbeteren van AI, evoluerende en zeldzame gevallen, complexe onderzoeken en beroepen.

Om de toenemende hoeveelheid content die op Roblox wordt geproduceerd efficiënt te modereren, innoveren we voortdurend op drie vlakken: schaal, snelheid en kwaliteit, en dit vereist voortdurende verbetering.

Schaal: dagelijks miljarden stukken content modereren

Van februari tot december 2024¹ hebben gebruikers ongeveer 1 biljoen stukjes content geüpload. Slechts 0,01% van die miljarden tekstchats, audiobestanden, spraakopnames en afbeeldingen werd gedetecteerd als een schending van ons beleid. En bijna alle content die ons beleid schond, werd automatisch vooraf gescreend en verwijderd voordat gebruikers het ooit te zien kregen. Hoewel deze schaal relatief nieuw is, is onze toewijding aan moderatie dat niet. Ruim tien jaar geleden hebben we een op regels gebaseerd tekstfilter gebouwd. Ongeveer vijf jaar geleden hebben we een toenmalig state-of-the-art, op transformatoren gebaseerd tekstfilter geïmplementeerd. Tegenwoordig verwerken onze tekstfilters gemiddeld 6,1 miljard chatberichten per dag, aangedreven door vele modellen die speciaal zijn gebouwd voor verschillende soorten beleidsinbreuken.

Een van deze modellen is ons filter voor persoonlijk identificeerbare informatie (PII) voor in-game- en platformchats. Gebruikers die anderen om PII vragen, kunnen een eerste stap zijn naar ernstigere problemen, dus we hebben altijd een krachtig standpunt ingenomen om het delen van PII te voorkomen. Elk verzonden chatbericht is een 'verzoek' aan het systeem om te controleren en te bepalen of er PII wordt genoemd. Dit tekstfiltermodel verwerkte zoveel verzoeken per seconde (RPS) dat het moeilijk werd om dit te ondersteunen op onze bestaande CPU-gebaseerde serving stack. Daarom hebben we een geheel nieuwe serving stack gebouwd op GPU's, waarbij we gebruik maakten van onze mobiele infrastructuur. Om aan deze hoge RPS-eisen te voldoen, hebben we eerst tokenisatie gescheiden van inferentie en vervolgens de inferentie versneld door kwantisering en distillatie van grotere modellen. Samen hebben deze verbeteringen onze RPS verviervoudigd.

Op de nieuwe stack verwerkt het PII-filter nu 370.000 RPS op piekmomenten. Ons verbeterde PII-filter heeft het aantal valse positieven met 30% verminderd, wat heeft geleid tot een toename van 25% in het aantal PII-vermeldingen dat automatisch door het systeem wordt gedetecteerd in alle ondersteunde talen. We zijn al bezig om deze verbetering uit te rollen naar verschillende andere talen en soortgelijke verbeteringen door te voeren in andere tekstfilters en interfaces. Hoewel we trots zijn op deze verbeteringen, weten we dat de methoden die worden gebruikt om PII te delen voortdurend evolueren en we ontwikkelen onze systemen mee met deze veranderingen.

Ons hele moderatiesysteem is gebaseerd op grote, op transformatoren gebaseerde modellen, met kennis over verschillende modaliteiten. Afhankelijk van de operationele en productievereisten distilleren en kwantificeren we deze modellen om het systeem snel en efficiënt te houden. Deze technieken zijn essentieel voor het draaien van een verscheidenheid aan multimodale modellen; de modellen die onze tekstfilters beheren, verwerken nu efficiënt meer dan 750.000 RPS.

Snelheid: gebruikersgedrag veranderen met realtime feedback

Natuurlijke, realtime communicatie vereist vrijwel onmiddellijke filtering om het gesprek vloeiend te houden. Het uitwerken van en samenwerken aan ideeën vereist snelle feedback om de creativiteit te behouden. Ons meerlaagse verdedigingssysteem omvat proactieve maatregelen zoals waarschuwingsmeldingen, time-outs en schorsingen. Bij het filteren van tekst kunnen we in realtime reageren om termen die in strijd zijn met het beleid, zoals PII, grof taalgebruik en haatzaaiende uitlatingen, binnen milliseconden te blokkeren, waardoor wordt voorkomen dat gebruikers worden blootgesteld aan ongepaste inhoud.

Spraakcommunicatie kan niet op dezelfde manier worden geblokkeerd, dus informeren we gebruikers via meldingen op het scherm. Onze waarschuwingsmeldingen hebben het gedrag van gebruikers effectief veranderd en zowel de beleefdheid als de betrokkenheid vergroot. Onze classificator voor spraakveiligheid modereert chats binnen 15 seconden in acht talen. We hebben dit model ook open source gemaakt als onderdeel van ons bredere streven om veiligheidsinnovaties met de sector te delen.

सूचना वापरकर्त्यांना कोणत्या धोरणांचे उल्लंघन होत आहे हे समजून घेण्यास मदत करतात आणि त्यांना प्रणालीच्या निर्णयाविरुद्ध अपील करण्याची संधी देतात.

Als een gebruiker ons beleid blijft overtreden, worden de gevolgen steeds strenger, variërend van een korte waarschuwing tot het verliezen van toegang tot de voicechat. Intern onderzoek heeft aangetoond dat schorsingen tot drie weken daarna effect hebben, waardoor het aantal recidieven en het aantal ingediende gebruikersmeldingen afneemt. Vroege experimenten hebben aangetoond dat dit soort directe interventies en consequenties een positief effect hebben op het beschaafd gedrag. De nieuwste versie van onze spraakclassificator heeft een recall-percentage dat 92% hoger ligt dan onze eerste versie, met een percentage van 1% valse positieven, en verwerkt op piekmomenten tot 8.300 RPS. We blijven zoeken naar manieren om zowel de precisie als de recall te verbeteren.

Op basis van het succes dat we hebben gezien met meldingen in voicechat, zijn we ook begonnen met het implementeren van realtime feedback voor tekstchat. In recente experimenten hebben we vastgesteld dat het versturen van tekstchatmeldingen en time-outs binnen de ervaring resulteerde in een afname van 5% in gefilterde chatberichten en een afname van 6% in consequenties van meldingen van misbruik. We beginnen ook te experimenteren met realtime feedback aan makers bij het uploaden van hun creaties.

Datakwaliteit: Trainingsmodellen voor continue verbetering

We trainen deze systemen om zo min mogelijk valse negatieven te genereren – waarbij we het zekere voor het onzekere nemen en alles verwijderen wat mogelijk een schending van het beleid inhoudt. We weten ook dat het frustrerend is voor gebruikers wanneer iets dat volgens hen aan de regels voldoet, wordt verwijderd. Daarom verbeteren we onze systemen voortdurend om ook valse positieven tot een minimum te beperken. Correct gelabelde gegevens zijn essentieel om de nauwkeurigheid van al onze classifiers te verbeteren.

Het opbouwen van robuuste trainings- en evaluatiedatasets vereist zowel voldoende voorbeelden van hoge kwaliteit als menselijke experts om deze nauwkeurig te labelen. Er zijn gevallen waarin we niet genoeg gegevens hebben omdat het een zeldzaam scenario of een randgeval betreft. Soms hebben we te veel gegevens en moeten we de meest effectieve voorbeelden identificeren. En we hebben gegevens nodig die overeenkomen met wat er daadwerkelijk op Roblox gebeurt. Dat omvat ook tijdelijke voorbeelden, zoals slang of memes. Ons publiek van kinderen, tieners en gamers laat ons voortdurend kennismaken met nieuwe slangtermen, nieuwe trends en nieuwe manieren om onze moderatietools te omzeilen. Ze houden ons scherp, en daarom testen en evalueren we voortdurend zowel onze moderatietools als ons beleid.

We gebruiken verschillende steekproefstrategieën om deze datasets samen te stellen, en we maken gebruik van zowel AI als menselijke experts om deze gegevensvoorbeelden te genereren en te labelen. Onze beleidsexperts stellen met de hand voorbeelden samen, die we de 'golden set' noemen. Dit zijn voorbeelden die het beste aansluiten bij de problemen die we door het systeem willen laten detecteren. We nemen steekproeven uit zeer grote datasets met verschillende steekproefstrategieën, waaronder onzekerheidssteekproeven, waarbij we randgevallen selecteren waarin het model eerder in de war raakte. We krijgen steekproeven van menselijke experts en AI-ondersteunde red teams (meer over AART's), die het systeem testen door vijandige aanvallen te simuleren om te zoeken naar zwakke plekken.

We breiden onze trainingssets ook uit en verbeteren ze naarmate we nieuwe problemen, slang, memes, enz. ontdekken. Sommige van deze voorbeelden krijgen we via ons beroepsproces, waarbij gebruikers om een aanvullende beoordeling kunnen vragen. Als de beslissing wordt herroepen, wordt dat voorbeeld onderdeel van onze dataset om ons systeem te helpen het de volgende keer goed te doen.

Andere voorbeelden halen we uit ons robuuste meldingssysteem voor misbruik, dat ons team van menselijke moderators effectief uitbreidt met tientallen miljoenen gebruikers die begaan zijn met deze ervaringen en de community. We hebben onlangs onze meldingstool verbeterd, zodat gebruikers de mogelijkheid hebben om een volledige scène vast te leggen, inclusief avatar- en object-ID's, en het deel te markeren dat ze willen melden. We zien dat gebruikers hier veel gebruik van maken: bij ongeveer 15% van de in aanmerking komende meldingen worden visuele aantekeningen toegevoegd. Deze extra context helpt ons proactief problematische ervaringen te identificeren waarover gebruikers vaak hun bezorgdheid uiten. Aangezien het trainen van modellen niet onmiddellijk gebeurt, onderzoeken we ook de mogelijkheid om automatisch AI-gestuurde regels te creëren op basis van gebruikersmeldingen, om zo onze reactiesnelheid te verhogen.

De gebruikersinterface van het in-experience-rapport stelt gebruikers nu in staat om aan te geven wat ze willen rapporteren (d.w.z. de groene cirkel rond de eend-avatar).

We vullen deze datasets aan met synthetische data, waarbij grote taalmodellen (LLM's) kunstmatige data-voorbeelden en labels genereren die echte voorbeelden nabootsen. Het voordeel hiervan is dat we miljoenen voorbeelden en labels kunnen genereren, zelfs voor zeldzame of randgevallen. Zodra we voldoende gelabelde data hebben, splitsen we deze op in twee datasets: één voor training en één voor evaluatie. Het is van cruciaal belang om over een robuuste evaluatiedataset te beschikken: als een evaluatieset te eenvoudig is, zullen de statistieken van het model eruitzien alsof het goed werkt, maar in de praktijk zal het falen. De nauwkeurigheid van de gegevens is belangrijker dan de omvang. 'Garbage in, garbage out' is een reëel probleem bij ML, aangezien de prestaties van het model sterk afhangen van de nauwkeurigheid van de gegevens die worden gebruikt om het te trainen en te evalueren.

Zodra we een robuuste evaluatiedataset hebben, beoordelen we deze op basis van twee belangrijke statistieken: afstemming en kwaliteit. Om de afstemming te testen, worden dezelfde voorbeelden naar meerdere mensen gestuurd om te labelen en te kijken of hun labels overeenkomen (of op elkaar zijn afgestemd). Als de afstemming tussen hun labels 80% of hoger is, betekent dit dat onze moderators op grote schaal consistente beslissingen kunnen nemen. Als het lager is dan 80%, is het beleid of de training mogelijk verwarrend en moeten we herhalen. Om de kwaliteit te testen, sturen we de gouden set naar mensen om te beoordelen of deze in strijd is met het beleid en om er zeker van te zijn dat ze de juiste beslissing nemen. We nemen ook steekproeven van beslissingen voor experts om te beoordelen. Als ze allemaal de juiste beslissing nemen, kan ons beleid correct worden gehandhaafd. Een hoge mate van afstemming en hoge kwaliteit geven aan dat ons beleid correct en consistent kan worden gehandhaafd. Zo niet, dan gaan we terug en evalueren we zowel het beleid als de trainingsset.

Het creatieve karakter van een platform als Roblox, waar gebruikers vrij zijn om bijna alles te creëren en te communiceren, betekent dat het voortdurend in ontwikkeling is. Onze moderatiemethoden moeten net zo snel evolueren om onze community veilig en beschaafd te houden. Onze actieve leersystemen werken modellen continu bij naarmate taal evolueert, gebruikspatronen veranderen en er gebeurtenissen in de echte wereld plaatsvinden. We bouwen voortdurend aan systemen die schaalbaar, snel en nauwkeurig zijn en zich consistent aanpassen aan de dynamische wereld waarin we allemaal leven.

¹Vanaf het eerste kwartaal van 2025.

²Heeft betrekking op de rapportageperiode van 17 februari 2024 tot en met 31 december 2024.

Nieuwste

Meer resultaten

Hoe Roblox AI gebruikt om content op grote schaal te modereren

Schaal: dagelijks miljarden stukken content modereren

Snelheid: gebruikersgedrag veranderen met realtime feedback

Datakwaliteit: Trainingsmodellen voor continue verbetering

Hoe Roblox AI gebruikt om content op grote schaal te modereren

Schaal: dagelijks miljarden stukken content modereren

Snelheid: gebruikersgedrag veranderen met realtime feedback

Datakwaliteit: Trainingsmodellen voor continue verbetering

Techniek

Hoe verslaggeving in de game werkt op Roblox

Techniek

Uitbreiding van onze Voice Safety Classifier met 22 nieuwe talen en verbeterde detectiemogelijkheden

Nieuws

Baanbrekende AI-oprichters sluiten zich aan om de visie van Roblox Reality te versnellen