Techniek Veiligheid + Beschaafdheid Nieuws

Uitbreiding met meer talen voor ons open-source model voor spraakveiligheid

Door Naren Koneru, vicepresident Engineering, en Janne Pylkkonen

Gepubliceerd 2 apr 2025

We werken onze open-source classificator voor spraakveiligheid bij door het aantal parameters te verhogen van 94,6 miljoen naar 120,2 miljoen en deze uit te breiden naar zeven extra talen.
Sinds de eerste versie van de classificator hebben we de nauwkeurigheid verhoogd tot een recall van 59,1% op Engelstalige voicechatgegevens bij een percentage van 1% valse positieven. Dit is een verbetering van 92% ten opzichte van de recall van 30,9% in de vorige release.

Het bevorderen van veiligheid en beleefdheid is altijd de basis geweest van alles wat we bij Roblox doen. We hebben bijna twee decennia besteed aan het bouwen van sterke veiligheidssystemen, en we blijven deze voortdurend uitbreiden en ontwikkelen naarmate er nieuwe technologie beschikbaar komt. In 2024 hebben we meer dan 40 veiligheidsverbeteringen doorgevoerd, waaronder een vernieuwing van ons ouderlijk toezicht, dat we vandaag opnieuw bijwerken. We hebben ook een van de allereerste open-source classificatiesystemen voor spraakveiligheid in de branche gelanceerd, dat meer dan 23.000 keer is gedownload. Vandaag brengen we een bijgewerkte versie uit, die nog nauwkeuriger is en in meer talen werkt.

Veel van de veiligheidssystemen die onze gebruikers helpen beschermen, waaronder deze classificator, worden aangedreven door AI-modellen. We maken sommige hiervan open source omdat we weten dat het delen van AI-veiligheidsvooruitgang onze hele sector ten goede komt. Dat is ook de reden waarom we onlangs als oprichtingspartner zijn toegetreden tot ROOST – een nieuwe non-profitorganisatie die zich toelegt op het aanpakken van belangrijke gebieden op het gebied van digitale veiligheid door het promoten van open-source veiligheidstools.

Bij het beheren van de enorme hoeveelheid content en interacties die dagelijks wereldwijd op ons platform plaatsvinden, is AI een essentieel element om gebruikers te beschermen. We zijn ervan overtuigd dat de modellen die we hebben gebouwd, helpen om aan onze behoeften te voldoen. In het vierde kwartaal van 2024 hebben Roblox-gebruikers bijvoorbeeld 300 miljard stukjes content geüpload. Slechts 0,01% van die miljarden video's, audiobestanden, teksten, voicechats, avatars en 3D-ervaringen werd gedetecteerd als een schending van ons beleid. En bijna al die inhoud die in strijd was met ons beleid, werd automatisch vooraf gescreend en verwijderd voordat gebruikers deze te zien kregen.

We hebben de open-sourceversie van onze classificator voor spraakveiligheid bijgewerkt om deze nauwkeuriger te maken en ons te helpen content in meer talen te modereren. Het nieuwe model:

Detecteert overtredingen in zeven extra talen – Spaans, Duits, Frans, Portugees, Italiaans, Koreaans en Japans – dankzij training op meertalige gegevens.
Heeft een verhoogd totaal recall-percentage van 59,1%, een verbetering van 92% ten opzichte van de 30,9% recall in de vorige release, met lage percentages valse positieven.
Is geoptimaliseerd voor gebruik op grote schaal en verwerkt tijdens piekuren tot 8.300 verzoeken per seconde (waarvan het merendeel geen overtredingen bevat).

Sinds de release van het eerste model hebben we een daling gezien in het aantal meldingen van misbruik onder Amerikaanse gebruikers van meer dan 50% per uur spraak. Het heeft ons ook geholpen om miljoenen minuten aan voicechats per dag nauwkeuriger te modereren dan menselijke moderators. We blijven onze veiligheidssystemen voortdurend verbeteren en zullen ook de open-sourceversie blijven updaten.

Efficiënte meertalige classificator voor spraakveiligheid

Onze eerste open-source classificator voor spraakveiligheid was gebaseerd op een WavLM base+-model, dat was gefinetuned met door machines gelabelde Engelstalige spraakchat-audiofragmenten. De bemoedigende resultaten van deze end-to-end-architectuur leidden tot verdere experimenten met een aangepaste architectuur. We gebruikten kennisdistillatie om de complexiteit en nauwkeurigheid van het model te optimaliseren, wat aantrekkelijk is voor grootschalige inferentie. Onze nieuwe classificator maakt gebruik van deze fundamentele bouwstenen en breidt het werk op het gebied van datagebruik en architectuurverbeteringen uit.

Door te trainen op meertalige data kan ons model met één classificator naadloos werken in elk van de acht belangrijkste talen die we ondersteunen. En dankzij onze verbeteringen in de training is het model zowel nauwkeuriger als 20% tot 30% sneller in een typisch inferentiescenario dan de eerste versie.

De nieuwe classificator voor spraakveiligheid is nog steeds gebaseerd op de WavLM-architectuur, maar de laagconfiguratie wijkt af van de vorige release en die van de vooraf getrainde WavLM-modellen. We hebben met name een extra convolutionele laag toegevoegd om de interne tijdresolutie van de transformatorlagen te verlagen. In totaal heeft onze nieuwe modelarchitectuur 120,2 miljoen parameters, een toename van 27% ten opzichte van 94,6 miljoen in de vorige versie. Ondanks deze toename verbruikt het nieuwe model 20% tot 30% minder rekentijd bij gebruik met invoersegmenten van 4 tot 15 seconden. Dit is mogelijk omdat het model het invoersignaal comprimeert tot een kortere weergave dan voorheen.

Gebruik van verschillende labelingstrategieën

Voor het begeleid trainen van een end-to-end-model zijn samengestelde paren van audio- en klasselabels nodig. We hebben onze datapijplijn aanzienlijk verbeterd, waardoor een gestage stroom van gelabelde data werd gegarandeerd. De basis van het trainingsmateriaal is een grote, machinaal gelabelde dataset van meer dan 100.000 uur aan spraak in de ondersteunde talen. We hebben de spraak automatisch getranscribeerd en door onze interne, op tekst gebaseerde toxiciteitsclassificator gehaald, die de gewenste beleids- en toxiciteitscategorieën hanteert. De gegevensverzameling bevat meer voorbeelden van beledigende inhoud dan van onschuldige spraak, om randgevallen en minder vaak voorkomende beleidsschendingen beter te kunnen vastleggen.

Labels op basis van spraaktranscripties en tekstgebaseerde classificatie kunnen de nuances in voicechat-inhoud niet volledig weergeven. Daarom hebben we door mensen gelabelde gegevens gebruikt om het model uit de vorige trainingsfase te verfijnen. Hoewel de classificatietaak hetzelfde is, helpt de laatste trainingsfase om de beslissingsgrenzen te verfijnen en de responsiviteit op uitdrukkingen die specifiek zijn voor voicechat te benadrukken. Dit is een vorm van curriculumleren die ons helpt om maximaal te profiteren van de waardevolle, door mensen gelabelde voorbeelden.

Een uitdaging bij end-to-end-modeltraining is dat de doellabels verouderd kunnen raken als het labelbeleid in de loop van de tijd verandert. Dus terwijl we ons beleid voor aanvaardbare spraak verfijnen, hebben we speciale behandeling nodig voor gegevens die oudere labelstandaarden gebruiken. Hiervoor hebben we een multitask-aanpak gebruikt waarmee het model kan leren van datasets die niet overeenkomen met het huidige beleid voor voicechat. Dit houdt in dat er een aparte classificatiekop wordt toegewezen aan het oude beleid, waardoor de hoofdtak van het model kan leren van de oude dataset zonder dat dit invloed heeft op de beoogde labels of de primaire kop.

Een gekalibreerd model voor eenvoudigere implementatie

Voor het gebruik van het classificatiemodel moet het werkpunt worden bepaald en moet de gevoeligheid van de classificator worden afgestemd op de taakvereisten. Om de implementatie van het model te vergemakkelijken, hebben we de modeloutputs gekalibreerd en afgestemd op de moderatie van spraakchats. We hebben stuksgewijze lineaire transformaties geschat op basis van een apart gehouden dataset, waarbij we dit apart hebben gedaan voor elke output-head en ondersteunde taal. Deze transformaties werden toegepast tijdens de model-distillatie, wat ervoor zorgde dat het uiteindelijke model native gekalibreerd was. Hierdoor was nabewerking tijdens de inferentie niet meer nodig.

We zijn verheugd om dit nieuwe open-source model met de gemeenschap te delen en kijken ernaar uit om toekomstige updates te delen zodra deze beschikbaar zijn.

Nieuwste

Meer resultaten

Uitbreiding met meer talen voor ons open-source model voor spraakveiligheid

Efficiënte meertalige classificator voor spraakveiligheid

Gebruik van verschillende labelingstrategieën

Een gekalibreerd model voor eenvoudigere implementatie

Uitbreiding met meer talen voor ons open-source model voor spraakveiligheid

Efficiënte meertalige classificator voor spraakveiligheid

Gebruik van verschillende labelingstrategieën

Een gekalibreerd model voor eenvoudigere implementatie

Techniek

Uitbreiding van onze Voice Safety Classifier met 22 nieuwe talen en verbeterde detectiemogelijkheden

Nieuws

Baanbrekende AI-oprichters sluiten zich aan om de visie van Roblox Reality te versnellen

Techniek

CubePart: een 3D-generator met open vocabulaire en regelbare onderdelen