Technik Sicherheit + Höflichkeit Nachrichten

Erweiterung unseres Open-Source-Modells für Sprachsicherheit um weitere Sprachen

Von Naren Koneru, Vizepräsident für Technik, und Janne Pylkkonen

Veröffentlicht 02.04.2025

Wir aktualisieren unseren Open-Source-Klassifikator für Sprachsicherheit, indem wir die Anzahl der Parameter von 94,6 Millionen auf 120,2 Millionen erhöhen und ihn um sieben weitere Sprachen erweitern.
Seit der ersten Version des Klassifikators haben wir die Genauigkeit bei englischsprachigen Voice-Chat-Daten auf einen Recall von 59,1 % bei einer Falsch-Positiv-Rate von 1 % gesteigert. Dies ist eine Verbesserung um 92 % gegenüber dem Recall von 30,9 % der vorherigen Version.

Die Förderung von Sicherheit und Höflichkeit war schon immer ein Grundpfeiler unserer Arbeit bei Roblox. Wir haben fast zwei Jahrzehnte damit verbracht, starke Sicherheitssysteme aufzubauen, und wir erweitern und verbessern diese kontinuierlich, sobald neue Technologien verfügbar werden. Im Jahr 2024 haben wir mehr als 40 Sicherheitsverbesserungen eingeführt, darunter eine Überarbeitung unserer Kindersicherung, die wir heute erneut aktualisieren. Außerdem haben wir einen der branchenweit ersten Open-Source-Klassifikatoren für Sprachsicherheit eingeführt, der bereits mehr als 23.000 Mal heruntergeladen wurde. Heute veröffentlichen wir eine aktualisierte Version, die noch genauer ist und in mehr Sprachen funktioniert.

Viele der Sicherheitssysteme, die zum Schutz unserer Nutzer beitragen, darunter auch dieser Klassifikator, basieren auf KI-Modellen. Wir stellen einige davon als Open Source zur Verfügung, da wir wissen, dass der Austausch von Fortschritten im Bereich der KI-Sicherheit unserer gesamten Branche zugutekommt. Aus diesem Grund sind wir kürzlich als Gründungspartner ROOST beigetreten – einer neuen gemeinnützigen Organisation, die sich der Bewältigung wichtiger Herausforderungen im Bereich der digitalen Sicherheit durch die Förderung von Open-Source-Sicherheitstools widmet.

Bei der Verwaltung der Menge an Inhalten und Interaktionen, die täglich weltweit auf unserer Plattform stattfinden, ist KI ein wesentliches Element, um die Sicherheit der Nutzer zu gewährleisten. Wir sind zuversichtlich, dass die von uns entwickelten Modelle dazu beitragen, unsere Anforderungen zu erfüllen. Im vierten Quartal 2024 haben Roblox-Nutzer beispielsweise 300 Milliarden Inhalte hochgeladen. Nur 0,01 % dieser Milliarden von Videos, Audiodateien, Texten, Voice-Chats, Avataren und 3D-Erlebnissen wurden als Verstoß gegen unsere Richtlinien erkannt. Und fast alle diese richtlinienwidrigen Inhalte wurden automatisch vorab geprüft und entfernt, bevor Nutzer sie überhaupt zu Gesicht bekamen.

Wir haben die Open-Source-Version unseres Klassifikators für Sprachsicherheit aktualisiert, um ihn genauer zu machen und uns dabei zu helfen, Inhalte in mehr Sprachen zu moderieren. Das neue Modell:

Erkennt Verstöße in sieben weiteren Sprachen – Spanisch, Deutsch, Französisch, Portugiesisch, Italienisch, Koreanisch und Japanisch – dank des Trainings mit mehrsprachigen Daten.
Weist eine um 59,1 % gesteigerte Gesamt-Recall-Rate auf, was einer Verbesserung von 92 % gegenüber den 30,9 % der vorherigen Version entspricht, bei gleichzeitig niedrigen Falsch-Positiv-Raten.
Ist für den Einsatz in großem Maßstab optimiert und kann in Spitzenzeiten bis zu 8.300 Anfragen (von denen die meisten keine Verstöße enthalten) pro Sekunde bearbeiten.

Seit der Veröffentlichung des ersten Modells konnten wir bei US-Nutzern einen Rückgang der Missbrauchsmeldungen um mehr als 50 % pro Stunde Sprachdaten verzeichnen. Es hat uns außerdem dabei geholfen, täglich Millionen von Minuten Sprachchat genauer zu moderieren als menschliche Moderatoren. Wir arbeiten kontinuierlich an der Weiterentwicklung unserer Sicherheitssysteme und werden auch die Open-Source-Version weiterhin aktualisieren.

Effizienter mehrsprachiger Klassifikator für Sprachsicherheit

Unser ursprünglicher Open-Source-Klassifikator für Sprachsicherheit basierte auf einem WavLM-Base+-Modell, das mit maschinell gekennzeichneten englischsprachigen Sprachchat-Audiobeispielen feinabgestimmt wurde. Die vielversprechenden Ergebnisse dieser End-to-End-Architektur führten zu weiteren Experimenten mit einer maßgeschneiderten Architektur. Wir nutzten Knowledge Distillation, um die Komplexität und Genauigkeit des Modells zu optimieren, was für den groß angelegten Inferenzbetrieb attraktiv ist. Unser neuer Klassifikator nutzt diese grundlegenden Bausteine und erweitert die Arbeit in Bezug auf Datennutzung und Architekturverfeinerungen.

Durch das Training mit mehrsprachigen Daten kann unser Einzelklassifikator-Modell nahtlos in jeder unserer acht wichtigsten unterstützten Sprachen eingesetzt werden. Und dank unserer Verbesserungen beim Training ist das Modell in einem typischen Inferenzszenario sowohl genauer als auch 20 % bis 30 % schneller als die erste Version.

Der neue Klassifikator für Sprachsicherheit basiert weiterhin auf der WavLM-Architektur, doch die Schichtenkonfiguration weicht von der vorherigen Version und den vortrainierten WavLM-Modellen ab. Insbesondere haben wir eine zusätzliche Faltungsschicht hinzugefügt, um die interne Zeitauflösung der Transformer-Schichten zu reduzieren. Insgesamt verfügt unsere neue Modellarchitektur über 120,2 Millionen Parameter, was einer Steigerung von 27 % gegenüber den 94,6 Millionen in der vorherigen Version entspricht. Trotz dieser Zunahme benötigt das neue Modell bei der Verwendung mit 4- bis 15-sekündigen Eingabesegmenten 20 % bis 30 % weniger Rechenzeit. Dies ist möglich, weil das Modell das Eingangssignal in eine kürzere Darstellung als zuvor komprimiert.

Einsatz verschiedener Labeling-Strategien

Das überwachte Training eines End-to-End-Modells erfordert kuratierte Paare aus Audio- und Klassenlabels. Wir haben unsere Datenpipeline erheblich verbessert, um einen stetigen Strom an gelabelten Daten sicherzustellen. Die Grundlage des Trainingsmaterials bildet ein großer, maschinell gelabelter Datensatz mit mehr als 100.000 Stunden Sprachmaterial, der die unterstützten Sprachen umfasst. Wir haben die Sprache automatisch transkribiert und durch unseren hauseigenen textbasierten Toxizitätsklassifikator geleitet, der die gewünschten Richtlinien- und Toxizitätskategorien berücksichtigt. Die Datenerhebung erfasst beleidigende Inhalte mit einer höheren Wahrscheinlichkeit als harmlose Sprache, um Randfälle und weniger häufige Richtlinienverstöße besser zu erfassen.

Labels, die auf Sprachtranskripten und textbasierter Klassifizierung basieren, können die in Voice-Chat-Inhalten beobachteten Nuancen nicht vollständig erfassen. Daher haben wir von Menschen beschriftete Daten verwendet, um das Modell aus der vorherigen Trainingsphase zu verfeinern. Während die Klassifizierungsaufgabe dieselbe bleibt, hilft die spätere Trainingsphase dabei, die Entscheidungsgrenzen zu verfeinern und die Reaktionsfähigkeit auf für Voice-Chats spezifische Ausdrücke zu betonen. Dies ist eine Form des Curriculum-Lernens, die uns hilft, den maximalen Nutzen aus den wertvollen, von Menschen beschrifteten Beispielen zu ziehen.

Eine Herausforderung beim End-to-End-Modelltraining besteht darin, dass die Ziel-Labels veralten können, wenn sich die Beschriftungsrichtlinien im Laufe der Zeit ändern. Während wir also unsere Richtlinien für zulässige Sprachinhalte verfeinern, benötigen wir eine spezielle Behandlung für Daten, die ältere Beschriftungsstandards verwenden. Hierfür haben wir einen Multitask-Ansatz verwendet, der es dem Modell ermöglicht, aus Datensätzen zu lernen, die nicht der aktuellen Sprachchat-Richtlinie entsprechen. Dabei wird ein separater Klassifizierungs-Head für die alte Richtlinie vorgesehen, sodass der Modell-Trunk aus dem alten Datensatz lernen kann, ohne die Ziel-Labels oder den primären Head zu beeinträchtigen.

Ein kalibriertes Modell für eine einfachere Bereitstellung

Die Verwendung des Klassifikationsmodells erfordert die Festlegung des Arbeitspunkts und die Anpassung der Klassifikatorempfindlichkeit an die Aufgabenanforderungen. Um die Modellbereitstellung zu vereinfachen, haben wir die Modellausgaben kalibriert und für die Sprachchat-Moderation optimiert. Wir haben stückweise lineare Transformationen anhand eines zurückbehaltenen Datensatzes geschätzt und dies für jeden Output-Kopf und jede unterstützte Sprache separat durchgeführt. Diese Transformationen wurden während der Modelldestillation angewendet, wodurch sichergestellt wurde, dass das endgültige Modell nativ kalibriert war. Dadurch entfiel die Notwendigkeit einer Nachbearbeitung während der Inferenz.

Wir freuen uns, dieses neue Open-Source-Modell mit der Community zu teilen, und werden zukünftige Updates gerne bekannt geben, sobald sie verfügbar sind.

Aktuell

Weitere Ergebnisse

Erweiterung unseres Open-Source-Modells für Sprachsicherheit um weitere Sprachen

Effizienter mehrsprachiger Klassifikator für Sprachsicherheit

Einsatz verschiedener Labeling-Strategien

Ein kalibriertes Modell für eine einfachere Bereitstellung

Erweiterung unseres Open-Source-Modells für Sprachsicherheit um weitere Sprachen

Effizienter mehrsprachiger Klassifikator für Sprachsicherheit

Einsatz verschiedener Labeling-Strategien

Ein kalibriertes Modell für eine einfachere Bereitstellung

Technik

Erweiterung unseres Klassifikators für Sprachsicherheit um 22 neue Sprachen und präzisere Erkennungsfunktionen

Nachrichten

Pionierhafte KI-Gründer schließen sich zusammen, um die „Roblox Reality“-Vision voranzutreiben

Technik

CubePart: Ein 3D-Generator mit offenem Vokabular und Teilsteuerung