Ulepszamy nasz klasyfikator bezpieczeństwa głosowego o 22 nowe języki i bardziej precyzyjne funkcje wykrywania
Nowe języki, 2 nowe kategorie naruszeń i o 14% większy wskaźnik wykrywalności

Roblox przetwarza codziennie miliony minut danych głosowych w 30 językach, co stanowi ogromne wyzwanie w zakresie bezpieczeństwa w czasie rzeczywistym na dużą skalę. W ciągu ostatnich dwóch lat nasze wewnętrzne systemy znacznie się rozwinęły — liczba parametrów wzrosła z 94,6 mln do 320 mln, a liczba kategorii naruszeń zasad rozszerzyła się z pięciu do ośmiu — dzięki czemu obecnie są w stanie obsłużyć 10 000 żądań na sekundę w szczytowych momentach.
W 2024 roku udostępniliśmy na licencji open source nasz podstawowy model klasyfikatora bezpieczeństwa głosowego, aby przyczynić się do poprawy bezpieczeństwa głosowego w całej branży, a dziś wydajemy wersję 3 tego modelu, która zapewnia użytkownikom obsługę 22 nowych języków oraz dwóch dodatkowych kategorii naruszeń zasad, charakteryzując się o 14% wyższym współczynnikiem odzysku i o 5% wyższą precyzją w porównaniu z poprzednią wersją.
Od wersji 1 do wersji 3 i dalej
Kiedy rozpoczęliśmy prace nad systemem zapewniającym bezpieczeństwo głosowe w czasie rzeczywistym, skupiliśmy się najpierw na języku angielskim. Stworzyliśmy zautomatyzowany proces etykietowania maszynowego w celu wygenerowania dużej ilości danych szkoleniowych. W 2024 roku wersja 1 modelu open source wykorzystywała 2 400 godzin danych w języku angielskim, etykietowanych maszynowo, do szkolenia modelu. Po początkowym uruchomieniu i wdrożeniu systemu powiadomień liczba zgłoszeń nadużyć w Stanach Zjednoczonych spadła o ponad 50% na godzinę wypowiedzi.
W 2025 roku dodaliśmy kolejne języki, dopracowaliśmy model i wydaliśmy wersję v2. Do szkolenia najnowszego modelu v3 w 2026 roku wykorzystaliśmy 250 000 godzin danych wielojęzycznych oznaczonych automatycznie oraz 29 000 godzin danych wielojęzycznych oznaczonych ręcznie. Każdy model został oceniony przy użyciu zbiorów danych oznaczonych ręcznie.
Wersja v3 modelu open source osiąga współczynnik odzysku (recall) wynoszący 61%, ważony rozkładem językowym czatu głosowego Roblox, przy wskaźniku fałszywych alarmów na poziomie 1%. Porównując wyłącznie z językami obsługiwanymi przez wersję v2 modelu, wersja v3 wykazuje 14-procentową względną poprawę współczynnika odzysku, ważonego rozpowszechnieniem języków.
Bezpieczeństwo komunikacji głosowej jest zbyt ważne, by rozwiązywać je w izolacji. Udostępniliśmy nasz klasyfikator bezpieczeństwa komunikacji głosowej na licencji open source i dołączyliśmy do ROOST jako partner-założyciel, ponieważ wierzymy, że dzielenie się postępami w technologii bezpieczeństwa wzmacnia całą branżę. Od momentu pierwszej publikacji model został pobrany ponad 70 000 razy na platformie Hugging Face, a każda aktualizacja była kształtowana przez wnioski wyciągnięte z eksploatacji naszych wewnętrznych modeli na dużą skalę w całej naszej społeczności. Nieustannie udoskonalamy nasze systemy bezpieczeństwa i z niecierpliwością czekamy na możliwość podzielenia się kolejnymi aktualizacjami w przyszłości.
Podziękowania: Chcielibyśmy podziękować Thomasowi Bui, Meghatrisie Chatterjee, Bridget Daly, Jasonowi Golubockowi, Hannesowi Heikinheimo, Marekowi Kapolce, Cheryl Kwan, Markusowi Langowi, Aashnie Sharmie, Hao-En Sungowi, Tingting Tang oraz Alexowi Trimmowi za ich pracę nad tym projektem.


