Wprowadzamy więcej języków do naszego otwartego modelu bezpieczeństwa głosowego

- Aktualizujemy nasz klasyfikator bezpieczeństwa głosowego typu open source, zwiększając liczbę parametrów z 94,6 mln do 120,2 mln oraz rozszerzając go o siedem dodatkowych języków.
- Od czasu pierwszej wersji klasyfikatora zwiększyliśmy dokładność do 59,1% przy 1% wskaźniku fałszywych alarmów w przypadku danych z czatów głosowych w języku angielskim. To poprawa o 92% w porównaniu z 30,9% w poprzedniej wersji.
Promowanie bezpieczeństwa i kultury osobistej zawsze było podstawą wszystkiego, co robimy w Roblox. Spędziliśmy prawie dwie dekady na budowaniu solidnych systemów bezpieczeństwa i stale je rozwijamy oraz ulepszamy w miarę pojawiania się nowych technologii. W 2024 roku wprowadziliśmy ponad 40 ulepszeń dotyczących bezpieczeństwa, w tym przebudowę naszej funkcji kontroli rodzicielskiej, którą dzisiaj ponownie aktualizujemy. Wprowadziliśmy również jeden z pierwszych w branży klasyfikatorów bezpieczeństwa głosowego typu open source, który został pobrany ponad 23 000 razy. Dzisiaj udostępniamy zaktualizowaną wersję, która jest jeszcze dokładniejsza i działa w większej liczbie języków.
Wiele systemów bezpieczeństwa, które pomagają chronić naszych użytkowników, w tym ten klasyfikator, opiera się na modelach AI. Niektóre z nich udostępniamy na licencji open source, ponieważ wiemy, że dzielenie się postępami w zakresie bezpieczeństwa AI przynosi korzyści całej naszej branży. Dlatego też niedawno dołączyliśmy jako partner-założyciel do ROOST — nowej organizacji non-profit zajmującej się ważnymi obszarami bezpieczeństwa cyfrowego poprzez promowanie narzędzi bezpieczeństwa typu open source.
Sztuczna inteligencja jest niezbędnym elementem zapewnienia bezpieczeństwa użytkowników przy zarządzaniu ogromną ilością treści i interakcji, które codziennie mają miejsce na naszej platformie na całym świecie. Jesteśmy przekonani, że stworzone przez nas modele pomagają nam sprostać naszym potrzebom. Na przykład w czwartym kwartale 2024 roku użytkownicy Roblox przesłali 300 miliardów elementów treści. Zaledwie 0,01% z tych miliardów filmów, plików audio, tekstów, czatów głosowych, awatarów i doświadczeń 3D zostało wykrytych jako naruszające nasze zasady. Prawie wszystkie treści naruszające zasady zostały automatycznie wstępnie sprawdzone i usunięte, zanim użytkownicy je zobaczyli.
Zaktualizowaliśmy wersję open source naszego klasyfikatora bezpieczeństwa głosowego, aby zwiększyć jego dokładność i ułatwić nam moderowanie treści w większej liczbie języków. Nowy model:
- Wykrywa naruszenia w siedmiu dodatkowych językach — hiszpańskim, niemieckim, francuskim, portugalskim, włoskim, koreańskim i japońskim — dzięki szkoleniu na danych wielojęzycznych.
- Charakteryzuje się zwiększonym ogólnym wskaźnikiem wykrywalności wynoszącym 59,1%, co stanowi poprawę o 92% w stosunku do 30,9% w poprzedniej wersji, przy niskim wskaźniku wyników fałszywie pozytywnych.
- Jest zoptymalizowany do pracy na dużą skalę, obsługując do 8300 żądań (z których większość nie zawiera naruszeń) na sekundę w szczytowym momencie.
Od czasu wydania pierwszego modelu odnotowaliśmy spadek liczby zgłoszeń nadużyć wśród użytkowników w Stanach Zjednoczonych o ponad 50% na godzinę rozmowy. Pomogło nam to również moderować miliony minut rozmów głosowych dziennie z większą dokładnością niż moderatorzy ludzcy. Nieustannie ulepszamy nasze systemy bezpieczeństwa i będziemy nadal aktualizować wersję open source.
Wydajny wielojęzyczny klasyfikator bezpieczeństwa głosowego
Nasz początkowy klasyfikator bezpieczeństwa głosowego typu open source opierał się na modelu WavLM base+, dostrojonym przy użyciu oznaczonych maszynowo próbek audio czatów głosowych w języku angielskim. Zachęcające wyniki tej architektury typu end-to-end doprowadziły do dalszych eksperymentów z architekturą dostosowaną do naszych potrzeb. Wykorzystaliśmy destylację wiedzy, aby zoptymalizować złożoność i dokładność modelu, co jest atrakcyjne w przypadku obsługi wnioskowania na dużą skalę. Nasz nowy klasyfikator wykorzystuje te podstawowe elementy, a także rozszerza i pogłębia prace w zakresie wykorzystania danych i udoskonaleń architektury.
Dzięki szkoleniu na danych wielojęzycznych nasz model z jednym klasyfikatorem może płynnie działać w każdym z ośmiu najpopularniejszych obsługiwanych przez nas języków. A nasze ulepszenia w zakresie szkolenia oznaczają, że model jest zarówno dokładniejszy, jak i o 20% do 30% szybszy w typowym scenariuszu wnioskowania niż pierwsza wersja.
Nowy klasyfikator bezpieczeństwa głosu nadal opiera się na architekturze WavLM, ale konfiguracja warstw odbiega od poprzedniej wersji i od wstępnie wytrenowanych modeli WavLM. W szczególności dodaliśmy dodatkową warstwę konwolucyjną, aby zmniejszyć wewnętrzną rozdzielczość czasową warstw transformatora. W sumie nasza nowa architektura modelu ma 120,2 mln parametrów, co stanowi wzrost o 27% w porównaniu z 94,6 mln w poprzedniej wersji. Pomimo tego wzrostu nowy model zużywa o 20–30% mniej czasu obliczeniowego przy użyciu segmentów wejściowych trwających od 4 do 15 sekund. Jest to możliwe, ponieważ model kompresuje sygnał wejściowy do krótszej reprezentacji niż wcześniej.
Wykorzystanie różnych strategii etykietowania
Nadzorowane szkolenie modelu typu end-to-end wymaga wyselekcjonowanych par plików audio i etykiet klas. Wprowadziliśmy znaczące ulepszenia do naszego potoku danych, które zapewniły stały strumień danych z etykietami. Podstawą materiałów szkoleniowych jest duży, oznaczony maszynowo zbiór danych zawierający ponad 100 000 godzin mowy w obsługiwanych językach. Automatycznie transkrybowaliśmy mowę i przetwarzaliśmy ją za pomocą naszego wewnętrznego klasyfikatora toksyczności opartego na tekście, który wykorzystuje pożądane zasady i kategorie toksyczności. Zbiór danych zawiera próbki treści obraźliwych z większym prawdopodobieństwem niż mowa o charakterze neutralnym, aby lepiej uchwycić skrajne przypadki i rzadziej występujące naruszenia zasad.

Etykiety oparte na transkrypcjach rozmów i klasyfikacji tekstowej nie są w stanie w pełni oddać niuansów występujących w treściach czatów głosowych. Wykorzystaliśmy więc dane oznaczone przez ludzi, aby dopracować model z poprzedniego etapu szkolenia. Chociaż zadanie klasyfikacji pozostaje takie samo, ten ostatni etap szkolenia pomaga udoskonalić granice decyzyjne i podkreślić wrażliwość na wyrażenia charakterystyczne dla czatów głosowych. Jest to forma uczenia się opartego na programie nauczania, która pomaga nam maksymalnie wykorzystać cenne przykłady oznaczone przez ludzi.
Jednym z wyzwań związanych z uczeniem modeli typu end-to-end jest to, że etykiety docelowe mogą stać się nieaktualne, jeśli zasady etykietowania ulegną zmianie w miarę upływu czasu. Dlatego w miarę udoskonalania naszej polityki dotyczącej dopuszczalnych treści głosowych potrzebujemy specjalnego podejścia do danych, które wykorzystują starsze standardy etykietowania. W tym celu wykorzystaliśmy podejście wielozadaniowe, które pozwala modelowi uczyć się na zestawach danych, które nie są zgodne z aktualną polityką dotyczącą czatu głosowego. Wymaga to przeznaczenia oddzielnej głowicy klasyfikacyjnej dla starej polityki, co pozwala trzonowi modelu uczyć się na starym zestawie danych bez wpływu na etykiety docelowe lub główną głowicę.
Skalibrowany model ułatwiający wdrożenie
Korzystanie z modelu klasyfikacyjnego wymaga określenia punktu pracy i dopasowania czułości klasyfikatora zgodnie z wymaganiami zadania. Aby ułatwić wdrażanie modelu, skalibrowaliśmy jego wyniki, dostosowując je do moderacji czatu głosowego. Oszacowaliśmy transformacje liniowe odcinkowe na podstawie oddzielonego zbioru danych, robiąc to osobno dla każdego modułu wyjściowego i obsługiwanego języka. Transformacje te zostały zastosowane podczas destylacji modelu, co zapewniło, że ostateczny model został kalibrowany natywnie. Wyeliminowało to potrzebę przetwarzania końcowego podczas wnioskowania.
Cieszymy się, że możemy podzielić się tym nowym modelem open source ze społecznością i nie możemy się doczekać, aby udostępniać przyszłe aktualizacje, gdy tylko będą dostępne.


