Jak Roblox wykorzystuje sztuczną inteligencję do moderowania treści na ogromną skalę
Moderowanie miliardów treści dziennie w 25 językach — w czasie rzeczywistym

- Aby aktywnie moderować treści publikowane w serwisie Roblox, od około pięciu lat tworzymy skalowalne systemy wykorzystujące sztuczną inteligencję.
- Obecnie nasza infrastruktura, modele uczenia maszynowego oraz tysiące ekspertów współpracują, aby uczynić Roblox bezpieczniejszym i bardziej cywilizowanym miejscem dla naszych użytkowników.
- Wszystkie te systemy tworzymy z myślą o skalowalności, szybkości i ciągłym doskonaleniu przy użyciu danych wysokiej jakości.
Bezpieczeństwo jest podstawą wszystkiego, co robimy w Roblox. Od samego początku aktywnie moderowaliśmy treści, ponieważ wiedzieliśmy, że moderacja ma kluczowe znaczenie dla platformy opartej na treściach tworzonych przez użytkowników. Kiedy Roblox był znacznie mniejszy, zajmowali się tym recenzenci – w tym nasz założyciel i dyrektor generalny, który na początku poświęcał czas na moderowanie treści. Z biegiem czasu platforma rozrosła się (zarówno pod względem skali, jak i szybkości działania) ponad możliwości ludzkich moderatorów. Przy wprowadzaniu każdego nowego produktu bezpieczeństwo jest zawsze pierwszym elementem, który bierzemy pod uwagę.
Średnio 97,8 miliona aktywnych użytkowników dziennie1 odwiedza Roblox, aby grać, komunikować się i tworzyć. Każdego dnia użytkownicy wysyłają średnio 6,1 miliarda wiadomości na czacie i spędzają 1,1 miliona godzin na rozmowach głosowych w 28 różnych językach. Twórcy przesyłają miliony zasobów dziennie — a do naszego sklepu z awatarami dodawane są kolejne tysiące przedmiotów. Zdecydowana większość z tych miliardów dzieł i wiadomości jest przyzwoita. Podobnie jak w prawdziwym świecie — tak właśnie większość ludzi komunikuje się ze sobą. Jednak gdy tak nie jest, nasz system filtrowania tekstu pomaga blokować problematyczne treści, zanim dotrą one do użytkowników, a naruszenia w komunikacji głosowej są oceniane w czasie rzeczywistym. W przypadku otrzymania zgłoszenia o nielegalnych treściach średni czas reakcji wynosi dziesięć minut.
Konsekwentne moderowanie takiej ilości treści w ciągu milisekund to zadanie, z którym ludzie nie poradzą sobie sami — niezależnie od tego, ilu ich mamy. Praca na taką skalę i z taką prędkością wymagałaby setek tysięcy moderatorów pracujących 24 godziny na dobę, 7 dni w tygodniu, bez weekendów i urlopów — a to tylko po to, by moderować wiadomości na czacie. Potrzebowalibyśmy jeszcze tysięcy osób do moderowania wszystkich innych rodzajów treści w serwisie Roblox. Ilość treści tworzonych codziennie w serwisie Roblox wymaga skalowalnej infrastruktury, modeli uczenia maszynowego (ML) oraz specjalnie zaprojektowanych narzędzi.
ML może podejmować te decyzje w milisekundach, wielokrotnie, konsekwentnie i 24 godziny na dobę. Nadal potrzebujemy i zatrudniamy ludzi do zajmowania się mniej typowymi przypadkami, w których wymagana jest głębsza, zniuansowana ocena ludzka w zależności od kontekstu. Łączymy solidne, innowacyjne narzędzia bezpieczeństwa i moderacji z tysiącami ekspertów na całym świecie, którzy zapewniają nadzór i ciągłe szkolenie naszych systemów, aby sprostać nowym i zmieniającym się wyzwaniom. Wszystkie systemy moderacji Roblox opierają się na następujących zasadach:
- Proaktywnie moderujemy treści w serwisie Roblox.
- W miarę możliwości zapewniamy użytkownikom informacje zwrotne w czasie rzeczywistym, ponieważ często ludzie nie znają zasad.
- Wdrażamy sztuczną inteligencję tylko wtedy, gdy osiąga ona znacznie wyższą precyzję i skuteczność niż ludzie na dużą skalę.
- Wykorzystujemy ludzi do ciągłego ulepszania sztucznej inteligencji, ewolucji i rzadkich przypadków, złożonych dochodzeń oraz odwołań.
Aby skutecznie moderować rosnącą ilość treści tworzonych na Roblox, nieustannie wprowadzamy innowacje w trzech wymiarach: skali, szybkości i jakości, co wymaga ciągłego doskonalenia.
Skala: moderowanie miliardów treści dziennie
Od lutego do grudnia 20241 roku użytkownicy przesłali około 1 biliona treści. Zaledwie 0,01% z tych miliardów czatów tekstowych, plików audio, nagrań głosowych i obrazów zostało wykrytych jako naruszające którekolwiek z naszych zasad. Prawie wszystkie treści, które naruszały nasze zasady, zostały automatycznie wstępnie sprawdzone i usunięte, zanim użytkownicy je zobaczyli. Chociaż skala tego zjawiska jest stosunkowo nowa, nasze zaangażowanie w moderację nie jest. Ponad dziesięć lat temu stworzyliśmy oparty na regułach filtr tekstowy. Około pięć lat temu wdrożyliśmy najnowocześniejszy wówczas filtr tekstowy oparty na transformatorach. Obecnie nasze filtry tekstowe przetwarzają średnio 6,1 miliarda wiadomości czatu dziennie, wykorzystując wiele modeli stworzonych specjalnie do wykrywania różnych rodzajów naruszeń zasad.
Jednym z tych modeli jest nasz filtr danych osobowych (PII) dla czatu w grze i na platformie. Użytkownicy proszący innych o dane osobowe mogą być pierwszym krokiem w kierunku poważniejszych problemów, dlatego zawsze zajmowaliśmy zdecydowane stanowisko w kwestii zapobiegania udostępnianiu danych osobowych. Każda wysłana wiadomość na czacie jest „żądaniem”, proszącym system o sprawdzenie i ustalenie, czy wspomniano o jakichkolwiek danych osobowych. Ten model filtrowania tekstu obsługiwał tak wiele żądań na sekundę (RPS), że trudno było go obsłużyć na naszej istniejącej platformie opartej na procesorach CPU. Dlatego zbudowaliśmy całkowicie nową platformę opartą na procesorach graficznych (GPU), wykorzystując naszą infrastrukturę komórkową. Aby sprostać tym wysokim wymaganiom w zakresie RPS, najpierw oddzieliliśmy tokenizację od wnioskowania, a następnie przyspieszyliśmy wnioskowanie poprzez kwantyzację i destylację większych modeli. Łącznie te ulepszenia czterokrotnie zwiększyły naszą wydajność RPS.
W nowym stosie filtr PII obsługuje obecnie 370 000 RPS w szczytowym momencie. Nasz ulepszony filtr PII zmniejszył liczbę fałszywych alarmów o 30%, co doprowadziło do 25-procentowego wzrostu liczby wzmianek o PII automatycznie wykrytych przez system we wszystkich obsługiwanych językach. Już pracujemy nad wdrożeniem tego ulepszenia w kilku innych językach oraz wprowadzeniem podobnych ulepszeń do innych filtrów tekstowych i powierzchni. Chociaż jesteśmy dumni z tych ulepszeń, wiemy, że metody wykorzystywane do udostępniania danych PII nieustannie ewoluują, dlatego dostosowujemy nasze systemy do tych zmian.
Podstawą całego naszego systemu moderacji są duże modele oparte na transformatorach, posiadające wiedzę z różnych dziedzin. W zależności od wymagań operacyjnych i produkcyjnych, destylujemy i kwantyzujemy te modele, aby system działał szybko i wydajnie. Techniki te są niezbędne do uruchamiania różnorodnych modeli multimodalnych, a te zarządzające naszymi filtrami tekstowymi obsługują obecnie ponad 750 000 RPS.

Szybkość: zmiana zachowań użytkowników dzięki informacjom zwrotnym w czasie rzeczywistym
Naturalna komunikacja w czasie rzeczywistym wymaga niemal natychmiastowego filtrowania, aby rozmowa przebiegała płynnie. Iteracja i współpraca nad pomysłami wymagają szybkiej informacji zwrotnej, aby kreatywność mogła płynąć. Nasz wielowarstwowy system obrony obejmuje proaktywne środki, takie jak powiadomienia ostrzegawcze, przerwy i zawieszenia. Podczas filtrowania tekstu możemy reagować w czasie rzeczywistym, aby w ciągu milisekund blokować terminy naruszające zasady, takie jak dane osobowe, wulgaryzmy i mowa nienawiści, zapobiegając narażaniu użytkowników na nieodpowiednie treści.
Komunikacji głosowej nie da się zablokować w ten sam sposób, więc edukujemy użytkowników za pomocą powiadomień wyświetlanych na ekranie. Nasze powiadomienia ostrzegawcze skutecznie zmieniły zachowanie użytkowników i zwiększyły zarówno kulturę rozmowy, jak i zaangażowanie. Nasz klasyfikator bezpieczeństwa głosowego moderuje czat w ciągu 15 sekund w ośmiu językach. Udostępniliśmy ten model na licencji open source w ramach naszego szerszego zobowiązania do dzielenia się innowacjami w zakresie bezpieczeństwa z branżą.

Jeśli użytkownik nadal narusza nasze zasady, konsekwencje stają się coraz poważniejsze, od krótkiego ostrzeżenia po utratę dostępu do czatu głosowego. Wewnętrzne badania wykazały, że zawieszenia mają wpływ nawet przez trzy tygodnie po ich nałożeniu, zmniejszając wskaźnik ponownych wykroczeń i liczbę zgłoszeń od użytkowników. Wstępne eksperymenty wykazały, że tego typu natychmiastowe interwencje i konsekwencje mają pozytywny wpływ na kulturę zachowania. Najnowsza wersja naszego klasyfikatora głosowego ma współczynnik przywołania o 92% wyższy niż nasza wersja początkowa, przy współczynniku fałszywych alarmów wynoszącym 1% — i obsługuje, w szczytowych momentach, do 8300 RPS. Wciąż szukamy nowych sposobów na poprawę zarówno precyzji, jak i przywołania.
Bazując na sukcesie, jaki odnieśliśmy dzięki powiadomieniom w czacie głosowym, zaczęliśmy też wdrażać informacje zwrotne w czasie rzeczywistym dla czatu tekstowego. W ostatnich eksperymentach odkryliśmy, że wysyłanie powiadomień w czacie tekstowym i nakładanie limitów czasowych spowodowało 5% spadek liczby filtrowanych wiadomości na czacie oraz 6% spadek konsekwencji wynikających ze zgłoszeń nadużyć. Zaczynamy też eksperymentować z informacjami zwrotnymi w czasie rzeczywistym dla twórców podczas przesyłania ich dzieł.
Jakość danych: modele szkoleniowe służące ciągłemu doskonaleniu
Szkolimy te systemy tak, aby zminimalizować liczbę wyników fałszywie negatywnych — lepiej usunąć wszystko, co mogłoby stanowić naruszenie zasad. Wiemy również, że dla użytkowników frustrujące jest, gdy usuwane są treści, które ich zdaniem są zgodne z zasadami. Dlatego nieustannie ulepszamy nasze systemy, aby zminimalizować również liczbę wyników fałszywie pozytywnych. Prawidłowo oznaczone dane są niezbędne do poprawy dokładności wszystkich naszych klasyfikatorów.
Stworzenie solidnych zbiorów danych do szkolenia i oceny wymaga zarówno wystarczającej liczby przykładów wysokiej jakości, jak i ekspertów, którzy dokładnie je oznaczą. Zdarzają się sytuacje, w których nie mamy wystarczających danych, ponieważ jest to rzadki scenariusz lub przypadek skrajny. Czasami mamy zbyt dużo danych i musimy zidentyfikować te najbardziej efektywne. Potrzebujemy też danych, które odpowiadają temu, co faktycznie dzieje się na Robloxie. Obejmuje to przykłady przejściowe, takie jak slang czy memy. Nasza grupa odbiorców, składająca się z dzieci, nastolatków i graczy, nieustannie przedstawia nam nowe terminy slangowe, nowe trendy i nowe sposoby na obejście naszych narzędzi moderacyjnych. Trzymają nas w ryzach, dlatego nieustannie testujemy i oceniamy zarówno nasze narzędzia moderacyjne, jak i nasze zasady.
Wykorzystujemy różne strategie pobierania próbek do selekcjonowania tych zbiorów danych oraz korzystamy zarówno z AI, jak i ekspertów, aby generować i oznaczać te przykłady danych. Nasi eksperci ds. zasad ręcznie selekcjonują przykłady, które nazywamy złotym zestawem. Są to przykłady, które najlepiej pasują do problemów, które system ma wykrywać. Pobieramy próbki z bardzo dużych zbiorów danych przy użyciu kilku strategii, w tym próbkowania niepewności, gdzie wybieramy skrajne przypadki, w których model wcześniej miał trudności. Pobieramy próbki od ekspertów oraz zespołów red team wspomaganych przez sztuczną inteligencję (więcej o AART), którzy testują system, symulując ataki wrogie w celu wykrycia słabych punktów.
Rozszerzamy i ulepszamy również nasze zestawy szkoleniowe w miarę wykrywania nowych problemów, slangu, memów itp. Niektóre z tych przykładów otrzymujemy w ramach procesu odwoławczego, w którym użytkownicy mogą poprosić o dodatkową weryfikację. Jeśli decyzja zostanie uchylona, przykład ten staje się częścią naszego zbioru danych, aby pomóc naszemu systemowi podjąć właściwą decyzję następnym razem.
Inne przykłady pozyskujemy z naszego solidnego systemu zgłaszania nadużyć, który skutecznie rozszerza nasz zespół moderatorów o dziesiątki milionów użytkowników, którym zależy na tych doświadczeniach i społeczności. Niedawno ulepszyliśmy nasze narzędzie do zgłaszania, dzięki czemu użytkownicy mają możliwość uchwycenia całej sceny, w tym identyfikatorów awatarów i obiektów, oraz zaznaczenia części, którą chcą zgłosić. Obserwujemy duże zainteresowanie użytkowników tą funkcją – około 15% kwalifikujących się zgłoszeń zawiera adnotacje wizualne. Ten dodatkowy kontekst pomaga nam proaktywnie identyfikować problematyczne sytuacje, które użytkownicy często zgłaszają. Ponieważ szkolenie modeli nie odbywa się natychmiastowo, badamy również możliwość automatycznego tworzenia reguł opartych na sztucznej inteligencji na podstawie zgłoszeń użytkowników, aby zwiększyć naszą szybkość reakcji.

Uzupełniamy te zbiory danych danymi syntetycznymi, gdzie duże modele językowe (LLM) generują sztuczne przykłady danych i etykiety, które naśladują przykłady z prawdziwego świata. Zaletą tego rozwiązania jest możliwość wygenerowania milionów przykładów i etykiet, nawet w przypadku rzadkich lub skrajnych przypadków. Gdy mamy już wystarczającą ilość danych z etykietami, dzielimy je na dwa zbiory: jeden do szkolenia, a drugi do oceny. Posiadanie solidnego zbioru danych do oceny ma kluczowe znaczenie: jeśli zbiór ten jest zbyt łatwy, wskaźniki modelu będą sugerować, że działa on dobrze — jednak w praktyce zawiedzie. Dokładność danych jest ważniejsza niż ich ilość. Zasada „garbage in, garbage out” (co włożysz, to wyjdzie) stanowi realny problem w przypadku uczenia maszynowego, ponieważ wydajność modelu w dużym stopniu zależy od dokładności danych użytych do jego szkolenia i oceny.
Gdy już mamy solidny zbiór danych do oceny, oceniamy go na podstawie dwóch kluczowych wskaźników: zgodności i jakości. Aby sprawdzić zgodność, te same przykłady są wysyłane do wielu osób, które mają je oznaczyć, a następnie sprawdzamy, czy ich oznaczenia są zgodne (lub spójne). Jeśli zgodność między ich oznaczeniami wynosi 80% lub więcej, oznacza to, że nasi moderatorzy mogą podejmować spójne decyzje na dużą skalę. Jeśli jest niższa niż 80%, polityka lub szkolenie mogą być mylące i musimy to powtórzyć. Aby sprawdzić jakość, wysyłamy zestaw referencyjny do ludzi, aby ocenili, czy narusza on zasady, i upewnili się, że podejmują właściwą decyzję. Pobieramy również próbki decyzji do przeglądu przez ekspertów. Jeśli wszyscy podejmą właściwą decyzję, oznacza to, że nasze zasady mogą być prawidłowo egzekwowane. Wysoka zgodność i wysoka jakość wskazują, że nasze zasady mogą być egzekwowane prawidłowo i spójnie. Jeśli tak nie jest, wracamy do punktu wyjścia i oceniamy zarówno zasady, jak i zestaw szkoleniowy.
Kreatywny charakter platformy takiej jak Roblox, gdzie użytkownicy mogą swobodnie tworzyć i komunikować się niemal o wszystkim, oznacza, że platforma ta nieustannie ewoluuje. Nasze metody moderacji muszą ewoluować równie szybko, aby zapewnić bezpieczeństwo i kulturę naszej społeczności. Nasze systemy aktywnego uczenia się nieustannie aktualizują modele w miarę ewolucji języka, zmian wzorców zachowań użytkowników i wydarzeń w świecie rzeczywistym. Nieustannie budujemy systemy, które są skalowalne, szybkie, dokładne i konsekwentnie dostosowują się do dynamicznego świata, w którym wszyscy żyjemy.
1Stan na pierwszy kwartał 2025 r.
2Obejmuje okres sprawozdawczy od 17 lutego 2024 r. do 31 grudnia 2024 r.


