Udostępnij

Najnowocześniejszy model LLM pomaga zabezpieczyć generowanie nieograniczonej ilości tekstu w Roblox

Roblox Guard 1.0: zwiększenie bezpieczeństwa dzięki solidnym zabezpieczeniom

Autor Mahesh Nandwana, Adam McFarlin i Nishchaie Khanna

Opublikowano 22 lip 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

Dzisiaj ogłaszamy wprowadzenie Roblox Guard 1.0, zestawu narzędzi open source do zapewnienia bezpieczeństwa przeznaczonego dla programistów i platform.
Pierwsza funkcja Roblox Guard, najnowocześniejszy (SOTA) model zabezpieczający dla bezpieczeństwa LLM, jest już dostępna, wyznaczając nowy standard wśród wiodących benchmarków bezpieczeństwa.
Udostępniamy również Roblox Guard-Eval, zbiór danych służący do testów porównawczych w zakresie bezpieczeństwa.

Wyzwanie

Niedawno udostępniliśmy interfejs API do generowania tekstu, który umożliwia programistom wykorzystanie potencjału dużych modeli językowych (LLM) do tworzenia bogatszych i bardziej wciągających doświadczeń poprzez generowanie tekstu w ramach tych doświadczeń. Na przykład programista może stworzyć w pełni interaktywną postać niezależną (NPC) lub udostępnić interaktywny samouczek dotyczący rozgrywki.

Od samego początku aktywnie moderowaliśmy większość treści na Robloxie, starając się, aby nasze produkty były zgodne z wysokimi standardami bezpieczeństwa i kultury osobistej obowiązującymi na Robloxie. Zanim udostępniliśmy interfejs API do generowania tekstu, zastanawialiśmy się, jak zapewnić bezpieczeństwo. Opracowaliśmy nowy model, który pomaga chronić zarówno dane wejściowe (podpowiedzi od użytkowników), jak i wyjściowe (tekst generowany przez API).

Innowacja

Pierwszą funkcją zestawu narzędzi Roblox Guard 1.0 jest model LLM dostrojony zgodnie z najnowszymi osiągnięciami w dziedzinie instrukcji (SOTA), zaprojektowany w celu ochrony naszego interfejsu API generowania tekstu. Model ten przeprowadza klasyfikację bezpieczeństwa zarówno na poziomie zapytania, jak i odpowiedzi, decydując, czy dane wejście lub wyjście narusza nasze zasady. Ta dwupoziomowa ocena jest niezbędna do moderowania zarówno zapytań użytkowników, jak i wyników generowanych przez sam model.

Nasz model LLM obecnie osiąga lepsze wyniki niż popularne modele zabezpieczające LLM, takie jak Llama Guard od Meta, ShieldGemma od Google AI, NVIDIA NeMo Guardrails, GPT-4o od OpenAI i inne, w standardowych testach porównawczych. Model LLM Roblox Guard 1.0 wykazuje również wysoką zdolność uogólniania w przypadku zbiorów danych spoza domeny o nieznanej taksonomii. Udostępniliśmy na licencji open source zarówno wagi LLM dla naszej pierwszej funkcji, jak i nasz zbiór danych testowych Roblox Guard-Eval.

Sercem naszego systemu jest model LLM, który został dostrojony na podstawie modelu Llama-3.1-8B-Instruct. Trenowaliśmy ten model LLM, kładąc szczególny nacisk na dostrojenie wysokiej jakości instrukcji w celu optymalizacji wydajności oceny bezpieczeństwa. Kluczowym etapem tego procesu było staranne dobranie podpowiedzi i odpowiedzi, aby odzwierciedlić różnorodne scenariusze bezpieczeństwa występujące w rzeczywistości.

Nasz zestaw instrukcji nie wykorzystuje żadnych danych zastrzeżonych — jedynie połączenie danych syntetycznych (wygenerowanych przez LLM) i danych open source, co pozwala nam łatwiej skalować dane szkoleniowe i wykorzystywać prawa skalowania — dzięki czemu ten pierwszy model LLM Roblox Guard jest najlepszy w swojej klasie (SOTA). Podczas łączenia różnych zestawów danych open source i syntetycznych stwierdziliśmy, że najlepszym podejściem do tworzenia instrukcji jest wykorzystanie taksonomii specyficznej dla danego zbioru danych, ponieważ różnorodność zadań pomaga modelom LLM w uczeniu się na różnych typach poleceń. Wynikiem tego jest solidny model, który można uogólnić na różne taksonomie bezpieczeństwa. Do zestawu instrukcji włączyliśmy również uzasadnienia oparte na łańcuchu myśli, w których model jest zachęcany do wyrażania swojego procesu rozumowania. Te pośrednie etapy rozumowania zapewniły modelowi silniejsze osadzenie kontekstowe.

Wyniki

Nasz zespół ds. bezpieczeństwa opracował niestandardowy, wysokiej jakości zbiór danych do oceny w ramach taksonomii bezpieczeństwa treści Roblox — obejmujący 25 podkategorii. Ten zbiór danych do oceny został stworzony w ramach wewnętrznych testów typu „red teaming”, w których testujemy system, symulując ataki wrogie w celu wykrycia luk w zabezpieczeniach, i nie zawiera danych generowanych przez użytkowników ani danych osobowych. Ten zbiór danych do oceny zawiera pary poleceń i odpowiedzi, przy czym odpowiedzi zostały ręcznie oznaczone przez grupę ekspertów ds. polityki, aby zapewnić ich wysoką jakość. Obejmuje on szerokie spektrum rodzajów naruszeń, co pomaga nam tworzyć bardziej precyzyjne i znaczące etykiety do oceny. Ostateczny zbiór danych do oceny zawiera 2873 przykłady. Udostępniliśmy ten zbiór danych do oceny na licencji open source. Zawiera on rozszerzalną taksonomię bezpieczeństwa, która pomaga w benchmarkingu zabezpieczeń LLM i systemów moderacji.

Testujemy nasze modele na obszernym zestawie otwartych zbiorów danych, zarówno dla poleceń, jak i odpowiedzi, a także na Roblox Guard-Eval. To pozwala nam ocenić nasz model zarówno na zbiorach danych z danej dziedziny, jak i spoza niej. Wyniki przedstawiamy w postaci wyniku F-1 dla klasyfikacji binarnej naruszenie/brak naruszenia. W tabeli powyżej porównujemy nasze wyniki z wynikami kilku znanych modeli. Ta pierwsza funkcja Roblox Guard przewyższa inne modele pod względem uogólniania na zbiorach danych spoza domeny.

Nieustannie ulepszamy nasze systemy bezpieczeństwa, w tym narzędzia Roblox Guard 1.0, i planujemy wprowadzić dodatkowe funkcje w najbliższej przyszłości. Prosimy śledzić nasze strony na HuggingFace i GitHub, aby uzyskać informacje o przyszłych aktualizacjach i ulepszeniach, a także o przyszłych wydaniach open source.

Najnowsze

Więcej wyników

Najnowocześniejszy model LLM pomaga zabezpieczyć generowanie nieograniczonej ilości tekstu w Roblox

Wyzwanie

Innowacja

Wyniki

Najnowocześniejszy model LLM pomaga zabezpieczyć generowanie nieograniczonej ilości tekstu w Roblox

Wyzwanie

Innowacja

Wyniki

Inżynieria

Ulepszamy nasz klasyfikator bezpieczeństwa głosowego o 22 nowe języki i bardziej precyzyjne funkcje wykrywania

Wiadomości

Pionierzy sztucznej inteligencji łączą siły, aby przyspieszyć realizację wizji Roblox Reality

Inżynieria

CubePart: generator 3D z otwartym słownictwem i możliwością sterowania częściami