LLM de última geração ajuda a proteger a geração ilimitada de texto no Roblox

Roblox Guard 1.0: Aumentando a segurança com proteções robustas

por Mahesh Nandwana, Adam McFarlin e Nishchaie Khanna

Publicado 22 de jul. de 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

Hoje, anunciamos o Roblox Guard 1.0, um kit de ferramentas de segurança de código aberto para desenvolvedores e plataformas.
O primeiro recurso do Roblox Guard, um modelo de guarda-corpo de última geração (SOTA) para segurança de LLM, já está disponível, estabelecendo um novo padrão entre os principais benchmarks de segurança.
Também estamos lançando o Roblox Guard-Eval, um conjunto de dados para benchmarking de segurança.

O Desafio

Recentemente, lançamos uma API de geração de texto que permite aos desenvolvedores aproveitar o poder dos grandes modelos de linguagem (LLMs) para criar experiências mais ricas e imersivas, gerando texto dentro de suas experiências. Por exemplo, um desenvolvedor poderia criar um NPC totalmente interativo ou fornecer um tutorial interativo sobre como jogar o jogo.

Moderamos proativamente a maior parte do conteúdo no Roblox desde o início, à medida que trabalhamos para manter nossos produtos alinhados aos altos padrões de segurança e civilidade do Roblox. Antes de lançarmos a API de geração de texto, analisamos como priorizar a segurança. Desenvolvemos um novo modelo para ajudar a proteger tanto as entradas (solicitações dos usuários) quanto as saídas (texto gerado pela API).

A inovação

A primeira funcionalidade do kit de ferramentas Roblox Guard 1.0 é um LLM com instruções SOTA ajustadas, projetado para ajudar a proteger nossa API de geração de texto. Ele realiza a classificação de segurança tanto no nível do prompt quanto no da resposta, decidindo se cada entrada ou saída viola ou não nossas políticas. Essa avaliação em dois níveis é essencial para moderar tanto as consultas dos usuários quanto as saídas geradas pelo próprio modelo.

Atualmente, nosso LLM está superando modelos populares de LLM de proteção, como o Llama Guard da Meta, o ShieldGemma do Google AI, o NVIDIA NeMo Guardrails, o GPT-4o da OpenAI e outros em benchmarks padrão. O LLM do Roblox Guard 1.0 também demonstra forte generalização em conjuntos de dados fora do domínio com taxonomia inédita. Disponibilizamos em código aberto tanto os pesos do LLM para nossa primeira funcionalidade quanto nosso conjunto de dados de benchmarking Roblox Guard-Eval.

No centro do nosso sistema está um LLM que foi ajustado a partir do modelo Llama-3.1-8B-Instruct. Treinamos esse LLM com foco específico no ajuste de instruções de alta qualidade para otimizar o desempenho na avaliação de segurança. Uma etapa crucial nesse processo foi a curadoria cuidadosa de prompts e respostas para refletir uma gama diversificada de cenários de segurança do mundo real.

Nosso conjunto de instruções não utiliza dados proprietários — apenas uma combinação de dados sintéticos (gerados por LLM) e de código aberto, o que nos permite escalar mais facilmente os dados de treinamento e aproveitar as leis de escala — tornando este o primeiro LLM SOTA do Roblox Guard. Ao mesclar vários conjuntos de dados de código aberto e sintéticos, descobrimos que usar uma taxonomia específica para o conjunto de dados era a melhor abordagem para selecionar as instruções, pois a diversidade de tarefas ajuda os LLMs a treinar com diferentes tipos de prompts. Isso resultou em um modelo robusto que pode ser generalizado para diferentes taxonomias de segurança. Também incorporamos justificativas de cadeia de pensamento, nas quais o modelo é incentivado a articular seu processo de raciocínio, ao conjunto de instruções. Essas etapas intermediárias de raciocínio deram ao modelo uma base contextual mais sólida.

Os resultados

Nossa equipe de segurança desenvolveu um conjunto de dados de avaliação personalizado e de alta qualidade em toda a taxonomia de segurança de conteúdo do Roblox — representando 25 subcategorias. Esse conjunto de avaliação é criado por meio de testes internos de simulação de ataques (red-teaming), nos quais testamos o sistema simulando ataques adversários para identificar vulnerabilidades, e não contém dados gerados por usuários ou dados pessoais. Este conjunto de dados de avaliação contém pares de prompts e respostas, com as respostas rotuladas manualmente por um grupo de especialistas em políticas para ajudar a garantir sua qualidade. Ele abrange um amplo espectro de tipos de violação, ajudando-nos a criar rótulos mais precisos e significativos para avaliação. O conjunto de avaliação final inclui 2.873 exemplos. Tornamos este conjunto de dados de avaliação de código aberto, que apresenta uma taxonomia de segurança extensível para ajudar a comparar os limites de segurança de LLM e os sistemas de moderação.

Avaliamos nossos modelos em um conjunto abrangente de conjuntos de dados de código aberto, tanto para prompts quanto para respostas, bem como no Roblox Guard-Eval. Isso nos permite avaliar nosso modelo em conjuntos de dados dentro e fora do domínio. Relatamos nossos resultados em termos de pontuação F-1 para a classificação binária de violação/não violação. Na tabela acima, comparamos nosso desempenho com o de vários modelos conhecidos. Esta primeira funcionalidade do Roblox Guard supera outros modelos ao generalizar em conjuntos de dados fora do domínio.

Estamos aprimorando continuamente nossos sistemas de segurança, incluindo nossas ferramentas do Roblox Guard 1.0, e planejamos lançar recursos adicionais em um futuro próximo. Acompanhe nossas páginas no HuggingFace e no GitHub para futuras atualizações e melhorias, bem como futuros lançamentos de código aberto.

Recentes

Mais resultados

LLM de última geração ajuda a proteger a geração ilimitada de texto no Roblox

O Desafio

A inovação

Os resultados

LLM de última geração ajuda a proteger a geração ilimitada de texto no Roblox

O Desafio

A inovação

Os resultados

Engenharia

Atualizando nosso classificador de segurança de voz com 22 novos idiomas e recursos de detecção mais precisos

Notícias

Fundadores pioneiros em IA se unem para acelerar a visão da Roblox Reality

Engenharia

CubePart: Um gerador 3D com vocabulário aberto e controle de partes