Como a Roblox usa IA para moderar conteúdo em grande escala

Moderando bilhões de conteúdos por dia em 25 idiomas — em tempo real

por Naren Koneru, vice-presidente de Engenharia e Segurança

Publicado 9 de jul. de 2025

Para moderar proativamente o conteúdo publicado no Roblox, vêm desenvolvendo sistemas escaláveis que utilizam IA há aproximadamente cinco anos.
Hoje, nossa infraestrutura, modelos de ML e milhares de especialistas humanos trabalham juntos para ajudar a tornar o Roblox um lugar mais seguro e civilizado para nossos usuários.
Desenvolvemos todos esses sistemas com foco em escalabilidade, velocidade e melhoria contínua, utilizando dados de alta qualidade.

A segurança é fundamental para tudo o que fazemos no Roblox. Desde o início, moderamos proativamente o conteúdo porque sabíamos que a moderação era essencial para uma plataforma construída com base em conteúdo gerado por usuários. Quando o Roblox era significativamente menor, revisores humanos faziam isso — incluindo nosso fundador e CEO, que dedicou tempo à moderação de conteúdo no início. Com o tempo, a plataforma cresceu (tanto em escala quanto em velocidade) além da capacidade dos moderadores humanos. Ao lançar qualquer novo produto, a segurança é sempre o primeiro elemento que consideramos.

Uma média de 97,8 milhões ^de usuários ativos diários¹ acessa o Roblox para jogar, se comunicar e criar. Todos os dias, os usuários enviam uma média de 6,1 bilhões de mensagens de chat e 1,1 milhão de horas de comunicação por voz em 28 idiomas diferentes. Os criadores enviam milhões de recursos por dia — e milhares de itens a mais são adicionados ao nosso mercado de avatares. A grande maioria desses bilhões de criações e mensagens é civilizada. Assim como no mundo real — é assim que a maioria das pessoas se comunica. Mas quando não é assim, nosso sistema de filtragem de texto ajuda a bloquear textos problemáticos antes que cheguem aos usuários, e as violações de voz são avaliadas em tempo real. E, caso recebamos uma notificação de conteúdo ilegal, nosso tempo médio de resposta é de dez minutos.

Moderar consistentemente esse volume de conteúdo em milissegundos é uma tarefa que os seres humanos não conseguem realizar sozinhos — independentemente de quantos tenhamos. Trabalhar nessa escala e velocidade exigiria centenas de milhares de moderadores humanos trabalhando 24 horas por dia, 7 dias por semana, sem contar fins de semana ou férias — e isso apenas para moderar mensagens de chat. Precisaríamos de milhares a mais para moderar todos os outros tipos de conteúdo no Roblox. O volume de conteúdo produzido diariamente no Roblox exige infraestrutura escalável, modelos de aprendizado de máquina (ML) e ferramentas desenvolvidas especificamente para isso.

O ML pode tomar essas decisões em milissegundos, repetidamente, de forma consistente e 24 horas por dia. Ainda precisamos e empregamos humanos para lidar com casos menos comuns, nos quais é necessário um julgamento humano mais profundo e matizado, dependendo do contexto. Combinamos ferramentas robustas e inovadoras de segurança e moderação com milhares de especialistas humanos em todo o mundo, que supervisionam e oferecem treinamento contínuo de nossos sistemas para enfrentar desafios novos e em constante evolução. Todos os sistemas de moderação do Roblox se baseiam nos seguintes princípios:

Moderamos proativamente o conteúdo no Roblox.
Fornecemos feedback em tempo real aos usuários sempre que possível, pois muitas vezes as pessoas não conhecem as regras.
Utilizamos IA apenas quando ela apresenta desempenho significativamente superior em precisão e recall em relação aos seres humanos em grande escala.
Contamos com seres humanos para melhorar continuamente a IA, lidar com casos raros e complexos, bem como com apelações.

Para moderar com eficiência o volume crescente de conteúdo produzido no Roblox, estamos sempre inovando em três dimensões: escala, velocidade e qualidade, e isso requer melhoria contínua.

Escala: moderando bilhões de conteúdos por dia

De fevereiro a dezembro de 2024¹, os usuários enviaram aproximadamente 1 trilhão de itens de conteúdo. Apenas 0,01% desses bilhões de mensagens de texto, áudio, voz e imagens foram detectados como violadores de alguma de nossas políticas. E quase todo o conteúdo que violou nossas políticas foi automaticamente pré-selecionado e removido antes mesmo que os usuários o vissem. Embora essa escala seja relativamente nova, nosso compromisso com a moderação não é. Há mais de uma década, criamos um filtro de texto baseado em regras. Há aproximadamente cinco anos, implantamos o que era, na época, um filtro de texto de última geração baseado em transformadores. Hoje, nossos filtros de texto processam uma média de 6,1 bilhões de mensagens de bate-papo por dia, com o apoio de muitos modelos desenvolvidos especificamente para diferentes tipos de violações de política.

Um desses modelos é o nosso filtro para informações de identificação pessoal (PII) no chat do jogo e da plataforma. Usuários que pedem PII a outras pessoas podem ser o primeiro passo para problemas mais graves, por isso sempre adotamos uma postura firme na prevenção do compartilhamento de PII. Cada mensagem de chat enviada é uma “solicitação”, pedindo ao sistema que analise e determine se alguma PII foi mencionada. Esse modelo de filtro de texto estava processando tantas solicitações por segundo (RPS) que estava se tornando difícil de suportar em nossa pilha de servidores baseada em CPU existente. Por isso, construímos uma pilha de servidores totalmente nova em GPUs, aproveitando nossa infraestrutura de rede móvel. Para atender a essas altas demandas de RPS, primeiro separamos a tokenização da inferência e, em seguida, aceleramos a inferência por meio da quantização e destilação de modelos maiores. Juntas, essas melhorias quadruplicaram nossa RPS.

Na nova pilha, o filtro de PII agora processa 370.000 RPS no pico. Nosso filtro de PII aprimorado reduziu os falsos positivos em 30%, o que levou a um aumento de 25% nas menções de PII detectadas automaticamente pelo sistema em todos os idiomas suportados. Já estamos trabalhando para implementar essa melhoria em vários outros idiomas e trazer melhorias semelhantes para outros filtros de texto e interfaces. Embora tenhamos orgulho dessas melhorias, sabemos que os métodos usados para compartilhar PII estão sempre evoluindo e estamos aprimorando nossos sistemas junto com essas mudanças.

Na base de todo o nosso sistema de moderação estão grandes modelos baseados em transformadores, com conhecimento em várias modalidades. Dependendo dos requisitos operacionais e de produção, destilamos e quantizamos esses modelos para manter o sistema rápido e eficiente. Essas técnicas são essenciais para executar uma variedade de modelos multimodais; os que gerenciam nossos filtros de texto agora estão lidando com mais de 750.000 RPS de forma eficiente.

Velocidade: Mudando o comportamento do usuário com feedback em tempo real

A comunicação natural em tempo real requer filtragem quase imediata para manter o fluxo da conversa. A iteração e a colaboração em ideias exigem feedback rápido para manter a criatividade fluindo. Nosso sistema de defesa em várias camadas inclui medidas proativas, como notificações de aviso, tempo limite e suspensões. Ao filtrar texto, podemos reagir em tempo real para bloquear termos que violam as políticas, como informações de identificação pessoal (PII), palavrões e discurso de ódio, em milissegundos, impedindo que os usuários sejam expostos a conteúdo impróprio.

As comunicações de voz não podem ser bloqueadas da mesma forma, por isso orientamos os usuários por meio de notificações na tela. Nossas notificações de aviso mudaram efetivamente o comportamento dos usuários e aumentaram tanto a civilidade quanto o engajamento. Nosso classificador de segurança de voz modera o chat em 15 segundos em oito idiomas. Também tornamos esse modelo de código aberto como parte de nosso compromisso mais amplo de compartilhar inovações em segurança com o setor.

As notificações ajudam os usuários a entender quais políticas estão violando e oferecem a eles a oportunidade de recorrer da decisão do sistema.

Se um usuário continuar a violar nossas políticas, as consequências se tornam cada vez mais severas, variando de uma breve advertência à perda do acesso ao chat de voz. Pesquisas internas demonstraram que as suspensões têm um impacto que perdura por até três semanas após a aplicação, reduzindo as taxas de reincidência e o número de denúncias enviadas pelos usuários. Experimentos iniciais mostraram que esses tipos de intervenções e consequências imediatas têm um efeito positivo sobre a civilidade. A versão mais recente do nosso classificador de voz tem uma taxa de recall 92% maior do que a versão inicial, com uma taxa de falsos positivos de 1% — e está processando, em picos, até 8.300 RPS. Continuamos a explorar novas maneiras de melhorar tanto a precisão quanto o recall.

Com base no sucesso que observamos com as notificações no chat de voz, também começamos a implementar feedback em tempo real para o chat de texto. Em experimentos recentes, descobrimos que o envio de notificações e limites de tempo no chat de texto durante a experiência resultou em uma redução de 5% nas mensagens de chat filtradas e uma redução de 6% nas consequências decorrentes de denúncias de abuso. Também estamos começando a testar o feedback em tempo real para criadores ao fazerem o upload de suas criações.

Qualidade dos dados: modelos de treinamento para melhoria contínua

Treinamos esses sistemas para otimizar a redução de falsos negativos — preferindo remover qualquer coisa que possa incluir uma violação de política. Também sabemos que é frustrante para os usuários quando algo que eles acreditam estar em conformidade é removido. Por isso, aprimoramos continuamente nossos sistemas para minimizar também os falsos positivos. Dados corretamente rotulados são essenciais para melhorar a precisão de todos os nossos classificadores.

A construção de conjuntos de dados robustos para treinamento e avaliação requer tanto exemplos suficientes de alta qualidade quanto especialistas humanos para rotulá-los com precisão. Há casos em que não temos dados suficientes porque se trata de um cenário raro ou um caso extremo. Às vezes, temos dados em excesso e precisamos identificar os exemplos mais eficazes. E precisamos de dados que correspondam ao que realmente está acontecendo no Roblox. Isso inclui exemplos transitórios, como gírias ou memes. Nosso público de crianças, adolescentes e jogadores está sempre nos apresentando novas gírias, novas tendências e novas maneiras de contornar nossas ferramentas de moderação. Eles nos mantêm em alerta, e é por isso que testamos e avaliamos continuamente tanto nossas ferramentas de moderação quanto nossas políticas.

Usamos uma variedade de estratégias de amostragem para selecionar esses conjuntos de dados e aproveitamos tanto a IA quanto especialistas humanos para gerar e rotular esses exemplos de dados. Nossos especialistas em políticas selecionam manualmente os exemplos, que chamamos de “conjunto de referência”. Esses são os exemplos que mais se aproximam dos problemas que queremos que o sistema detecte. Fazemos amostragens a partir de conjuntos de dados muito grandes com várias estratégias de amostragem, incluindo a amostragem de incerteza, na qual selecionamos casos extremos em que o modelo ficou confuso anteriormente. Recebemos amostras de especialistas humanos e de equipes vermelhas assistidas por IA (mais sobre AARTs), que testam o sistema simulando ataques adversários para identificar pontos fracos.

Também expandimos e aprimoramos nossos conjuntos de treinamento à medida que identificamos novos problemas, gírias, memes etc. Obtemos alguns desses exemplos por meio de nosso processo de recursos, no qual os usuários podem solicitar uma revisão adicional. Se a decisão for revertida, esse exemplo passa a fazer parte de nosso conjunto de dados para ajudar nosso sistema a acertar na próxima vez.

Outros vêm do nosso robusto sistema de denúncias de abuso, que efetivamente amplia nossa equipe de moderadores humanos para incluir dezenas de milhões de usuários que se preocupam com essas experiências e com a comunidade. Recentemente, aprimoramos nossa ferramenta de denúncias para que os usuários tenham a opção de capturar uma cena inteira, incluindo IDs de avatares e objetos, e destacar a parte que desejam denunciar. Temos observado uma forte adesão dos usuários, com aproximadamente 15% das denúncias elegíveis fornecendo anotações visuais. Esse contexto adicional nos ajuda a identificar proativamente experiências problemáticas nas quais os usuários frequentemente relatam preocupações. Como o treinamento do modelo não é instantâneo, também estamos explorando a criação automática de regras baseadas em IA a partir das denúncias dos usuários para aumentar nossa capacidade de resposta.

The in-experience report UI now lets users highlight what they want to report (i.e., the green circle around the duck avatar).

Complementamos esses conjuntos de dados com dados sintéticos, nos quais grandes modelos de linguagem (LLMs) geram exemplos de dados artificiais e rótulos que emulam exemplos do mundo real. A vantagem aqui é a capacidade de gerar milhões de exemplos e rótulos, mesmo para casos raros ou extremos. Assim que tivermos dados rotulados suficientes, os dividimos em dois conjuntos de dados: um para treinamento e outro para avaliação. Ter um conjunto de dados de avaliação robusto é fundamental: se um conjunto de avaliação for muito fácil, as métricas do modelo parecerão indicar que ele está funcionando bem — mas ele falhará na produção. A precisão dos dados é mais importante do que o volume. “Garbage in, garbage out” (entrada de lixo, saída de lixo) é uma preocupação real no ML, pois o desempenho do modelo depende fortemente da precisão dos dados usados para treiná-lo e avaliá-lo.

Assim que temos um conjunto de dados de avaliação robusto, nós o avaliamos com base em duas métricas principais: alinhamento e qualidade. Para testar o alinhamento, os mesmos exemplos são enviados a várias pessoas para que as rotulem e verifiquem se suas rotulações concordam (ou se alinham). Se o alinhamento entre as rotulações for de 80% ou mais, isso significa que nossos moderadores podem tomar decisões consistentes em escala. Se for inferior a 80%, a política ou o treinamento podem estar confusos, e precisamos iterar. Para testar a qualidade, enviamos o conjunto de referência a pessoas para avaliar se ele viola a política ou não e garantir que tomem a decisão correta. Também selecionamos amostras de decisões para que especialistas as revisem. Se todos chegarem à decisão correta, nossa política pode ser aplicada corretamente. Alto alinhamento e alta qualidade indicam que nossa política pode ser aplicada de forma correta e consistente. Caso contrário, voltamos atrás e avaliamos tanto a política quanto o conjunto de treinamento.

A natureza criativa de uma plataforma como a Roblox, onde os usuários têm liberdade para criar e comunicar praticamente qualquer coisa, significa que ela está sempre evoluindo. Nossos métodos de moderação precisam evoluir com a mesma rapidez para manter nossa comunidade segura e civilizada. Nossos sistemas de aprendizado ativo atualizam continuamente os modelos à medida que a linguagem evolui, os padrões dos usuários mudam e eventos do mundo real acontecem. Estamos continuamente construindo sistemas que são escaláveis, rápidos, precisos e se adaptam consistentemente ao mundo dinâmico em que todos vivemos.

¹A partir do primeiro trimestre de 2025.

²Abrange o período de referência de 17 de fevereiro de 2024 a 31 de dezembro de 2024.

Recentes

Mais resultados

Como a Roblox usa IA para moderar conteúdo em grande escala

Escala: moderando bilhões de conteúdos por dia

Velocidade: Mudando o comportamento do usuário com feedback em tempo real

Qualidade dos dados: modelos de treinamento para melhoria contínua

Como a Roblox usa IA para moderar conteúdo em grande escala

Escala: moderando bilhões de conteúdos por dia

Velocidade: Mudando o comportamento do usuário com feedback em tempo real

Qualidade dos dados: modelos de treinamento para melhoria contínua

Engenharia

Como funciona a reportagem dentro do jogo no Roblox

Engenharia

Atualizando nosso classificador de segurança de voz com 22 novos idiomas e recursos de detecção mais precisos

Notícias

Fundadores pioneiros em IA se unem para acelerar a visão da Roblox Reality