Atualizando nosso classificador de segurança de voz com 22 novos idiomas e recursos de detecção mais precisos
Novos idiomas, 2 novas categorias de violação e um aumento de 14% na taxa de recuperação

O Roblox processa milhões de minutos de dados de voz diariamente em 30 idiomas, o que representa um enorme desafio em termos de segurança em tempo real em grande escala. Nos últimos dois anos, nossos sistemas internos evoluíram significativamente — passando de 94,6 milhões para 320 milhões de parâmetros e expandindo de cinco para oito categorias de violação de políticas — para agora processar 10.000 solicitações por segundo nos horários de pico.
Tornamos nosso modelo de classificador de segurança de voz de código aberto em 2024 para ajudar a promover a segurança de voz em todo o setor, e hoje estamos lançando a versão 3 do modelo, que oferece aos usuários suporte para 22 novos idiomas e duas categorias adicionais de violação de políticas, com 14% a mais de recall e 5% a mais de precisão em comparação com a versão anterior.
Da v1 à v3 e além
Quando decidimos criar um sistema de segurança de voz em tempo real, focamos primeiro no inglês. Criamos um fluxo automatizado de rotulagem por máquina para gerar um grande volume de dados de treinamento. Em 2024, a v1 do modelo de código aberto utilizou 2.400 horas de dados em inglês rotulados por máquina para o treinamento do modelo. Após o lançamento inicial e a implementação do sistema de notificações, as taxas de denúncias de abuso nos EUA caíram mais de 50% por hora de fala.
Em 2025, adicionamos mais idiomas, aperfeiçoamos ainda mais o modelo e lançamos a v2 do modelo. Para treinar o modelo v3 mais recente, em 2026, utilizamos 250.000 horas de dados multilíngues rotulados por máquina e 29.000 horas de dados multilíngues rotulados por humanos. Todos os modelos foram avaliados usando conjuntos de dados rotulados por humanos.
A v3 do modelo de código aberto atinge 61% de recall ponderado pela distribuição de idiomas no chat de voz do Roblox, com uma taxa de falsos positivos de 1%. Usando apenas os idiomas suportados pela v2 do modelo para comparação, a v3 apresenta uma melhoria relativa de 14% no recall ponderado pela prevalência do idioma.
A segurança de voz é importante demais para ser resolvida isoladamente. Tornamos nosso classificador de segurança de voz de código aberto e nos associamos à ROOST como parceiros fundadores, pois acreditamos que compartilhar avanços em tecnologia de segurança fortalece todo o setor. O modelo já foi baixado mais de 70.000 vezes no Hugging Face desde o primeiro lançamento, e cada atualização foi moldada pelo que aprendemos ao executar nossos modelos internos em escala em toda a nossa comunidade. Continuamos a aprimorar nossos sistemas de segurança e esperamos compartilhar mais atualizações no futuro.
Agradecimentos: Gostaríamos de agradecer a Thomas Bui, Meghatrisa Chatterjee, Bridget Daly, Jason Golubock, Hannes Heikinheimo, Marek Kapolka, Cheryl Kwan, Markus Lang, Aashna Sharma, Hao-En Sung, Tingting Tang e Alex Trimm pelo trabalho neste projeto.


