Lançamento de mais idiomas para nosso modelo de segurança de voz de código aberto

- Estamos atualizando nosso classificador de segurança de voz de código aberto, aumentando seus parâmetros de 94,6 milhões para 120,2 milhões e expandindo-o para mais sete idiomas.
- Desde a primeira versão do classificador, aumentamos a precisão para uma taxa de recuperação de 59,1% em dados de chat de voz em inglês, com uma taxa de falsos positivos de 1%. Isso representa uma melhoria de 92% em relação à taxa de recuperação de 30,9% da versão anterior.
Promover a segurança e a civilidade sempre foi fundamental para tudo o que fazemos na Roblox. Passamos quase duas décadas construindo sistemas de segurança robustos e estamos continuamente aprimorando e evoluindo esses sistemas à medida que novas tecnologias se tornam disponíveis. Em 2024, lançamos mais de 40 melhorias de segurança, incluindo uma reformulação do nosso Controle dos Pais, que estamos atualizando novamente hoje. Também lançamos um dos primeiros classificadores de segurança de voz de código aberto do setor, que já foi baixado mais de 23.000 vezes. Hoje, estamos lançando uma versão atualizada, que é ainda mais precisa e funciona em mais idiomas.
Muitos dos sistemas de segurança que ajudam a proteger nossos usuários, incluindo esse classificador, são alimentados por modelos de IA. Tornamos alguns deles de código aberto porque sabemos que compartilhar avanços em segurança de IA beneficia todo o nosso setor. É também por isso que recentemente nos associamos à ROOST — uma nova organização sem fins lucrativos dedicada a abordar áreas importantes da segurança digital por meio da promoção de ferramentas de segurança de código aberto — como parceiros fundadores.
Ao gerenciar o volume de conteúdo e interações que ocorrem em nossa plataforma todos os dias ao redor do mundo, a IA é um elemento essencial para manter os usuários seguros. Estamos confiantes de que os modelos que criamos estão ajudando a atender às nossas necessidades. No quarto trimestre de 2024, por exemplo, os usuários do Roblox enviaram 300 bilhões de itens de conteúdo. Apenas 0,01% desses bilhões de vídeos, áudios, textos, chats de voz, avatares e experiências 3D foram detectados como violadores de nossas políticas. E quase todo esse conteúdo que violava as políticas foi pré-selecionado e removido automaticamente antes mesmo que os usuários o vissem.
Atualizamos a versão de código aberto do nosso classificador de segurança de voz para torná-lo mais preciso e nos ajudar a moderar conteúdo em mais idiomas. O novo modelo:
- Detecta violações em sete idiomas adicionais — espanhol, alemão, francês, português, italiano, coreano e japonês — graças ao treinamento com dados multilíngues.
- Apresenta uma taxa de recall geral aumentada de 59,1%, uma melhoria de 92% em relação aos 30,9% da versão anterior, com baixas taxas de falsos positivos.
- Está otimizado para operar em grande escala, atendendo a até 8.300 solicitações (a maioria das quais não contém violações) por segundo em horários de pico.
Desde o lançamento do primeiro modelo, observamos uma redução nas taxas de denúncias de abuso entre usuários dos EUA de mais de 50% por hora de fala. Isso também nos ajudou a moderar milhões de minutos de chat de voz por dia com mais precisão do que moderadores humanos. Nunca paramos de aprimorar nossos sistemas de segurança e continuaremos a atualizar a versão de código aberto também.
Classificador de segurança de voz multilíngue eficiente
Nosso classificador de segurança de voz de código aberto inicial foi baseado em um modelo WavLM base+, ajustado com amostras de áudio de bate-papo de voz em inglês rotuladas por máquina. Os resultados encorajadores dessa arquitetura de ponta a ponta levaram a novos experimentos com uma arquitetura personalizada. Usamos a destilação de conhecimento para otimizar a complexidade e a precisão do modelo, o que é atraente para serviços de inferência em grande escala. Nosso novo classificador utiliza esses blocos de construção fundamentais e amplia e estende o trabalho em termos de uso de dados e refinamentos de arquitetura.
Ao ser treinado com dados multilíngues, nosso modelo de classificador único pode operar perfeitamente em qualquer um dos oito principais idiomas suportados. E nossas melhorias no treinamento significam que o modelo é mais preciso e 20% a 30% mais rápido para ser executado em um cenário típico de inferência do que a primeira versão.
O novo classificador de segurança de voz ainda se baseia na arquitetura WavLM, mas a configuração das camadas difere da versão anterior e dos modelos pré-treinados do WavLM. Em particular, adicionamos uma camada convolucional adicional para reduzir a resolução temporal interna das camadas do transformador. No total, nossa nova arquitetura de modelo tem 120,2 milhões de parâmetros, um aumento de 27% em comparação com os 94,6 milhões da versão anterior. Apesar desse aumento, o novo modelo consome de 20% a 30% menos tempo de computação quando usado com segmentos de entrada de 4 a 15 segundos. Isso é possível porque o modelo comprime o sinal de entrada em uma representação mais curta do que antes.
Utilização de uma variedade de estratégias de rotulagem
O treinamento supervisionado de um modelo de ponta a ponta requer pares selecionados de áudio e rótulos de classe. Fizemos melhorias significativas em nosso pipeline de dados, garantindo um fluxo constante de dados rotulados. A base do material de treinamento é um grande conjunto de dados rotulados por máquina com mais de 100.000 horas de fala, abrangendo os idiomas suportados. Transcrevemos automaticamente a fala e a submetemos ao nosso classificador interno de toxicidade baseado em texto, que compartilha as categorias de política e toxicidade desejadas. A coleta de dados amostra conteúdo abusivo com maior probabilidade do que fala inofensiva para capturar melhor casos extremos e violações de política menos comuns.

Rótulos baseados em transcrições de fala e classificação baseada em texto não conseguem capturar totalmente as nuances observadas no conteúdo de bate-papos de voz. Por isso, utilizamos dados rotulados por humanos para ajustar o modelo a partir da etapa de treinamento anterior. Embora a tarefa de classificação seja a mesma, a última etapa de treinamento ajuda a refinar os limites de decisão e enfatizar a capacidade de resposta a expressões específicas de bate-papos de voz. Essa é uma forma de aprendizagem curricular que nos ajuda a aproveitar ao máximo os valiosos exemplos rotulados por humanos.
Um desafio do treinamento de modelos de ponta a ponta é que as etiquetas-alvo podem se tornar obsoletas se a política de rotulagem mudar com o tempo. Portanto, à medida que refinamos nossa política de voz aceitável, precisamos de um tratamento especial para os dados que utilizam padrões de rotulagem mais antigos. Para isso, utilizamos uma abordagem multitarefa que permite que o modelo aprenda com conjuntos de dados que não correspondem à política atual de chat de voz. Isso envolve dedicar um cabeçalho de classificação separado para a política antiga, permitindo que o tronco do modelo aprenda com o conjunto de dados antigo sem afetar os rótulos-alvo ou o cabeçalho principal.
Um modelo calibrado para facilitar a implantação
O uso do modelo de classificação requer a definição do ponto de operação e o ajuste da sensibilidade do classificador de acordo com os requisitos da tarefa. Para facilitar a implantação do modelo, calibramos as saídas do modelo, ajustadas para a moderação de bate-papos de voz. Estimamos transformações lineares por partes a partir de um conjunto de dados reservado, fazendo isso separadamente para cada cabeçalho de saída e idioma suportado. Essas transformações foram aplicadas durante a destilação do modelo, o que garantiu que o modelo final fosse calibrado nativamente. Isso eliminou a necessidade de pós-processamento durante a inferência.
Estamos entusiasmados em compartilhar este novo modelo de código aberto com a comunidade e ansiosos para compartilhar futuras atualizações assim que estiverem disponíveis.


