Lanzamiento de más idiomas para nuestro modelo de seguridad de voz de código abierto

- Estamos actualizando nuestro clasificador de seguridad de voz de código abierto aumentando sus parámetros de 94,6 millones a 120,2 millones y ampliándolo a siete idiomas adicionales.
- Desde la primera versión del clasificador, hemos aumentado la precisión hasta alcanzar una tasa de recuperación del 59,1 % en datos de chat de voz en inglés, con una tasa de falsos positivos del 1 %. Esto supone una mejora del 92 % con respecto a la tasa de recuperación del 30,9 % de la versión anterior.
Promover la seguridad y el respeto siempre ha sido fundamental en todo lo que hacemos en Roblox. Llevamos casi dos décadas creando sistemas de seguridad sólidos, y los seguimos ampliando y mejorando a medida que surgen nuevas tecnologías. En 2024, lanzamos más de 40 mejoras de seguridad, incluida una renovación de nuestro control parental, que hoy volvemos a actualizar. También lanzamos uno de los primeros clasificadores de seguridad de voz de código abierto del sector, que se ha descargado más de 23 000 veces. Hoy lanzamos una versión actualizada, que es aún más precisa y funciona en más idiomas.
Muchos de los sistemas de seguridad que ayudan a proteger a nuestros usuarios, incluido este clasificador, funcionan con modelos de IA. Algunos de ellos los ponemos a disposición como código abierto porque sabemos que compartir los avances en seguridad de la IA beneficia a todo nuestro sector. Por eso también nos hemos unido recientemente a ROOST —una nueva organización sin ánimo de lucro dedicada a abordar áreas importantes de la seguridad digital mediante la promoción de herramientas de seguridad de código abierto— como socio fundador.
A la hora de gestionar el volumen de contenido e interacciones que tienen lugar cada día en nuestra plataforma en todo el mundo, la IA es un elemento esencial para garantizar la seguridad de los usuarios. Estamos seguros de que los modelos que hemos creado nos ayudan a satisfacer nuestras necesidades. En el cuarto trimestre de 2024, por ejemplo, los usuarios de Roblox subieron 300 000 millones de elementos de contenido. Solo el 0,01 % de esos miles de millones de vídeos, audios, textos, chats de voz, avatares y experiencias 3D se detectaron como infractores de nuestras políticas. Y casi todo ese contenido que infringía las políticas fue filtrado y eliminado automáticamente antes de que los usuarios pudieran verlo.
Hemos actualizado la versión de código abierto de nuestro clasificador de seguridad de voz para que sea más preciso y nos ayude a moderar el contenido en más idiomas. El nuevo modelo:
- Detecta infracciones en siete idiomas adicionales —español, alemán, francés, portugués, italiano, coreano y japonés— gracias al entrenamiento con datos multilingües.
- Tiene una tasa de recuperación global aumentada del 59,1 %, lo que supone una mejora del 92 % con respecto a la tasa de recuperación del 30,9 % de la versión anterior, con bajas tasas de falsos positivos.
- Está optimizado para funcionar a gran escala, atendiendo hasta 8.300 solicitudes (la mayoría de las cuales no contienen infracciones) por segundo en horas punta.
Desde el lanzamiento del primer modelo, hemos observado una reducción en las tasas de denuncias por abuso entre los usuarios de EE. UU. de más del 50 % por hora de conversación. También nos ha ayudado a moderar millones de minutos de chat de voz al día con mayor precisión que los moderadores humanos. Nunca dejamos de mejorar nuestros sistemas de seguridad y seguiremos actualizando también la versión de código abierto.
Clasificador multilingüe eficiente de seguridad de voz
Nuestro clasificador de seguridad de voz de código abierto inicial se basaba en un modelo WavLM base+, ajustado con muestras de audio de chat de voz en inglés etiquetadas por máquinas. Los resultados alentadores de esta arquitectura de extremo a extremo dieron lugar a nuevos experimentos con una arquitectura personalizada. Utilizamos la destilación de conocimiento para optimizar la complejidad y la precisión del modelo, lo cual resulta atractivo para el servicio de inferencia a gran escala. Nuestro nuevo clasificador utiliza estos componentes fundamentales y amplía y mejora el trabajo en cuanto al uso de datos y los ajustes de la arquitectura.
Al entrenarse con datos multilingües, nuestro modelo de clasificador único puede funcionar a la perfección en cualquiera de nuestros ocho idiomas principales compatibles. Además, nuestras mejoras en el entrenamiento hacen que el modelo sea más preciso y entre un 20 % y un 30 % más rápido de ejecutar en un escenario de inferencia típico que la primera versión.
El nuevo clasificador de seguridad de voz sigue basándose en la arquitectura WavLM, pero la configuración de las capas se desvía de la versión anterior y de la de los modelos preentrenados de WavLM. En concreto, hemos añadido una capa convolucional adicional para reducir la resolución temporal interna de las capas del transformador. En total, nuestra nueva arquitectura de modelo tiene 120,2 millones de parámetros, lo que supone un aumento del 27 % en comparación con los 94,6 millones de la versión anterior. A pesar de este aumento, el nuevo modelo consume entre un 20 % y un 30 % menos de tiempo de cálculo cuando se utiliza con segmentos de entrada de entre 4 y 15 segundos. Esto es posible porque el modelo comprime la señal de entrada en una representación más corta que antes.
Utilización de diversas estrategias de etiquetado
El entrenamiento supervisado de un modelo de extremo a extremo requiere pares seleccionados de audio y etiquetas de clase. Realizamos mejoras significativas en nuestro flujo de datos que garantizaron un flujo constante de datos etiquetados. La base del material de entrenamiento es un gran conjunto de datos etiquetado por máquina de más de 100 000 horas de voz que abarca los idiomas admitidos. Transcribimos automáticamente el habla y la procesamos a través de nuestro clasificador de toxicidad basado en texto interno, que comparte la política deseada y las categorías de toxicidad. La recopilación de datos muestrea contenido abusivo con mayor probabilidad que el habla benigna para captar mejor los casos extremos y las infracciones de la política menos comunes.

Las etiquetas basadas en transcripciones de voz y la clasificación basada en texto no pueden captar por completo los matices que se observan en el contenido de los chats de voz. Por eso, utilizamos datos etiquetados por personas para ajustar el modelo de la etapa de entrenamiento anterior. Aunque la tarea de clasificación es la misma, esta última etapa de entrenamiento ayuda a refinar los límites de decisión y a enfatizar la capacidad de respuesta ante expresiones específicas de los chats de voz. Se trata de una forma de aprendizaje curricular que nos ayuda a sacar el máximo partido de los valiosos ejemplos etiquetados por personas.
Uno de los retos del entrenamiento de modelos de extremo a extremo es que las etiquetas de destino pueden quedar obsoletas si la política de etiquetado cambia con el tiempo. Por lo tanto, a medida que refinamos nuestra política de voz aceptable, necesitamos un tratamiento especial para los datos que utilizan estándares de etiquetado más antiguos. Para ello, utilizamos un enfoque multitarea que permite al modelo aprender de conjuntos de datos que no se ajustan a la política actual de chat de voz. Esto implica dedicar un núcleo de clasificación independiente para la política antigua, lo que permite que el tronco del modelo aprenda del conjunto de datos antiguo sin afectar a las etiquetas objetivo ni al núcleo principal.
Un modelo calibrado para facilitar la implementación
El uso del modelo de clasificación requiere decidir el punto de funcionamiento y ajustar la sensibilidad del clasificador de acuerdo con los requisitos de la tarea. Para facilitar la implementación del modelo, calibramos las salidas del modelo, ajustadas para la moderación del chat de voz. Estimamos transformaciones lineales por tramos a partir de un conjunto de datos retenido, haciéndolo por separado para cada cabeza de salida y cada idioma admitido. Estas transformaciones se aplicaron durante la destilación del modelo, lo que garantizó que el modelo final estuviera calibrado de forma nativa. Esto eliminó la necesidad de un posprocesamiento durante la inferencia.
Estamos encantados de compartir este nuevo modelo de código abierto con la comunidad y esperamos compartir futuras actualizaciones a medida que las tengamos.


