Mejoramos nuestro clasificador de seguridad de voz con 22 nuevos idiomas y capacidades de detección más precisas

Nuevos idiomas, 2 nuevas categorías de infracciones y un aumento del 14 % en la recuperación

De Naren Koneru, vicepresidente de Ingeniería, Vesa Silvola y Janne Pylkkonen

Publicado 17 jun 2026

Roblox gestiona a diario millones de minutos de datos de voz en 30 idiomas, lo que supone un enorme reto en materia de seguridad en tiempo real a gran escala. En los últimos dos años, nuestros sistemas internos han evolucionado significativamente —pasando de 94,6 millones a 320 millones de parámetros y ampliando de cinco a ocho las categorías de incumplimiento de políticas— hasta llegar a gestionar actualmente 10 000 solicitudes por segundo en horas punta.

En 2024, hicimos de código abierto nuestro modelo clasificador de seguridad de voz subyacente para contribuir a mejorar la seguridad de voz en todo el sector, y hoy lanzamos la versión 3 del modelo, que ofrece a los usuarios compatibilidad con 22 nuevos idiomas y dos categorías adicionales de infracciones de las políticas, con un 14 % más de recuperación y un 5 % más de precisión en comparación con la versión anterior.

De la v1 a la v3 y más allá

Cuando nos propusimos crear un sistema de seguridad de voz en tiempo real, nos centramos primero en el inglés. Desarrollamos un proceso automatizado de etiquetado automático para generar un gran volumen de datos de entrenamiento. En 2024, la versión 1 del modelo de código abierto utilizó 2.400 horas de datos en inglés etiquetados automáticamente para el entrenamiento del modelo. Tras el lanzamiento inicial y la implementación del sistema de notificaciones, las tasas de denuncias por abuso en EE. UU. se redujeron en más del 50 % por hora de conversación.

En 2025, añadimos más idiomas, ajustamos aún más el modelo y lanzamos la versión 2 del mismo. Para entrenar el último modelo, la versión 3, en 2026, utilizamos 250 000 horas de datos multilingües etiquetados automáticamente y 29 000 horas de datos multilingües etiquetados manualmente. Todos los modelos se evaluaron utilizando conjuntos de datos etiquetados manualmente.

La versión v3 del modelo de código abierto alcanza un 61 % de recuperación ponderada según la distribución lingüística del chat de voz de Roblox, con una tasa de falsos positivos del 1 %. Si se comparan únicamente los idiomas compatibles con la versión v2 del modelo, la v3 muestra una mejora relativa del 14 % en la recuperación ponderada según la prevalencia lingüística.

La seguridad de las comunicaciones de voz es demasiado importante como para abordarla de forma aislada. Hemos publicado nuestro clasificador de seguridad de voz como código abierto y nos hemos unido a ROOST como socio fundador porque creemos que compartir los avances en tecnología de seguridad fortalece a todo el sector. El modelo se ha descargado más de 70 000 veces en Hugging Face desde su primer lanzamiento, y cada actualización se ha basado en lo que hemos aprendido al ejecutar nuestros modelos internos a gran escala en toda nuestra comunidad. Seguimos perfeccionando nuestros sistemas de seguridad y esperamos poder compartir más novedades en el futuro.

Agradecimientos: Nos gustaría dar las gracias a Thomas Bui, Meghatrisa Chatterjee, Bridget Daly, Jason Golubock, Hannes Heikinheimo, Marek Kapolka, Cheryl Kwan, Markus Lang, Aashna Sharma, Hao-En Sung, Tingting Tang y Alex Trimm por su trabajo en este proyecto.

Últimas

Más resultados

Mejoramos nuestro clasificador de seguridad de voz con 22 nuevos idiomas y capacidades de detección más precisas

De la v1 a la v3 y más allá

Mejoramos nuestro clasificador de seguridad de voz con 22 nuevos idiomas y capacidades de detección más precisas

De la v1 a la v3 y más allá

Noticias

Fundadores pioneros en IA se unen para acelerar la visión de Roblox Reality

Ingeniería

CubePart: un generador 3D de vocabulario abierto y controlable por partes

Ingeniería

Presentamos la arquitectura híbrida de Roblox: democratizando los juegos multijugador fotorrealistas