Cómo utiliza Roblox la IA para moderar contenidos a gran escala
Moderación de miles de millones de contenidos al día en 25 idiomas, en tiempo real

- Para moderar de forma proactiva el contenido publicado en Roblox, llevamos aproximadamente cinco años desarrollando sistemas escalables que aprovechan la inteligencia artificial.
- Hoy en día, nuestra infraestructura, los modelos de aprendizaje automático y miles de expertos humanos trabajan juntos para ayudar a que Roblox sea un lugar más seguro y respetuoso para nuestros usuarios.
- Desarrollamos todos estos sistemas pensando en la escalabilidad, la velocidad y la mejora continua con datos de alta calidad.
La seguridad es fundamental en todo lo que hacemos en Roblox. Desde el principio, hemos moderado el contenido de forma proactiva porque sabíamos que la moderación era fundamental para una plataforma basada en contenido generado por los usuarios. Cuando Roblox era mucho más pequeño, esta tarea la realizaban revisores humanos, incluido nuestro fundador y director ejecutivo, que dedicó tiempo a moderar el contenido al principio. Con el tiempo, la plataforma creció (tanto en escala como en velocidad) más allá de la capacidad de los moderadores humanos. Al lanzar cualquier producto nuevo, la seguridad es siempre el primer elemento que tenemos en cuenta.
Una media de 97,8 millones de usuarios activos diarios1 visitan Roblox para jugar, comunicarse y crear. Cada día, los usuarios envían una media de 6.100 millones de mensajes de chat y realizan 1,1 millones de horas de comunicación de voz en 28 idiomas diferentes. Los creadores suben millones de recursos al día, y se añaden miles de artículos más a nuestro mercado de avatares. La gran mayoría de estos miles de millones de creaciones y mensajes son respetuosos. Al igual que en el mundo real, es la forma en que la mayoría de la gente se comunica entre sí. Pero cuando no es así, nuestro sistema de filtrado de texto ayuda a bloquear el contenido problemático antes de que llegue a los usuarios, y las infracciones de voz se evalúan en tiempo real. Y en caso de que recibamos una notificación de contenido ilegal, nuestro tiempo medio de respuesta es de diez minutos.
Moderar de forma constante este volumen de contenido en milisegundos es una tarea que los humanos no pueden gestionar solos, independientemente de cuántos seamos. Trabajar a esta escala y velocidad requeriría cientos de miles de moderadores humanos trabajando las 24 horas del día, los 7 días de la semana, sin contar fines de semana ni vacaciones, y eso solo para moderar los mensajes de chat. Necesitaríamos miles más para moderar todos los demás tipos de contenido en Roblox. El volumen de contenido que se produce a diario en Roblox exige una infraestructura escalable, modelos de aprendizaje automático (ML) y herramientas diseñadas específicamente para este fin.
El ML puede tomar estas decisiones en milisegundos, de forma repetida, coherente y las 24 horas del día. Seguimos necesitando y empleando a personas para abordar casos menos comunes en los que se requiere un juicio humano más matizado y profundo, dependiendo del contexto. Combinamos herramientas de seguridad y moderación robustas e innovadoras con miles de expertos humanos de todo el mundo que supervisan y forman continuamente a nuestros sistemas para hacer frente a retos nuevos y cambiantes. Todos los sistemas de moderación de Roblox se basan en los siguientes principios:
- Moderamos de forma proactiva el contenido en Roblox.
- Proporcionamos comentarios en tiempo real a los usuarios siempre que es posible, ya que a menudo la gente no conoce las normas.
- Implementamos la IA solo cuando su rendimiento es significativamente superior al de los humanos, tanto en precisión como en recuperación, a gran escala.
- Recurrimos a personas para mejorar continuamente la IA, en casos excepcionales y de evolución, en investigaciones complejas y en apelaciones.
Para moderar de manera eficiente el creciente volumen de contenido producido en Roblox, innovamos constantemente en tres dimensiones: escala, velocidad y calidad, lo que requiere una mejora continua.
Escala: moderación de miles de millones de contenidos al día
Entre febrero y diciembre de 20241, los usuarios subieron aproximadamente un billón de contenidos. Solo el 0,01 % de esos miles de millones de chats de texto, archivos de audio, grabaciones de voz e imágenes se detectaron como infractores de alguna de nuestras políticas. Y casi todo el contenido que infringía nuestras políticas fue filtrado y eliminado automáticamente antes de que los usuarios pudieran verlo. Aunque esta escala es relativamente nueva, nuestro compromiso con la moderación no lo es. Hace más de una década, creamos un filtro de texto basado en reglas. Hace aproximadamente cinco años, implementamos lo que entonces era un filtro de texto de última generación basado en transformadores. Hoy en día, nuestros filtros de texto procesan una media de 6100 millones de mensajes de chat al día, gracias a numerosos modelos diseñados específicamente para diferentes tipos de infracciones de las políticas.
Uno de estos modelos es nuestro filtro de información de identificación personal (PII) para el chat del juego y de la plataforma. Los usuarios que solicitan PII a otros pueden estar dando el primer paso hacia problemas más graves, por lo que siempre hemos adoptado una postura firme para evitar el intercambio de PII. Cada mensaje de chat enviado es una «solicitud» que pide al sistema que revise y determine si se menciona alguna PII. Este modelo de filtro de texto gestionaba tantas solicitudes por segundo (RPS) que se estaba volviendo difícil de soportar en nuestra pila de servidores basada en CPU existente. Por eso, creamos una pila de servidores completamente nueva basada en GPU, aprovechando nuestra infraestructura de telefonía móvil. Para hacer frente a estas altas demandas de RPS, primero separamos la tokenización de la inferencia y, a continuación, aceleramos la inferencia mediante la cuantificación y la destilación de modelos más grandes. En conjunto, estas mejoras cuadruplicaron nuestro RPS.
En la nueva pila, el filtro de PII gestiona ahora 370 000 RPS en horas punta. Nuestro filtro de PII mejorado ha reducido los falsos positivos en un 30 %, lo que ha dado lugar a un aumento del 25 % en las menciones de PII detectadas automáticamente por el sistema en todos los idiomas admitidos. Ya estamos trabajando para implementar esta mejora en varios idiomas más y para aplicar mejoras similares a otros filtros de texto y superficies. Aunque estamos orgullosos de estas mejoras, sabemos que los métodos utilizados para compartir PII están en constante evolución y estamos adaptando nuestros sistemas a estos cambios.
Todo nuestro sistema de moderación se sustenta en grandes modelos basados en transformadores, con conocimientos en diversas modalidades. Dependiendo de los requisitos operativos y de producción, destilamos y cuantificamos estos modelos para mantener el sistema rápido y eficiente. Estas técnicas son esenciales para ejecutar una variedad de modelos multimodales; los que gestionan nuestros filtros de texto ahora procesan de manera eficiente más de 750 000 RPS.

Velocidad: cómo cambiar el comportamiento de los usuarios con comentarios en tiempo real
La comunicación natural en tiempo real requiere un filtrado casi inmediato para mantener el flujo de la conversación. La iteración y la colaboración en torno a ideas requieren una retroalimentación rápida para mantener el flujo de la creatividad. Nuestro sistema de defensa multicapa incluye medidas proactivas como notificaciones de advertencia, tiempos de espera y suspensiones. Al filtrar el texto, podemos reaccionar en tiempo real para bloquear en milisegundos términos que infringen las políticas, como la información de identificación personal (PII), las blasfemias y el discurso de odio, evitando así que los usuarios se vean expuestos a contenido inapropiado.
Las comunicaciones de voz no se pueden bloquear de la misma manera, por lo que educamos a los usuarios mediante notificaciones en pantalla. Nuestras notificaciones de advertencia han cambiado de forma efectiva el comportamiento de los usuarios y han aumentado tanto la cortesía como la participación. Nuestro clasificador de seguridad de voz modera el chat en 15 segundos en ocho idiomas. También hemos convertido este modelo en código abierto como parte de nuestro compromiso más amplio de compartir innovaciones en materia de seguridad con el sector.

Si un usuario sigue infringiendo nuestras políticas, las consecuencias se vuelven cada vez más severas, y van desde una breve advertencia hasta la pérdida del acceso al chat de voz. Las investigaciones internas han demostrado que las suspensiones tienen un impacto de hasta tres semanas después, lo que reduce las tasas de reincidencia y el número de denuncias presentadas por los usuarios. Los primeros experimentos han demostrado que este tipo de intervenciones y consecuencias inmediatas tienen un efecto positivo en el comportamiento civilizado. La última versión de nuestro clasificador de voz tiene una tasa de recuperación un 92 % superior a la de nuestra versión inicial, con una tasa de falsos positivos del 1 %, y gestiona, en momentos de máxima actividad, hasta 8300 RPS. Seguimos explorando nuevas formas de mejorar tanto la precisión como la recuperación.
Basándonos en el éxito que hemos observado con las notificaciones en el chat de voz, también hemos comenzado a implementar comentarios en tiempo real para el chat de texto. En experimentos recientes, descubrimos que enviar notificaciones y tiempos de espera en el chat de texto durante la experiencia dio lugar a una reducción del 5 % en los mensajes de chat filtrados y a una reducción del 6 % en las consecuencias derivadas de las denuncias por abuso. También estamos comenzando a experimentar con comentarios en tiempo real para los creadores cuando suben sus creaciones.
Calidad de los datos: modelos de formación para la mejora continua
Entrenamos estos sistemas para optimizar la reducción de falsos negativos, pecando por exceso de precaución al eliminar cualquier contenido que pudiera suponer una infracción de las políticas. También sabemos que resulta frustrante para los usuarios que se elimine algo que ellos consideran que cumple con las normas. Por eso, mejoramos continuamente nuestros sistemas para minimizar también los falsos positivos. Disponer de datos correctamente etiquetados es esencial para mejorar la precisión de todos nuestros clasificadores.
Crear conjuntos de datos sólidos para el entrenamiento y la evaluación requiere tanto ejemplos suficientes de alta calidad como expertos humanos que los etiqueten con precisión. Hay casos en los que no disponemos de datos suficientes porque se trata de un escenario poco común o un caso extremo. A veces tenemos demasiados datos y necesitamos identificar los ejemplos más efectivos. Y necesitamos datos que se ajusten a lo que realmente ocurre en Roblox. Eso incluye ejemplos efímeros, como la jerga o los memes. Nuestro público, compuesto por niños, adolescentes y jugadores, nos presenta constantemente nuevos términos de jerga, nuevas tendencias y nuevas formas de eludir nuestras herramientas de moderación. Nos mantienen alerta, por lo que probamos y evaluamos continuamente tanto nuestras herramientas de moderación como nuestras políticas.
Utilizamos diversas estrategias de muestreo para seleccionar estos conjuntos de datos, y recurrimos tanto a la IA como a expertos humanos para generar y etiquetar estos ejemplos de datos. Nuestros expertos en políticas seleccionan manualmente los ejemplos, a los que llamamos el «conjunto de oro». Se trata de ejemplos que se ajustan más fielmente a los problemas que queremos que el sistema detecte. Tomamos muestras de conjuntos de datos muy grandes con varias estrategias de muestreo, incluido el muestreo de incertidumbre, en el que tomamos muestras de casos extremos en los que el modelo se había confundido anteriormente. Obtenemos muestras de expertos humanos y de equipos rojos asistidos por IA (más información sobre los AART), que prueban el sistema simulando ataques adversarios para detectar puntos débiles.
También ampliamos y mejoramos nuestros conjuntos de entrenamiento a medida que detectamos nuevos problemas, jerga, memes, etc. Obtenemos algunos de estos ejemplos a través de nuestro proceso de apelaciones, en el que los usuarios pueden solicitar una revisión adicional. Si se revoca la decisión, ese ejemplo pasa a formar parte de nuestro conjunto de datos para ayudar a nuestro sistema a acertar la próxima vez.
Otros los obtenemos de nuestro sólido sistema de denuncia de abusos, que amplía de forma efectiva nuestro equipo de moderadores humanos para incluir a decenas de millones de usuarios a quienes les importan estas experiencias y la comunidad. Recientemente hemos mejorado nuestra herramienta de denuncia para que los usuarios tengan la opción de capturar una escena completa, incluyendo los ID de avatares y objetos, y resaltar la parte que desean denunciar. Hemos observado una gran aceptación por parte de los usuarios, ya que aproximadamente el 15 % de las denuncias admisibles incluyen anotaciones visuales. Este contexto adicional nos ayuda a identificar de forma proactiva las experiencias problemáticas sobre las que los usuarios suelen expresar su preocupación. Dado que el entrenamiento de los modelos no es instantáneo, también estamos explorando la posibilidad de crear automáticamente reglas basadas en IA a partir de las denuncias de los usuarios para aumentar nuestra capacidad de respuesta.

Complementamos estos conjuntos de datos con datos sintéticos, en los que los modelos de lenguaje a gran escala (LLM) generan ejemplos de datos artificiales y etiquetas que emulan ejemplos del mundo real. La ventaja aquí es la capacidad de generar millones de ejemplos y etiquetas, incluso para casos poco frecuentes o extremos. Una vez que contamos con suficientes datos etiquetados, los dividimos en dos conjuntos de datos: uno para el entrenamiento y otro para la evaluación. Contar con un conjunto de datos de evaluación sólido es fundamental: si un conjunto de evaluación es demasiado fácil, las métricas del modelo parecerán indicar que funciona bien, pero fallará en producción. La precisión de los datos es más importante que el volumen. «Si entran datos erróneos, salen datos erróneos» es una preocupación real en el aprendizaje automático, ya que el rendimiento del modelo depende en gran medida de la precisión de los datos utilizados para entrenarlo y evaluarlo.
Una vez que contamos con un conjunto de datos de evaluación sólido, lo evaluamos basándonos en dos métricas clave: la alineación y la calidad. Para comprobar la alineación, se envían los mismos ejemplos a varias personas para que los etiqueten y se comprueba si sus etiquetas coinciden (o están alineadas). Si la alineación entre sus etiquetas es del 80 % o superior, eso significa que nuestros moderadores pueden tomar decisiones coherentes a gran escala. Si es inferior al 80 %, es posible que la política o el entrenamiento sean confusos, y debemos iterar. Para comprobar la calidad, enviamos el conjunto de referencia a personas para que evalúen si incumple la política o no y nos aseguramos de que toman la decisión correcta. También tomamos una muestra de decisiones para que las revisen expertos. Si todos llegan a la decisión correcta, entonces nuestra política puede aplicarse correctamente. Una alta alineación y una alta calidad indican que nuestra política puede aplicarse de forma correcta y coherente. Si no es así, volvemos atrás y evaluamos tanto la política como el conjunto de entrenamiento.
La naturaleza creativa de una plataforma como Roblox, donde los usuarios son libres de crear y comunicar casi cualquier cosa, implica que está en constante evolución. Nuestros métodos de moderación deben evolucionar con la misma rapidez para mantener nuestra comunidad segura y respetuosa. Nuestros sistemas de aprendizaje activo actualizan continuamente los modelos a medida que evoluciona el lenguaje, cambian los patrones de los usuarios y ocurren acontecimientos en el mundo real. Estamos creando continuamente sistemas que son escalables, rápidos, precisos y que se adaptan de forma coherente al mundo dinámico en el que todos vivimos.
1A partir del primer trimestre de 2025.
2Abarca el periodo de referencia comprendido entre el 17 de febrero de 2024 y el 31 de diciembre de 2024.


