Un modelo de lenguaje de última generación ayuda a proteger la generación ilimitada de texto en Roblox

Roblox Guard 1.0: mayor seguridad con medidas de protección sólidas

De Mahesh Nandwana, Adam McFarlin y Nishchaie Khanna

Publicado 22 jul 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

Hoy anunciamos Roblox Guard 1.0, un conjunto de herramientas de seguridad de código abierto para desarrolladores y plataformas.
La primera función de Roblox Guard, un modelo de barrera de seguridad de última generación (SOTA) para la seguridad de los modelos de lenguaje grande (LLM), ya está disponible y establece un nuevo estándar en los principales índices de referencia de seguridad.
También lanzamos Roblox Guard-Eval, un conjunto de datos para la evaluación comparativa de la seguridad.

El reto

Recientemente hemos lanzado una API de generación de texto que permite a los desarrolladores aprovechar el potencial de los modelos de lenguaje a gran escala (LLM) para crear experiencias más ricas y envolventes mediante la generación de texto dentro de sus experiencias. Por ejemplo, un desarrollador podría crear un NPC totalmente interactivo u ofrecer un tutorial interactivo sobre cómo jugar al juego.

Hemos moderado de forma proactiva la mayor parte del contenido de Roblox desde sus inicios, ya que trabajamos para mantener nuestros productos en consonancia con los altos estándares de seguridad y civismo de Roblox. Antes de lanzar la API de generación de texto, analizamos cómo garantizar la seguridad ante todo. Desarrollamos un nuevo modelo para ayudar a proteger tanto las entradas (solicitudes de los usuarios) como las salidas (texto generado por la API).

La innovación

La primera funcionalidad del kit de herramientas Roblox Guard 1.0 es un modelo de lenguaje grande (LLM) optimizado con instrucciones SOTA, diseñado para ayudar a proteger nuestra API de generación de texto. Realiza una clasificación de seguridad tanto a nivel de solicitud como de respuesta, determinando si cada entrada o salida incumple nuestras políticas. Esta evaluación de doble nivel es esencial para moderar tanto las consultas de los usuarios como los resultados generados por el propio modelo.

Nuestro LLM está superando actualmente a modelos de protección LLM populares como Llama Guard de Meta, ShieldGemma de Google AI, NVIDIA NeMo Guardrails, GPT-4o de OpenAI y otros en pruebas de rendimiento estándar. El LLM de Roblox Guard 1.0 también muestra una fuerte generalización en conjuntos de datos fuera de dominio con taxonomías no vistas. Hemos publicado en código abierto tanto los pesos del LLM para nuestra primera funcionalidad como nuestro conjunto de datos de evaluación Roblox Guard-Eval.

En el corazón de nuestro sistema se encuentra un LLM que ha sido ajustado a partir del modelo Llama-3.1-8B-Instruct. Entrenamos este LLM prestando especial atención al ajuste de instrucciones de alta calidad para optimizar el rendimiento en la evaluación de la seguridad. Un paso crucial en este proceso fue la selección cuidadosa de las indicaciones y respuestas para reflejar una amplia gama de escenarios de seguridad del mundo real.

Nuestro conjunto de instrucciones no utiliza datos propios, sino solo una combinación de datos sintéticos (generados por el LLM) y de código abierto, lo que nos permite escalar más fácilmente los datos de entrenamiento y aprovechar las leyes de escalabilidad, lo que convierte a este primer LLM de Roblox Guard en el mejor de su clase (SOTA). Al fusionar varios conjuntos de datos de código abierto y sintéticos, descubrimos que utilizar una taxonomía específica para cada conjunto de datos era el mejor enfoque para seleccionar las instrucciones, ya que la diversidad de tareas ayuda a los LLM a entrenarse con diferentes tipos de indicaciones. Esto dio como resultado un modelo robusto que puede generalizarse para diferentes taxonomías de seguridad. También incorporamos en el conjunto de instrucciones razonamientos de cadena de pensamiento, en los que se anima al modelo a articular su proceso de razonamiento. Estos pasos de razonamiento intermedios proporcionaron al modelo una base contextual más sólida.

Los resultados

Nuestro equipo de seguridad ha desarrollado un conjunto de datos de evaluación personalizado y de alta calidad que abarca la taxonomía de seguridad de contenidos de Roblox, con 25 subcategorías. Este conjunto de datos de evaluación se ha creado mediante un proceso interno de «red teaming», en el que probamos el sistema simulando ataques adversarios para detectar vulnerabilidades, y no contiene datos generados por los usuarios ni datos personales. Este conjunto de datos de evaluación contiene pares de indicaciones y respuestas, con las respuestas etiquetadas manualmente por un grupo de expertos en políticas para garantizar su calidad. Abarca un amplio espectro de tipos de infracciones, lo que nos ayuda a crear etiquetas más precisas y significativas para la evaluación. El conjunto de evaluación final incluye 2.873 ejemplos. Hemos publicado este conjunto de datos de evaluación como código abierto, el cual cuenta con una taxonomía de seguridad extensible para ayudar a evaluar los sistemas de moderación y las barreras de seguridad de los modelos de lenguaje grandes (LLM).

Comparamos nuestros modelos con un conjunto exhaustivo de conjuntos de datos de código abierto, tanto para las indicaciones como para las respuestas, así como con Roblox Guard-Eval. Esto nos permite evaluar nuestro modelo tanto en conjuntos de datos dentro del dominio como fuera de él. Presentamos nuestros resultados en términos de puntuación F-1 para la clasificación binaria de «infracción»/«sin infracción». En la tabla anterior, comparamos nuestro rendimiento con el de varios modelos conocidos. Esta primera versión de Roblox Guard supera a otros modelos al generalizar en conjuntos de datos fuera del dominio.

Mejoramos continuamente nuestros sistemas de seguridad, incluidas nuestras herramientas de Roblox Guard 1.0, y tenemos previsto lanzar capacidades adicionales en un futuro próximo. Por favor, consulte nuestras páginas en HuggingFace y GitHub para conocer futuras actualizaciones y mejoras, así como futuros lanzamientos de código abierto.

Últimas

Más resultados

Un modelo de lenguaje de última generación ayuda a proteger la generación ilimitada de texto en Roblox

El reto

La innovación

Los resultados

Un modelo de lenguaje de última generación ayuda a proteger la generación ilimitada de texto en Roblox

El reto

La innovación

Los resultados

Ingeniería

Mejoramos nuestro clasificador de seguridad de voz con 22 nuevos idiomas y capacidades de detección más precisas

Noticias

Fundadores pioneros en IA se unen para acelerar la visión de Roblox Reality

Ingeniería

CubePart: un generador 3D de vocabulario abierto y controlable por partes