Un modelo de lenguaje de última generación ayuda a proteger la generación ilimitada de texto en Roblox
Roblox Guard 1.0: mayor seguridad con medidas de protección sólidas

- Hoy anunciamos Roblox Guard 1.0, un conjunto de herramientas de seguridad de código abierto para desarrolladores y plataformas.
- La primera función de Roblox Guard, un modelo de barrera de seguridad de última generación (SOTA) para la seguridad de los modelos de lenguaje grande (LLM), ya está disponible y establece un nuevo estándar en los principales índices de referencia de seguridad.
- También lanzamos Roblox Guard-Eval, un conjunto de datos para la evaluación comparativa de la seguridad.
El reto
Recientemente hemos lanzado una API de generación de texto que permite a los desarrolladores aprovechar el potencial de los modelos de lenguaje a gran escala (LLM) para crear experiencias más ricas y envolventes mediante la generación de texto dentro de sus experiencias. Por ejemplo, un desarrollador podría crear un NPC totalmente interactivo u ofrecer un tutorial interactivo sobre cómo jugar al juego.
Hemos moderado de forma proactiva la mayor parte del contenido de Roblox desde sus inicios, ya que trabajamos para mantener nuestros productos en consonancia con los altos estándares de seguridad y civismo de Roblox. Antes de lanzar la API de generación de texto, analizamos cómo garantizar la seguridad ante todo. Desarrollamos un nuevo modelo para ayudar a proteger tanto las entradas (solicitudes de los usuarios) como las salidas (texto generado por la API).
La innovación
La primera funcionalidad del kit de herramientas Roblox Guard 1.0 es un modelo de lenguaje grande (LLM) optimizado con instrucciones SOTA, diseñado para ayudar a proteger nuestra API de generación de texto. Realiza una clasificación de seguridad tanto a nivel de solicitud como de respuesta, determinando si cada entrada o salida incumple nuestras políticas. Esta evaluación de doble nivel es esencial para moderar tanto las consultas de los usuarios como los resultados generados por el propio modelo.
Nuestro LLM está superando actualmente a modelos de protección LLM populares como Llama Guard de Meta, ShieldGemma de Google AI, NVIDIA NeMo Guardrails, GPT-4o de OpenAI y otros en pruebas de rendimiento estándar. El LLM de Roblox Guard 1.0 también muestra una fuerte generalización en conjuntos de datos fuera de dominio con taxonomías no vistas. Hemos publicado en código abierto tanto los pesos del LLM para nuestra primera funcionalidad como nuestro conjunto de datos de evaluación Roblox Guard-Eval.
En el corazón de nuestro sistema se encuentra un LLM que ha sido ajustado a partir del modelo Llama-3.1-8B-Instruct. Entrenamos este LLM prestando especial atención al ajuste de instrucciones de alta calidad para optimizar el rendimiento en la evaluación de la seguridad. Un paso crucial en este proceso fue la selección cuidadosa de las indicaciones y respuestas para reflejar una amplia gama de escenarios de seguridad del mundo real.
Nuestro conjunto de instrucciones no utiliza datos propios, sino solo una combinación de datos sintéticos (generados por el LLM) y de código abierto, lo que nos permite escalar más fácilmente los datos de entrenamiento y aprovechar las leyes de escalabilidad, lo que convierte a este primer LLM de Roblox Guard en el mejor de su clase (SOTA). Al fusionar varios conjuntos de datos de código abierto y sintéticos, descubrimos que utilizar una taxonomía específica para cada conjunto de datos era el mejor enfoque para seleccionar las instrucciones, ya que la diversidad de tareas ayuda a los LLM a entrenarse con diferentes tipos de indicaciones. Esto dio como resultado un modelo robusto que puede generalizarse para diferentes taxonomías de seguridad. También incorporamos en el conjunto de instrucciones razonamientos de cadena de pensamiento, en los que se anima al modelo a articular su proceso de razonamiento. Estos pasos de razonamiento intermedios proporcionaron al modelo una base contextual más sólida.
Los resultados

Comparamos nuestros modelos con un conjunto exhaustivo de conjuntos de datos de código abierto, tanto para las indicaciones como para las respuestas, así como con Roblox Guard-Eval. Esto nos permite evaluar nuestro modelo tanto en conjuntos de datos dentro del dominio como fuera de él. Presentamos nuestros resultados en términos de puntuación F-1 para la clasificación binaria de «infracción»/«sin infracción». En la tabla anterior, comparamos nuestro rendimiento con el de varios modelos conocidos. Esta primera versión de Roblox Guard supera a otros modelos al generalizar en conjuntos de datos fuera del dominio.
Mejoramos continuamente nuestros sistemas de seguridad, incluidas nuestras herramientas de Roblox Guard 1.0, y tenemos previsto lanzar capacidades adicionales en un futuro próximo. Por favor, consulte nuestras páginas en HuggingFace y GitHub para conocer futuras actualizaciones y mejoras, así como futuros lanzamientos de código abierto.


