Uso de OpenGameEval para evaluar asistentes de inteligencia artificial para Roblox Studio

Primer marco de evaluación y referencia nativos de Roblox Studio para evaluar el rendimiento de los asistentes de IA

De Tiantian Zhang, Kartik Ayyar, Mengsha Sun y Lynn Gong

Publicado 17 dic 2025

El reto

Los creadores aprovechan el Asistente de IA de Roblox Studio para acelerar el desarrollo de experiencias en Roblox, pero evaluar el rendimiento del Asistente de IA y de sus modelos de lenguaje a gran escala (LLM) subyacentes en tareas de desarrollo interactivo sigue siendo un reto. Mientras que los benchmarks tradicionales de codificación y agentes se centran en tareas aisladas y sin estado, los flujos de trabajo de desarrollo de Roblox exigen métodos de evaluación diseñados específicamente para medir el rendimiento en tareas como el razonamiento a través de jerarquías 3D, la gestión de interacciones cliente-servidor multijugador y la realización de cambios en un mundo con estado.

Para abordar este reto, presentamos OpenGameEval, un marco de evaluación de código abierto y un conjunto de datos de referencia nativo que evalúa el rendimiento del asistente de IA basado en LLM en un entorno reproducible de Roblox Studio. Esperamos que OpenGameEval, junto con su clasificación pública, ofrezca un campo de pruebas único para que la comunidad de investigación en IA en general evalúe las capacidades fundamentales de los modelos relacionadas con el uso de herramientas, el razonamiento agencial y la resolución de tareas a largo plazo.

La tabla de clasificación de OpenGameEval’proporciona una instantánea actual de la eficacia de los modelos para el desarrollo de Roblox.

La solución

El marco de evaluación OpenGameEval está diseñado para replicar el entorno de desarrollo de Roblox. Cada evaluación se ejecuta en un entorno que simula el comportamiento durante la edición y el juego en Roblox Studio. Esto garantiza que el comportamiento observado, como la física, las redes y la interacción multijugador, sea idéntico al que experimentaría un creador o un jugador.

El marco incorpora simulación de entradas, lo que nos permite imitar mediante programación las complejas interacciones de los jugadores necesarias para evaluar tareas de desarrollo que requieren acciones del usuario (por ejemplo, clics en botones, entradas de teclado y manipulación de la cámara).

Toda la arquitectura de evaluación está encapsulada tras una API unificada y fácil de usar. Esta abstracción permite a los socios de investigación comparar diversos sistemas agenticos basados en LLM que realizan tareas de referencia idénticas sin modificar el entorno subyacente.

undefined

El conjunto de datos de referencia OpenGameEval

El conjunto de datos de referencia OpenGameEval es un conjunto de código abierto, seleccionado manualmente, de 47 casos de prueba construido sobre este marco mediante un proceso riguroso, iterativo y totalmente verificado por humanos. Recopilamos indicaciones de expertos en la materia, creamos entornos de experiencia Roblox a medida para proporcionar el contexto necesario a los modelos de IA, creamos manualmente evaluaciones y soluciones autorizadas, y sometemos todos los escenarios a una revisión humana exhaustiva para garantizar la exhaustividad, la generalizabilidad y la estabilidad.

La versión inicial contiene escenarios derivados de tareas comunes de desarrollo en Roblox, incluyendo mecánicas de juego, construcción de entornos, animación de personajes, diseño de interfaces y diseño de sonido. El conjunto de datos de referencia OpenGameEval utiliza pruebas unitarias ejecutables, alineando su metodología de puntuación con métricas estándar del sector como pass@k, cons@k y all@k para cuantificar el rendimiento de un modelo en el conjunto de datos. Los socios de investigación pueden replicar estas métricas por su cuenta tras recopilar los resultados de evaluación de las ejecuciones de OpenGameEval.

A diferencia de los típicos retos de codificación a nivel de funciones, OpenGameEval permite realizar pruebas de extremo a extremo de los componentes principales. Un modelo exitoso debe dominar varias habilidades distintas, como navegar por la jerarquía de instancias, analizar el estado de los objetos y deducir la intención del usuario a partir del contexto del entorno.

Tareas de varios pasos y variación contextual

Las tareas de programación de Roblox suelen requerir múltiples pasos para navegar por el contexto existente en una experiencia e investigar múltiples scripts e instancias entrelazados para lograr el resultado deseado. En el ejemplo siguiente, OpenGameEval verifica múltiples factores dentro de un entorno de pruebas que representa un entorno de instancia de juego real para garantizar que un modelo pueda tener en cuenta adecuadamente múltiples scripts relacionados, la interacción cliente/servidor y la intención original de la solicitud.

Solicitud del usuario:

Implementa un sistema de regeneración de salud que comience dos segundos después de recibir daño y regenere 10 puntos de salud por segundo.

Contexto del archivo de ubicación:

Una experiencia de laser tag con armas, equipos y mecanismos de juego básicos ya configurados.

Pasos de razonamiento esperados:

Contextualizar: Explora la experiencia con diferentes herramientas de búsqueda, lo que a menudo requiere varios pasos de búsqueda ajustando los ámbitos:
1. Identificar los scripts existentes sobre el daño y la salud del jugador, y comprender la lógica.
2. Determinar la mejor ubicación para añadir el script de regeneración de salud (p. ej., ¿en el servidor o en el cliente? ¿Como una sección del script principal del juego o como un script de jugador independiente?).
Implementación: Escribir código Luau utilizando las API adecuadas para manipular la salud del jugador. El script debe:
1. Captar el momento adecuado en el que se necesita la regeneración y cómo debe producirse esta.
2. Ser generalizable a todos los daños, sin limitarse a un script de daño concreto.

Evaluación verificable:

La prueba ejecutable (ejecutada en la instancia del juego en entorno aislado) desencadena un evento de daño al jugador de prueba y verifica:

La regeneración de salud se gestiona correctamente en el servidor y se hace visible en el cliente.
La regeneración no comienza antes del retraso de dos segundos.
La salud se regenera a un ritmo de 10 puntos de salud por segundo.

undefined

Para probar de forma eficaz la solidez y la comprensión contextual de un modelo de IA, las tareas se presentan en diversas condiciones ambientales. Por ejemplo, la tarea «programar un semáforo de cuatro vías» incluye tres variaciones contextuales basadas en el estado inicial del entorno de desarrollo.

Solicitud del usuario:

Escríbeme un script para un semáforo simple de cuatro vías.

Variación 1:

Un archivo de ubicación vacío que contiene solo una placa base. Hay disponible un modelo de semáforo llamado TrafficLight sin script.

El modelo debe explorar diferentes partes dentro del modelo TrafficLight y encontrar una forma de alternar el estado de encendido/apagado.

Variante 2:

Un archivo de ubicación con una configuración suburbana. Hay varios modelos de semáforos llamados Traffic Signal disponibles sin scripts.

El modelo debe buscar primero en la experiencia para identificar correctamente los semáforos entre otras instancias. Los modelos de semáforos están estructurados con una lógica diferente a la de la variante 1, y el modelo debe implementar una solución específica para esta experiencia.

Variación 3:

Un archivo de lugar con una configuración suburbana. Hay disponibles varios modelos de semáforos y señales peatonales. Aunque se han eliminado los scripts de los semáforos, los de las señales peatonales permanecen.

El modelo debe identificar la diferencia entre semáforos y señales peatonales y realizar cambios en los objetos correctos. ¿La existencia de señales peatonales confunde al modelo o le ayuda?

undefined — *Semáforo en una placa base.*

Nos interesa comprender el comportamiento de los modelos en tareas aparentemente similares en diferentes entornos con distintos niveles de contexto y complejidad.

Resultados preliminares

El benchmark OpenGameEval ofrece datos empíricos para diagnosticar el estado actual de los asistentes de IA en el desarrollo interactivo. Los casos de prueba están diseñados para diferenciar entre las capacidades en operaciones atómicas y en operaciones que requieren razonamiento contextual de varios pasos.

Nuestras pruebas iniciales revelaron que los modelos suelen destacar en operaciones atómicas, pero tienen dificultades con el razonamiento contextual. Alcanzan las tasas de éxito más altas en tareas que requieren la manipulación de una sola instancia directa, como configurar un emisor de partículas o modificar la potencia de salto de un jugador. Los modelos líderes muestran un éxito casi perfecto, lo que demuestra su competencia en la generación sintáctica de código y el conocimiento básico de las API.

En marcado contraste, persiste una brecha sustancial en tareas que exigen acción coordinada, filtrado contextual y una profunda integración de la API. Ejemplos como el sistema de regeneración de salud y el semáforo de cuatro vías, mencionados anteriormente, siguen arrojando puntuaciones pass@k muy bajas en todos los modelos.

Rápida evolución

A medida que los modelos siguen evolucionando, esperamos que estas brechas se cierren, pero ya hemos visto avances interesantes. En una tarea de evaluación que pide a un modelo que «cambie el logotipo de Roblox, que es como un cubo, a verde», inicialmente vimos que los modelos fallaban de forma generalizada porque el nombre del objeto objetivo no contenía explícitamente la palabra «logotipo» ni «Roblox».

undefined

Evaluaciones más recientes muestran que algunos modelos ahora resuelven con éxito este caso yendo más allá de la simple coincidencia de palabras clave para pasar al razonamiento estructural, utilizando una inspección detallada de las instancias (incluidas las propiedades, no solo el nombre) y la inferencia coordinada para identificar el objeto más probable que represente el «logotipo de Roblox».

¿Qué viene ahora?

Estamos comprometidos con la expansión y el mantenimiento continuos de OpenGameEval para seguir los rápidos avances en el campo de la IA. El marco y el conjunto de datos de referencia actuales de OpenGameEval son solo la base. Nuestra hoja de ruta estratégica se centra en tres objetivos principales para garantizar que la plataforma siga siendo el estándar para la evaluación del asistente de IA agéntico de Roblox Studio:

Empoderar a los creadores a través de la transparencia del rendimiento: Actualizaremos periódicamente la tabla de clasificación y el conjunto de datos de referencia, al tiempo que ofreceremos resúmenes claros y transparentes que ayuden a los creadores a comparar modelos y comprender el rendimiento en la generación de código, la inserción de activos y la coordinación de herramientas.
Acelerar la investigación y el desarrollo: Mantendremos y ampliaremos el adaptador de API para estandarizar la evaluación, lo que permitirá a los socios de investigación ejecutar pruebas de rendimiento rápidas, fluidas y reproducibles para desarrollar asistentes de IA de última generación.
Adoptar un enfoque impulsado por la comunidad: Seguiremos integrando las intenciones reales de los creadores y solicitando activamente las contribuciones de la comunidad para garantizar que el conjunto de datos de referencia siga siendo representativo del desarrollo de vanguardia de Roblox y de las capacidades de IA en constante avance.

En conjunto, el marco, el conjunto de datos y la tabla de clasificación pública convierten a OpenGameEval en una base transparente y colaborativa para evaluar la creación impulsada por IA en el desarrollo de Roblox, lo que ayuda a toda la comunidad de creadores a medir el progreso, compartir conocimientos y crear mejores asistentes.

Agradecimientos: El proyecto OpenGameEval es el resultado de un importante esfuerzo de colaboración entre los equipos de Roblox. Un agradecimiento especial a Vlad Shcherban, Sean Dunigan, y Jack Lu, que ayudó a crear el arnés de evaluación, y Isabella Ting y Brent Vincent, cuyas ideas han sido fundamentales para dar forma a esta publicación. Estamos profundamente agradecidos a nuestros equipos asociados y a los antiguos miembros de nuestros equipos, ya que este trabajo refleja su experiencia y compromiso colectivos.

Empresarios de la Comisión Europea

Latest

More results

Uso de OpenGameEval para evaluar asistentes de inteligencia artificial para Roblox Studio

El reto

La solución

El conjunto de datos de referencia OpenGameEval

Tareas de varios pasos y variación contextual

Resultados preliminares

Rápida evolución

¿Qué viene ahora?

Uso de OpenGameEval para evaluar asistentes de inteligencia artificial para Roblox Studio

El reto

La solución

El conjunto de datos de referencia OpenGameEval

Tareas de varios pasos y variación contextual

Resultados preliminares

Rápida evolución

¿Qué viene ahora?

Producto

Acelerando la creación, impulsada por el modelo fundacional Cube de Roblox

Ingeniería

Presentamos SLIM: Modelos interactivos ligeros y escalables

Seguridad y civilidad

Abrimos el acceso al código para Roblox PII Classifier: nuestro enfoque para la detección de PII mediante IA en el chat