Usando o OpenGameEval para avaliar assistentes de IA agêntica para o Roblox Studio
A primeira estrutura de avaliação e referência nativa do Roblox Studio para avaliar o desempenho do assistente de IA
O Desafio
Os criadores utilizam o Assistente de IA do Roblox Studio para acelerar o desenvolvimento de experiências no Roblox, mas avaliar o desempenho do Assistente de IA e de seus modelos de linguagem de grande escala (LLMs) em tarefas de desenvolvimento interativo continua sendo um desafio. Enquanto os benchmarks tradicionais de codificação e agentes se concentram em tarefas isoladas e sem estado, os fluxos de trabalho de desenvolvimento do Roblox exigem métodos de avaliação específicos que meçam o desempenho em tarefas como raciocínio em hierarquias 3D, gerenciamento de interações cliente-servidor multijogador e realização de alterações em um mundo com estado.
Para enfrentar esse desafio, estamos lançando o OpenGameEval, uma estrutura de avaliação de código aberto e um conjunto de dados de benchmark nativo que avalia o desempenho do Assistente de IA baseado em LLM em um ambiente reproduzível do Roblox Studio. Esperamos que o OpenGameEval, juntamente com seu ranking público, ofereça um campo de testes exclusivo para a comunidade de pesquisa em IA em geral avaliar os principais recursos do modelo relacionados ao uso de ferramentas, raciocínio agênico e resolução de tarefas de longo prazo.
A tabela de classificação do OpenGameEval&rsquo fornece um instantâneo atual da eficácia do modelo para o desenvolvimento do Roblox.
A Solução
A estrutura de avaliação OpenGameEval foi projetada para replicar o ambiente de desenvolvimento do Roblox. Cada avaliação é executada em um ambiente que simula o comportamento durante a edição e o tempo de jogo no Roblox Studio. Isso garante que o comportamento observado, como física, rede e interação multijogador, seja idêntico ao que um criador ou jogador experimentaria.
A estrutura incorpora simulação de entradas, permitindo-nos imitar programaticamente as interações complexas dos jogadores necessárias para avaliar tarefas de desenvolvimento que exigem ações do usuário (por exemplo, cliques em botões, entradas de teclado e manipulação da câmera).
Toda a arquitetura de avaliação está encapsulada por uma API unificada e fácil de usar. Essa abstração permite que parceiros de pesquisa comparem diversos sistemas agentais baseados em LLM realizando tarefas de benchmark idênticas sem modificar o ambiente subjacente.
O Conjunto de Dados de Benchmark OpenGameEval
O conjunto de dados de benchmark OpenGameEval é um conjunto de código aberto, selecionado manualmente, com 47 casos de teste construídos sobre essa estrutura por meio de um processo rigoroso, iterativo e totalmente verificado por humanos. Coletamos prompts de especialistas na área, construímos ambientes de experiência Roblox personalizados para fornecer o contexto necessário aos modelos de IA, criamos manualmente avaliações e soluções oficiais e submetemos todos os cenários a uma extensa revisão humana para garantir abrangência, generalização e estabilidade.
A versão inicial contém cenários derivados de tarefas comuns de desenvolvimento no Roblox, incluindo mecânica de jogo, construção de ambiente, animação de personagens, design de interface e design de som. O benchmark OpenGameEval utiliza testes unitários executáveis, alinhando sua metodologia de pontuação com métricas padrão da indústria, como pass@k, cons@k e all@k, para quantificar o desempenho de um modelo no conjunto de dados. Os parceiros de pesquisa podem replicar essas métricas por conta própria após coletar os resultados de avaliação das execuções do OpenGameEval.
Ao contrário dos desafios típicos de codificação em nível de função, o OpenGameEval permite testes de ponta a ponta de componentes essenciais. Um modelo bem-sucedido deve dominar várias habilidades distintas, como navegar pela hierarquia de instâncias, analisar o estado de objetos e deduzir a intenção do usuário a partir do contexto dentro do ambiente.
Tarefas em várias etapas e variação contextual
As tarefas de codificação do Roblox frequentemente exigem várias etapas para navegar pelo contexto existente em uma experiência e investigar múltiplos scripts e instâncias interligados para alcançar o resultado desejado. No exemplo abaixo, o OpenGameEval verifica vários fatores dentro de uma sandbox que representa um ambiente de instância de jogo real para garantir que um modelo possa levar em conta adequadamente múltiplos scripts relacionados, a interação cliente/servidor e a intenção original do prompt.
|
Solicitação do usuário: Implemente um sistema de regeneração de saúde que inicie dois segundos após receber dano e regenere 10 pontos de saúde por segundo. Contexto do arquivo de configuração: Uma experiência de laser tag com armas, equipes e mecanismos centrais de jogo já configurados. Etapas de raciocínio esperadas:
Avaliação verificável: O teste executável (executado na instância do jogo em sandbox) aciona um evento de dano no jogador de teste e verifica:
|
Para testar efetivamente a robustez e a compreensão contextual de um modelo de IA, as tarefas são apresentadas sob diversas condições ambientais. Por exemplo, a tarefa “programar um semáforo de quatro vias” inclui três variações contextuais com base no estado inicial do ambiente de desenvolvimento.
|
Solicitação do usuário: Escreva um script para um semáforo simples de quatro vias. Variação 1: Um arquivo de localização vazio contendo apenas uma placa de base. Um modelo de semáforo chamado TrafficLight está disponível sem um script. O modelo precisa explorar diferentes partes dentro do modelo TrafficLight e encontrar uma maneira de alternar o estado ligado/desligado. Variação 2: Um arquivo de local com uma configuração suburbana. Vários modelos de semáforos chamados Traffic Signal estão disponíveis sem scripts. O modelo precisa primeiro pesquisar a experiência para identificar corretamente os semáforos entre outras instâncias. Os modelos de semáforo são estruturados com uma lógica diferente da variante 1, e o modelo precisa implementar uma solução exclusiva para esta experiência. Variação 3: Um arquivo de local com configuração suburbana. Vários modelos de semáforos e sinais de pedestres estão disponíveis. Embora os scripts para semáforos tenham sido removidos, os scripts para sinais de pedestres permanecem. O modelo precisa identificar a diferença entre semáforos e sinais de pedestres e fazer alterações nos objetos corretos. A existência de sinais de pedestres confunde o modelo ou o ajuda? |
Estamos interessados em compreender o comportamento dos modelos em tarefas aparentemente semelhantes em diferentes ambientes, com níveis variáveis de contexto e complexidade.
Resultados iniciais
O benchmark OpenGameEval oferece dados empíricos para diagnosticar o estado atual dos assistentes de IA no desenvolvimento interativo. Os casos de teste são projetados para diferenciar entre capacidades em operações atômicas e em operações que exigem raciocínio contextual em várias etapas.
Nossos testes iniciais revelaram que os modelos geralmente se destacam em operações atômicas, mas enfrentam dificuldades com o raciocínio contextual. Eles alcançam as maiores taxas de sucesso em tarefas que exigem manipulação única e direta de instâncias, como configurar um emissor de partículas ou modificar a potência de salto de um jogador. Os modelos líderes demonstram sucesso quase perfeito, comprovando sua proficiência na geração de código sintático e no conhecimento básico de API.
Em nítido contraste, persiste uma lacuna substancial em tarefas que exigem ação coordenada, filtragem contextual e integração profunda de API. Exemplos como o sistema de regeneração de saúde e o semáforo de quatro vias, acima, continuam a apresentar pontuações pass@k muito baixas em todos os modelos.
Evolução rápida
À medida que os modelos continuam a evoluir, esperamos ver essas lacunas serem preenchidas, mas já observamos desenvolvimentos interessantes. Em uma tarefa de avaliação que solicita que um modelo “mude o logotipo do Roblox, que se parece com um cubo, para verde”, inicialmente vimos os modelos falharem de maneira generalizada porque o nome do objeto alvo não continha explicitamente a palavra “logotipo” ou “Roblox”.
Avaliações mais recentes mostram que alguns modelos agora estão resolvendo esse caso com sucesso, indo além da simples correspondência de palavras-chave para o raciocínio estrutural, utilizando inspeção detalhada de instâncias (incluindo propriedades, não apenas o nome) e inferência coordenada para identificar o objeto mais provável de representar o “logotipo do Roblox”.
O que vem a seguir?
Estamos comprometidos em expandir e manter continuamente o OpenGameEval para acompanhar os rápidos avanços no campo da IA. A estrutura e o benchmark atuais do OpenGameEval são apenas a base. Nosso roteiro estratégico se concentra em três objetivos principais para garantir que a plataforma continue sendo o padrão para a avaliação do Assistente de IA Agente do Roblox Studio:
-
Capacitar criadores por meio da transparência de desempenho: Atualizaremos rotineiramente o quadro de líderes e o conjunto de dados de benchmark, oferecendo resumos claros e transparentes que ajudem os criadores a comparar modelos e compreender o desempenho em geração de código, inserção de ativos e orquestração de ferramentas.
-
Acelerar a pesquisa e o desenvolvimento: Manteremos e expandiremos o adaptador de API para padronizar a avaliação, permitindo que parceiros de pesquisa executem benchmarks rápidos, sem atritos e reproduzíveis para o desenvolvimento de assistentes de IA de última geração.
-
Adotar uma abordagem orientada pela comunidade: Continuaremos a integrar as intenções reais dos criadores e a solicitar ativamente contribuições da comunidade para garantir que o benchmark permaneça representativo do desenvolvimento de ponta do Roblox e do avanço das capacidades de IA.
Juntos, a estrutura, o conjunto de dados e o ranking público tornam o OpenGameEval uma base transparente e colaborativa para avaliar a criação impulsionada por IA no desenvolvimento do Roblox, ajudando toda a comunidade de criadores a medir o progresso, compartilhar insights e construir assistentes melhores.
Reconhecimentos: O projeto OpenGameEval é o resultado de um esforço significativo de colaboração entre as equipes da Roblox. Agradecimentos especiais a Vlad Shcherban, Sean Dunigan, e Jack Lu, que ajudou a construir o chicote de avaliação, e Isabella Ting e Brent Vincent, cujas percepções foram fundamentais para moldar esta versão. Somos profundamente gratos às nossas equipes parceiras e aos ex-membros da equipe, pois este trabalho reflete sua experiência e compromisso coletivos.