OpenGameEval을 사용하여 Roblox Studio용 에이전트 AI 어시스턴트 벤치마킹하기

AI 어시스턴트 성능 평가를 위한 최초의 Roblox Studio 네이티브 평가 프레임워크 및 벤치마크

작성자 티안티안 장, 카르틱 아야르, 멩샤 선, 린 공

게시일 2025. 12. 17.

과제

크리에이터들은 Roblox Studio의 AI 어시스턴트를 활용하여 Roblox 경험 개발을 가속화하고 있지만, AI 어시스턴트와 그 기반이 되는 대규모 언어 모델(LLM)이 대화형 개발 작업에서 얼마나 잘 수행되는지 평가하는 것은 여전히 어려운 과제입니다. 기존의 코딩 및 에이전트 기반 벤치마크가 고립되고 상태가 없는 작업에 초점을 맞추는 반면, 로블록스 개발 워크플로우는 3D 계층 구조를 가로지르는 추론, 멀티플레이어 클라이언트-서버 상호작용 관리, 상태가 있는 월드에 대한 변경 적용과 같은 작업에서의 성능을 측정할 수 있는 전용 평가 방법을 요구합니다.

이러한 과제를 해결하기 위해, 재현 가능한 로블록스 스튜디오 환경에서 LLM 기반 AI 어시스턴트의 성능을 평가하는 오픈소스 평가 프레임워크이자 네이티브 벤치마크 데이터셋인 OpenGameEval을 소개합니다. 저희는 OpenGameEval과 공개 리더보드가 더 넓은 AI 연구 커뮤니티에 도구 사용, 에이전트적 추론, 장기적 과제 해결과 관련된 핵심 모델 능력을 평가할 수 있는 독보적인 테스트 환경을 제공하기를 희망합니다.

오픈게임이밸의 리더보드는 로블록스 개발에 대한 모델 효과의 현재 스냅샷을 제공합니다.

해결책

OpenGameEval 평가 프레임워크는 Roblox 개발 환경을 재현하도록 설계되었습니다. 각 평가는 Roblox Studio에서의 편집 및 플레이 시간 동작을 시뮬레이션하는 환경에서 실행됩니다. 이를 통해 물리 엔진, 네트워킹, 멀티플레이어 상호작용과 같은 관찰된 동작이 제작자나 플레이어가 실제로 경험하는 것과 동일하게 보장됩니다.

이 프레임워크는 입력 시뮬레이션 기능을 포함하여, 사용자 동작(예: 버튼 클릭, 키보드 입력, 카메라 조작)이 필요한 개발 과제를 평가하는 데 필수적인 복잡한 플레이어 상호작용을 프로그래밍 방식으로 모방할 수 있게 합니다.

전체 평가 아키텍처는 통합되고 사용하기 쉬운 API 뒤에 캡슐화되어 있습니다. 이러한 추상화를 통해 연구 파트너들은 기본 환경 하네스를 수정하지 않고도 동일한 벤치마크 작업을 수행하는 다양한 LLM 기반 에이전트 시스템을 벤치마킹할 수 있습니다.

undefined

OpenGameEval 벤치마크 데이터셋

OpenGameEval 벤치마크 데이터셋은 이 프레임워크를 기반으로 엄격하고 반복적이며 전적으로 사람이 검증한 과정을 통해 구축된, 47개의 테스트 케이스로 구성된 오픈소스 수동 큐레이션 모음입니다. 우리는 분야 전문가로부터 프롬프트를 수집하고, AI 모델에 필요한 맥락을 제공하기 위해 맞춤형 Roblox 경험 환경을 구축하며, 평가와 정답을 수동으로 생성하고, 모든 시나리오를 광범위한 인간 검토에 부쳐 포괄성, 일반화 가능성 및 안정성을 보장합니다.

초기 릴리스에는 게임 메커니즘, 환경 구축, 캐릭터 애니메이션, 인터페이스 디자인, 사운드 디자인 등 일반적인 Roblox 개발 작업에서 파생된 시나리오가 포함되어 있습니다. OpenGameEval 벤치마크는 실행 가능한 단위 테스트를 활용하며, pass@k, cons@k, all@k와 같은 업계 표준 지표에 맞춰 점수 산정 방식을 정립하여 데이터셋에서 모델의 성능을 정량화합니다. 연구 파트너는 OpenGameEval 실행 결과를 수집한 후 이러한 지표를 자체적으로 재현할 수 있습니다.

일반적인 함수 수준 코딩 과제와 달리, OpenGameEval은 핵심 구성 요소에 대한 종단 간 테스트를 가능하게 합니다. 성공적인 모델은 인스턴스 계층 구조 탐색, 객체 상태 분석, 환경 내 컨텍스트로부터 사용자의 의도 도출과 같은 여러 가지 고유한 기술을 숙달해야 합니다.

다단계 작업 및 상황적 변동

Roblox 코딩 과제는 종종 경험 내의 기존 컨텍스트를 탐색하고, 원하는 결과를 달성하기 위해 서로 얽힌 여러 스크립트와 인스턴스를 조사하는 데 여러 단계가 필요합니다. 아래 예시에서 OpenGameEval은 실제 게임 인스턴스 환경을 나타내는 샌드박스 내의 여러 요소를 검증하여, 모델이 관련 스크립트, 클라이언트/서버 상호작용, 프롬프트의 원래 의도를 적절히 고려할 수 있는지 확인합니다.

사용자 프롬프트:

피해를 입은 지 2초 후에 시작되어 초당 체력 10씩 회복되는 체력 재생 시스템을 구현하세요.

플레이스파일 컨텍스트:

무기, 팀, 핵심 플레이 메커니즘이 이미 설정된 레이저 태그 체험.

예상 추론 단계:

상황 파악: 다양한 검색 도구를 사용하여 체험을 탐색합니다. 이때 검색 범위를 조정하는 여러 단계가 필요한 경우가 많습니다:
1. 피해를 입었을 때와 플레이어 체력에 관한 기존 스크립트를 확인하고 그 논리를 파악합니다.
2. 체력 재생 스크립트를 추가할 최적의 위치를 추론합니다(예: 서버 또는 클라이언트? 핵심 게임 스크립트의 일부로, 아니면 별도의 플레이어 스크립트로?).
구현: 적절한 API를 사용하여 플레이어 체력을 조작하는 Luau 코드를 작성합니다. 스크립트는 다음을 수행해야 합니다:
1. 회복이 필요한 정확한 시점을 파악하고, 회복이 어떻게 이루어져야 하는지 정의합니다.
2. 특정 피해 스크립트에 국한되지 않고 모든 피해 유형에 일반화 가능해야 합니다.

검증 가능한 평가:

실행 가능한 테스트(샌드박스 게임 인스턴스에서 실행)는 테스트 플레이어에게 데미지 이벤트를 유발하고 다음을 검증합니다:

서버 측에서 체력 재생이 올바르게 처리되고, 클라이언트 측에 반영되는지 확인합니다.
2초의 지연 시간이 지나기 전에는 회복이 시작되지 않습니다.
체력은 초당 10씩 회복됩니다.

undefined

AI 모델의 견고성과 상황 이해 능력을 효과적으로 테스트하기 위해, 다양한 환경 조건 하에서 과제가 제시됩니다. 예를 들어, "4방향 신호등 스크립팅" 과제는 개발 환경의 초기 상태에 따라 세 가지 상황 변형을 포함합니다.

사용자 프롬프트:

간단한 4방향 신호등 스크립트를 작성해 주세요.

변형 1:

베이스플레이트만 포함된 빈 플레이스파일. 스크립트가 없는 TrafficLight라는 이름의 신호등 모델이 제공됩니다.

모델은 TrafficLight 모델 내의 다양한 부분을 탐색하여 신호등의 켜짐/꺼짐 상태를 전환할 방법을 찾아야 합니다.

변형 2:

교외 환경이 설정된 플레이스파일입니다. Traffic Signal이라는 이름의 스크립트가 없는 신호등 모델이 여러 개 제공됩니다.

모델은 먼저 환경을 탐색하여 다른 객체들 중에서 신호등을 정확히 식별해야 합니다. 신호등 모델은 변형 1과는 다른 논리로 구성되어 있으므로, 모델은 이 환경에 특화된 해결책을 구현해야 합니다.

변형 3:

교외 환경을 갖춘 플레이스파일입니다. 여러 개의 신호등 및 횡단보도 신호등 모델이 제공됩니다. 신호등 스크립트는 제거되었으나, 횡단보도 신호등 스크립트는 그대로 남아 있습니다.

모델은 신호등과 보행자 신호의 차이를 식별하고 올바른 객체에 변경 사항을 적용해야 합니다. 보행자 신호의 존재가 모델의 판단을 혼란스럽게 할까요, 아니면 도움이 될까요?

우리는 맥락과 복잡성 수준이 다른 다양한 환경에서, 겉보기에는 비슷해 보이는 작업에 대해 모델이 어떻게 행동하는지 이해하는 데 관심이 있습니다.

초기 결과

OpenGameEval 벤치마크는 인터랙티브 개발 분야에서 AI 어시스턴트의 현재 상태를 진단할 수 있는 실증 데이터를 제공합니다. 테스트 케이스는 원자적 작업 능력과 다단계 맥락 추론이 필요한 작업 능력을 구분하도록 설계되었습니다.

초기 테스트 결과, 모델들은 일반적으로 원자적 연산에는 탁월하지만 맥락 추론에는 어려움을 겪는 것으로 나타났습니다. 모델들은 파티클 이미터 설정이나 플레이어의 점프력 수정과 같이 단일하고 직접적인 인스턴스 조작이 필요한 작업에서 가장 높은 성공률을 기록했습니다. 선도적인 모델들은 거의 완벽한 성공률을 보여주며, 구문적 코드 생성 및 기본적인 API 지식에 대한 숙련도를 입증했습니다.

이와는 대조적으로, 조율된 동작, 문맥적 필터링, 심층적인 API 통합을 요구하는 작업에서는 여전히 상당한 격차가 존재합니다. 앞서 언급한 체력 재생 시스템이나 4방향 신호등과 같은 예시들은 모든 모델에서 여전히 매우 낮은 pass@k 점수를 기록하고 있습니다.

급속한 진화

모델이 계속 진화함에 따라 이러한 격차가 좁혀질 것으로 예상되지만, 이미 흥미로운 발전이 나타나고 있습니다. 모델에게 "Roblox 로고를 큐브처럼 녹색으로 변경하라"고 지시하는 한 평가 과제에서, 대상 객체의 이름에 '로고'나 'Roblox'라는 단어가 명시적으로 포함되지 않았기 때문에 초기에는 모든 모델이 실패하는 모습을 보였습니다.

undefined

최근 평가 결과에 따르면, 일부 모델은 단순한 키워드 일치에서 벗어나 구조적 추론을 활용하고, 이름뿐만 아니라 속성을 포함한 세밀한 인스턴스 분석 및 조화로운 추론을 통해 "Roblox 로고"를 가장 잘 나타낼 가능성이 높은 객체를 식별함으로써 이 문제를 성공적으로 해결하고 있습니다.

다음 단계는 무엇일까요?

저희는 AI 분야의 급속한 발전을 추적하기 위해 OpenGameEval을 지속적으로 확장하고 유지 관리하는 데 전념하고 있습니다. 현재의 OpenGameEval 프레임워크와 벤치마크는 단지 초석에 불과합니다. 저희의 전략적 로드맵은 이 플랫폼이 Roblox Studio 에이전트형 AI 어시스턴트 평가의 표준으로 자리매김할 수 있도록 다음 세 가지 핵심 목표에 중점을 두고 있습니다:

성능 투명성을 통한 크리에이터 역량 강화: 리더보드와 벤치마크 데이터셋을 정기적으로 업데이트하는 동시에, 크리에이터가 모델을 비교하고 코드 생성, 자산 삽입, 도구 오케스트레이션 전반의 성능을 이해하는 데 도움이 되는 명확하고 투명한 요약 정보를 제공할 것입니다.
연구 개발 가속화: 평가를 표준화하기 위해 API 어댑터를 유지 및 확장하여, 연구 파트너들이 차세대 AI 어시스턴트 개발을 위해 빠르고 원활하며 재현 가능한 벤치마크를 실행할 수 있도록 지원할 것입니다.
커뮤니티 주도적 접근 방식 채택: 실제 크리에이터의 의도를 지속적으로 반영하고 커뮤니티의 기여를 적극적으로 유도하여, 벤치마크가 최첨단 로블록스 개발 동향과 발전하는 AI 기능을 대표하도록 보장하겠습니다.

프레임워크, 데이터셋, 공개 리더보드가 결합된 OpenGameEval은 로블록스 개발 환경에서 AI 기반 창작물을 평가하기 위한 투명하고 협력적인 기반을 제공하며, 이를 통해 전체 크리에이터 커뮤니티가 진전을 측정하고, 통찰력을 공유하며, 더 나은 어시스턴트를 구축할 수 있도록 돕습니다.

감사인사: OpenGameEval 프로젝트는 Roblox의 여러 팀이 협업한 결과물입니다. Vlad Shcherban, Sean Dunigan, Jack Lu, 그리고 이사벨라 팅 및 브렌트 빈센트의 통찰력이 이번 릴리스에 중요한 역할을 했습니다. 이 작업에는 파트너 팀과 전 팀원들의 집단적 전문성과 헌신이 반영되어 있으므로 이들에게 깊은 감사를 드립니다.

Latest

More results

OpenGameEval을 사용하여 Roblox Studio용 에이전트 AI 어시스턴트 벤치마킹하기

과제

해결책

OpenGameEval 벤치마크 데이터셋

다단계 작업 및 상황적 변동

초기 결과

급속한 진화

다음 단계는 무엇일까요?

OpenGameEval을 사용하여 Roblox Studio용 에이전트 AI 어시스턴트 벤치마킹하기

과제

해결책

OpenGameEval 벤치마크 데이터셋

다단계 작업 및 상황적 변동

초기 결과

급속한 진화

다음 단계는 무엇일까요?

제품

Roblox의 Cube 기반 모델로 창작 가속화

엔지니어링

SLIM 소개: 확장 가능한 경량 인터랙티브 모델

안전 및 매너

Roblox PII 분류 모델 오픈 소싱: AI로 채팅에서 PII를 감지하는 Roblox의 접근 방식