Wykorzystanie OpenGameEval do testowania asystentów SI dla Roblox Studio
Pierwsza natywna dla studia Roblox platforma ewaluacyjna i punkt odniesienia do oceny wydajności asystenta AI
Wyzwanie
Twórcy wykorzystują asystenta AI w Roblox Studio, aby przyspieszyć tworzenie doświadczeń w Roblox, jednak ocena wydajności asystenta AI i leżących u jego podstaw dużych modeli językowych (LLM) w zadaniach związanych z tworzeniem interaktywnych treści pozostaje wyzwaniem. Podczas gdy tradycyjne testy porównawcze dotyczące kodowania i agentów koncentrują się na izolowanych zadaniach bezstanowych, procesy tworzenia w Roblox wymagają specjalnie opracowanych metod oceny, które mierzą wydajność w zadaniach takich jak wnioskowanie w hierarchiach 3D, zarządzanie interakcjami między wieloma graczami w modelu klient-serwer oraz wprowadzanie zmian w świecie stanowym.
Aby sprostać temu wyzwaniu, wprowadzamy OpenGameEval, framework ewaluacyjny typu open source oraz natywny zbiór danych benchmarkowych, który ocenia wydajność asystenta AI opartego na LLM w odtwarzalnym środowisku Roblox Studio. Mamy nadzieję, że OpenGameEval, wraz z publiczną tabelą wyników, zapewni unikalne pole do testów dla szerszej społeczności zajmującej się badaniami nad AI, umożliwiające ocenę podstawowych możliwości modeli związanych z wykorzystaniem narzędzi, rozumowaniem agentycznym oraz rozwiązywaniem zadań o długim horyzoncie czasowym.
OpenGameEval’s leaderboard zapewnia aktualny obraz skuteczności modelu rozwoju Roblox.
Rozwiązanie
Framework ewaluacyjny OpenGameEval został zaprojektowany tak, aby odzwierciedlać środowisko programistyczne Roblox. Każda ewaluacja jest przeprowadzana w środowisku symulującym zachowanie podczas edycji i rozgrywki w Roblox Studio. Gwarantuje to, że obserwowane zachowania, takie jak fizyka, komunikacja sieciowa i interakcje w trybie wieloosobowym, są identyczne z tym, czego doświadcza twórca lub gracz.
Framework zawiera symulację wejść, co pozwala nam programowo naśladować złożone interakcje graczy niezbędne do oceny zadań programistycznych wymagających działań użytkownika (np. kliknięć przycisków, wpisów z klawiatury i manipulacji kamerą).
Cała architektura oceny jest zamknięta w ujednoliconym, łatwym w użyciu API. Ta abstrakcja pozwala partnerom badawczym na testowanie porównawcze różnych systemów agentowych opartych na LLM, wykonujących identyczne zadania testowe bez modyfikowania podstawowego środowiska testowego.
Zbiór danych benchmarkowych OpenGameEval
Zbiór danych benchmarkowych OpenGameEval to otwarty, ręcznie wyselekcjonowany zestaw 47 przypadków testowych zbudowany w oparciu o tę platformę poprzez rygorystyczny, iteracyjny i w pełni zweryfikowany przez ludzi proces. Zbieramy wskazówki od ekspertów w danej dziedzinie, budujemy dostosowane środowiska Roblox, aby zapewnić modelom AI niezbędny kontekst, ręcznie tworzymy oceny i autorytatywne rozwiązania oraz poddajemy wszystkie scenariusze szczegółowej weryfikacji przez ludzi, aby zagwarantować ich kompleksowość, uogólnialność i stabilność.
Pierwsza wersja zawiera scenariusze wywodzące się z typowych zadań programistycznych w Roblox, w tym mechaniki gry, tworzenia środowiska, animacji postaci, projektowania interfejsu i projektowania dźwięku. Benchmark OpenGameEval wykorzystuje wykonywalne testy jednostkowe, dostosowując swoją metodologię punktacji do standardowych w branży wskaźników, takich jak pass@k, cons@k i all@k, aby określić wydajność modelu na zbiorze danych. Partnerzy badawczy mogą samodzielnie odtworzyć te wskaźniki po zebraniu wyników oceny z przebiegów OpenGameEval.
W przeciwieństwie do typowych wyzwań związanych z kodowaniem na poziomie funkcji, OpenGameEval umożliwia kompleksowe testowanie kluczowych komponentów. Skuteczny model musi opanować kilka różnych umiejętności, takich jak poruszanie się po hierarchii instancji, analiza stanu obiektów oraz wnioskowanie o intencjach użytkownika na podstawie kontekstu w środowisku.
Zadania wieloetapowe i zmienność kontekstowa
Zadania programistyczne w Roblox często wymagają wielu kroków, aby poruszać się po istniejącym kontekście w ramach doświadczenia i badać wiele powiązanych ze sobą skryptów i instancji w celu osiągnięcia pożądanego wyniku. W poniższym przykładzie OpenGameEval weryfikuje wiele czynników w piaskownicy reprezentującej rzeczywiste środowisko instancji gry, aby upewnić się, że model potrafi odpowiednio uwzględnić wiele powiązanych skryptów, interakcję klient/serwer oraz pierwotny zamiar polecenia.
|
Komenda użytkownika: Zaimplementuj system regeneracji zdrowia, który uruchamia się dwie sekundy po otrzymaniu obrażeń i regeneruje 10 punktów zdrowia na sekundę. Kontekst pliku Placefile: Gra typu laser tag z bronią, drużynami i podstawowymi mechanizmami rozgrywki już skonfigurowanymi. Oczekiwane etapy rozumowania:
Weryfikowalna ocena: Test wykonywalny (uruchamiany w instancji gry w piaskownicy) wyzwala zdarzenie obrażeń u gracza testowego i weryfikuje:
|
Aby skutecznie przetestować odporność modelu AI i jego rozumienie kontekstu, zadania są przedstawiane w różnych warunkach środowiskowych. Na przykład zadanie „tworzenie skryptu dla czterokierunkowych świateł drogowych” obejmuje trzy warianty kontekstowe oparte na początkowym stanie środowiska programistycznego.
|
Komenda użytkownika: Napisz dla mnie skrypt dla prostego czterokierunkowego sygnalizatora świetlnego. Wariant 1: Pusty plik miejsca zawierający tylko płytę podstawową. Model sygnalizacji świetlnej o nazwie TrafficLight jest dostępny bez skryptu. Model musi zbadać różne części modelu TrafficLight i znaleźć sposób na przełączanie stanu włączonego/wyłączonego. Wariant 2: Plik miejsca z konfiguracją podmiejską. Dostępnych jest wiele modeli sygnalizacji świetlnej o nazwie Traffic Signal bez skryptów. Model musi najpierw przeszukać środowisko, aby poprawnie zidentyfikować sygnalizację świetlną wśród innych obiektów. Modele sygnalizacji świetlnej mają inną strukturę niż w wariancie 1, a model musi wdrożyć rozwiązanie unikalne dla tego środowiska. Wariant 3: Plik miejsca z konfiguracją podmiejską. Dostępnych jest wiele modeli sygnalizacji świetlnej i sygnalizacji dla pieszych. Skrypty dotyczące sygnalizacji świetlnej zostały usunięte, ale skrypty dotyczące sygnalizacji dla pieszych pozostały. Model musi zidentyfikować różnicę między sygnalizacją świetlną a sygnalizacją dla pieszych i wprowadzić zmiany w odpowiednich obiektach. Czy obecność sygnalizacji dla pieszych dezorientuje model, czy mu pomaga? |
Chcemy zrozumieć zachowanie modeli podczas wykonywania pozornie podobnych zadań w różnych środowiskach o różnym poziomie kontekstu i złożoności.
Wstępne wyniki
Benchmark OpenGameEval oferuje dane empiryczne pozwalające zdiagnozować aktualny stan asystentów AI w tworzeniu interaktywnym. Przypadki testowe zostały zaprojektowane tak, aby odróżnić możliwości w operacjach atomowych od operacji wymagających wieloetapowego rozumowania kontekstowego.
Nasze wstępne testy wykazały, że modele generalnie radzą sobie doskonale z operacjami atomowymi, ale mają trudności z rozumowaniem kontekstowym. Osiągają najwyższy wskaźnik sukcesu w zadaniach wymagających pojedynczej, bezpośredniej manipulacji instancjami, takich jak ustawienie emiterów cząstek lub modyfikacja siły skoku gracza. Wiodące modele wykazują niemal idealny sukces, potwierdzając swoją biegłość w generowaniu kodu syntaktycznego i podstawowej wiedzy o API.
W ostrym kontraście do tego utrzymuje się znaczna luka w zadaniach wymagających skoordynowanego działania, filtrowania kontekstowego i głębokiej integracji API. Przykłady, takie jak system regeneracji zdrowia i czterokierunkowe światła drogowe, o których mowa powyżej, nadal dają bardzo niskie wyniki pass@k we wszystkich modelach.
Szybka ewolucja
W miarę ewolucji modeli spodziewamy się, że luki te zostaną zniwelowane, ale już teraz obserwujemy interesujące zmiany. W jednym z zadań ewaluacyjnych, w którym model miał „zmienić logo Roblox na zielone, tak aby wyglądało jak sześcian”, początkowo wszystkie modele poniosły porażkę, ponieważ nazwa obiektu docelowego nie zawierała wprost słowa „logo” ani „Roblox”.
Najnowsze oceny pokazują, że niektóre modele z powodzeniem rozwiązują ten przypadek, wykraczając poza proste dopasowywanie słów kluczowych i przechodząc do rozumowania strukturalnego, wykorzystując dokładną analizę instancji (w tym właściwości, a nie tylko nazwę) oraz skoordynowane wnioskowanie w celu zidentyfikowania obiektu, który najprawdopodobniej reprezentuje „logo Roblox”.
Co dalej?
Jesteśmy zaangażowani w ciągłe rozbudowywanie i utrzymywanie OpenGameEval, aby śledzić szybki postęp w dziedzinie sztucznej inteligencji. Obecna struktura i benchmark OpenGameEval to dopiero fundament. Nasza strategiczna mapa drogowa skupia się na trzech głównych celach, aby zapewnić, że platforma pozostanie standardem oceny asystentów AI typu agentowego w Roblox Studio:
-
Wzmocnienie pozycji twórców poprzez przejrzystość wyników: Będziemy regularnie aktualizować tabelę wyników i zbiór danych benchmarkowych, oferując jednocześnie jasne, przejrzyste podsumowania, które pomogą twórcom porównać modele i zrozumieć wydajność w zakresie generowania kodu, wstawiania zasobów i koordynacji narzędzi.
-
Przyspieszenie badań i rozwoju: Będziemy utrzymywać i rozbudowywać adapter API w celu standaryzacji oceny, umożliwiając partnerom badawczym przeprowadzanie szybkich, płynnych i powtarzalnych testów porównawczych w celu opracowania asystentów AI nowej generacji.
-
Podejście oparte na społeczności: Będziemy nadal integrować rzeczywiste intencje twórców i aktywnie zabiegać o wkład społeczności, aby zapewnić, że benchmark pozostaje reprezentatywny dla najnowocześniejszych rozwiązań programistycznych Roblox i rozwijających się możliwości AI.
W połączeniu z frameworkiem, zbiorem danych i publiczną tabelą wyników OpenGameEval stanowi przejrzystą, opartą na współpracy podstawę do oceny tworzenia opartego na sztucznej inteligencji w rozwoju Roblox, pomagając całej społeczności twórców mierzyć postępy, dzielić się spostrzeżeniami i budować lepszych asystentów.
Podziękowania: Projekt OpenGameEval jest wynikiem znaczącej współpracy między zespołami w Roblox. Specjalne podziękowania dla Vlada Shcherbana, Sean Dunigan, oraz Jack Lu, który pomógł zbudować uprząż ewaluacyjną, oraz Izabella Ting oraz Brent Vincent, którego spostrzeżenia odegrały kluczową rolę w kształtowaniu tego wydania. Jesteśmy głęboko wdzięczni naszym zespołom partnerskim i byłym członkom zespołów, ponieważ ta praca odzwierciedla ich wspólną wiedzę i zaangażowanie.