Skip to content

Verwendung von OpenGameEval zum Benchmarking von agentenbasierten KI-Assistenten für Roblox Studio

Der erste Roblox-Studio-eigene Bewertungsrahmen und Benchmark zur Beurteilung der Leistung von KI-Assistenten

Die Herausforderung 

Entwickler nutzen den KI-Assistenten von Roblox Studio, um die Entwicklung von Roblox-Erlebnissen zu beschleunigen, doch die Bewertung der Leistungsfähigkeit des KI-Assistenten und der ihm zugrunde liegenden großen Sprachmodelle (LLMs) bei interaktiven Entwicklungsaufgaben bleibt eine Herausforderung. Während sich traditionelle Programmier- und Agenten-Benchmarks auf isolierte, zustandslose Aufgaben konzentrieren, erfordern Roblox-Entwicklungsworkflows speziell entwickelte Bewertungsmethoden, die die Leistung bei Aufgaben wie dem Schlussfolgern über 3D-Hierarchien hinweg, der Verwaltung von Multiplayer-Client-Server-Interaktionen und der Vornahme von Änderungen an einer zustandsbehafteten Welt messen.

Um dieser Herausforderung zu begegnen, stellen wir OpenGameEval vor, ein Open-Source-Bewertungsframework und einen nativen Benchmark-Datensatz, der die Leistung von LLM-basierten KI-Assistenten in einer reproduzierbaren Roblox Studio-Umgebung bewertet. Wir hoffen, dass OpenGameEval zusammen mit seiner öffentlichen Rangliste der breiteren KI-Forschungsgemeinschaft einen einzigartigen Testraum bieten wird, um Kernfähigkeiten von Modellen in Bezug auf Tool-Nutzung, agentisches Schlussfolgern und die Lösung von Aufgaben mit langfristigem Horizont zu bewerten.

OpenGameEval’s Rangliste bietet eine aktuelle Momentaufnahme der Modell-Effektivität für die Roblox-Entwicklung. 

Die Lösung

Das Evaluierungs-Framework OpenGameEval wurde entwickelt, um die Roblox-Entwicklungsumgebung nachzubilden. Jede Evaluierung wird in einer Umgebung durchgeführt, die das Bearbeitungs- und Spielverhalten in Roblox Studio simuliert. Dadurch wird sichergestellt, dass das beobachtete Verhalten – wie Physik, Netzwerkfunktionen und Multiplayer-Interaktion – identisch mit dem ist, was ein Entwickler oder Spieler erleben würde. 

Das Framework umfasst eine Eingabesimulation, die es uns ermöglicht, die komplexen Spielerinteraktionen programmgesteuert nachzubilden, die für die Bewertung von Entwicklungsaufgaben erforderlich sind, bei denen Benutzeraktionen gefragt sind (z. B. Tastenklicks, Tastatureingaben und Kamerasteuerung).

Die gesamte Evaluierungsarchitektur ist hinter einer einheitlichen, benutzerfreundlichen API gekapselt. Diese Abstraktion ermöglicht es Forschungspartnern, verschiedene LLM-basierte agentische Systeme zu benchmarken, die identische Benchmark-Aufgaben ausführen, ohne die zugrunde liegende Entwicklungsumgebung ändern zu müssen.

undefined

Der OpenGameEval-Benchmark-Datensatz

Der OpenGameEval-Benchmark-Datensatz ist eine Open-Source-Sammlung von 47 manuell kuratierten Testfällen, die auf diesem Framework aufbaut und durch einen strengen, iterativen und vollständig von Menschen verifizierten Prozess erstellt wurde. Wir sammeln Eingabeaufforderungen von Fachexperten, erstellen maßgeschneiderte Roblox-Erlebnisumgebungen, um KI-Modellen den notwendigen Kontext zu bieten, erstellen manuell Bewertungen und verbindliche Lösungen und unterziehen alle Szenarien einer umfassenden menschlichen Überprüfung, um Vollständigkeit, Generalisierbarkeit und Stabilität zu gewährleisten.  

Die erste Version enthält Szenarien, die aus gängigen Roblox-Entwicklungsaufgaben abgeleitet wurden, darunter Spielmechanik, Umgebungserstellung, Charakteranimation, Interface-Design und Sounddesign. Der OpenGameEval-Benchmark nutzt ausführbare Unit-Tests und richtet seine Bewertungsmethodik an branchenüblichen Metriken wie pass@k, cons@k und all@k aus, um die Leistung eines Modells auf dem Datensatz zu quantifizieren. Forschungspartner können diese Metriken selbst nachstellen, nachdem sie die Bewertungsergebnisse aus OpenGameEval-Läufen gesammelt haben.

Im Gegensatz zu typischen Programmieraufgaben auf Funktionsebene ermöglicht OpenGameEval das End-to-End-Testen von Kernkomponenten. Ein erfolgreiches Modell muss mehrere unterschiedliche Fähigkeiten beherrschen, wie die Navigation in der Instanzhierarchie, die Analyse des Objektzustands und die Ableitung der Benutzerabsicht aus dem Kontext innerhalb der Umgebung.

Mehrstufige Aufgaben und kontextuelle Variationen 

Roblox-Codierungsaufgaben erfordern oft mehrere Schritte, um sich im bestehenden Kontext einer Erfahrung zurechtzufinden und mehrere miteinander verflochtene Skripte und Instanzen zu untersuchen, um ein gewünschtes Ergebnis zu erzielen. Im folgenden Beispiel überprüft OpenGameEval mehrere Faktoren innerhalb einer Sandbox, die eine reale Spielinstanzumgebung darstellt, um sicherzustellen, dass ein Modell mehrere miteinander verbundene Skripte, die Client-Server-Interaktion und die ursprüngliche Absicht der Eingabeaufforderung angemessen berücksichtigen kann.  

Benutzeraufforderung: 

Implementiere ein System zur Regeneration der Gesundheit, das zwei Sekunden nach dem Erleiden von Schaden startet und die Gesundheit mit 10 Punkten pro Sekunde regeneriert.

Placefile-Kontext:

Ein Lasertag-Erlebnis, bei dem Waffen, Teams und zentrale Spielmechanismen bereits eingerichtet sind.

Erwartete Schlussfolgerungsschritte: 

  1. Kontextualisieren: Erkunde das Erlebnis mit verschiedenen Suchwerkzeugen, was oft mehrere Suchschritte zur Anpassung der Suchbereiche erfordert: 

    1. Identifiziere vorhandene Skripte zu Schaden und Spieler-Gesundheit und verstehe die Logik.

    2. Ermitteln Sie den besten Ort, um das Skript zur Gesundheitsregeneration hinzuzufügen (z. B. auf dem Server oder auf dem Client? Als Abschnitt im Kern-Spielskript oder als separates Spielerskript?). 

  2. Implementierung: Schreiben Sie Luau-Code unter Verwendung der entsprechenden APIs, um die Spieler-Gesundheit zu manipulieren. Das Skript muss: 

    1. den richtigen Zeitpunkt erfassen, zu dem eine Regeneration erforderlich ist, und festlegen, wie die Regeneration erfolgen soll. 

    2. auf alle Schadensarten anwendbar sein und nicht auf ein bestimmtes Schadensskript beschränkt sein.

Überprüfbare Bewertung: 

Der ausführbare Test (ausgeführt in der Sandbox-Spielinstanz) löst ein Schadensereignis für den Testspieler aus und überprüft:

  1. Die Gesundheitsregeneration wird auf dem Server korrekt verarbeitet und auf dem Client sichtbar gemacht.

  2. Die Regeneration beginnt nicht vor Ablauf der zweisekündigen Verzögerung. 

  3. Die Gesundheit regeneriert sich mit einer Rate von 10 Gesundheitspunkten pro Sekunde.

undefined

Um die Robustheit und das Kontextverständnis eines KI-Modells effektiv zu testen, werden Aufgaben unter verschiedenen Umgebungsbedingungen präsentiert. Die Aufgabe „Skript für eine Vier-Wege-Ampel“ umfasst beispielsweise drei Kontextvarianten, die auf dem Ausgangszustand der Entwicklungsumgebung basieren. 

Benutzereingabe: 

Schreibe mir ein Skript für eine einfache Vier-Wege-Ampel.

Variante 1:

Eine leere Placefile, die nur eine Grundplatte enthält. Ein Ampelmodell namens TrafficLight ist ohne Skript verfügbar. 

Das Modell muss verschiedene Teile innerhalb des „TrafficLight“-Modells erkunden und einen Weg finden, den Ein-/Aus-Zustand umzuschalten. 

Variante 2:

Eine Place-Datei mit einer Vorstadtkulisse. Es stehen mehrere Ampelmodelle namens „Traffic Signal“ ohne Skripte zur Verfügung. 

Das Modell muss zunächst die Umgebung durchsuchen, um die Ampeln unter den anderen Objekten korrekt zu identifizieren. Die Ampeln sind anders aufgebaut als in Variante 1, und das Modell muss eine für diese Umgebung spezifische Lösung finden. 

Variante 3:

Eine Placefile mit einer Vorstadtumgebung. Es stehen mehrere Modelle für Ampeln und Fußgängerampeln zur Verfügung. Während die Skripte für die Ampeln entfernt wurden, bleiben die Skripte für die Fußgängerampeln erhalten. 

Das Modell muss den Unterschied zwischen Ampeln und Fußgängerampeln erkennen und Änderungen an den richtigen Objekten vornehmen. Verwirrt das Vorhandensein von Fußgängerampeln das Modell oder hilft es ihm?

undefined
Ampel in einer Grundplatte.
undefined
Ampel in einer Erfahrung mit Assets und Skripten.

Wir möchten das Verhalten von Modellen bei scheinbar ähnlichen Aufgaben in unterschiedlichen Umgebungen mit unterschiedlichem Kontext und unterschiedlicher Komplexität verstehen.

Erste Ergebnisse

Der OpenGameEval-Benchmark liefert empirische Daten zur Beurteilung des aktuellen Stands von KI-Assistenten in der interaktiven Entwicklung. Die Testfälle sind so konzipiert, dass sie zwischen Fähigkeiten bei atomaren Operationen und bei Operationen unterscheiden, die mehrstufiges kontextuelles Schlussfolgern erfordern. 

Unsere ersten Tests haben gezeigt, dass Modelle im Allgemeinen bei atomaren Operationen hervorragende Leistungen erbringen, aber Schwierigkeiten mit kontextuellem Schlussfolgern haben. Sie erzielen die höchsten Erfolgsraten bei Aufgaben, die eine einzelne, direkte Instanzmanipulation erfordern, wie das Einstellen eines Partikelemitters oder das Ändern der Sprungkraft eines Spielers. Führende Modelle zeigen nahezu perfekte Erfolge und beweisen damit ihre Kompetenz in der syntaktischen Codegenerierung und grundlegenden API-Kenntnissen.

Im krassen Gegensatz dazu besteht weiterhin eine erhebliche Lücke bei Aufgaben, die koordiniertes Handeln, kontextbezogene Filterung und tiefe API-Integration erfordern. Beispiele wie das Gesundheitsregenerationssystem und die oben genannte Vier-Wege-Ampel erzielen bei allen Modellen weiterhin sehr niedrige pass@k-Werte.

Schnelle Entwicklung

Da sich die Modelle weiterentwickeln, erwarten wir, dass sich diese Lücken schließen, doch wir haben bereits interessante Entwicklungen beobachtet. Bei einer Bewertungsaufgabe, bei der ein Modell aufgefordert wurde, „das Roblox-Logo wie einen Würfel in Grün zu ändern“, scheiterten die Modelle zunächst ausnahmslos, da der Name des Zielobjekts das Wort „Logo“ oder „Roblox“ nicht explizit enthielt. 

undefined

Neuere Bewertungen zeigen, dass einige Modelle diesen Fall nun erfolgreich lösen, indem sie über den einfachen Abgleich von Schlüsselwörtern hinausgehen und strukturelles Denken anwenden. Dabei nutzen sie eine genaue Untersuchung der Instanzen (einschließlich der Eigenschaften, nicht nur des Namens) sowie koordinierte Schlussfolgerungen, um das Objekt zu identifizieren, das am ehesten das „Roblox-Logo“ darstellt. 

Wie geht es weiter? 

Wir sind bestrebt, OpenGameEval kontinuierlich zu erweitern und zu pflegen, um die rasanten Fortschritte im Bereich der KI zu verfolgen. Das aktuelle OpenGameEval-Framework und der Benchmark sind nur die Grundlage. Unsere strategische Roadmap konzentriert sich auf drei Kernziele, um sicherzustellen, dass die Plattform der Standard für die Bewertung von Agentic-KI-Assistenten in Roblox Studio bleibt:

  • Befähigung von Entwicklern durch Leistungstransparenz: Wir werden die Rangliste und den Benchmark-Datensatz regelmäßig aktualisieren und gleichzeitig klare, transparente Zusammenfassungen bereitstellen, die Entwicklern helfen, Modelle zu vergleichen und die Leistung in den Bereichen Codegenerierung, Einbindung von Assets und Tool-Orchestrierung zu verstehen.

  • Beschleunigung von Forschung und Entwicklung: Wir werden den API-Adapter pflegen und erweitern, um die Bewertung zu standardisieren, sodass Forschungspartner schnelle, reibungslose und reproduzierbare Benchmarks für die Entwicklung von KI-Assistenten der nächsten Generation durchführen können.

  • Einen gemeinschaftsorientierten Ansatz verfolgen: Wir werden weiterhin reale Absichten von Entwicklern einbeziehen und aktiv um Beiträge aus der Community bitten, um sicherzustellen, dass der Benchmark repräsentativ für die modernste Roblox-Entwicklung und fortschreitende KI-Fähigkeiten bleibt.

Zusammen bilden das Framework, der Datensatz und die öffentliche Rangliste OpenGameEval zu einer transparenten, kollaborativen Grundlage für die Bewertung KI-gestützter Kreationen in der Roblox-Entwicklung und helfen der gesamten Creator-Community dabei, Fortschritte zu messen, Erkenntnisse auszutauschen und bessere Assistenten zu entwickeln.

Dankeschön: Das OpenGameEval-Projekt ist das Ergebnis einer bedeutenden Zusammenarbeit zwischen den Teams von Roblox. Besonderen Dank an Vlad Shcherban, Sean Dunigan, und Jack Lu, der bei der Erstellung des Bewertungssystems half, und Isabella Ting und Brent Vincent, dessen Erkenntnisse maßgeblich zur Gestaltung dieser Veröffentlichung beigetragen haben. Wir sind unseren Partnerteams und ehemaligen Teammitgliedern zutiefst dankbar, da diese Arbeit ihr kollektives Fachwissen und Engagement widerspiegelt.