Menggunakan OpenGameEval untuk Membandingkan Asisten AI Agentic untuk Roblox Studio
Kerangka Kerja dan Tolok Ukur Evaluasi Asli Roblox Studio Pertama untuk Menilai Kinerja Asisten AI
Tantangan
Para kreator memanfaatkan Asisten AI Roblox Studio untuk mempercepat pengembangan pengalaman Roblox, namun mengevaluasi seberapa baik kinerja Asisten AI dan model bahasa besar (LLM) yang mendasarinya dalam tugas-tugas pengembangan interaktif tetap menjadi tantangan. Sementara pengujian kode tradisional dan pengujian berbasis agen berfokus pada tugas-tugas yang terisolasi dan tanpa keadaan (stateless), alur kerja pengembangan Roblox memerlukan metode evaluasi khusus yang mengukur kinerja pada tugas-tugas seperti penalaran di hierarki 3D, mengelola interaksi klien-server multipemain, dan melakukan perubahan pada dunia yang memiliki keadaan (stateful).
Untuk mengatasi tantangan ini, kami memperkenalkan OpenGameEval, sebuah kerangka kerja evaluasi sumber terbuka dan kumpulan data tolok ukur asli yang mengevaluasi kinerja Asisten AI berbasis LLM dalam lingkungan Roblox Studio yang dapat direproduksi. Kami berharap OpenGameEval, bersama dengan papan peringkat publiknya, akan menawarkan tempat pengujian yang unik bagi komunitas penelitian AI yang lebih luas untuk mengevaluasi kemampuan inti model yang terkait dengan penggunaan alat, penalaran agen, dan pemecahan tugas jangka panjang.
Solusi
Kerangka kerja evaluasi OpenGameEval dirancang untuk mereplikasi lingkungan pengembangan Roblox. Setiap evaluasi dijalankan dalam lingkungan yang mensimulasikan perilaku saat mengedit dan bermain di Roblox Studio. Hal ini memastikan bahwa perilaku yang diamati, seperti fisika, jaringan, dan interaksi multipemain, identik dengan apa yang akan dialami oleh pembuat konten atau pemain.
Kerangka kerja ini menggabungkan simulasi input, yang memungkinkan kami meniru secara terprogram interaksi pemain yang kompleks yang diperlukan untuk mengevaluasi tugas pengembangan yang membutuhkan tindakan pengguna (misalnya, klik tombol, input keyboard, dan manipulasi kamera).
Seluruh arsitektur evaluasi dikemas dalam API terpadu yang mudah digunakan. Abstraksi ini memungkinkan mitra penelitian untuk membandingkan berbagai sistem agen berbasis LLM yang melakukan tugas benchmark identik tanpa mengubah kerangka lingkungan dasar.
Kumpulan Data Benchmark OpenGameEval
Kumpulan data benchmark OpenGameEval adalah kumpulan 47 kasus uji sumber terbuka yang dikurasi secara manual, dibangun di atas kerangka kerja ini melalui proses yang ketat, berulang, dan sepenuhnya diverifikasi oleh manusia. Kami mengumpulkan prompt dari pakar bidang, membangun lingkungan pengalaman Roblox yang disesuaikan untuk memberikan konteks yang diperlukan bagi model AI, membuat evaluasi dan solusi otoritatif secara manual, serta meninjau semua skenario secara ekstensif oleh manusia untuk menjamin kelengkapan, generalisasi, dan stabilitas.
Rilis awal mencakup skenario yang diadaptasi dari tugas pengembangan Roblox umum, termasuk mekanika permainan, pembangunan lingkungan, animasi karakter, desain antarmuka, dan desain suara. Kumpulan data benchmark OpenGameEval menggunakan uji unit yang dapat dieksekusi, menyelaraskan metodologi penilaiannya dengan metrik standar industri seperti pass@k, cons@k, dan all@k untuk mengukur kinerja model pada kumpulan data ini. Mitra penelitian dapat mereplikasi metrik ini secara mandiri setelah mengumpulkan hasil evaluasi dari eksekusi OpenGameEval.
Tidak seperti tantangan pengkodean tingkat fungsi pada umumnya, OpenGameEval memungkinkan pengujian end-to-end terhadap komponen inti. Model yang berhasil harus menguasai beberapa keterampilan berbeda, seperti menavigasi hierarki instance, menganalisis status objek, dan menyimpulkan maksud pengguna dari konteks dalam lingkungan.
Tugas Bertahap dan Variasi Kontekstual
Tugas pemrograman Roblox sering kali memerlukan beberapa langkah untuk menavigasi konteks yang ada dalam suatu pengalaman dan menyelidiki beberapa skrip dan instance yang saling terkait untuk mencapai hasil yang diinginkan. Dalam contoh di bawah ini, OpenGameEval memverifikasi beberapa faktor dalam kotak pasir yang mewakili lingkungan instance game nyata untuk memastikan bahwa model dapat memperhitungkan beberapa skrip terkait, interaksi klien/server, dan maksud asli dari prompt dengan tepat.
|
Prompt pengguna: Terapkan sistem regenerasi kesehatan yang dimulai dua detik setelah menerima kerusakan dan meregenerasi 10 kesehatan per detik. Konteks file tempat: Pengalaman laser tag dengan senjata, tim, dan mekanisme permainan inti yang sudah disiapkan. Langkah penalaran yang diharapkan:
Evaluasi yang dapat diverifikasi: Tes yang dapat dijalankan (dijalankan di instance game sandbox) memicu peristiwa kerusakan pada pemain uji dan memverifikasi:
|
Untuk menguji ketahanan dan pemahaman kontekstual model AI secara efektif, tugas-tugas disajikan dalam kondisi lingkungan yang beragam. Misalnya, tugas “menulis skrip lampu lalu lintas empat arah” mencakup tiga variasi kontekstual berdasarkan kondisi awal lingkungan pengembangan.
|
Perintah pengguna: Tuliskan skrip untuk lampu lalu lintas empat arah yang sederhana. Variasi 1: Sebuah file tempat kosong yang hanya berisi pelat dasar. Model lampu lalu lintas bernama TrafficLight tersedia tanpa skrip. Model perlu menjelajahi bagian-bagian berbeda dalam model TrafficLight dan menemukan cara untuk mengaktifkan atau menonaktifkan lampu lalu lintas. Variasi 2: Sebuah file tempat dengan pengaturan pinggiran kota. Beberapa model lampu lalu lintas bernama Traffic Signal tersedia tanpa skrip. Model harus terlebih dahulu menelusuri pengalaman untuk mengidentifikasi lampu lalu lintas dengan benar di antara objek-objek lain. Model lampu lalu lintas disusun dengan logika yang berbeda dari variasi 1, dan model harus menerapkan solusi yang unik untuk pengalaman ini. Variasi 3: Sebuah file tempat dengan pengaturan pinggiran kota. Tersedia beberapa model lampu lalu lintas dan sinyal pejalan kaki. Meskipun skrip untuk lampu lalu lintas telah dihapus, skrip untuk sinyal pejalan kaki tetap ada. Model perlu mengidentifikasi perbedaan antara lampu lalu lintas dan sinyal pejalan kaki serta melakukan perubahan pada objek yang tepat. Apakah keberadaan sinyal pejalan kaki membingungkan model atau justru membantunya? |
Kami tertarik untuk memahami perilaku model pada tugas-tugas yang tampak serupa di lingkungan yang berbeda dengan tingkat konteks dan kompleksitas yang bervariasi.
Hasil Awal
Tolok ukur OpenGameEval menawarkan data empiris untuk mendiagnosis keadaan terkini asisten AI dalam pengembangan interaktif. Kasus uji dirancang untuk membedakan antara kemampuan dalam operasi atomik dan dalam operasi yang memerlukan penalaran kontekstual multi-langkah.
Pengujian awal kami menunjukkan bahwa model umumnya unggul dalam operasi atomik tetapi kesulitan dalam penalaran kontekstual. Mereka mencapai tingkat keberhasilan tertinggi pada tugas yang memerlukan manipulasi instance tunggal dan langsung, seperti mengatur emitter partikel atau memodifikasi kekuatan lompatan pemain. Model terkemuka menunjukkan tingkat keberhasilan mendekati sempurna, membuktikan keahlian mereka dalam pembangkitan kode sintaksis dan pengetahuan dasar API.
Sebaliknya, masih ada kesenjangan yang signifikan dalam tugas-tugas yang menuntut tindakan terkoordinasi, penyaringan kontekstual, dan integrasi API yang mendalam. Contoh seperti sistem regenerasi kesehatan dan lampu lalu lintas empat arah di atas terus menghasilkan skor pass@k yang sangat rendah di semua model.
Evolusi Cepat
Seiring evolusi model, kami mengharapkan kesenjangan ini akan tertutup, namun kami telah menyaksikan perkembangan menarik. Dalam tugas evaluasi yang meminta model untuk “mengubah logo Roblox menjadi kubus berwarna hijau,” awalnya semua model gagal karena nama objek target tidak secara eksplisit mengandung kata “logo” atau “Roblox.”
Evaluasi terbaru menunjukkan bahwa beberapa model kini berhasil menyelesaikan kasus ini dengan melampaui pencocokan kata kunci sederhana menuju penalaran struktural, memanfaatkan pemeriksaan contoh yang mendalam (termasuk properti, bukan hanya nama) dan inferensi terkoordinasi untuk mengidentifikasi objek yang paling mungkin mewakili “logo Roblox.”
Apa selanjutnya?
Kami berkomitmen untuk terus mengembangkan dan memelihara OpenGameEval guna memantau kemajuan pesat di bidang AI. Kerangka kerja dan benchmark OpenGameEval saat ini hanyalah fondasinya. Peta jalan strategis kami berfokus pada tiga tujuan inti untuk memastikan platform ini tetap menjadi standar evaluasi Asisten AI Berbasis Agen di Roblox Studio:
-
Memberdayakan Kreator Melalui Transparansi Kinerja: Kami akan secara rutin memperbarui papan peringkat dan dataset tolok ukur sambil menawarkan ringkasan yang jelas dan transparan yang membantu kreator membandingkan model dan memahami kinerja di seluruh pembuatan kode, penyisipan aset, dan pengaturan alat.
-
Mempercepat Penelitian dan Pengembangan: Kami akan memelihara dan memperluas adaptor API untuk menstandarkan evaluasi, sehingga memungkinkan mitra penelitian menjalankan benchmark yang cepat, lancar, dan dapat direproduksi untuk mengembangkan asisten AI generasi berikutnya.
-
Mengadopsi Pendekatan yang Didorong oleh Komunitas: Kami akan terus mengintegrasikan niat kreator di dunia nyata dan secara aktif meminta kontribusi komunitas untuk memastikan benchmark tetap mewakili pengembangan Roblox terdepan dan kemampuan AI yang terus berkembang.
Bersama-sama, kerangka kerja, kumpulan data, dan papan peringkat publik menjadikan OpenGameEval sebagai fondasi yang transparan dan kolaboratif untuk mengevaluasi kreasi yang didukung AI dalam pengembangan Roblox, membantu seluruh komunitas kreator mengukur kemajuan, berbagi wawasan, dan membangun asisten yang lebih baik.
Pengakuan: Proyek OpenGameEval adalah hasil dari upaya kolaboratif yang signifikan di seluruh tim di Roblox. Terima kasih kepada Vlad Shcherban , Sean Dunigan, dan Jack Lu, yang membantu membangun harness evaluasi, dan Isabella Ting dan