Roblox Studio için Agentik Yapay Zeka Asistanlarını Kıyaslamak için OpenGameEval Kullanımı
Yapay Zeka Asistan Performansının Değerlendirilmesi için Roblox Stüdyosuna Özgü İlk Değerlendirme Çerçevesi ve Kıyaslama Ölçütü
Zorluk
Yaratıcılar, Roblox deneyimi geliştirme sürecini hızlandırmak için Roblox Studio’nun AI Asistanını kullanıyor; ancak AI Asistanı ve bunun temelini oluşturan büyük dil modellerinin (LLM) etkileşimli geliştirme görevlerinde ne kadar iyi performans gösterdiğini değerlendirmek hâlâ bir zorluktur. Geleneksel kodlama ve ajan tabanlı karşılaştırmalar izole, durum bilgisi içermeyen görevlere odaklanırken, Roblox geliştirme iş akışları, 3D hiyerarşilerinde akıl yürütme, çok oyunculu istemci-sunucu etkileşimlerini yönetme ve durum bilgisi içeren bir dünyada değişiklikler yapma gibi görevlerdeki performansı ölçen, amaca yönelik değerlendirme yöntemleri gerektirir.
Bu zorluğun üstesinden gelmek için, tekrarlanabilir bir Roblox Studio ortamında LLM tabanlı AI Assistant performansını değerlendiren açık kaynaklı bir değerlendirme çerçevesi ve yerel karşılaştırma veri seti olan OpenGameEval'ı sunuyoruz. OpenGameEval'ın, halka açık liderlik tablosuyla birlikte, daha geniş AI araştırma topluluğuna araç kullanımı, ajansal akıl yürütme ve uzun vadeli görev çözme ile ilgili temel model yeteneklerini değerlendirmek için benzersiz bir test alanı sunmasını umuyoruz.
OpenGameEval’ın liderlik tablosu, Roblox gelişimi için model etkinliğinin güncel bir görüntüsünü sağlar.
Çözüm
OpenGameEval değerlendirme çerçevesi, Roblox geliştirme ortamını taklit etmek üzere tasarlanmıştır. Her değerlendirme, Roblox Studio'daki düzenleme ve oyun süresi davranışını simüle eden bir ortamda gerçekleştirilir. Bu, fizik, ağ iletişimi ve çok oyunculu etkileşim gibi gözlemlenen davranışların, bir içerik oluşturucunun veya oyuncunun deneyimleyeceği ile aynı olmasını sağlar.
Çerçeve, giriş simülasyonunu içerir ve bu sayede, kullanıcı eylemleri gerektiren geliştirme görevlerini (ör. düğme tıklamaları, klavye girişleri ve kamera manipülasyonu) değerlendirmek için gerekli olan karmaşık oyuncu etkileşimlerini programlı olarak taklit etmemizi sağlar.
Tüm değerlendirme mimarisi, birleşik ve kullanımı kolay bir API arkasında kapsüllenmiştir. Bu soyutlama, araştırma ortaklarının, altta yatan ortam donanımını değiştirmeden aynı benchmark görevlerini gerçekleştiren çeşitli LLM tabanlı ajan sistemlerini karşılaştırmasına olanak tanır.
OpenGameEval Karşılaştırma Veri Seti
OpenGameEval karşılaştırma veri seti, titiz, yinelemeli ve tamamen insan tarafından doğrulanmış bir süreçle bu çerçeve üzerine inşa edilmiş, açık kaynaklı, manuel olarak derlenmiş 47 test vakasından oluşan bir pakettir. Alan uzmanlarından komutlar topluyoruz, AI modellerine gerekli bağlamı sağlamak için özel Roblox deneyim ortamları oluşturuyoruz, değerlendirmeleri ve yetkili çözümleri manuel olarak oluşturuyoruz ve kapsamlılığı, genelleştirilebilirliği ve istikrarı garanti etmek için tüm senaryoları kapsamlı bir insan incelemesine tabi tutuyoruz.
İlk sürüm, oyun mekaniği, ortam oluşturma, karakter animasyonu, arayüz tasarımı ve ses tasarımı dahil olmak üzere yaygın Roblox geliştirme görevlerinden türetilen senaryolar içerir. OpenGameEval benchmark, yürütülebilir birim testlerini kullanır ve puanlama metodolojisini pass@k, cons@k ve all@k gibi endüstri standardı metriklerle uyumlu hale getirerek veri seti üzerindeki model performansını ölçer. Araştırma ortakları, OpenGameEval çalıştırmalarından değerlendirme sonuçlarını topladıktan sonra bu metrikleri kendi başlarına tekrarlayabilir.
Tipik işlev düzeyindeki kodlama zorluklarından farklı olarak, OpenGameEval temel bileşenlerin uçtan uca test edilmesini sağlar. Başarılı bir model, örnek hiyerarşisinde gezinme, nesne durumunu analiz etme ve ortamdaki bağlamdan kullanıcının niyetini çıkarma gibi çeşitli becerileri ustaca kullanabilmelidir.
Çok Adımlı Görevler ve Bağlamsal Değişim
Roblox kodlama görevleri, genellikle bir deneyimdeki mevcut bağlamda gezinmek ve istenen sonucu elde etmek için birbiriyle iç içe geçmiş birden fazla komut dosyasını ve örneği incelemek için birden fazla adım gerektirir. Aşağıdaki örnekte, OpenGameEval, bir modelin birden fazla ilgili komut dosyasını, istemci/sunucu etkileşimini ve komut isteminin orijinal niyetini uygun şekilde hesaba katabildiğinden emin olmak için gerçek bir oyun örneği ortamını temsil eden bir sanal ortamdaki birden fazla faktörü doğrular.
|
Kullanıcı komutu: Hasar aldıktan iki saniye sonra başlayan ve saniyede 10 sağlık puanı yenileyen bir sağlık yenileme sistemi uygulayın. Placefile bağlamı: Silahlar, takımlar ve temel oyun mekanizmaları önceden ayarlanmış bir lazer tag deneyimi. Beklenen akıl yürütme adımları:
Doğrulanabilir değerlendirme: Yürütülebilir test (sandbox oyun örneğinde çalıştırılır), test oyuncusuna bir hasar olayı tetikler ve şunları doğrular:
|
Bir AI modelinin sağlamlığını ve bağlamsal anlayışını etkili bir şekilde test etmek için, görevler çeşitli çevresel koşullar altında sunulur. Örneğin, "dört yönlü trafik ışığı senaryosu yazma" görevi, geliştirme ortamının başlangıç durumuna bağlı olarak üç bağlamsal varyasyon içerir.
|
Kullanıcı komutu: Bana basit bir dört yönlü trafik ışığı için bir komut dosyası yaz. Varyasyon 1: Yalnızca bir taban plakası içeren boş bir yer dosyası. TrafficLight adlı bir trafik ışığı modeli, komut dosyası olmadan mevcuttur. Model, TrafficLight modeli içindeki farklı parçaları keşfetmeli ve açık/kapalı durumunu değiştirmenin bir yolunu bulmalıdır. Varyasyon 2: Banliyö düzenine sahip bir yer dosyası. Traffic Signal adlı birden fazla trafik ışığı modeli, komut dosyası olmadan mevcuttur. Model, önce deneyimi tarayarak diğer örnekler arasından trafik ışıklarını doğru bir şekilde tanımlamalıdır. Trafik ışığı modelleri, varyant 1'den farklı bir mantıkla yapılandırılmıştır ve modelin bu deneyime özgü bir çözüm uygulaması gerekir. Varyasyon 3: Banliyö düzenine sahip bir yer dosyası. Birden fazla trafik ışığı ve yaya sinyali modeli mevcuttur. Trafik ışıkları için komut dosyaları kaldırılırken, yaya sinyalleri için komut dosyaları kalır. Model, trafik ışıkları ile yaya sinyalleri arasındaki farkı belirlemeli ve doğru nesnelerde değişiklikler yapmalıdır. Yaya sinyallerinin varlığı modeli karıştırır mı yoksa yardımcı olur mu? |
Farklı bağlam ve karmaşıklık düzeylerine sahip farklı ortamlarda, görünüşte benzer görevlerde modellerin davranışını anlamak istiyoruz.
İlk Sonuçlar
OpenGameEval benchmarkı, etkileşimli geliştirmede AI asistanlarının mevcut durumunu teşhis etmek için ampirik veriler sunar. Test senaryoları, atomik işlemler ile çok adımlı bağlamsal akıl yürütme gerektiren işlemler arasındaki yetenekleri ayırt etmek üzere tasarlanmıştır.
İlk testlerimiz, modellerin genellikle atomik işlemlerde üstün performans gösterdiğini, ancak bağlamsal akıl yürütmede zorlandığını ortaya koydu. Modeller, parçacık yayıcıyı ayarlamak veya bir oyuncunun zıplama gücünü değiştirmek gibi tek ve doğrudan örnek manipülasyonu gerektiren görevlerde en yüksek başarı oranlarını elde ediyor. Önde gelen modeller neredeyse mükemmel bir başarı sergiliyor ve sözdizimsel kod üretimi ve temel API bilgisi konusundaki yetkinliklerini kanıtlıyor.
Buna karşın, koordineli eylem, bağlamsal filtreleme ve derin API entegrasyonu gerektiren görevlerde önemli bir uçurum devam etmektedir. Yukarıdaki sağlık yenileme sistemi ve dört yönlü trafik ışığı gibi örnekler, tüm modellerde çok düşük pass@k puanları almaya devam etmektedir.
Hızlı Evrim
Modeller gelişmeye devam ettikçe bu boşlukların kapanmasını bekliyoruz, ancak şimdiden ilginç gelişmeler gördük. Bir modele "Roblox logosunu küp şeklinde yeşile çevir" talimatını veren bir değerlendirme görevinde, hedef nesnenin adında logo veya Roblox kelimesi açıkça bulunmadığı için başlangıçta modellerin genel olarak başarısız olduğunu gördük.
Daha yeni değerlendirmeler, bazı modellerin artık basit anahtar kelime eşleştirmenin ötesine geçerek yapısal akıl yürütmeye, yakın örnek incelemesine (sadece isim değil, özellikler de dahil) ve koordineli çıkarımlara başvurarak "Roblox logosu"nu temsil etme olasılığı en yüksek nesneyi belirleyerek bu durumu başarıyla çözdüğünü gösteriyor.
Sırada ne var?
AI alanındaki hızlı gelişmeleri takip etmek için OpenGameEval'i sürekli genişletmeye ve sürdürmeye kararlıyız. Mevcut OpenGameEval çerçevesi ve karşılaştırma ölçütü sadece bir temeldir. Stratejik yol haritamız, platformun Roblox Studio Agentic AI Assistant değerlendirmesi için standart olmaya devam etmesini sağlamak üzere üç temel hedefe odaklanmaktadır:
-
Performans Şeffaflığıyla Yaratıcılara Güç Vermek: Yaratıcıların modelleri karşılaştırmasına ve kod üretimi, varlık ekleme ve araç düzenlemesi genelinde performansı anlamasına yardımcı olacak açık ve şeffaf özetler sunarken, liderlik tablosunu ve karşılaştırma veri setini düzenli olarak güncelleyeceğiz.
-
Araştırma ve Geliştirmeyi Hızlandırmak: Değerlendirmeyi standartlaştırmak için API adaptörünü sürdürecek ve genişleteceğiz; böylece araştırma ortaklarının yeni nesil AI asistanları geliştirmek için hızlı, sorunsuz ve tekrarlanabilir karşılaştırmalar yapmasını sağlayacağız.
-
Topluluk Odaklı Bir Yaklaşım Benimsemek: Karşılaştırma setinin en son Roblox geliştirme ve gelişen AI yeteneklerini temsil etmeye devam etmesini sağlamak için gerçek dünyadaki içerik oluşturucuların niyetlerini entegre etmeye ve topluluktan aktif olarak katkı almaya devam edeceğiz.
Çerçeve, veri kümesi ve herkese açık liderlik tablosu bir araya gelerek OpenGameEval'ı, Roblox geliştirme sürecinde AI destekli içerik üretimini değerlendirmek için şeffaf ve işbirliğine dayalı bir temel haline getiriyor. Bu sayede, tüm içerik oluşturucu topluluğunun ilerlemeyi ölçmesine, içgörülerini paylaşmasına ve daha iyi asistanlar geliştirmesine yardımcı oluyor.
Teşekkürler: OpenGameEval projesi, Roblox'taki ekipler arasında önemli bir işbirliği çabasının sonucudur. Özel teşekkürler Vlad Shcherban, Sean Dunigan, ve Jack Lu, değerlendirme donanımının oluşturulmasına yardımcı olan ve Isabella Ting ve Brent Vincent, görüşleri bu sürümün şekillendirilmesinde etkili oldu. Bu çalışma onların kolektif uzmanlığını ve bağlılığını yansıttığı için ortak ekiplerimize ve eski ekip üyelerimize derinden minnettarız.