साझा करें

Roblox Studio के लिए एजेंटिक AI सहायकों का बेंचमार्क करने हेतु OpenGameEval का उपयोग

एआई सहायक प्रदर्शन का आकलन करने के लिए पहला रॉब्लॉक्स स्टूडियो-नेटिव मूल्यांकन फ्रेमवर्क और बेंचमार्क

द्वारा तियांतियान झांग, कार्तिक अय्यर, मेंगशा सन और लिन गोंग

प्रकाशित 17 दिस॰ 2025

चुनौती

निर्माता रोब्लॉक्स अनुभव के विकास को गति देने के लिए रोब्लॉक्स स्टूडियो के एआई असिस्टेंट का लाभ उठाते हैं, लेकिन यह मूल्यांकन करना कि एआई असिस्टेंट और इसके अंतर्निहित बड़े भाषा मॉडल (एलएलएम) इंटरैक्टिव विकास कार्यों पर कितनी अच्छी तरह से प्रदर्शन करते हैं, एक चुनौती बनी हुई है। जहाँ पारंपरिक कोडिंग और एजेंटिक बेंचमार्क अलग-थलग, स्टेटलेस (stateless) कार्यों पर ध्यान केंद्रित करते हैं, वहीं Roblox विकास वर्कफ़्लो को ऐसे उद्देश्य-निर्मित मूल्यांकन विधियों की आवश्यकता होती है जो 3D पदानुक्रमों में तर्क करने, मल्टीप्लेयर क्लाइंट-सर्वर इंटरैक्शन को प्रबंधित करने, और एक स्टेटफुल (stateful) दुनिया में बदलाव करने जैसे कार्यों पर प्रदर्शन को मापती हैं।

इस चुनौती का समाधान करने के लिए, हम OpenGameEval पेश कर रहे हैं, जो एक ओपन-सोर्स मूल्यांकन फ्रेमवर्क और नेटिव बेंचमार्क डेटासेट है जो एक पुन: उत्पन्न करने योग्य Roblox स्टूडियो वातावरण में एलएलएम-आधारित एआई असिस्टेंट के प्रदर्शन का मूल्यांकन करता है। हमें उम्मीद है कि OpenGameEval, अपने सार्वजनिक लीडरबोर्ड के साथ, व्यापक एआई अनुसंधान समुदाय के लिए टूल उपयोग, एजेंटिक तर्क, और दीर्घकालिक कार्य समाधान से संबंधित मुख्य मॉडल क्षमताओं का मूल्यांकन करने के लिए एक अनूठा परीक्षण स्थल प्रदान करेगा।

ओपनगेमइवैल का लीडरबोर्ड रोब्लॉक्स डेवलपमेंट के लिए मॉडल की प्रभावशीलता का एक वर्तमान स्नैपशॉट प्रदान करता है।

समाधान

OpenGameEval मूल्यांकन फ्रेमवर्क को Roblox विकास वातावरण की नकल करने के लिए डिज़ाइन किया गया है। प्रत्येक मूल्यांकन एक ऐसे वातावरण में चलाया जाता है जो Roblox Studio में संपादन और खेलने के समय के व्यवहार का अनुकरण करता है। यह सुनिश्चित करता है कि अवलोकित व्यवहार, जैसे भौतिकी, नेटवर्किंग, और मल्टीप्लेयर इंटरैक्शन, वही हो जो एक निर्माता या खिलाड़ी अनुभव करेगा।

यह फ्रेमवर्क इनपुट सिमुलेशन को शामिल करता है, जिससे हम उन विकास कार्यों का मूल्यांकन करने के लिए आवश्यक जटिल खिलाड़ी इंटरैक्शन (जैसे, बटन क्लिक, कीबोर्ड इनपुट, और कैमरा हेरफेर) की प्रोग्रामैटिक रूप से नकल कर सकते हैं।

पूरा मूल्यांकन आर्किटेक्चर एक एकीकृत, उपयोग में आसान एपीआई के पीछे समाहित है। यह एब्स्ट्रैक्शन शोध भागीदारों को अंतर्निहित वातावरण हार्नेस को संशोधित किए बिना, समान बेंचमार्क कार्यों को निष्पादित करने वाले विविध एलएलएम-आधारित एजेंटिक सिस्टम का बेंचमार्क करने की अनुमति देता है।

undefined

ओपनगेमएवल बेंचमार्क डेटासेट

ओपनगेमएवल बेंचमार्क डेटासेट 47 परीक्षण मामलों का एक ओपन-सोर्स, मैन्युअल रूप से क्यूरेट किया गया संग्रह है, जिसे इस फ्रेमवर्क पर एक कठोर, पुनरावृत्तिशील और पूरी तरह से मानवीय-सत्यापित प्रक्रिया के माध्यम से बनाया गया है। हम डोमेन विशेषज्ञों से प्रॉम्प्ट एकत्र करते हैं, एआई मॉडल को आवश्यक संदर्भ प्रदान करने के लिए अनुकूलित रॉब्लॉक्स अनुभव वातावरण बनाते हैं, मैन्युअल रूप से मूल्यांकन और प्रामाणिक समाधान बनाते हैं, और व्यापकता, सामान्यीकरण क्षमता और स्थिरता को सुनिश्चित करने के लिए सभी परिदृश्यों को व्यापक मानवीय समीक्षा के अधीन करते हैं।

प्रारंभिक रिलीज़ में सामान्य Roblox विकास कार्यों से प्राप्त परिदृश्य शामिल हैं, जिनमें गेम मैकेनिक्स, पर्यावरण निर्माण, कैरेक्टर एनिमेशन, इंटरफ़ेस डिज़ाइन और साउंड डिज़ाइन शामिल हैं। OpenGameEval बेंचमार्क निष्पादन योग्य यूनिट टेस्ट का उपयोग करता है, जो डेटासेट पर किसी मॉडल के प्रदर्शन को मापने के लिए अपनी स्कोरिंग पद्धति को pass@k, cons@k, और all@k जैसे उद्योग-मानक मेट्रिक्स के साथ संरेखित करता है। शोध भागीदार OpenGameEval रन से मूल्यांकन परिणाम प्राप्त करने के बाद इन मेट्रिक्स को स्वयं दोहरा सकते हैं।

आम फ़ंक्शन-स्तर की कोडिंग चुनौतियों के विपरीत, OpenGameEval मुख्य घटकों का एंड-टू-एंड परीक्षण सक्षम करता है। एक सफल मॉडल को कई अलग-अलग कौशलों में महारत हासिल करनी चाहिए, जैसे इंस्टेंस पदानुक्रम में नेविगेट करना, ऑब्जेक्ट की स्थिति का विश्लेषण करना, और पर्यावरण के भीतर संदर्भ से उपयोगकर्ता के इरादे का पता लगाना।

बहु-चरणीय कार्य और संदर्भगत भिन्नता

रॉब्लॉक्स कोडिंग कार्यों के लिए अक्सर किसी अनुभव में मौजूदा संदर्भ को नेविगेट करने और वांछित परिणाम प्राप्त करने के लिए कई अंतर्संबंधित स्क्रिप्ट और इंस्टेंस की जांच करने हेतु कई चरणों की आवश्यकता होती है। नीचे दिए गए उदाहरण में, OpenGameEval एक वास्तविक गेम इंस्टेंस वातावरण का प्रतिनिधित्व करने वाले सैंडबॉक्स के भीतर कई कारकों का सत्यापन करता है ताकि यह सुनिश्चित हो सके कि कोई मॉडल कई संबंधित स्क्रिप्ट, क्लाइंट/सर्वर इंटरैक्शन, और प्रॉम्प्ट के मूल इरादे को उचित रूप से ध्यान में रख सकता है।

उपयोगकर्ता प्रॉम्प्ट:

एक स्वास्थ्य पुनर्जनन प्रणाली लागू करें जो क्षति लेने के दो सेकंड बाद शुरू होती है और प्रति सेकंड 10 स्वास्थ्य पुनर्जनित करती है।

प्लेसफ़ाइल संदर्भ:

हथियारों, टीमों और मुख्य खेल तंत्रों के साथ पहले से ही स्थापित एक लेजर टैग अनुभव।

अपेक्षित तर्क प्रक्रिया के चरण:

प्रसंग तैयार करें: विभिन्न खोज उपकरणों के साथ अनुभव का अन्वेषण करें, जिसके लिए अक्सर दायरे समायोजित करते हुए कई खोज चरणों की आवश्यकता होती है:
1. क्षति और खिलाड़ी स्वास्थ्य पर मौजूदा स्क्रिप्ट्स की पहचान करें, और तर्क को समझें।
2. स्वास्थ्य पुनर्जनन स्क्रिप्ट जोड़ने के लिए सबसे उपयुक्त स्थान का तर्क करें (उदाहरण के लिए, सर्वर पर या क्लाइंट पर? मुख्य गेम स्क्रिप्ट में एक अनुभाग के रूप में या एक अलग खिलाड़ी स्क्रिप्ट के रूप में?)।
अमलीकरण: खिलाड़ी की स्वास्थ्य को नियंत्रित करने के लिए उपयुक्त एपीआई का उपयोग करके लुओ (Luau) कोड लिखें। स्क्रिप्ट को निम्नलिखित करने की आवश्यकता है:
1. पुनर्जनन की आवश्यकता कब होती है और पुनर्जनन कैसे होना चाहिए, इसका सही समय निर्धारित करें।
2. सभी क्षति प्रकारों के लिए सामान्यीकृत हो, किसी विशिष्ट क्षति स्क्रिप्ट तक सीमित न हो।

सत्यापनीय मूल्यांकन:

कार्यकारी परीक्षण (सैंडबॉक्स्ड गेम इंस्टेंस में चलाया गया) परीक्षण खिलाड़ी के लिए एक क्षति घटना को ट्रिगर करता है और सत्यापित करता है:

स्वास्थ्य पुनर्जनन सर्वर पर सही ढंग से संभाला जाता है और क्लाइंट पर दिखाई देता है।
पुनर्जनन दो सेकंड की देरी से पहले शुरू नहीं होता है।
स्वास्थ्य प्रति सेकंड 10 की दर से पुनर्जीवित होता है।

undefined

किसी एआई मॉडल की मजबूती और संदर्भगत समझ का प्रभावी ढंग से परीक्षण करने के लिए, कार्यों को विभिन्न पर्यावरणीय परिस्थितियों में प्रस्तुत किया जाता है। उदाहरण के लिए, "चार-तरफ़ा ट्रैफ़िक लाइट का स्क्रिप्टिंग" कार्य में विकास वातावरण की शुरुआती स्थिति के आधार पर तीन संदर्भगत भिन्नताएँ शामिल हैं।

उपयोगकर्ता प्रॉम्प्ट:

एक साधारण चार-तरफ़ा ट्रैफ़िक लाइट के लिए मेरे लिए एक स्क्रिप्ट लिखें।

विविधीकरण 1:

केवल एक बेसप्लेट वाली एक खाली प्लेसफ़ाइल। बिना स्क्रिप्ट के TrafficLight नामक एक ट्रैफ़िक लाइट मॉडल उपलब्ध है।

मॉडल को TrafficLight मॉडल के विभिन्न हिस्सों का अन्वेषण करने और ऑन/ऑफ स्थिति को टॉगल करने का तरीका खोजने की आवश्यकता है।

विविधीकरण 2:

उपनगरीय सेटअप वाली एक प्लेसफ़ाइल। स्क्रिप्ट के बिना ट्रैफ़िक सिग्नल नामक कई ट्रैफ़िक लाइट मॉडल उपलब्ध हैं।

मॉडल को पहले अनुभव में अन्य उदाहरणों के बीच ट्रैफ़िक लाइट्स की सही पहचान करने के लिए खोज करनी होगी। ट्रैफ़िक लाइट मॉडल वेरिएंट 1 की तुलना में एक अलग लॉजिक के साथ संरचित हैं, और मॉडल को इस अनुभव के लिए एक अनूठा समाधान लागू करना होगा।

विविधता 3:

उपनगरीय सेटअप वाली एक प्लेसफ़ाइल। कई ट्रैफ़िक लाइट और पैदल यात्री सिग्नल मॉडल उपलब्ध हैं। जबकि ट्रैफ़िक लाइट्स के लिए स्क्रिप्ट हटा दी गई हैं, पैदल यात्री सिग्नल के लिए स्क्रिप्ट बनी हुई हैं।

मॉडल को ट्रैफ़िक लाइट और पैदल यात्री संकेतों के बीच के अंतर को पहचानने और सही ऑब्जेक्ट्स में बदलाव करने की आवश्यकता है। क्या पैदल यात्री संकेतों का होना मॉडल को भ्रमित करता है या उसकी मदद करता है?

undefined — *एक बेसप्लेट में ट्रैफिक लाइट।*

हम विभिन्न संदर्भों और जटिलता के स्तरों वाले अलग-अलग वातावरणों में, समान प्रतीत होने वाले कार्यों पर मॉडलों के व्यवहार को समझने में रुचि रखते हैं।

प्रारंभिक परिणाम

OpenGameEval बेंचमार्क इंटरैक्टिव डेवलपमेंट में एआई असिस्टेंट्स की वर्तमान स्थिति का निदान करने के लिए अनुभवजन्य डेटा प्रदान करता है। टेस्ट केस एटॉमिक ऑपरेशंस और उन ऑपरेशंस, जिन्हें बहु-चरणीय संदर्भगत तर्क की आवश्यकता होती है, में क्षमताओं के बीच अंतर करने के लिए डिज़ाइन किए गए हैं।

हमारी प्रारंभिक परीक्षण से पता चला है कि मॉडल आम तौर पर एटॉमिक ऑपरेशंस में तो माहिर हैं, लेकिन संदर्भगत तर्क (contextual reasoning) में संघर्ष करते हैं। वे उन कार्यों में सबसे अधिक सफलता दर हासिल करते हैं जिनमें एकल, प्रत्यक्ष उदाहरण हेरफेर की आवश्यकता होती है, जैसे कि एक पार्टिकल इमिटर सेट करना या किसी खिलाड़ी की जंप पावर को संशोधित करना। अग्रणी मॉडल लगभग-परिपूर्ण सफलता का प्रदर्शन करते हैं, जो सिंटैक्टिक कोड जनरेशन और बुनियादी एपीआई ज्ञान में उनकी प्रवीणता को साबित करता है।

इसके विपरीत, समन्वित कार्रवाई, संदर्भगत फ़िल्टरिंग, और गहरे एपीआई एकीकरण की मांग करने वाले कार्यों में एक बड़ी कमी बनी हुई है। स्वास्थ्य पुनर्जनन प्रणाली और ऊपर दिए गए चार-तरफ़ा ट्रैफ़िक लाइट जैसे उदाहरण, सभी मॉडलों में बहुत कम पास@k स्कोर देते रहते हैं।

तेज़ विकास

जैसे-जैसे मॉडल विकसित होते जा रहे हैं, हम उम्मीद करते हैं कि ये अंतर कम हो जाएँगे, लेकिन हमने पहले ही दिलचस्प विकास देखे हैं। एक मूल्यांकन कार्य में जिसमें एक मॉडल से "क्यूब की तरह रोब्लॉक्स लोगो को हरा करने" के लिए कहा गया, हमने शुरुआत में देखा कि मॉडल सार्वभौमिक रूप से विफल हो गए क्योंकि लक्ष्य वस्तु के नाम में स्पष्ट रूप से लोगो या रोब्लॉक्स शब्द शामिल नहीं था।

undefined

हाल के मूल्यांकन से पता चलता है कि कुछ मॉडल अब सरल कीवर्ड मिलान से आगे बढ़कर संरचनात्मक तर्क, निकट उदाहरण निरीक्षण (केवल नाम ही नहीं, बल्कि गुणों सहित) और समन्वित अनुमान का उपयोग करके इस मामले को सफलतापूर्वक हल कर रहे हैं, ताकि "Roblox लोगो" का प्रतिनिधित्व करने वाली वस्तु की पहचान की जा सके।

आगे क्या?

हम एआई के क्षेत्र में हो रही तीव्र प्रगति को ट्रैक करने के लिए OpenGameEval का लगातार विस्तार और रखरखाव करने के लिए प्रतिबद्ध हैं। वर्तमान OpenGameEval फ्रेमवर्क और बेंचमार्क केवल एक नींव हैं। हमारा रणनीतिक रोडमैप तीन मुख्य लक्ष्यों पर केंद्रित है ताकि यह सुनिश्चित हो सके कि यह प्लेटफ़ॉर्म Roblox Studio Agentic AI Assistant मूल्यांकन के लिए मानक बना रहे:

प्रदर्शन पारदर्शिता के माध्यम से निर्माताओं को सशक्त बनाना: हम लीडरबोर्ड और बेंचमार्क डेटासेट को नियमित रूप से अपडेट करेंगे और साथ ही स्पष्ट, पारदर्शी सारांश भी प्रदान करेंगे जो निर्माताओं को मॉडल की तुलना करने और कोड जनरेशन, एसेट इन्सर्शन, और टूल ऑर्केस्ट्रेशन में प्रदर्शन को समझने में मदद करते हैं।
अनुसंधान और विकास को गति दें: हम मूल्यांकन को मानकीकृत करने के लिए एपीआई एडाप्टर को बनाए रखेंगे और उसका विस्तार करेंगे, जिससे अनुसंधान भागीदारों को अगली पीढ़ी के एआई सहायकों को विकसित करने के लिए तेज़, बाधारहित, पुन:प्रजन्य बेंचमार्क चलाने में सक्षम बनाया जा सके।
एक समुदाय-संचालित दृष्टिकोण अपनाएँ: हम वास्तविक-विश्व के क्रिएटर इरादों को एकीकृत करना जारी रखेंगे और समुदाय के योगदानों का सक्रिय रूप से अनुरोध करेंगे ताकि यह सुनिश्चित हो सके कि बेंचमार्क अत्याधुनिक Roblox विकास और उन्नत एआई क्षमताओं का प्रतिनिधित्व करता रहे।

मिलकर, यह फ्रेमवर्क, डेटासेट, और सार्वजनिक लीडरबोर्ड OpenGameEval को Roblox डेवलपमेंट में एआई-संचालित रचनाओं का मूल्यांकन करने के लिए एक पारदर्शी, सहयोगात्मक नींव बनाते हैं, जो पूरे क्रिएटर समुदाय को प्रगति मापने, अंतर्दृष्टि साझा करने, और बेहतर असिस्टेंट बनाने में मदद करते हैं।

धन्यवाद: ओपनगेमएवल परियोजना रॉब्लॉक्स की टीमों के बीच एक महत्वपूर्ण सहयोगात्मक प्रयास का परिणाम है। विशेष धन्यवाद , Sean Dunigan, और जैक लू, जिन्होंने मूल्यांकन हार्नेस बनाने में मदद की, और Isabella Ting और Brent Vincent, जिनकी अंतर्दृष्टि इस रिलीज़ को आकार देने में महत्वपूर्ण थी। हम अपनी साझेदार टीमों और पूर्व टीम सदस्यों के प्रति गहराई से आभारी हैं, क्योंकि यह कार्य उनकी सामूहिक विशेषज्ञता और प्रतिबद्धता को दर्शाता है।

Latest

More results

Roblox Studio के लिए एजेंटिक AI सहायकों का बेंचमार्क करने हेतु OpenGameEval का उपयोग

चुनौती

समाधान

ओपनगेमएवल बेंचमार्क डेटासेट

बहु-चरणीय कार्य और संदर्भगत भिन्नता

प्रारंभिक परिणाम

तेज़ विकास

आगे क्या?

Roblox Studio के लिए एजेंटिक AI सहायकों का बेंचमार्क करने हेतु OpenGameEval का उपयोग

चुनौती

समाधान

ओपनगेमएवल बेंचमार्क डेटासेट

बहु-चरणीय कार्य और संदर्भगत भिन्नता

प्रारंभिक परिणाम

तेज़ विकास

आगे क्या?

प्रॉडक्ट

Accelerating Creation, Powered by Roblox’s Cube Foundation Model

इंजीनियरिंग

How We Doubled AI Code Acceptance by Teaching Models to Think Like Roblox Engineers

इंजीनियरिंग

Introducing SLIM: Scalable Lightweight Interactive Models