استخدام OpenGameEval لقياس أداء مساعدي الذكاء الاصطناعي العميل لـ Roblox Studio

أول إطار تقييم ومعيار لتقييم أداء مساعد الذكاء الاصطناعي في استوديو Roblox Studio الأول من نوعه

بواسطة تيانتيان تشانغ وكارتيك أيار ومنغشا سون ولين غونغ

نُشر 17‏/12‏/2025

التحدي

يستفيد المبدعون من مساعد الذكاء الاصطناعي في Roblox Studio لتسريع تطوير تجربة Roblox، لكن تقييم مدى كفاءة أداء مساعد الذكاء الاصطناعي ونماذج اللغة الكبيرة (LLMs) التي يعتمد عليها في مهام التطوير التفاعلية لا يزال يمثل تحديًا. بينما تركز معايير البرمجة التقليدية ومعايير الوكلاء على مهام منعزلة وخالية من الحالة، تتطلب سير عمل تطوير Roblox أساليب تقييم مصممة خصيصًا لقياس الأداء في مهام مثل الاستدلال عبر التسلسلات الهرمية ثلاثية الأبعاد، وإدارة تفاعلات العميل-الخادم متعددة اللاعبين، وإجراء تغييرات على عالم ذي حالة.

لمواجهة هذا التحدي، نقدم OpenGameEval، وهو إطار عمل تقييم مفتوح المصدر ومجموعة بيانات معايير أصلية تقيّم أداء مساعد الذكاء الاصطناعي القائم على نماذج اللغة الكبيرة (LLM) في بيئة Roblox Studio قابلة للتكرار. نأمل أن يوفر OpenGameEval، إلى جانب لائحته العامة، أرضية اختبار فريدة لمجتمع أبحاث الذكاء الاصطناعي الأوسع لتقييم قدرات النماذج الأساسية المتعلقة باستخدام الأدوات، والاستدلال الوكالي، وحل المهام طويلة المدى.

توفر لوحة المتصدرين الخاصة بـOpenGameEval&rsquo&rquo;، لقطة حالية لفعالية النموذج لتطوير Roblox.

الحل

تم تصميم إطار عمل التقييم OpenGameEval لتقليد بيئة تطوير Roblox. يتم تنفيذ كل تقييم في بيئة تحاكي سلوك وقت التحرير واللعب في Roblox Studio. وهذا يضمن أن السلوك الملحوظ، مثل الفيزياء والشبكات والتفاعل متعدد اللاعبين، مطابق لما قد يختبره المبدع أو اللاعب.

يتضمن الإطار محاكاة الإدخال، مما يسمح لنا بمحاكاة التفاعلات المعقدة للاعبين برمجيًا، وهي ضرورية لتقييم مهام التطوير التي تتطلب إجراءات من المستخدم (مثل النقر على الأزرار وإدخال البيانات من لوحة المفاتيح والتحكم في الكاميرا).

يتم تغليف بنية التقييم بأكملها خلف واجهة برمجة تطبيقات (API) موحدة وسهلة الاستخدام. يتيح هذا التجريد لشركاء البحث إجراء مقارنة بين أنظمة الوكلاء المتنوعة القائمة على نماذج اللغة الكبيرة (LLM) التي تؤدي مهام قياس أداء متطابقة دون تعديل البيئة الأساسية.

undefined

مجموعة بيانات معيار OpenGameEval

مجموعة بيانات معيار OpenGameEval هي مجموعة مفتوحة المصدر ومنسقة يدويًا تضم 47 حالة اختبار مبنية على هذا الإطار من خلال عملية صارمة وتكرارية ومُثبتة بالكامل من قبل البشر. نجمع المطالبات من خبراء المجال، ونبني بيئات تجربة Roblox مخصصة لتوفير السياق الضروري لنماذج الذكاء الاصطناعي، وننشئ التقييمات والحلول الموثوقة يدويًا، ونخضع جميع السيناريوهات لمراجعة بشرية شاملة لضمان الشمولية والقابلية للتعميم والاستقرار.

يحتوي الإصدار الأولي على سيناريوهات مستمدة من مهام تطوير Roblox الشائعة، بما في ذلك آليات اللعبة، وبناء البيئة، وتحريك الشخصيات، وتصميم الواجهة، وتصميم الصوت. يستخدم معيار OpenGameEval اختبارات الوحدة القابلة للتنفيذ، ويوائم منهجية التقييم الخاصة به مع المقاييس القياسية في الصناعة مثل pass@k و cons@k و all@k لتقييم أداء النموذج على مجموعة البيانات. يمكن لشركاء البحث تكرار هذه المقاييس بأنفسهم بعد جمع نتائج التقييم من عمليات تشغيل OpenGameEval.

على عكس تحديات البرمجة النموذجية على مستوى الوظائف، يتيح OpenGameEval إجراء اختبار شامل للمكونات الأساسية. يجب أن يتقن النموذج الناجح عدة مهارات متميزة، مثل التنقل في التسلسل الهرمي للمثيلات، وتحليل حالة الكائنات، واستنتاج نية المستخدم من السياق داخل البيئة.

المهام متعددة الخطوات والتباين السياقي

غالبًا ما تتطلب مهام البرمجة في Roblox عدة خطوات للتنقل في السياق الحالي في التجربة والتحقيق في العديد من البرامج النصية والمثيلات المتشابكة لتحقيق النتيجة المرجوة. في المثال أدناه، يتحقق OpenGameEval من عوامل متعددة داخل صندوق رمل يمثل بيئة مثيل لعبة حقيقية للتأكد من أن النموذج يمكنه مراعاة البرامج النصية المتعددة ذات الصلة، والتفاعل بين العميل والخادم، والنية الأصلية للموجه بشكل مناسب.

موجه المستخدم:

قم بتنفيذ نظام لتجديد الصحة يبدأ بعد ثانيتين من تلقي الضرر ويجدد 10 نقاط صحة في الثانية.

سياق ملف المكان:

تجربة ليزر تاغ مع أسلحة وفرق وآليات لعب أساسية معدة مسبقًا.

خطوات الاستدلال المتوقعة:

وضع السياق: استكشف التجربة باستخدام أدوات بحث مختلفة، الأمر الذي يتطلب غالبًا عدة خطوات بحث لتعديل نطاقات البحث:
1. تحديد البرامج النصية الموجودة بشأن الضرر وصحة اللاعب، وفهم المنطق.
2. تحديد أفضل مكان لإضافة البرنامج النصي لتجديد الصحة (على سبيل المثال، على الخادم أم العميل؟ كقسم في البرنامج النصي الأساسي للعبة أم كبرنامج نصي منفصل للاعب؟).
التنفيذ: كتابة كود Luau باستخدام واجهات برمجة التطبيقات (APIs) المناسبة للتحكم في صحة اللاعب. يجب أن يقوم البرنامج النصي بما يلي:
1. التقاط التوقيت المناسب عندما تكون التجديد مطلوبة، وكيف يجب أن يحدث التجديد.
2. أن يكون قابلاً للتعميم على جميع أنواع الضرر، وألا يقتصر على نص برمجي معين للضرر.

التقييم القابل للتحقق:

يُطلق الاختبار القابل للتنفيذ (الذي يتم تشغيله في مثيل اللعبة المحمي) حدث ضرر للاعب الاختبار ويتحقق مما يلي:

أن تجديد الصحة يتم التعامل معه بشكل صحيح على الخادم ويظهر على العميل.
ألا يبدأ التجديد قبل مرور ثانيتين.
تتجدد الصحة بمعدل 10 نقاط صحة في الثانية.

undefined

لاختبار متانة نموذج الذكاء الاصطناعي وفهمه للسياق بشكل فعال، يتم تقديم المهام في ظل ظروف بيئية متنوعة. على سبيل المثال، تتضمن مهمة "كتابة برنامج إشارة مرور رباعية" ثلاثة اختلافات سياقية بناءً على الحالة الأولية لبيئة التطوير.

مطالبة المستخدم:

اكتب لي برنامجًا لإشارة مرور رباعية بسيطة.

التباين 1:

ملف مكان فارغ يحتوي فقط على لوح أساسي. يتوفر نموذج إشارة مرور باسم TrafficLight بدون برنامج نصي.

يحتاج النموذج إلى استكشاف أجزاء مختلفة داخل نموذج TrafficLight وإيجاد طريقة لتبديل حالة التشغيل/الإيقاف.

الخيار 2:

ملف مكان به إعدادات ضواحي. تتوفر نماذج إشارات مرور متعددة باسم Traffic Signal بدون نصوص برمجية.

يحتاج النموذج أولاً إلى البحث في التجربة لتحديد إشارات المرور بشكل صحيح من بين الحالات الأخرى. تم تصميم نماذج إشارات المرور بمنطق مختلف عن الاختلاف 1، ويحتاج النموذج إلى تنفيذ حل فريد لهذه التجربة.

الاختلاف 3:

ملف مكان مع إعدادات ضواحي. تتوفر نماذج متعددة لإشارات المرور وإشارات المشاة. في حين تمت إزالة البرامج النصية الخاصة بإشارات المرور، إلا أن البرامج النصية الخاصة بإشارات المشاة لا تزال موجودة.

يحتاج النموذج إلى تحديد الفرق بين إشارات المرور وإشارات المشاة وإجراء تغييرات على الكائنات الصحيحة. هل وجود إشارات المشاة يربك النموذج أم يساعده؟

نحن مهتمون بفهم سلوك النماذج في مهام تبدو متشابهة في بيئات مختلفة ذات مستويات متفاوتة من السياق والتعقيد.

النتائج الأولية

يوفر معيار OpenGameEval بيانات تجريبية لتشخيص الحالة الحالية لمساعدات الذكاء الاصطناعي في التطوير التفاعلي. تم تصميم حالات الاختبار للتمييز بين القدرات في العمليات الذرية والعمليات التي تتطلب استدلالًا سياقيًا متعدد الخطوات.

كشفت اختباراتنا الأولية أن النماذج تتفوق عمومًا في العمليات الذرية ولكنها تواجه صعوبة في الاستدلال السياقي. وهي تحقق أعلى معدلات النجاح في المهام التي تتطلب معالجة حالة واحدة ومباشرة، مثل ضبط باعث الجسيمات أو تعديل قوة قفز اللاعب. تُظهر النماذج الرائدة نجاحًا شبه مثالي، مما يثبت كفاءتها في توليد الكود النحوي والمعرفة الأساسية بواجهة برمجة التطبيقات (API).

في المقابل، لا تزال هناك فجوة كبيرة في المهام التي تتطلب إجراءات منسقة وتصفية سياقية وتكاملًا عميقًا لواجهات برمجة التطبيقات. لا تزال أمثلة مثل نظام تجديد الصحة وإشارة المرور الرباعية المذكورة أعلاه تحقق درجات pass@k منخفضة جدًا في جميع النماذج.

تطور سريع

مع استمرار تطور النماذج، نتوقع أن نرى هذه الفجوات تضيق، لكننا شهدنا بالفعل تطورات مثيرة للاهتمام. في إحدى مهام التقييم التي تطلب من النموذج "تغيير شعار Roblox مثل مكعب ليصبح أخضر"، رأينا في البداية أن النماذج تفشل بشكل عام لأن اسم الكائن المستهدف لم يحتوِ صراحةً على كلمة logo أو Roblox.

undefined

تُظهر التقييمات الأحدث أن بعض النماذج تنجح الآن في حل هذه الحالة من خلال تجاوز المطابقة البسيطة للكلمات المفتاحية إلى الاستدلال الهيكلي، باستخدام الفحص الدقيق للمثيلات (بما في ذلك الخصائص، وليس الاسم فقط) والاستدلال المنسق لتحديد الكائن الأكثر احتمالاً لتمثيل "شعار Roblox".

ما هي الخطوة التالية؟

نحن ملتزمون بالتوسع المستمر في OpenGameEval وصيانته لتتبع التطورات السريعة في مجال الذكاء الاصطناعي. إن إطار عمل OpenGameEval الحالي ومعيار الأداء هما مجرد الأساس. تركز خارطة الطريق الاستراتيجية لدينا على ثلاثة أهداف أساسية لضمان بقاء المنصة المعيار لتقييم مساعد الذكاء الاصطناعي Agentic في Roblox Studio:

تمكين المبدعين من خلال شفافية الأداء: سنقوم بتحديث قائمة المتصدرين ومجموعة بيانات المعايير بشكل روتيني مع تقديم ملخصات واضحة وشفافة تساعد المبدعين على مقارنة النماذج وفهم الأداء عبر توليد الكود وإدراج الأصول وتنسيق الأدوات.
تسريع البحث والتطوير: سنحافظ على محول واجهة برمجة التطبيقات (API) ونوسعه لتوحيد التقييم، مما يمكّن شركاء البحث من إجراء معايير قياس سريعة وسلسة وقابلة للتكرار لتطوير مساعدات الذكاء الاصطناعي من الجيل التالي.
اتخاذ نهج قائم على المجتمع: سنواصل دمج نوايا المبدعين في العالم الواقعي وطلب مساهمات المجتمع بنشاط لضمان أن تظل المعايير ممثلة لأحدث التطورات في Roblox وقدرات الذكاء الاصطناعي المتقدمة.

معًا، تجعل البنية الأساسية ومجموعة البيانات ولوحة المتصدرين العامة من OpenGameEval أساسًا شفافًا وتعاونيًا لتقييم الإبداع المدعوم بالذكاء الاصطناعي في تطوير Roblox، مما يساعد مجتمع المبدعين بأكمله على قياس التقدم ومشاركة الرؤى وبناء مساعدين أفضل.

"Sean Dunigan","per_e": "sdunigan@roblox.com","type":"bvincent@roblox.com","type;"""""شخص"}">برنت فنسنت، الذي كان لرؤيته دور فعال في تشكيل هذا الإصدار. ونحن ممتنون للغاية لفرقنا الشريكة وأعضاء الفريق السابقين، حيث يعكس هذا العمل خبرتهم والتزامهم الجماعي

Latest

More results

استخدام OpenGameEval لقياس أداء مساعدي الذكاء الاصطناعي العميل لـ Roblox Studio

التحدي

الحل

مجموعة بيانات معيار OpenGameEval

المهام متعددة الخطوات والتباين السياقي

النتائج الأولية

تطور سريع

ما هي الخطوة التالية؟

استخدام OpenGameEval لقياس أداء مساعدي الذكاء الاصطناعي العميل لـ Roblox Studio

التحدي

الحل

مجموعة بيانات معيار OpenGameEval

المهام متعددة الخطوات والتباين السياقي

النتائج الأولية

تطور سريع

ما هي الخطوة التالية؟

Engineering

How We Doubled AI Code Acceptance by Teaching Models to Think Like Roblox Engineers

Engineering

Introducing SLIM: Scalable Lightweight Interactive Models

Engineering

Tech Talks Episode 30: SLIM and Cloud Transcoding