تقنية LLM المتطورة تساعد في حماية إنشاء نصوص غير محدودة على Roblox

Roblox Guard 1.0: تعزيز السلامة بفضل حواجز حماية قوية

بواسطة ماهيش ناندوانا، وآدم ماكفارلين، ونيشاي خانا

نُشر 22‏/07‏/2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

نعلن اليوم عن إطلاق Roblox Guard 1.0، وهي مجموعة أدوات أمان مفتوحة المصدر للمطورين والمنصات.
أصبحت أول ميزة من ميزات Roblox Guard، وهي نموذج حاجز أمان متطور (SOTA) لسلامة نماذج اللغة الكبيرة (LLM)، متاحة الآن، مما يضع معيارًا جديدًا عبر معايير السلامة الرائدة.
كما نطلق Roblox Guard-Eval، وهي مجموعة بيانات لمقارنة معايير السلامة.

التحدي

أصدرنا مؤخرًا واجهة برمجة تطبيقات (API) لتوليد النصوص تتيح للمطورين الاستفادة من قوة نماذج اللغة الكبيرة (LLMs) لإنشاء تجارب أكثر ثراءً وجاذبية من خلال توليد النصوص ضمن تجاربهم. على سبيل المثال، يمكن للمطور إنشاء شخصية NPC تفاعلية بالكامل، أو تقديم درس تعليمي تفاعلي حول كيفية لعب اللعبة.

لقد قمنا بإدارة معظم المحتوى على Roblox بشكل استباقي منذ الأيام الأولى، حيث نعمل على الحفاظ على توافق منتجاتنا مع معايير Roblox العالية للسلامة واللياقة. قبل إصدار واجهة برمجة تطبيقات إنشاء النصوص، بحثنا في كيفية بناء السلامة أولاً. قمنا بتطوير نموذج جديد للمساعدة في حماية كل من المدخلات (المطالبات من المستخدمين) والمخرجات (النص الذي تم إنشاؤه من واجهة برمجة التطبيقات).

الابتكار

القدرة الأولى في مجموعة أدوات Roblox Guard 1.0 هي نموذج LLM مُحسّن بالتعليمات SOTA، مصمم للمساعدة في حماية واجهة برمجة تطبيقات إنشاء النصوص الخاصة بنا. يقوم هذا النموذج بتصنيف الأمان على مستويي المطالبة والاستجابة، ويقرر ما إذا كانت كل مدخلة أو مخرجة تنتهك سياساتنا أم لا. هذا التقييم ثنائي المستوى ضروري لتنظيم استفسارات المستخدمين والمخرجات التي يولدها النموذج نفسه.

يتفوق نموذج LLM الخاص بنا حاليًا على نماذج LLM الشائعة مثل Llama Guard من Meta و ShieldGemma من Google AI و NVIDIA NeMo Guardrails و GPT-4o من OpenAI وغيرها في المعايير القياسية. يُظهر نموذج Roblox Guard 1.0 LLM أيضًا تعميمًا قويًا على مجموعات البيانات خارج المجال ذات التصنيف غير المرئي. لقد قمنا بفتح المصدر لكل من أوزان LLM لقدرتنا الأولى ومجموعة بيانات قياس الأداء Roblox Guard-Eval.

يتمثل جوهر نظامنا في نموذج LLM تم ضبطه بدقة من نموذج Llama-3.1-8B-Instruct. قمنا بتدريب نموذج LLM هذا مع التركيز بشكل خاص على ضبط التعليمات عالية الجودة لتحسين أداء تقييم السلامة. كانت الخطوة الحاسمة في هذه العملية هي تنظيم المطالبات والاستجابات بعناية لتعكس مجموعة متنوعة من سيناريوهات السلامة في العالم الواقعي.

لا تستخدم مجموعة التعليمات الخاصة بنا أي بيانات خاصة، بل مجرد مزيج من البيانات الاصطناعية (التي تم إنشاؤها بواسطة نموذج LLM) والبيانات مفتوحة المصدر، مما يتيح لنا توسيع نطاق بيانات التدريب بسهولة أكبر والاستفادة من قوانين التوسع، مما يجعل نموذج LLM الأول لـ Roblox Guard هو الأفضل في فئته. أثناء دمج مجموعات البيانات المفتوحة المصدر والاصطناعية المختلفة، وجدنا أن استخدام التصنيف الخاص بمجموعة البيانات هو أفضل نهج لتنظيم التعليمات، لأن تنوع المهام يساعد نماذج LLM على التدريب على أنواع مختلفة من المطالبات. وقد أدى ذلك إلى إنشاء نموذج قوي يمكن تعميمه على تصنيفات السلامة المختلفة. كما قمنا بدمج منطق سلسلة التفكير، الذي يتم فيه تشجيع النموذج على توضيح عملية الاستدلال الخاصة به، في مجموعة التعليمات. وقد منحت خطوات الاستدلال الوسيطة هذه النموذج أساسًا سياقيًا أقوى.

النتائج

طور فريق السلامة لدينا مجموعة بيانات تقييم مخصصة عالية الجودة عبر تصنيف أمان المحتوى في Roblox — تمثل 25 فئة فرعية. تم إنشاء مجموعة التقييم هذه من خلال فريق داخلي متخصص في الاختبارات التنافسية، حيث نختبر النظام من خلال محاكاة هجمات عدائية للبحث عن نقاط الضعف، ولا تحتوي على بيانات من إنشاء المستخدمين أو بيانات شخصية. تحتوي مجموعة بيانات التقييم هذه على أزواج من المطالبات والاستجابات، حيث تم تصنيف الاستجابات يدويًا بواسطة مجموعة من خبراء السياسات للمساعدة في ضمان جودتها. وهي تغطي نطاقًا واسعًا من أنواع الانتهاكات، مما يساعدنا في إنشاء تصنيفات أكثر دقة وفائدة للتقييم. تتضمن مجموعة التقييم النهائية 2,873 مثالًا. لقد قمنا بنشر مجموعة بيانات التقييم هذه كمصدر مفتوح، والتي تتميز بتصنيف أمان قابل للتوسيع للمساعدة في قياس أداء أنظمة الحماية والرقابة الخاصة بنماذج اللغة الكبيرة (LLM).

نقوم بمقارنة أداء نماذجنا باستخدام مجموعة شاملة من مجموعات البيانات مفتوحة المصدر لكل من المطالبات والاستجابات، بالإضافة إلى Roblox Guard-Eval. وهذا يسمح لنا بتقييم نموذجنا على مجموعات البيانات داخل المجال وخارجه. نقدم نتائجنا من حيث درجة F-1 للتصنيف الثنائي بين المخالفة وعدم المخالفة. في الجدول أعلاه، نقارن أداءنا بأداء العديد من النماذج المعروفة. تتفوق هذه الإمكانية الأولى لـ Roblox Guard على النماذج الأخرى مع التعميم على مجموعات البيانات خارج المجال.

نحن نعمل باستمرار على تحسين أنظمة الأمان لدينا، بما في ذلك أدوات Roblox Guard 1.0، ونخطط لإطلاق قدرات إضافية في المستقبل القريب. يرجى متابعة صفحاتنا على HuggingFace و GitHub للاطلاع على التحديثات والتحسينات المستقبلية، بالإضافة إلى الإصدارات مفتوحة المصدر المستقبلية.

الأحدث

المزيد من النتائج

تقنية LLM المتطورة تساعد في حماية إنشاء نصوص غير محدودة على Roblox

التحدي

الابتكار

النتائج

تقنية LLM المتطورة تساعد في حماية إنشاء نصوص غير محدودة على Roblox

التحدي

الابتكار

النتائج

الهندسة

تحديث مصنف الأمان الصوتي الخاص بنا بإضافة 22 لغة جديدة وقدرات كشف أكثر دقة

الأخبار

مؤسسو شركات رائدة في مجال الذكاء الاصطناعي يتعاونون لتسريع تحقيق رؤية Roblox Reality

الهندسة

CubePart: مولد ثلاثي الأبعاد مفتوح المفردات وقابل للتحكم الجزئي