تقنية LLM المتطورة تساعد في حماية إنشاء نصوص غير محدودة على Roblox
Roblox Guard 1.0: تعزيز السلامة بفضل حواجز حماية قوية

- نعلن اليوم عن إطلاق Roblox Guard 1.0، وهي مجموعة أدوات أمان مفتوحة المصدر للمطورين والمنصات.
- أصبحت أول ميزة من ميزات Roblox Guard، وهي نموذج حاجز أمان متطور (SOTA) لسلامة نماذج اللغة الكبيرة (LLM)، متاحة الآن، مما يضع معيارًا جديدًا عبر معايير السلامة الرائدة.
- كما نطلق Roblox Guard-Eval، وهي مجموعة بيانات لمقارنة معايير السلامة.
التحدي
أصدرنا مؤخرًا واجهة برمجة تطبيقات (API) لتوليد النصوص تتيح للمطورين الاستفادة من قوة نماذج اللغة الكبيرة (LLMs) لإنشاء تجارب أكثر ثراءً وجاذبية من خلال توليد النصوص ضمن تجاربهم. على سبيل المثال، يمكن للمطور إنشاء شخصية NPC تفاعلية بالكامل، أو تقديم درس تعليمي تفاعلي حول كيفية لعب اللعبة.
لقد قمنا بإدارة معظم المحتوى على Roblox بشكل استباقي منذ الأيام الأولى، حيث نعمل على الحفاظ على توافق منتجاتنا مع معايير Roblox العالية للسلامة واللياقة. قبل إصدار واجهة برمجة تطبيقات إنشاء النصوص، بحثنا في كيفية بناء السلامة أولاً. قمنا بتطوير نموذج جديد للمساعدة في حماية كل من المدخلات (المطالبات من المستخدمين) والمخرجات (النص الذي تم إنشاؤه من واجهة برمجة التطبيقات).
الابتكار
القدرة الأولى في مجموعة أدوات Roblox Guard 1.0 هي نموذج LLM مُحسّن بالتعليمات SOTA، مصمم للمساعدة في حماية واجهة برمجة تطبيقات إنشاء النصوص الخاصة بنا. يقوم هذا النموذج بتصنيف الأمان على مستويي المطالبة والاستجابة، ويقرر ما إذا كانت كل مدخلة أو مخرجة تنتهك سياساتنا أم لا. هذا التقييم ثنائي المستوى ضروري لتنظيم استفسارات المستخدمين والمخرجات التي يولدها النموذج نفسه.
يتفوق نموذج LLM الخاص بنا حاليًا على نماذج LLM الشائعة مثل Llama Guard من Meta و ShieldGemma من Google AI و NVIDIA NeMo Guardrails و GPT-4o من OpenAI وغيرها في المعايير القياسية. يُظهر نموذج Roblox Guard 1.0 LLM أيضًا تعميمًا قويًا على مجموعات البيانات خارج المجال ذات التصنيف غير المرئي. لقد قمنا بفتح المصدر لكل من أوزان LLM لقدرتنا الأولى ومجموعة بيانات قياس الأداء Roblox Guard-Eval.
يتمثل جوهر نظامنا في نموذج LLM تم ضبطه بدقة من نموذج Llama-3.1-8B-Instruct. قمنا بتدريب نموذج LLM هذا مع التركيز بشكل خاص على ضبط التعليمات عالية الجودة لتحسين أداء تقييم السلامة. كانت الخطوة الحاسمة في هذه العملية هي تنظيم المطالبات والاستجابات بعناية لتعكس مجموعة متنوعة من سيناريوهات السلامة في العالم الواقعي.
لا تستخدم مجموعة التعليمات الخاصة بنا أي بيانات خاصة، بل مجرد مزيج من البيانات الاصطناعية (التي تم إنشاؤها بواسطة نموذج LLM) والبيانات مفتوحة المصدر، مما يتيح لنا توسيع نطاق بيانات التدريب بسهولة أكبر والاستفادة من قوانين التوسع، مما يجعل نموذج LLM الأول لـ Roblox Guard هو الأفضل في فئته. أثناء دمج مجموعات البيانات المفتوحة المصدر والاصطناعية المختلفة، وجدنا أن استخدام التصنيف الخاص بمجموعة البيانات هو أفضل نهج لتنظيم التعليمات، لأن تنوع المهام يساعد نماذج LLM على التدريب على أنواع مختلفة من المطالبات. وقد أدى ذلك إلى إنشاء نموذج قوي يمكن تعميمه على تصنيفات السلامة المختلفة. كما قمنا بدمج منطق سلسلة التفكير، الذي يتم فيه تشجيع النموذج على توضيح عملية الاستدلال الخاصة به، في مجموعة التعليمات. وقد منحت خطوات الاستدلال الوسيطة هذه النموذج أساسًا سياقيًا أقوى.
النتائج

نقوم بمقارنة أداء نماذجنا باستخدام مجموعة شاملة من مجموعات البيانات مفتوحة المصدر لكل من المطالبات والاستجابات، بالإضافة إلى Roblox Guard-Eval. وهذا يسمح لنا بتقييم نموذجنا على مجموعات البيانات داخل المجال وخارجه. نقدم نتائجنا من حيث درجة F-1 للتصنيف الثنائي بين المخالفة وعدم المخالفة. في الجدول أعلاه، نقارن أداءنا بأداء العديد من النماذج المعروفة. تتفوق هذه الإمكانية الأولى لـ Roblox Guard على النماذج الأخرى مع التعميم على مجموعات البيانات خارج المجال.
نحن نعمل باستمرار على تحسين أنظمة الأمان لدينا، بما في ذلك أدوات Roblox Guard 1.0، ونخطط لإطلاق قدرات إضافية في المستقبل القريب. يرجى متابعة صفحاتنا على HuggingFace و GitHub للاطلاع على التحديثات والتحسينات المستقبلية، بالإضافة إلى الإصدارات مفتوحة المصدر المستقبلية.


