إطلاق المزيد من اللغات لنموذج السلامة الصوتية مفتوح المصدر الخاص بنا

- نقوم بتحديث مصنف أمان الصوت مفتوح المصدر الخاص بنا عن طريق زيادة معلماته من 94.6 مليون إلى 120.2 مليون وتوسيع نطاقه ليشمل سبع لغات إضافية.
- منذ الإصدار الأول للمصنف، قمنا بزيادة الدقة إلى معدل استرجاع يبلغ 59.1% على بيانات الدردشة الصوتية باللغة الإنجليزية بمعدل خطأ إيجابي يبلغ 1%. وهذا يمثل تحسناً بنسبة 92% مقارنة بمعدل الاسترجاع البالغ 30.9% في الإصدار السابق.
لطالما كان تعزيز السلامة واللياقة أساسًا لكل ما نقوم به في Roblox. لقد أمضينا ما يقرب من عقدين في بناء أنظمة أمان قوية، ونحن نعمل باستمرار على تطويرها وتوسيعها مع توفر التكنولوجيا الجديدة. في عام 2024، أطلقنا أكثر من 40 تحسينًا للأمان، بما في ذلك تجديد "أدوات الرقابة الأبوية" الخاصة بنا، والتي نقوم بتحديثها مرة أخرى اليوم. كما أطلقنا أحد أول مصنفات السلامة الصوتية مفتوحة المصدر في الصناعة، والتي تم تنزيلها أكثر من 23,000 مرة. اليوم، نطلق نسخة محدثة، وهي أكثر دقة وتعمل بمزيد من اللغات.
العديد من أنظمة الأمان التي تساعد في حماية مستخدمينا، بما في ذلك هذا المصنف، تعمل بنماذج الذكاء الاصطناعي. نحن ننشر بعضها كمصدر مفتوح لأننا نعلم أن مشاركة التطورات في مجال أمان الذكاء الاصطناعي تعود بالفائدة على صناعتنا بأكملها. وهذا هو السبب أيضًا في انضمامنا مؤخرًا إلى ROOST — وهي منظمة غير ربحية جديدة مكرسة لمعالجة المجالات المهمة في مجال الأمان الرقمي من خلال الترويج لأدوات الأمان مفتوحة المصدر — كشريك مؤسس.
عند إدارة حجم المحتوى والتفاعلات التي تحدث على منصتنا يوميًا في جميع أنحاء العالم، يعد الذكاء الاصطناعي عنصرًا أساسيًا للحفاظ على سلامة المستخدمين. نحن على ثقة من أن النماذج التي أنشأناها تساعد في تلبية احتياجاتنا. في الربع الرابع من عام 2024، على سبيل المثال، قام مستخدمو Roblox بتحميل 300 مليار محتوى. تم الكشف عن 0.01٪ فقط من تلك المليارات من مقاطع الفيديو والصوت والنصوص والمحادثات الصوتية والأفاتار والتجارب ثلاثية الأبعاد على أنها تنتهك سياساتنا. وتم فحص جميع تلك المحتويات المخالفة للسياسة مسبقًا وإزالتها تلقائيًا قبل أن يراها المستخدمون.
لقد قمنا بتحديث الإصدار مفتوح المصدر من مصنف أمان الصوت لدينا لجعله أكثر دقة ولمساعدتنا في مراقبة المحتوى عبر المزيد من اللغات. النموذج الجديد:
- يكتشف الانتهاكات بسبع لغات إضافية — الإسبانية والألمانية والفرنسية والبرتغالية والإيطالية والكورية واليابانية — بفضل التدريب على البيانات متعددة اللغات.
- يتمتع بمعدل استرجاع إجمالي مرتفع يبلغ 59.1%، وهو تحسن بنسبة 92% مقارنة بمعدل الاسترجاع البالغ 30.9% في الإصدار السابق، مع معدلات منخفضة من النتائج الإيجابية الخاطئة.
- تم تحسينه ليعمل على نطاق واسع، حيث يخدم ما يصل إلى 8300 طلب (لا تحتوي غالبيتها على أي انتهاكات) في الثانية في أوقات الذروة.
منذ إصدار النموذج الأول، شهدنا انخفاضًا في معدلات الإبلاغ عن الإساءات بين المستخدمين في الولايات المتحدة بنسبة تزيد عن 50% لكل ساعة من الحديث. كما ساعدنا ذلك في مراقبة ملايين الدقائق من المحادثات الصوتية يوميًا بدقة أكبر من المراقبين البشريين. نحن لا نتوقف أبدًا عن تطوير أنظمة الأمان لدينا وسنواصل تحديث الإصدار مفتوح المصدر أيضًا.
مصنف أمان صوتي متعدد اللغات فعال
اعتمد مصنف أمان الصوت مفتوح المصدر الأولي لدينا على نموذج WavLM base+، الذي تم ضبطه بدقة باستخدام عينات صوتية من الدردشات الصوتية باللغة الإنجليزية تم تصنيفها آليًا. أدت النتائج المشجعة لهذه البنية الشاملة إلى إجراء المزيد من التجارب باستخدام بنية مخصصة. استخدمنا تقنية "تقطير المعرفة" لتحسين تعقيد النموذج ودقته، وهو أمر جذاب لخدمات الاستدلال على نطاق واسع. يستخدم مصنفنا الجديد هذه العناصر الأساسية، ويوسع نطاق العمل ويطوره في استخدام البيانات وتحسينات البنية.
من خلال التدريب على بيانات متعددة اللغات، يمكن لنموذج المصنف الفردي الخاص بنا العمل بسلاسة على أي من اللغات الثماني الأولى التي ندعمها. وتعني تحسيناتنا في التدريب أن النموذج أكثر دقة وأسرع بنسبة 20% إلى 30% في التشغيل في سيناريو الاستدلال النموذجي مقارنة بالإصدار الأول.
لا يزال مصنف أمان الصوت الجديد يعتمد على بنية WavLM، لكن تكوين الطبقات يختلف عن الإصدار السابق وعن النماذج المُدرَّبة مسبقًا لـ WavLM. على وجه الخصوص، أضفنا طبقة تلافيفية إضافية لتقليل الدقة الزمنية الداخلية لطبقات المحول. إجمالاً، تحتوي بنية النموذج الجديد على 120.2 مليون معلمة، بزيادة قدرها 27% مقارنة بـ 94.6 مليون في الإصدار السابق. على الرغم من هذه الزيادة، يستهلك النموذج الجديد وقت حساب أقل بنسبة 20% إلى 30% عند استخدامه مع مقاطع إدخال تتراوح مدتها بين 4 و15 ثانية. وهذا ممكن لأن النموذج يضغط إشارة الإدخال إلى تمثيل أقصر من ذي قبل.
استخدام مجموعة متنوعة من استراتيجيات التصنيف
يتطلب التدريب الخاضع للإشراف لنموذج شامل أزواجًا منظمة من الصوت وتصنيفات الفئات. قمنا بإدخال تحسينات كبيرة على مسار البيانات لدينا لضمان تدفق مستمر للبيانات المصنفة. أساس مادة التدريب هو مجموعة بيانات كبيرة مصنفة آليًا تضم أكثر من 100,000 ساعة من الكلام تشمل اللغات المدعومة. قمنا بنسخ الكلام تلقائيًا وتشغيله عبر مصنف السمية النصي الداخلي الخاص بنا، والذي يشارك السياسة المطلوبة وفئات السمية. تجمع البيانات عينات من المحتوى المسيء باحتمالية أعلى من الكلام الحميد لالتقاط الحالات الحدية وانتهاكات السياسة الأقل شيوعًا بشكل أفضل.

لا يمكن للتصنيفات المستندة إلى نصوص المحادثات الصوتية والتصنيف النصي أن تلتقط الفروق الدقيقة الملحوظة في محتوى الدردشة الصوتية بشكل كامل. لذلك استخدمنا البيانات المصنفة يدويًا لضبط النموذج من مرحلة التدريب السابقة. في حين أن مهمة التصنيف هي نفسها، تساعد مرحلة التدريب الأخيرة على تحسين حدود اتخاذ القرار والتركيز على الاستجابة للتعبيرات الخاصة بالدردشة الصوتية. هذا شكل من أشكال التعلم المنهجي الذي يساعدنا على الاستفادة القصوى من الأمثلة القيمة المصنفة يدويًا.
أحد التحديات التي تواجه تدريب النموذج الشامل هو أن العلامات المستهدفة قد تصبح قديمة إذا تغيرت سياسة التصنيف بمرور الوقت. لذا، مع تحسين سياسة الصوت المقبولة لدينا، نحتاج إلى معالجة خاصة للبيانات التي تستخدم معايير تصنيف قديمة. لهذا الغرض، استخدمنا نهجًا متعدد المهام يسمح للنموذج بالتعلم من مجموعات البيانات التي لا تتطابق مع سياسة الدردشة الصوتية الحالية. يتضمن ذلك تخصيص رأس تصنيف منفصل للسياسة القديمة، مما يسمح لجذع النموذج بالتعلم من مجموعة البيانات القديمة دون التأثير على التصنيفات المستهدفة أو الرأس الأساسي.
نموذج مُعاير لتسهيل النشر
يتطلب استخدام نموذج التصنيف تحديد نقطة التشغيل ومطابقة حساسية المصنف وفقًا لمتطلبات المهمة. لتسهيل نشر النموذج، قمنا بمعايرة مخرجات النموذج، وضبطها لتناسب الإشراف على الدردشة الصوتية. قمنا بتقدير التحويلات الخطية المتقطعة من مجموعة بيانات محجوبة، وقمنا بذلك بشكل منفصل لكل رأس إخراج ولغة مدعومة. تم تطبيق هذه التحويلات أثناء تقطير النموذج، مما ضمن أن النموذج النهائي تمت معايرته أصلاً. أدى ذلك إلى التخلص من الحاجة إلى المعالجة اللاحقة أثناء الاستدلال.
يسعدنا مشاركة هذا النموذج الجديد مفتوح المصدر مع المجتمع، ونتطلع إلى مشاركة التحديثات المستقبلية فور توفرها.


