مصادر مفتوحة لمصنف المعلومات الشخصية في Roblox: نهجنا في الكشف عن المعلومات الشخصية باستخدام الذكاء الاصطناعي في الدردشة
استخدام السياق لتحسين الاسترجاع

يُنشئ المستخدمون يوميًا ما معدله 6.1 مليار رسالة دردشة على Roblox. نستخدم أنظمة مراقبة قوية، ونضع قيودًا على أساس العمر، ونوفر أدوات الرقابة الأبوية للمساعدة في الحفاظ على التواصل آمنًا ومهذبًا. الغالبية العظمى من الرسائل على المنصة هي محادثات يومية، مثل صديقين يناقشان استراتيجية اللعب، ولكن في نسبة صغيرة من الرسائل، يحاول المستخدمون مشاركة معلومات تعريف شخصية (PII) قد تكون حساسة. تتخذ المعلومات الشخصية (PII) أشكالاً عديدة، ويشاركها المستخدمون لأسباب عديدة بريئة: قد يشارك مستخدم اسم المستخدم الخاص به من منصة أخرى لتنسيق اللعب أو رقم هاتف لبناء صداقة ناشئة. ومع ذلك، هناك حالات نادرة يسعى فيها أشخاص ذوو نوايا سيئة للحصول على المعلومات الشخصية (PII) لإغراء المستخدمين بالانتقال من Roblox إلى منصات أخرى حيث قد يكون هناك خطر أكبر للتعرض لأذى في العالم الحقيقي. في الواقع، يصعب تمييز هذه الاختلافات في النوايا، ولهذا السبب لدينا سياسات صارمة ضد مشاركة أو البحث عن المعلومات الشخصية القابلة للتعريف. نستخدم أدوات متعددة لحظر جميع المعلومات الشخصية القابلة للتعريف المكتشفة في الدردشة بشكل افتراضي، ولا نخفف القيود إلا للمستخدمين الذين تبلغ أعمارهم 18 عامًا أو أكثر والمستخدمين الذين تتراوح أعمارهم بين 13 و17 عامًا والذين تحققوا من بعضهم البعض كـ"اتصالات موثوقة".
يعد الكشف عن المعلومات الشخصية تحديًا تقنيًا على نطاق الصناعة. يمكن تجاوز أدوات الكشف القياسية في الصناعة، كما أنها تفتقر إلى القدرة على التكيف مع أنماط اللغة الناشئة. على الرغم من عدم وجود أداة مثالية، فقد طورنا نموذجًا للذكاء الاصطناعي، وهو Roblox PII Classifier، لمراعاة الطبيعة المتغيرة للغة واستخدام السياق للكشف عن المواقف التي يحاول فيها المستخدمون تجاوز المرشحات لطلب أو مشاركة المعلومات الشخصية.
يسعدنا أن نعلن أننا نطرح اليوم PII Classifier كمصدر مفتوح إلى جانب الأدوات الأخرى في مجموعة أدوات الأمان مفتوحة المصدر الخاصة بنا. منذ تنفيذ PII Classifier في أواخر عام 2024، شهدنا تحسناً سريعاً ومستمراً في معدل الاسترجاع، مع أداء يتفوق على النماذج الأخرى المتاحة. تتمتع نسخة نموذج PII التي نطرحها كمصدر مفتوح اليوم بمعدل استرجاع يبلغ 98% للمحادثات المحتملة التي تحتوي على معلومات التعريف الشخصية (PII) في النصوص الإنجليزية1 على Roblox. حقق النموذج أيضًا درجة F1 بنسبة 94٪ على بيانات الإنتاج لدينا، متفوقًا على نماذج السلامة الحديثة الأخرى، مثل LlamaGuard v3 8B (28٪) و Piiranha NER (14٪).



التحديات
يتمثل الكشف الفعال عن المعلومات الشخصية على نطاق واسع في ثلاثة تحديات رئيسية:
- الأنماط العدائية: يتمتع المستخدمون بالإبداع ويجدون باستمرار طرقًا جديدة لتجاوز المرشحات. يجب أن يتكيف النظام الفعال مع تطور اللغة وظهور أنماط جديدة.
- التدريب والتقييم: من أجل بناء النموذج الأكثر فعالية، يجب علينا أيضًا إنشاء مجموعات بيانات تدريب وأساليب قياس فعالة. ونظرًا لأن النموذج يجب أن يأخذ في الاعتبار الأنماط الناشئة، فإن بيانات الإنتاج الحالية ليست كافية للتدريب.
- الأداء: يتطلب تقديم مثل هذا النموذج على نطاق واسع بنية مدروسة وقرارات تحسين لمنع التأثير السلبي على تجربة المستخدم.
الأنماط العدائية
تعتمد حلول الكشف عن المعلومات الشخصية الحالية بشكل أساسي على التعرف على الكيانات المسماة (NER)، وهو الكشف على مستوى الرموز عن أنواع معينة من الأسماء، مثل أسماء المستخدمين على وسائل التواصل الاجتماعي وأرقام الهواتف والعناوين. لكن الكشف عن الأسماء ليس سوى جزء من التحدي. يقوم المخترقون الأذكياء بتغيير لغتهم عمدًا لتجاوز الكشف عن NER (على سبيل المثال، باستخدام ألفا وبرافو وتشارلي لتمثيل A و B و C أو الإشارة إلى منصة دون تسميتها صراحةً). من الممكن أن يشير الجاني إلى نيته في التواصل على منصة أخرى دون مشاركة المعلومات الحساسة التي قد يلتقطها مرشح NER. لا تقتصر مهمة مصنف المعلومات الشخصية (PII Classifier) على اكتشاف وإخفاء النص الصريح للمعلومات الشخصية (PII) الذي يتم مشاركته على Roblox فحسب، بل تشمل أيضًا فهم سياق التواصل ومنع الجناة من الانخراط في محادثات متعلقة بالمعلومات الشخصية (PII) في المقام الأول.
فيما يلي بعض أنماط التحايل النموذجية باستخدام منصة اجتماعية افتراضية، StarTalk:
التلاعب على مستوى الأحرف
- "هل لديك حساب على StarTalk تريد الاتصال به؟ لقد أنشأت حسابًا منذ بضعة أيام"
- "ggrr أكره العلامات ما اسمك؟ هذا S و T"
إشارات ضمنية إلى وسائل التواصل الاجتماعي الشهيرة
- "مرة أخرى، ما هو اسمك على Rats PPA Reverse؟"
- "مرحبًا، هل تمانع في التحقق من اسمي على تطبيق Yellow Sun؟ لنتحدث هناك؟"
تتطور اللغة والمصطلحات العامية بمرور الوقت، ويبحث المخترقون باستمرار عن طرق جديدة للتحايل على الفلاتر. تكمن قوة PII Classifier في قدرتها على التكيف مع أنماط اللغة الجديدة والحلول البديلة فور ظهورها. عندما نكتشف أنماطًا عدائية في العالم الحقيقي، ندمجها مرة أخرى في النموذج للمساعدة في تدريبه بشكل مستمر.
التدريب والتقييم

لتدريب النموذج في البداية، قمنا بمراجعة البيانات المتعلقة بالمعلومات الشخصية بشكل يدوي وتصنيفها. وقد منحنا ذلك نقطة انطلاق، لكنه لم يسمح لنا بالتوسع بسرعة والتقاط مجموعة واسعة من السيناريوهات. وبدلاً من محاولة تمشيط كل مصطلح وتبديل موجود في مليارات الرسائل اليومية يدويًا وتطبيق التصنيف المناسب، قمنا ببناء واختبار أدوات أخذ العينات لاختيار العينات ذات الصلة للتدريب. كان هدفنا هو استبعاد المحادثات غير الضارة والتركيز على المحادثات التي تحتوي على بيانات ذات صلة بالمعلومات الشخصية لتقليل احتمالية حدوث أخطاء في التصنيف البشري وتغطية نطاق أوسع. أثبتت أداتا أخذ العينات الفعالية:
- أخذ العينات غير المؤكدة باستخدام مخرجات درجات النموذج: اختار جهاز أخذ العينات هذا عينات لم تثير إشارة إيجابية أو سلبية قوية، مما سمح لنا بتحسين الحالات الغامضة بشكل أكبر.
- عينات من كتل PII متتالية: اختارت أداة أخذ العينات هذه عينات من مستخدمين تم الإبلاغ عنهم في بعض المحادثات ولكن ليس في محادثات متتالية. كانت هذه المحادثات اللاحقة أكثر احتمالاً لاحتوائها على لغة غير نمطية تجاوزت مرشح PII الحالي. في الممارسة العملية، قد يبدو هذا وكأن المستخدم فشل في تجاوز النظام وحاول مرة أخرى حتى وجد ثغرة ذكية.
وقد وفر هذا المزيج من أخذ العينات من البيانات والتصنيف البشري للبيانات الإنتاجية الحالية أساسًا قويًا لتدريب النموذج، ولكن نظرًا لأن هدفنا كان مراعاة الأنماط الناشئة، فقد احتجنا إلى طريقة للتدريب على البيانات التي لم تكن موجودة بعد في عيناتنا.
البيانات الاصطناعية التي تم إنشاؤها بواسطة الذكاء الاصطناعي
قد يؤدي الاعتماد فقط على البيانات المأخوذة حاليًا إلى حدوث تحيزات ويحد من قدرة النموذج على التكيف مع تطور أنماط التواصل الجديدة. على سبيل المثال، تتعلق طلبات المعلومات الشخصية الأكثر شيوعًا على Roblox بحسابات منصات التواصل الاجتماعي الشهيرة. قد يطور النموذج الذي تم تدريبه على بيانات الإنتاج فقط تحيزًا تجاه الطلبات الأكثر شيوعًا ويكون أداؤه ضعيفًا في الطلبات الأقل شيوعًا، مثل منصات التواصل الاجتماعي الأقل شهرة وعناوين البريد الإلكتروني وأرقام الهواتف. كما تميل اتصالات المستخدمين إلى التلاقي حول المفردات وأنماط اللغة الشائعة. قد يصبح النموذج الذي تم تدريبه على بيانات الإنتاج فقط متحيزًا تجاه أنماط اللغة الشائعة ويفشل في تحديد الانتهاكات المعبر عنها بطرق غير نمطية أو ناشئة.
للقضاء على هذه التحيزات وغيرها، صممنا مسارًا لتوليد البيانات باستخدام الذكاء الاصطناعي يستهدف أي نقاط ضعف موروثة من مجموعة بيانات التدريب الأولية. أولاً، قمنا بإنشاء مطالبات باستخدام مجموعة من المتغيرات، بما في ذلك السياق ونوع المعلومات الشخصية المحددة (PII) وشخصية المستخدم واللغة وأمثلة على سطور الدردشة. ثم قمنا بإنشاء سطور دردشة جديدة بناءً على هذه المطالبات وأدخلناها في النموذج.
فريق الاختبار البشري وفريق الاختبار بالذكاء الاصطناعي
استخدمنا كل من فريق الاختبار الأحمر البشري وفريق الاختبار الأحمر للذكاء الاصطناعي (حيث تقوم الفرق بمحاكاة هجمات عدائية لاختبار دفاعات النظام) أثناء التطوير لاختبار فعالية النموذج وتحسين التدريب. قمنا بدعوة المشرفين لتجربة طرق مختلفة لطلب ومشاركة المعلومات الشخصية المحددة (PII) وحثنا نماذج اللغة الكبيرة (LLMs) على تعزيز هذه الطرق بطرق متنوعة، ثم أضفنا أي عينات فاتت النموذج إلى مجموعة بيانات التدريب الخاصة به. ساعدنا فريق الاختبار التنافسي للذكاء الاصطناعي على اختبار العديد من الاختلافات بسرعة وتغطية طرق قد لا يكون المشرفون قد غطوها. على سبيل المثال:
الأصل: كلمة المرور هي xxxx
معززة بالذكاء الاصطناعي: كلمة المرور هي xxxx
الأصل: بيلا، رقم هاتفي هو 346
معززة بالذكاء الاصطناعي: بيلا، رقمي هو في الواقع threefour6
ساعدنا فريق الاختبار الأحمر على فهم الثغرات في بيانات التدريب الحالية بشكل أفضل وتكييف بياناتنا الاصطناعية لسدها. كما سمح لنا بقياس الاختلافات بين تكرارات النموذج، وهو ما يصبح أكثر صعوبة عندما تبدأ نسختان من النموذج في تشبع مجموعة التقييم. قدمنا إصدارات متعددة من النموذج باستخدام أداة فريق الاختبار الأحمر لمقارنة معدلات التجاوز مباشرة في نفس البيئة وتحديد النموذج الأكثر فعالية من الناحية الإحصائية.
الأداء
مع متوسط 6.1 مليار رسالة دردشة يتم تبادلها يوميًا، يتلقى PII Classifier ذروة تزيد عن 200,000 استعلام في الثانية على Roblox. نتعامل مع هذا الحجم بزمن انتقال P90 أقل من 100 مللي ثانية. لتحقيق التوازن بين الخدمة والجودة، اخترنا بنية الترميز فقط وقمنا بضبط نموذجنا بدقة من XLM-RoBERTa-Large2. نقوم بفصل خدمات الترميز والمعالجة المسبقة واللاحقة لتعمل بكفاءة على وحدة المعالجة المركزية (CPU) ونقدم بنية المحول الخالص على وحدة معالجة الرسومات (GPU) لخفض التكاليف. نستخدم أيضًا التجميع الديناميكي على خوادم Triton لزيادة الإنتاجية.
مقارنة الأداء على مجموعات البيانات العامة والداخلية
قمنا بمقارنة PII Classifier مع نماذج أخرى متطورة باستخدام بيانات الإنتاج الخاصة بنا ومجموعات البيانات العامة. تركز معظم مجموعات البيانات العامة الخاصة بالمعلومات الشخصية (PII) على نص المعلومات الشخصية (PII) نفسه بدلاً من النص المحيط الذي قد يشير إلى النية، لذلك لم يكن هناك ما يتوافق تمامًا مع متطلبات منصتنا لإجراء المقارنة. ومع ذلك، أردنا أن نرى كيف يقارن نموذجنا بحلول الكشف الحالية باستخدام مجموعات بيانات PII الشائعة، مثل مجموعة بيانات الكشف عن PII من The Learning Agency Lab3 على Kaggle.
استخدمنا درجات F1 لأن نماذج اللغة الكبيرة (LLMs) في المقارنة توفر زوجًا واحدًا فقط (الاسترجاع والدقة). بالنسبة للنماذج التي تنتج درجات تصنيف، قمنا بالإبلاغ عن درجة F1 المثلى في مجموعة الاختبار. لاحظ أن نموذجنا يتطلب مقتطفًا من سطور محادثة المستخدم كمدخلات ويخرج درجة PII، والتي نستخدمها لاتخاذ قرار ثنائي بشأن سطور المحادثة. لإجراء مقارنة عادلة، قمنا بتقسيم مجموعة البيانات العامة حسب الجملة ووضعنا علامة إيجابية على كل جملة إذا كانت تحتوي على أي رموز PII إيجابية من NER.
PII V1.1 | ||||||
45.48 | 5.90 | 5.46 | 3.72 | 3.26 | 33.20 | |
تقييم Roblox باللغة الإنجليزية | 94.34 | 3.17 | 27.73 | 26.55 | 26.29 | 13.88 |
في معاييرنا، تفوق نموذجنا بشكل كبير على النماذج مفتوحة المصدر الأخرى في كل من مجموعة البيانات العامة لـ The Learning Agency Lab وبيانات الإنتاج الداخلية لدينا، والتي تتضمن أكثر من 47,000 عينة متنوعة من العالم الحقيقي على Roblox. أثبت التركيز على دمج سياق محادثة أوسع والتكيف المستمر مع الطبيعة المتغيرة للغة أنه نهج فعال للكشف عن المزيد من المحادثات التي ينوي فيها المستخدم طلب أو مشاركة معلومات التعريف الشخصية.
يعد PII Classifier مجرد واحد من العديد من الأنظمة المبتكرة التي نستخدمها لتعزيز السلامة واللياقة على Roblox. إن القدرة على اكتشاف متى تنحرف المحادثة نحو طلب معلومات تعريف شخصية تعني أنه يمكننا التقاط الطلبات الغامضة التي قد تتجاوز الكشف بخلاف ذلك. على الرغم من أنه لا يوجد نظام مثالي، إلا أن نتائج عامنا الأول في الإنتاج واعدة بالفعل، ونحن متحمسون لمشاركة الأداة مع مجتمع المصادر المفتوحة جنبًا إلى جنب مع الأدوات الأخرى في مجموعة أدوات السلامة مفتوحة المصدر الخاصة بنا.
- يتم قياس نسبة الاسترجاع البالغة 98% على مجموعة اختبارات داخلية في Roblox بنسبة خطأ إيجابي كاذب (FPR) تبلغ 1%. يتم جمع مجموعة البيانات من بيانات الإنتاج وتخضع لمراجعات متعددة وتصنيف من قبل خبراء السلامة.
- Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., and Stoyanov, V. 2019. التعلم غير الخاضع للإشراف للتمثيل متعدد اللغات على نطاق واسع. نسخة مسبقة من arXiv arXiv:1911.02116.
- Holmes, L., Crossley, S. A., Sikka, H., and Morris, W. 2023. PIILO: نظام مفتوح المصدر لتصنيف المعلومات الشخصية القابلة للتعريف وإخفائها. Information and Learning Science, 124 (9/10), 266-284.


