साझा करें

Roblox PII क्लासिफायर का ओपन सोर्सिंग: चैट में AI PII डिटेक्शन के लिए हमारा दृष्टिकोण

रिकॉल में सुधार के लिए संदर्भ का उपयोग

द्वारा नरेन कोनेरू, उपाध्यक्ष, इंजीनियरिंग, और शॉन बियां

प्रकाशित 4 नव॰ 2025

हर दिन, उपयोगकर्ता Roblox पर औसतन 6.1 बिलियन चैट संदेश उत्पन्न करते हैं। हम संचार को सुरक्षित और सभ्य रखने में मदद करने के लिए मजबूत मॉडरेशन सिस्टम का उपयोग करते हैं, आयु-आधारित प्रतिबंध निर्धारित करते हैं, और अभिभावकीय नियंत्रण प्रदान करते हैं। प्लेटफ़ॉर्म पर अधिकांश संदेश रोज़मर्रा की बातचीत होती है, जैसे दो दोस्त गेमप्ले रणनीति पर चर्चा कर रहे हों, लेकिन संदेशों के एक छोटे प्रतिशत में, उपयोगकर्ता व्यक्तिगत रूप से पहचानने योग्य जानकारी (PII) साझा करने का प्रयास करते हैं जो संवेदनशील हो सकती है। PII कई रूप ले सकती है, और उपयोगकर्ता इसे कई हानिरहित कारणों से साझा करते हैं: कोई उपयोगकर्ता गेमप्ले समन्वय के लिए किसी अन्य प्लेटफ़ॉर्म से अपना उपयोगकर्ता नाम साझा कर सकता है या एक नई दोस्ती बनाने के लिए अपना फ़ोन नंबर दे सकता है। हालाँकि, कुछ दुर्लभ मामले ऐसे भी हैं जहाँ बुरे इरादे वाले लोग उपयोगकर्ताओं को Roblox से दूर अन्य प्लेटफ़ॉर्म पर ले जाने के लिए PII की मांग करते हैं, जहाँ वास्तविक दुनिया में नुकसान का खतरा अधिक हो सकता है। वास्तव में, इरादे में इन अंतरों को पहचानना मुश्किल है, यही कारण है कि हमारे पास PII साझा करने या मांगने के खिलाफ सख्त नीतियां हैं। हम चैट में सभी पता लगाए गए PII को डिफ़ॉल्ट रूप से ब्लॉक करने के लिए कई उपकरणों का उपयोग करते हैं, और हम केवल 18 वर्ष या उससे अधिक उम्र के उपयोगकर्ताओं और 13 से 17 वर्ष के उन उपयोगकर्ताओं के लिए प्रतिबंधों में ढील देते हैं जिन्होंने एक-दूसरे को विश्वसनीय कनेक्शन (Trusted Connections) के रूप में सत्यापित किया है।

PII का पता लगाना उद्योग-व्यापी एक तकनीकी चुनौती है। उद्योग मानक पता लगाने वाले उपकरणों को बायपास किया जा सकता है और उनमें उभरते भाषा पैटर्न के अनुकूल होने की क्षमता की कमी होती है। हालाँकि कोई भी उपकरण परिपूर्ण नहीं है, हमने भाषा की बदलती प्रकृति को ध्यान में रखने और उन स्थितियों का पता लगाने के लिए संदर्भ का उपयोग करने हेतु एक एआई मॉडल, रोब्लॉक्स PII क्लासिफायर, विकसित किया है, जहाँ उपयोगकर्ता फ़िल्टर को बायपास करने की कोशिश कर रहे हैं ताकि वे PII मांग सकें या साझा कर सकें।

हमें यह घोषणा करते हुए खुशी हो रही है कि आज हम अपनी ओपन-सोर्स सुरक्षा टूलकिट के अन्य उपकरणों के साथ PII क्लासिफायर को भी ओपन-सोर्स कर रहे हैं। 2024 के अंत में PII क्लासिफायर को लागू करने के बाद से, हमने रिकॉल में तेज़ी से और निरंतर सुधार देखा है, और इसका प्रदर्शन अन्य उपलब्ध मॉडलों से बेहतर रहा है। हमारे PII मॉडल का वह संस्करण जिसे हम आज ओपन-सोर्स कर रहे हैं, ने Roblox पर अंग्रेजी ^{टेक्स्ट1} में संभावित PII बातचीत का 98% रिकॉल हासिल किया है। इस मॉडल ने हमारे प्रोडक्शन डेटा पर 94% का F1 स्कोर भी हासिल किया है, जो LlamaGuard v3 8B (28%) और Piiranha NER (14%) जैसे अन्य अत्याधुनिक सुरक्षा मॉडलों से बेहतर प्रदर्शन करता है।

चुनौतियाँ

बड़े पैमाने पर PII का प्रभावी ढंग से पता लगाना तीन मुख्य चुनौतियों पर टिका है:

प्रतिद्वंद्वी पैटर्न: उपयोगकर्ता रचनात्मक होते हैं और लगातार फ़िल्टर बाईपास करने के नए तरीके खोजते रहते हैं। एक प्रभावी प्रणाली को भाषा के विकसित होने और नए पैटर्न उभरने के साथ अनुकूलित होना चाहिए।
प्रशिक्षण और मूल्यांकन: सबसे प्रभावी मॉडल बनाने के लिए, हमें प्रभावी प्रशिक्षण डेटासेट और मापन विधियाँ भी बनानी होंगी। चूँकि मॉडल को उभरते हुए पैटर्न को ध्यान में रखना होता है, इसलिए वर्तमान प्रोडक्शन डेटा प्रशिक्षण के लिए पर्याप्त नहीं है।
प्रदर्शन: बड़े पैमाने पर इस तरह के मॉडल को चलाने के लिए उपयोगकर्ता अनुभव पर नकारात्मक प्रभाव को रोकने के लिए विचारशील आर्किटेक्चर और अनुकूलन निर्णयों की आवश्यकता होती है।

विरोधी पैटर्न

मौजूदा PII पहचान समाधान मुख्य रूप से नामित-इकाई मान्यता (NER) पर निर्भर करते हैं, जो सोशल मीडिया हैंडल, फोन नंबर और पते जैसे कुछ प्रकार के संज्ञाओं का टोकन-स्तर पर पता लगाता है। लेकिन संज्ञाओं का पता लगाना ही चुनौती का एक हिस्सा है। चतुर दुर्भावनापूर्ण व्यक्ति जानबूझकर NER पहचान को बायपास करने के लिए अपनी भाषा बदल देते हैं (जैसे, A, B, और C का प्रतिनिधित्व करने के लिए अल्फा, ब्रावो और चार्ली का उपयोग करके या किसी प्लेटफ़ॉर्म का स्पष्ट रूप से नाम लिए बिना उसका संदर्भ देकर)। कोई दुर्भावनापूर्ण व्यक्ति संवेदनशील जानकारी साझा किए बिना ही दूसरे प्लेटफ़ॉर्म पर जुड़ने का संकेत दे सकता है, जिसे एक NER फ़िल्टर पकड़ लेता। PII क्लासिफ़ायर का काम सिर्फ़ Roblox पर साझा किए गए स्पष्ट PII टेक्स्ट का पता लगाना और उसे अस्पष्ट करना ही नहीं है, बल्कि संचार के संदर्भ को समझना और सबसे पहले दुर्भावनापूर्ण व्यक्तियों को PII-संबंधी बातचीत में शामिल होने से रोकना भी है।

यहाँ एक काल्पनिक सोशल प्लेटफ़ॉर्म, स्टारटॉक, का उपयोग करके कुछ प्रतिनिधि बाईपास पैटर्न दिए गए हैं:

चरित्र-स्तर पर हेरफेर

"क्या तुम्हारे पास 5tärtālk जैसा कोई है जिसे तुम कॉल करना चाहते हो? मैंने xouple दिनों ao पहले एक acc बनाया था"
"ggrr i hate it tags What's your name That's S And T"

प्रशिक्षण और मूल्यांकन

अपरिभाषित — डेटा क्यूरेशन के तीन स्तंभ मॉडल विकास का समर्थन करते हैं, जो बदले में बेहतर डेटा क्यूरेशन को सशक्त बनाता है।

मॉडल को शुरू में प्रशिक्षित करने के लिए, हमने मैन्युअल रूप से PII-संबंधी डेटा की समीक्षा और लेबलिंग की। इससे हमें एक शुरुआती बिंदु मिला, लेकिन यह हमें तेजी से विस्तार करने और परिदृश्यों की एक विस्तृत विविधता को कवर करने की अनुमति नहीं देता था। प्रतिदिन अरबों चैट संदेशों में पाए जाने वाले प्रत्येक शब्द और संयोजन को मैन्युअल रूप से खंगालने और उपयुक्त लेबल लागू करने की कोशिश करने के बजाय, हमने प्रशिक्षण के लिए प्रासंगिक नमूने चुनने के लिए डेटा सैम्पलर्स बनाए और उनका परीक्षण किया। हमारा लक्ष्य हानिरहित बातचीत को बाहर करना और उन बातचीत पर ध्यान केंद्रित करना था जिनमें PII-संबंधी डेटा शामिल था, ताकि मानवीय लेबलिंग त्रुटियों की संभावना को कम किया जा सके और अधिक से अधिक मामलों को शामिल किया जा सके। दो सैम्पलर सबसे प्रभावी साबित हुए हैं:

मॉडल स्कोर आउटपुट का उपयोग करके अनिश्चितता सैंपलिंग: इस सैंपलर ने ऐसे सैंपल चुने जिन्होंने कोई मजबूत सकारात्मक या नकारात्मक संकेत नहीं दिया, जिससे हमें अस्पष्ट मामलों को और परिष्कृत करने की अनुमति मिली।
लगातार PII ब्लॉकों से नमूने: इस सैम्पलर ने उन उपयोगकर्ताओं से नमूने चुने जिन्हें कुछ बातचीत में तो फ़्लैग किया गया था, लेकिन लगातार बातचीत में नहीं। इन फॉलो-अप बातचीत में वर्तमान PII फ़िल्टर को बाईपास कर चुकी असामान्य भाषा होने की अधिक संभावना थी। व्यवहार में, यह ऐसा हो सकता है कि कोई उपयोगकर्ता सिस्टम को बाईपास करने में विफल हो जाए और कोई चतुर खामी मिलने तक दोबारा प्रयास करता रहे।

डेटा सैंपलिंग और वर्तमान प्रोडक्शन डेटा पर मानव लेबलिंग के इस संयोजन ने मॉडल को प्रशिक्षित करने के लिए एक मजबूत नींव प्रदान की, लेकिन चूंकि हमारा लक्ष्य उभरते पैटर्न को ध्यान में रखना था, इसलिए हमें ऐसे डेटा पर प्रशिक्षण देने का एक तरीका चाहिए था जो हमारे नमूनों में अभी तक मौजूद नहीं था।

एआई-जनित सिंथेटिक डेटा

केवल वर्तमान नमूना डेटा पर निर्भर रहने से पूर्वाग्रह पैदा हो सकते हैं और जैसे-जैसे नए संचार पैटर्न विकसित होते हैं, मॉडल की अनुकूलन क्षमता सीमित हो सकती है। उदाहरण के लिए, Roblox पर सबसे आम PII अनुरोध लोकप्रिय सोशल मीडिया प्लेटफॉर्म हैंडल्स के लिए होते हैं। केवल प्रोडक्शन डेटा पर प्रशिक्षित एक मॉडल सबसे आम अनुरोधों की ओर पूर्वाग्रही हो सकता है और कम ज्ञात सोशल मीडिया प्लेटफॉर्म, ईमेल पते और फोन नंबर जैसे दुर्लभ अनुरोधों पर खराब प्रदर्शन कर सकता है। उपयोगकर्ता संचार भी लोकप्रिय शब्दावली और भाषा पैटर्न पर केंद्रित होने की प्रवृत्ति रखता है। केवल प्रोडक्शन डेटा पर प्रशिक्षित एक मॉडल सामान्य भाषा पैटर्न के प्रति पक्षपाती हो सकता है और असामान्य या उभरते तरीकों से व्यक्त किए गए उल्लंघनों की पहचान करने में विफल हो सकता है।

इन और अन्य पक्षपातों को खत्म करने के लिए, हमने एक एआई डेटा-जनरेशन पाइपलाइन बनाई है जो प्रारंभिक प्रशिक्षण डेटासेट से विरासत में मिली किसी भी कमजोरी को लक्षित करती है। सबसे पहले, हमने संदर्भ, PII का प्रकार, उपयोगकर्ता की पहचान, भाषा और उदाहरण चैट लाइनों सहित विभिन्न चरों के संयोजन का उपयोग करके प्रॉम्प्ट बनाए। फिर, हमने इन प्रॉम्प्ट के आधार पर नई चैट लाइनें बनाईं और उन्हें मॉडल में डाला।

मानवीय और एआई रेड टीमिंग

हमने मॉडल की प्रभावशीलता का परीक्षण करने और प्रशिक्षण को परिष्कृत करने के लिए विकास के दौरान मानव और एआई रेड टीमिंग (जहाँ टीमें किसी सिस्टम की सुरक्षा का परीक्षण करने के लिए प्रतिद्वंद्वी हमलों का अनुकरण करती हैं) दोनों का उपयोग किया। हमने मॉडरेटरों को PII पूछने और साझा करने के विभिन्न तरीकों के साथ प्रयोग करने के लिए आमंत्रित किया और LLMs को विभिन्न तरीकों से इन तरीकों को बढ़ाने के लिए प्रेरित किया, फिर मॉडल द्वारा चूके गए किसी भी नमूने को उसके प्रशिक्षण डेटासेट में जोड़ दिया। AI रेड टीमिंग ने हमें कई वेरिएशन का जल्दी से परीक्षण करने और उन तरीकों को कवर करने में मदद की जिन्हें मॉडरेटर कवर नहीं कर पाते। उदाहरण के लिए:

मूल: पासवर्ड xxxx
है AI द्वारा संवर्धित: THE PAAS WURD IS xxxx

मूल: बेला मेरा फोन नंबर 346
है AI द्वारा संवर्धित: बेला मेरा numb3r वास्तव में threefour6 है

रेड टीमिंग ने हमें हमारे वर्तमान प्रशिक्षण डेटा में कमियों को बेहतर ढंग से समझने और उन्हें दूर करने के लिए अपने सिंथेटिक डेटा को अनुकूलित करने में मदद की। इसने हमें मॉडल पुनरावृत्तियों के बीच के अंतर को मापने की भी अनुमति दी, जो एक मॉडल के दो संस्करण मूल्यांकन सेट में संतृप्त होने लगने पर तेजी से मुश्किल हो जाता है। हमने एक ही वातावरण में बाईपास दरों की सीधे तुलना करने और यह निर्धारित करने के लिए कि कौन सा मॉडल सांख्यिकीय रूप से अधिक प्रभावी था, रेड-टीमिंग टूल के तहत मॉडल के कई संस्करणों को चलाया।

प्रदर्शन

प्रतिदिन औसतन 6.1 बिलियन चैट संदेशों के आदान-प्रदान के साथ, PII क्लासिफायर को Roblox पर प्रति सेकंड 200,000 से अधिक क्वेरीज़ का शिखर प्राप्त होता है। हम 100ms P90 लेटेंसी से इस वॉल्यूम को संभालते हैं। सर्विंग और गुणवत्ता के बीच संतुलन बनाने के लिए, हमने केवल-एन्कोड आर्किटेक्चर को चुना और अपने मॉडल को XLM-RoBERTa-Large² से फाइन-ट्यून किया। हम लागत कम करने के लिए CPU पर कुशलतापूर्वक चलाने और GPU पर शुद्ध ट्रांसफॉर्मर आर्किटेक्चर को सर्व करने के लिए टोकनाइज़र और प्री- और पोस्ट-प्रोसेसिंग सेवाओं को अलग करते हैं। हम थ्रूपुट बढ़ाने के लिए ट्रिटन सर्वर पर डायनामिक बैचिंग का भी उपयोग करते हैं।

सार्वजनिक और आंतरिक डेटासेट पर बेंचमार्किंग

हमने अपने स्वयं के प्रोडक्शन डेटा और सार्वजनिक डेटासेट का उपयोग करके PII क्लासिफायर का अन्य अत्याधुनिक मॉडलों के खिलाफ बेंचमार्किंग की। अधिकांश सार्वजनिक PII डेटासेट आस-पास के टेक्स्ट, जो इरादे का संकेत दे सकता है, पर ध्यान केंद्रित करने के बजाय स्वयं PII टेक्स्ट पर ध्यान केंद्रित करते हैं, इसलिए बेंचमार्किंग के लिए कोई भी हमारे प्लेटफ़ॉर्म की आवश्यकताओं के साथ पूरी तरह से मेल नहीं खाता था। फिर भी, हम यह देखना चाहते थे कि लोकप्रिय PII डेटासेट, जैसे कि कैगल पर द लर्निंग एजेंसी लैब का PII डेटा डिटेक्शन ^{डेटासेट3}, का उपयोग करके हमारा मॉडल वर्तमान डिटेक्शन समाधानों की तुलना में कैसा प्रदर्शन करता है।

हमने F1 स्कोर का उपयोग किया क्योंकि तुलना में LLMs केवल एक (रिकॉल, प्रिसिजन) जोड़ी प्रदान करते हैं। जिन मॉडलों के आउटपुट में वर्गीकरण स्कोर होते हैं, हमने उनके लिए टेस्ट सेट पर सर्वोत्तम F1 स्कोर रिपोर्ट किया। ध्यान दें कि हमारे मॉडल को इनपुट के रूप में उपयोगकर्ता की चैट लाइनों का एक स्निपेट चाहिए और यह एक PII स्कोर आउटपुट करता है, जिसका उपयोग हम चैट लाइनों पर द्विआधारी निर्णय लेने के लिए करते हैं। एक निष्पक्ष तुलना के लिए, हमने सार्वजनिक डेटासेट को वाक्य के आधार पर विभाजित किया और प्रत्येक वाक्य को सकारात्मक लेबल किया यदि उसमें कोई सकारात्मक NER PII टोकन होता है।

	PII V1.1	LlamaGuard-v3 1B	LlamaGuard-v3 8B	LlamaGuard-v4 12B	NemoGuard 8B	पिरांहा NER
Kaggle PII डेटासेट	45.48%	5.90%	5.46%	3.72%	3.26%	33.20%
रॉब्लॉक्स मूल्यांकन अंग्रेज़ी	94.34%	3.17%	27.73%	26.55%	26.29%	13.88%

हमारे बेंचमार्क में, हमारे मॉडल ने द लर्निंग एजेंसी लैब के सार्वजनिक डेटासेट और हमारे आंतरिक उत्पादन डेटा, जिसमें रॉब्लॉक्स पर 47,000 से अधिक विविध, वास्तविक-विश्व के नमूने शामिल हैं, दोनों पर अन्य ओपन सोर्स मॉडल से कहीं बेहतर प्रदर्शन किया। व्यापक वार्तालाप संदर्भ को शामिल करने और भाषा की तरल प्रकृति के अनुसार लगातार खुद को अनुकूलित करने पर ध्यान केंद्रित करना, उन अधिक वार्तालापों का पता लगाने के लिए एक प्रभावी दृष्टिकोण साबित हुआ है जहाँ कोई उपयोगकर्ता PII पूछने या साझा करने का इरादा रखता है।

PII क्लासिफायर उन कई नवीन प्रणालियों में से एक है जिनका उपयोग हम Roblox पर सुरक्षा और सभ्यता को बढ़ावा देने के लिए करते हैं। यह पहचानने की क्षमता कि कोई बातचीत PII के अनुरोध की ओर मुड़ रही है, का मतलब है कि हम उन गुप्त अनुरोधों को पकड़ सकते हैं जो अन्यथा पता लगाने से बच सकते हैं। हालांकि कोई भी प्रणाली परिपूर्ण नहीं है, लेकिन उत्पादन में हमारे पहले वर्ष के परिणाम पहले से ही आशाजनक हैं, और हम अपने ओपन-सोर्स सुरक्षा टूलकिट में अन्य उपकरणों के साथ इस उपकरण को ओपन-सोर्स समुदाय के साथ साझा करने के लिए उत्साहित हैं।

98% रिकॉल को 1% FPR पर Roblox के आंतरिक परीक्षण सेट पर मापा गया है। यह डेटासेट प्रोडक्शन डेटा से एकत्रित किया गया है और सुरक्षा विशेषज्ञों द्वारा कई बार समीक्षा एवं लेबल किया गया है।
कॉन्यू, ए., खंडेलवाल, के., गोयल, एन., चौहान, वी., वेंज़ेक, जी., गुज़मान, एफ., ग्रेव, ई., ओट, एम., ज़ेटलमोयर, एल., और स्टोयानोव, वी. 2019. स्केल पर अनसुपरवाइज्ड क्रॉस-लिंगुअल प्रतिनिधित्व लर्निंग। arXiv प्रीप्रिंट arXiv:1911.02116।
होम्स, एल., क्रॉसले, एस. ए., सिक्का, एच., और मॉरिस, डब्ल्यू. 2023. PIILO: व्यक्तिगत रूप से पहचाने जाने योग्य जानकारी के लेबलिंग और अस्पष्टता के लिए एक ओपन-सोर्स सिस्टम। सूचना और शिक्षण विज्ञान, 124 (9/10), 266-284.

नवीनतम

अधिक परिणाम

Roblox PII क्लासिफायर का ओपन सोर्सिंग: चैट में AI PII डिटेक्शन के लिए हमारा दृष्टिकोण

चुनौतियाँ