शेअर करा

Roblox PII वर्गीकरणक ओपन सोर्सिंग: चॅटमधील AI PII शोधनासाठी आमची पद्धत

परिस्थितीचा वापर करून पुनर्प्राप्ती सुधारणे

लेखक नरेन कोनेरू, उपाध्यक्ष, अभियांत्रिकी, आणि शॉन बियान

प्रकाशित ४ नोव्हें, २०२५

दररोज, वापरकर्ते Roblox वर सरासरी 6.1 अब्ज चॅट संदेश तयार करतात. आम्ही मजबूत मध्यस्थता प्रणाली वापरतो, वयानुसार निर्बंध लावतो आणि संवाद सुरक्षित व सभ्य ठेवण्यासाठी पालक नियंत्रण प्रदान करतो. प्लॅटफॉर्मवरील बहुसंख्य संदेश हे दैनंदिन संभाषण असतात, जसे की दोन मित्र गेमप्ले धोरणावर चर्चा करत असतात, परंतु काही टक्के संदेशांमध्ये वापरकर्ते संवेदनशील असू शकणारी वैयक्तिक ओळख पटवणारी माहिती (PII) शेअर करण्याचा प्रयत्न करतात. वैयक्तिकरित्या ओळखता येणारी माहिती (PII) अनेक स्वरूपात असते, आणि वापरकर्ते ती अनेक निरुपद्रवी कारणांसाठी शेअर करतात: एखादा वापरकर्ता गेमप्ले समन्वय साधण्यासाठी दुसऱ्या प्लॅटफॉर्मवरील आपले वापरकर्तानाव शेअर करू शकतो किंवा नव्या मैत्रीसाठी फोन नंबर देऊ शकतो. तथापि, काही दुर्मिळ प्रसंगी, दुर्भावनापूर्ण व्यक्ती वापरकर्त्यांना Roblox वरून इतर प्लॅटफॉर्मवर आकर्षित करण्यासाठी PII मागतात, जिथे वास्तविक जगात अधिक धोका होऊ शकतो. वास्तविकतेत, हे हेतूतील फरक ओळखणे कठीण असते, म्हणूनच आम्ही वैयक्तिकरित्या ओळखण्यायोग्य माहिती (PII) शेअर करण्याविरुद्ध किंवा शोधण्याविरुद्ध कडक धोरणे ठेवतो. आम्ही चॅटमधील सर्व ओळखलेली PII डीफॉल्टनुसार ब्लॉक करण्यासाठी अनेक साधने वापरतो, आणि आम्ही फक्त 18 वर्षे किंवा त्याहून अधिक वयाच्या वापरकर्त्यांसाठी आणि 13 ते 17 वर्षे वयोगटातील वापरकर्त्यांसाठी, ज्यांनी एकमेकांना 'विश्वसनीय संपर्क' (Trusted Connections) म्हणून सत्यापित केले आहे, त्यांच्यासाठीच निर्बंध सैल करतो.

PII शोधणे ही संपूर्ण उद्योगातील एक तांत्रिक आव्हान आहे. उद्योग-मानक शोध साधने बायपास केली जाऊ शकतात आणि त्यांना उदयोन्मुख भाषा नमुन्यांशी जुळवून घेण्याची क्षमता नसते. जरी कोणतेही साधन परिपूर्ण नसले तरी, आम्ही भाषा बदलत राहण्याच्या स्वरूपाचा विचार करण्यासाठी आणि वापरकर्ते फिल्टर बायपास करून PII विचारण्याचा किंवा शेअर करण्याचा प्रयत्न करत असलेल्या परिस्थितींचा शोध घेण्यासाठी संदर्भाचा वापर करण्यासाठी Roblox PII Classifier नावाचे एक AI मॉडेल विकसित केले आहे.

आम्हाला हे जाहीर करताना आनंद होत आहे की आज आम्ही आमच्या ओपन-सोर्स सुरक्षा टूलकिटमधील इतर साधनांसह PII क्लासिफायर ओपन-सोर्स करत आहोत. 2024 च्या उत्तरार्धात PII क्लासिफायर अंमलात आणल्यापासून, आम्ही रिकॉलमध्ये वेगवान आणि सातत्यपूर्ण सुधारणा पाहिली आहे, ज्याची कामगिरी इतर उपलब्ध मॉडेल्सपेक्षा श्रेष्ठ आहे. आज आम्ही ओपन-सोर्स करत असलेल्या आमच्या PII मॉडेलच्या आवृत्तीने Roblox वरील इंग्रजी मजकुरातील संभाव्य PII संभाषणांचा 98% रिकॉल साधला आहे. या मॉडेलने आमच्या उत्पादन डेटावर 94% F1 स्कोअरही मिळवला आहे, जो LlamaGuard v3 8B (28%) आणि Piiranha NER (14%) सारख्या इतर अत्याधुनिक सुरक्षा मॉडेल्सपेक्षा उत्तम कामगिरी दर्शवतो.

आव्हाने

मोठ्या प्रमाणावर PII प्रभावीपणे शोधणे तीन मुख्य आव्हानांवर अवलंबून असते:

विरोधी नमुने: वापरकर्ते सर्जनशील असतात आणि फिल्टर ओलांडण्यासाठी सतत नवीन मार्ग शोधत असतात. प्रभावी प्रणालीने भाषा विकसित होत असताना आणि नवीन नमुने उदयास येताना स्वतःला जुळवून घ्यावे.
प्रशिक्षण आणि मूल्यांकन: सर्वात प्रभावी मॉडेल तयार करण्यासाठी, आपल्याला प्रभावी प्रशिक्षण डेटासेट आणि मोजमाप पद्धती देखील तयार कराव्या लागतात. मॉडेलमध्ये उदयोन्मुख नमुन्यांचा समावेश करावा लागतो, त्यामुळे विद्यमान उत्पादन डेटा प्रशिक्षणासाठी पुरेसा नसतो.
कार्यक्षमता: अशा मॉडेलचे मोठ्या प्रमाणावर सेवा देण्यासाठी वापरकर्ता अनुभवावर होणाऱ्या नकारात्मक परिणामांना प्रतिबंध करण्यासाठी विचारपूर्वक आर्किटेक्चर आणि ऑप्टिमायझेशन निर्णय घेणे आवश्यक असते.

विरोधी नमुने

विद्यमान PII शोध उपाय मुख्यत्वे नाम-घटक ओळख (NER) वर अवलंबून असतात, ज्यात सोशल मीडिया हँडल्स, फोन नंबर आणि पत्ते यांसारख्या विशिष्ट संज्ञांच्या टोकन-स्तरीय शोधनाचा समावेश होतो. परंतु संज्ञा शोधणे हे आव्हानाचे फक्त एक भाग आहे. हुशार दुर्भावनापूर्ण घटक NER शोध टाळण्यासाठी जाणूनबुजून त्यांची भाषा बदलतात (उदा. A, B, आणि C यांना प्रतिनिधित्व करण्यासाठी अल्फा, ब्रावो आणि चार्ली वापरणे किंवा एखाद्या प्लॅटफॉर्मचा स्पष्टपणे उल्लेख न करता त्याचा संदर्भ देणे). कोणताही संवेदनशील माहिती शेअर न करता दुसऱ्या प्लॅटफॉर्मवर जोडण्याचा इरादा व्यक्त करणे दुष्ट घटकांसाठी शक्य आहे, ज्यामुळे NER फिल्टरला पकडता येणारी माहिती शेअर होत नाही. PII क्लासिफायरचे काम फक्त Roblox वर शेअर केलेला स्पष्ट PII मजकूर शोधणे आणि अस्पष्ट करणे इतकेच नाही, तर संवादाचा संदर्भ समजून घेऊन दुष्ट घटकांना PII-संबंधित चर्चांमध्ये सहभागी होण्यापासून रोखणे देखील आहे.

येथे काल्पनिक सोशल प्लॅटफॉर्म StarTalk वापरून काही प्रतिनिधी बायपास पॅटर्न आहेत:

पात्र-स्तरीय फेरफार

"तुला कॉल करायला 5tärtālk आहे का? मी काही दिवसांपूर्वी एक अकाउंट बनवलं होतं"
"ggrr i hate it tags What's your name That's S And T"

प्रशिक्षण आणि मूल्यांकन

अपरिभाषित — डेटा क्युरेशनच्या तीन स्तंभ मॉडेल विकासाला आधार देतात, जे परत उत्तम डेटा क्युरेशनला सामर्थ्यवान बनवते.

मॉडेलला सुरुवातीला प्रशिक्षण देण्यासाठी, आम्ही PII-संबंधित डेटा मॅन्युअली पुनरावलोकन करून लेबल केला. यामुळे आम्हाला प्रारंभिक बिंदू मिळाला, परंतु त्यामुळे आम्ही त्वरीत विस्तार करू शकलो नाही आणि विस्तृत विविध परिस्थिती कव्हर करू शकलो नाही. दररोज अब्जावधी चॅट संदेशांमधील प्रत्येक शब्द आणि सर्व संभाव्य संयोजनांचा मॅन्युअली शोध घेऊन योग्य लेबल लावण्याऐवजी, आम्ही प्रशिक्षणासाठी संबंधित नमुने निवडण्यासाठी डेटा सॅम्पलर्स तयार करून त्यांची चाचणी केली. आमचे उद्दिष्ट हानिरहित संभाषणे वगळणे आणि PII-संबंधित डेटा असलेल्या संभाषणांवर लक्ष केंद्रित करणे होते, ज्यामुळे मानवी लेबलिंग त्रुटींची शक्यता कमी होईल आणि अधिक व्यापकता साध्य होईल. दोन सॅम्पलर्स सर्वात प्रभावी ठरले आहेत:

मॉडेल स्कोअर आउटपुटचा वापर करून अनिश्चितता सॅम्पलिंग: या सॅम्पलरने असे नमुने निवडले ज्यांनी मजबूत सकारात्मक किंवा नकारात्मक संकेत निर्माण केला नाही, ज्यामुळे आम्हाला अस्पष्ट प्रकरणांना अधिक सूक्ष्मताने परिष्कृत करण्याची संधी मिळाली.
सलग PII ब्लॉक्समधील नमुने: या सॅम्पलरने अशा वापरकर्त्यांकडून नमुने निवडले ज्यांना काही संभाषणांमध्ये चिन्हांकित केले गेले होते परंतु सलग संभाषणांमध्ये नाही. या पुढील संभाषणांमध्ये सध्याच्या PII फिल्टरला चुकवून गेलेल्या असामान्य भाषेचा समावेश असण्याची अधिक शक्यता होती. प्रत्यक्षात, हे असे दिसू शकते की एखादा वापरकर्ता सिस्टमला बायपास करण्यात अयशस्वी होतो आणि तो एक हुशार मार्ग शोधेपर्यंत पुन्हा प्रयत्न करतो.

डेटा नमुनाकरण आणि चालू उत्पादन डेटावरील मानवी लेबलिंगच्या या संयोजनाने मॉडेल प्रशिक्षणासाठी मजबूत पाया पुरवला, परंतु आमचे उद्दिष्ट उदयोन्मुख नमुन्यांचा विचार करणे असल्यामुळे, आमच्या नमुन्यांमध्ये अद्याप अस्तित्वात नसलेल्या डेटावर प्रशिक्षण देण्याचा मार्ग आवश्यक होता.

AI-निर्मित कृत्रिम डेटा

फक्त सध्याच्या नमुना डेटावर अवलंबून राहिल्याने पूर्वग्रह निर्माण होऊ शकतात आणि नवीन संवाद पॅटर्न विकसित होत असताना मॉडेलची जुळवून घेण्याची क्षमता मर्यादित होऊ शकते. उदाहरणार्थ, Roblox वर सर्वाधिक सामान्य PII विनंत्या लोकप्रिय सोशल मीडिया प्लॅटफॉर्मच्या हँडल्ससाठी असतात. फक्त उत्पादन डेटावर प्रशिक्षित मॉडेल सर्वात सामान्य विनंत्यांकडे पूर्वग्रह विकसित करू शकते आणि कमी प्रमाणात आढळणाऱ्या विनंत्यांवर, जसे की कमी परिचित सोशल मीडिया प्लॅटफॉर्म, ईमेल पत्ते आणि फोन नंबर, कमी कामगिरी करू शकते. वापरकर्त्यांच्या संवादातही लोकप्रिय शब्दसंग्रह आणि भाषा नमुन्यांकडे एकसारखेपणा दिसतो. फक्त उत्पादन डेटावर प्रशिक्षित मॉडेल सामान्य भाषा नमुन्यांकडे पक्षपाती होऊ शकते आणि असामान्य किंवा उदयोन्मुख स्वरूपात व्यक्त होणाऱ्या उल्लंघनांना ओळखण्यात अपयशी ठरू शकते.

या आणि इतर पूर्वग्रह दूर करण्यासाठी, आम्ही एक AI डेटा-जनरेशन पाइपलाइन तयार केली आहे जी प्रारंभिक प्रशिक्षण डेटासेटमधून वारसाहक्काने मिळालेल्या कोणत्याही कमकुवतपणावर लक्ष केंद्रित करते. प्रथम, आम्ही संदर्भ, PII प्रकार, वापरकर्ता व्यक्तिमत्व, भाषा आणि उदाहरण चॅट ओळी यांसारख्या विविध घटकांच्या संयोजनाचा वापर करून प्रॉम्प्ट तयार केले. नंतर, आम्ही या प्रॉम्प्टवर आधारित नवीन चॅट ओळी तयार करून त्या मॉडेलमध्ये घातल्या.

मानवी आणि AI रेड टीमिंग

आम्ही मॉडेलची परिणामकारकता तपासण्यासाठी आणि प्रशिक्षणाला परिष्कृत करण्यासाठी विकासादरम्यान मानवी आणि AI रेड टीमिंग (जिथे संघ प्रणालीच्या संरक्षणाची चाचणी करण्यासाठी शत्रुत्वपूर्ण हल्ल्यांचे अनुकरण करतात) दोन्ही वापरल्या. आम्ही मॉडरेटरना PII विचारण्याच्या आणि शेअर करण्याच्या विविध पद्धतींचा प्रयोग करण्यासाठी आमंत्रित केले आणि LLMs ला या पद्धती विविध प्रकारे वाढवण्यासाठी प्रोत्साहित केले, नंतर मॉडेलने चुकवलेले सर्व नमुने त्याच्या प्रशिक्षण डेटासेटमध्ये जोडले. AI रेड टीमिंगमुळे आम्हाला अनेक प्रकारांची त्वरीत चाचणी करण्यास आणि मॉडरेटरने कदाचित न समाविष्ट केलेल्या पद्धतींना समाविष्ट करण्यास मदत झाली. उदाहरणार्थ:

मूळ: पासवर्ड xxxx
आहे AI वाढवलेले: THE PAAS WURD IS xxxx

मूळ: बेला, माझा फोन नंबर 346
आहे AI वाढवलेले: बेला, माझा numb3r प्रत्यक्षात threefour6 आहे

रेड टीमिंगमुळे आपल्याला विद्यमान प्रशिक्षण डेटातील त्रुटी चांगल्या प्रकारे समजून घेण्यास आणि त्या भरून काढण्यासाठी आपला सिंथेटिक डेटा जुळवून घेण्यास मदत झाली. यामुळे मॉडेलच्या आवृत्त्यांमधील फरक मोजता आला, जेव्हा एखाद्या मॉडेलच्या दोन आवृत्त्या मूल्यांकन संचात भरून येऊ लागतात तेव्हा हे अधिकच कठीण होते. आम्ही रेड-टीमिंग टूल अंतर्गत मॉडेलच्या अनेक आवृत्त्या चालवल्या, ज्यामुळे एकाच वातावरणात बायपास दर थेट तुलना करता आला आणि कोणते मॉडेल सांख्यिकीयदृष्ट्या अधिक प्रभावी आहे हे ठरवता आले.

कार्यक्षमता

दररोज सरासरी 6.1 अब्ज चॅट संदेश देवाणघेवाण होतात, आणि Roblox वर PII क्लासिफायरला प्रति सेकंद 200,000 पेक्षा जास्त क्वेरीजचा उच्चांक प्राप्त होतो. आम्ही हा प्रमाणाचा सामना 100ms पेक्षा कमी P90 विलंबात करतो. सेवा देणे आणि गुणवत्ता यात संतुलन साधण्यासाठी, आम्ही फक्त-एन्कोड आर्किटेक्चर निवडले आणि आमच्या मॉडेलचे XLM-RoBERTa-Large² वरून फाईन-ट्यून केले. खर्च कमी करण्यासाठी CPU वर कार्यक्षमतेने चालवण्यासाठी आम्ही टोकनायझर आणि प्री- आणि पोस्ट-प्रोसेसिंग सेवा वेगळ्या करतो आणि GPU वर शुद्ध ट्रान्सफॉर्मर आर्किटेक्चर सर्व्ह करतो. आम्ही थ्रूपुट वाढवण्यासाठी Triton सर्व्हरवर डायनॅमिक बॅचिंग देखील वापरतो.

सार्वजनिक आणि अंतर्गत डेटासेटवर बेंचमार्किंग

आम्ही आमच्या स्वतःच्या उत्पादन डेटा आणि सार्वजनिक डेटासेटचा वापर करून इतर अत्याधुनिक मॉडेल्सच्या तुलनेत PII क्लासिफायरचे बेंचमार्किंग केले. बहुतेक सार्वजनिक PII डेटासेट भोवतालच्या मजकुरावर (जो हेतू दर्शवू शकतो) लक्ष केंद्रित करण्याऐवजी फक्त PII मजकुरावर लक्ष केंद्रित करतात, त्यामुळे बेंचमार्किंगसाठी आमच्या प्लॅटफॉर्मच्या गरजांशी काहीही पूर्णपणे जुळत नव्हते. तरीही, आम्हाला आमचा मॉडेल लोकप्रिय PII डेटासेट्स, जसे की Kaggle वरील The Learning Agency Lab च्या PII Data Detection Dataset³ चा वापर करून सध्याच्या शोध उपायांशी कसा जुळतो हे पाहायचे होते.

आम्ही F1 स्कोअर वापरले कारण या तुलनेतील LLMs फक्त एक (रिकॉल, प्रिसिजन) जोडीच पुरवतात. वर्गीकरण गुण (classification scores) देणाऱ्या मॉडेल्ससाठी, आम्ही चाचणी संचावरचा सर्वोत्तम F1 गुण अहवालित केला. लक्षात घ्या की आमच्या मॉडेलला इनपुट म्हणून वापरकर्त्याच्या चॅट ओळींचा एक तुकडा आवश्यक असतो आणि ते PII गुण देते, ज्याचा वापर आम्ही चॅट ओळींवर द्वि-मूल्य निर्णय (binary decision) घेण्यासाठी करतो. योग्य तुलना करण्यासाठी, आम्ही सार्वजनिक डेटासेटला वाक्यानुसार विभाजित केले आणि प्रत्येक वाक्य सकारात्मक लेबल केले जर त्यात कोणतेही सकारात्मक NER PII टोकन असेल.

	PII V1.1	LlamaGuard-v3 1B	LlamaGuard-v3 8B	LlamaGuard-v4 12B	NemoGuard 8B	पिरांहा NER
Kaggle PII डेटासेट	45.48%	5.90%	5.46%	3.72%	3.26%	33.20%
रॉब्लॉक्स मूल्यांकन इंग्रजी	94.34%	3.17%	27.73%	26.55%	२६.२९%	१३.८८%

आमच्या बेंचमार्कमध्ये, आमच्या मॉडेलने द लर्निंग एजन्सी लॅबच्या सार्वजनिक डेटासेट आणि आमच्या अंतर्गत उत्पादन डेटावर इतर ओपन सोर्स मॉडेल्सच्या तुलनेत लक्षणीयरीत्या चांगले प्रदर्शन केले, ज्यात Roblox वरील 47,000 पेक्षा जास्त विविध, वास्तविक-जगातील नमुने समाविष्ट आहेत. व्यापक संभाषणात्मक संदर्भ समाविष्ट करण्यावर आणि भाषेच्या गतिशील स्वरूपाशी सातत्याने जुळवून घेण्यावर लक्ष केंद्रित करणे, अशा अधिक संभाषणांचा शोध घेण्यासाठी एक प्रभावी पद्धत ठरली आहे जिथे वापरकर्ता वैयक्तिक ओळख माहिती (PII) विचारण्याची किंवा शेअर करण्याची इच्छा ठेवतो.

PII क्लासिफायर ही Roblox वर सुरक्षितता आणि सभ्यता वाढवण्यासाठी आम्ही वापरत असलेल्या अनेक नाविन्यपूर्ण प्रणालींपैकी एक आहे. संभाषण PII विनंतीकडे वळत असल्याचे ओळखण्याची क्षमता म्हणजे आम्ही अशा गूढ विनंत्या पकडू शकतो ज्या अन्यथा शोधण्यात चुकल्या असत्या. जरी कोणतीही प्रणाली परिपूर्ण नसली, तरी आमच्या पहिल्या वर्षाच्या उत्पादनातील निकाल आधीच आशादायक आहेत, आणि आमच्या ओपन-सोर्स सुरक्षा टूलकिटमधील इतर साधनांसह हे साधन ओपन-सोर्स समुदायाबरोबर शेअर करण्यास आम्ही उत्साहित आहोत.

Roblox अंतर्गत अंतर्गत चाचणी संचावर 1% FPR वर 98% रिकॉल मोजले जाते. हा डेटासेट उत्पादन डेटापासून गोळा केला गेला आहे आणि सुरक्षा तज्ञांनी अनेकदा पुनरावलोकन करून लेबल केलेला आहे.
Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., आणि Stoyanov, V. 2019. मोठ्या प्रमाणावर अनियंत्रित बहुभाषिक प्रतिनिधित्व शिक्षण. arXiv प्रीप्रिंट arXiv:1911.02116.
Holmes, L., Crossley, S. A., Sikka, H., आणि Morris, W. 2023. PIILO: वैयक्तिकरित्या ओळखता येण्याजोगी माहिती लेबलिंग आणि अस्पष्टतेसाठी एक मुक्त-स्रोत प्रणाली. Information and Learning Science, 124 (9/10), 266-284.

नवीनतम

अधिक निकाल

Roblox PII वर्गीकरणक ओपन सोर्सिंग: चॅटमधील AI PII शोधनासाठी आमची पद्धत

आव्हाने