இந்த தளத்தின் உள்ளடக்கம் செயற்கை நுண்ணறிவு (AI) அல்லது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பம் மூலம் மொழிபெயர்க்கப்பட்டுள்ளது; பிழைகள் இருக்கலாம்.

Skip to content

ராப்ளாக்ஸ் PII வகைப்படுத்தியை ஓப்பன் சோர்சிங் செய்தல்: அரட்டையில் AI PII கண்டறிதலுக்கான எங்கள் அணுகுமுறை

மீட்டெடுப்பை மேம்படுத்த சூழலைப் பயன்படுத்துதல்

ஒவ்வொரு நாளும், பயனர்கள் ராப்லாக்ஸில் சராசரியாக 6.1 பில்லியன் அரட்டை செய்திகளை உருவாக்குகிறார்கள். தகவல்தொடர்பை பாதுகாப்பாகவும் நாகரிகமாகவும் வைத்திருக்க உதவ, நாங்கள் வலுவான தணிக்கை அமைப்புகளைப் பயன்படுத்துகிறோம், வயது அடிப்படையிலான கட்டுப்பாடுகளை அமைக்கிறோம், மற்றும் பெற்றோர் கட்டுப்பாடுகளை வழங்குகிறோம். இந்தத் தளத்தில் உள்ள பெரும்பாலான செய்திகள், இரண்டு நண்பர்கள் விளையாட்டு உத்திகளைப் பற்றி விவாதிப்பது போன்ற அன்றாட உரையாடல்கள் ஆகும், ஆனால் ஒரு சிறிய சதவீத செய்திகளில், பயனர்கள் தனிப்பட்ட முறையில் அடையாளம் காணக்கூடிய தகவல் (PII) உணர்திறன் வாய்ந்ததாக இருக்கக்கூடியதைப் பகிர முயற்சிக்கின்றனர். தனிப்பட்ட அடையாளத் தகவல் (PII) பல வடிவங்களில் இருக்கும், மேலும் பயனர்கள் பல அப்பாவித்தனமான காரணங்களுக்காக அதைப் பகிர்ந்து கொள்கிறார்கள்: ஒரு பயனர் விளையாட்டை ஒருங்கிணைக்க மற்றொரு தளத்தில் உள்ள தனது பயனர் பெயரைப் பகிரலாம் அல்லது வளர்ந்து வரும் நட்புக்காக ஒரு தொலைபேசி எண்ணைப் பகிரலாம். இருப்பினும், சில அரிதான சந்தர்ப்பங்களில், தீய நோக்கம் கொண்டவர்கள் பயனர்களை Roblox-இலிருந்து உண்மையான உலகில் அதிக தீங்கு விளைவிக்கக்கூடிய ஆபத்துள்ள மற்ற தளங்களுக்குக் கவர்ந்திழுக்க PII-ஐத் தேடுகிறார்கள். செயல்பாட்டில், நோக்கங்களில் உள்ள இந்த வேறுபாடுகளைக் கண்டறிவது கடினம், இதனால்தான் தனிப்பட்ட அடையாளத் தகவல்களைப் பகிர்வதற்கோ அல்லது தேடுவதற்கோ எதிராக எங்களிடம் கடுமையான கொள்கைகள் உள்ளன. அரட்டையில் கண்டறியப்பட்ட அனைத்து தனிப்பட்ட அடையாளத் தகவல்களையும் இயல்பாகவே தடுக்க நாங்கள் பல கருவிகளைப் பயன்படுத்துகிறோம், மேலும் 18 வயது அல்லது அதற்கு மேற்பட்ட பயனர்களுக்கும், 13 முதல் 17 வயதுக்குட்பட்ட பயனர்களில் ஒருவரையொருவர் நம்பகமான தொடர்புகளாகச் சரிபார்த்தவர்களுக்கும் மட்டுமே கட்டுப்பாடுகளைத் தளர்த்துகிறோம். 

PII கண்டறிதல் என்பது ஒரு துறை அளவிலான தொழில்நுட்ப சவாலாகும். தொழில் தர கண்டறியும் கருவிகளைத் தவிர்க்க முடியும், மேலும் அவை வளர்ந்து வரும் மொழி முறைகளுக்கு ஏற்ப தங்களை மாற்றிக்கொள்ளும் திறன் கொண்டிருக்கவில்லை. எந்தக் கருவியும் முழுமையானது அல்ல என்றாலும், மொழியின் மாறிவரும் தன்மையைக் கணக்கில் எடுத்துக்கொண்டு, பயனர்கள் வடிகட்டிகளைத் தவிர்த்து PII-ஐக் கேட்க அல்லது பகிர முயற்சிக்கும் சூழ்நிலைகளைக் கண்டறிய, சூழலைப் பயன்படுத்தும் வகையில், ரோப்லாக்ஸ் PII வகைப்படுத்தி (Roblox PII Classifier) என்ற ஒரு AI மாதிரியை நாங்கள் உருவாக்கியுள்ளோம்.

இன்று, எங்கள் திறந்த மூல பாதுகாப்பு கருவித்தொகுப்பில் உள்ள மற்ற கருவிகளுடன் PII வகைப்படுத்தியையும் நாங்கள் திறந்த மூலமாக வெளியிடுவதை அறிவிப்பதில் நாங்கள் மகிழ்ச்சியடைகிறோம். 2024-ன் பிற்பகுதியில் PII வகைப்படுத்தியைச் செயல்படுத்தியதிலிருந்து, மீட்டெடுப்பில் (recall) நாங்கள் விரைவான மற்றும் தொடர்ச்சியான முன்னேற்றத்தைக் கண்டுள்ளோம், மேலும் செயல்திறன் மற்ற கிடைக்கக்கூடிய மாடல்களை மிஞ்சியுள்ளது. இன்று நாங்கள் திறந்த மூலமாக வெளியிடும் எங்கள் PII மாடலின் பதிப்பு, Roblox-இல் உள்ள ஆங்கில உரையில்1 சாத்தியமான PII உரையாடல்களில் 98% மீட்டெடுப்பைக் கொண்டுள்ளது. இந்த மாதிரி எங்கள் உற்பத்தித் தரவுகளில் 94% F1 மதிப்பெண்ணை அடைந்துள்ளது, இது LlamaGuard v3 8B (28%) மற்றும் Piiranha NER (14%) போன்ற பிற அதிநவீன பாதுகாப்பு மாதிரிகளை விட சிறப்பாக செயல்படுகிறது. 

சவால்கள் 

பெரும் அளவில் PII-ஐ திறம்படக் கண்டறிவது மூன்று முக்கிய சவால்களைக் கொண்டது: 

  1. எதிர்ப்பு முறைகள்: பயனர்கள் படைப்பாற்றல் மிக்கவர்கள் மற்றும் வடிகட்டிகளைத் தவிர்ப்பதற்கான புதிய வழிகளைத் தொடர்ந்து கண்டறிகின்றனர். ஒரு பயனுள்ள அமைப்பு, மொழி உருவாகும்போது மற்றும் புதிய முறைகள் தோன்றும்போது தன்னைத் தானே மாற்றிக்கொள்ள வேண்டும்.
  2. பயிற்சி மற்றும் மதிப்பீடு: மிகவும் பயனுள்ள மாதிரியை உருவாக்க, பயனுள்ள பயிற்சித் தரவுத்தொகுப்புகள் மற்றும் அளவீட்டு முறைகளையும் நாம் உருவாக்க வேண்டும். இந்த மாதிரி உருவாகும் புதிய முறைகளைக் கணக்கில் எடுத்துக்கொள்ள வேண்டியிருப்பதால், தற்போதைய உற்பத்தித் தரவுகள் பயிற்சிக்குப் போதுமானதாக இல்லை.  
  3. செயல்திறன்: இத்தகைய மாதிரியை பெரிய அளவில் வழங்குவது, பயனர் அனுபவத்தில் எதிர்மறையான தாக்கத்தைத் தடுக்க, சிந்தனைமிக்க கட்டமைப்பு மற்றும் மேம்பாட்டு முடிவுகள் தேவை.

எதிர்ப்பு முறைகள்

தற்போதுள்ள தனிப்பட்ட அடையாளத் தகவல் (PII) கண்டறிதல் தீர்வுகள் முக்கியமாக பெயரிடப்பட்ட-உரு அடையாளம் (NER) என்பதைச் சார்ந்துள்ளன, இது சமூக ஊடகக் கைப்பிடிகள், தொலைபேசி எண்கள் மற்றும் முகவரிகள் போன்ற சில வகையான பெயர்ச்சொற்களைக் கண்டறியும். ஆனால் பெயர்ச்சொற்களைக் கண்டறிவது சவாலின் ஒரு பகுதி மட்டுமே. திறமையான தீயசக்திகள் NER கண்டறிதலைத் தவிர்ப்பதற்காகத் தங்கள் மொழியை வேண்டுமென்றே மாற்றுகின்றன (எ.கா., A, B, மற்றும் C என்பதைக் குறிக்க ஆல்ஃபா, பிராவோ மற்றும் சார்லி ஆகியவற்றைப் பயன்படுத்துவதன் மூலமாகவோ அல்லது ஒரு தளத்தை வெளிப்படையாகப் பெயரிடாமல் குறிப்பிடுவதன் மூலமாகவோ). ஒரு தீய நோக்கம் கொண்ட நபர், ஒரு NER வடிப்பான் பிடிக்கும் உணர்திறன் மிக்க தகவலை ஒருபோதும் பகிராமல், மற்றொரு தளத்தில் இணைய விரும்பும் தனது நோக்கத்தைக் குறிக்க முடியும். PII வகைப்படுத்தியின் பணி என்பது Roblox-இல் பகிரப்பட்ட வெளிப்படையான PII உரையைக் கண்டறிந்து மறைப்பது மட்டுமல்ல, உரையாடலின் சூழலைப் புரிந்துகொண்டு, தீய நோக்கம் கொண்ட நபர்கள் PII தொடர்பான உரையாடல்களில் ஈடுபடுவதை முதலில் தடுப்பதும் ஆகும். 

ஸ்டார்டாக் என்ற கற்பனையான சமூகத் தளத்தைப் பயன்படுத்தி, சில பிரதிநிதித்துவப்படுத்தும் தவிர்ப்பு முறைகள் இங்கே கொடுக்கப்பட்டுள்ளன:

கதாபாத்திர-நிலைத் திரிக்கல்
  1. "உன்னிடம் அழைக்க 5tärtālk இருக்கா? நான் சில நாட்களுக்கு முன்பு ஒரு கணக்கை உருவாக்கினேன்"
  2. "ggrr i hate it tags What's your name That's S And T"
பிரபலமான சமூக ஊடகங்களுக்கான மறைமுகமான குறிப்புகள்
  1. "மீண்டும் உன் ராட்ஸ் பிபிஏ ரிவர்ஸ் என்ன?"
  2. "ஏய், யெல்லோ சன் ஆப்பில் என் பெயரைச் சரிபார்க்கிறியா? அங்கே அரட்டை அடிப்போம்?"

மொழி மற்றும் வழக்குச் சொற்கள் காலப்போக்கில் உருவாகின்றன, மேலும் தீய நோக்கமுடையவர்கள் வடிகட்டிகளைத் தவிர்ப்பதற்கான புதிய வழிகளைத் தொடர்ந்து தேடுகிறார்கள். புதிய மொழிப் போக்குகள் மற்றும் மாற்று வழிகள் தோன்றும்போது, அவற்றுக்கு ஏற்ப தன்னை மாற்றிக்கொள்ளும் திறனே PII வகைப்படுத்தியின் பலமாகும். நாங்கள் நிஜ உலக எதிரான முறைகளைக் கண்டறியும்போது, அவற்றைத் தொடர்ந்து பயிற்சி செய்வதற்காக மாடலில் மீண்டும் இணைக்கிறோம். 

பயிற்சி மற்றும் மதிப்பீடு 

வரையறுக்கப்படாதது
தரவு மேலாண்மை ஆதரவு மாதிரியின் மூன்று தூண்கள், சிறந்த தரவு மேலாண்மைக்கு வலு சேர்க்கின்றன.

ஆரம்பத்தில் மாதிரியைப் பயிற்றுவிக்க, நாங்கள் PII தொடர்பான தரவைக் கைமுறையாக மதிப்பாய்வு செய்து லேபிளிட்டோம். அது எங்களுக்கு ஒரு தொடக்கப் புள்ளியை வழங்கியது, ஆனால் அது விரைவாக விரிவாக்கவும், பரந்த அளவிலான சூழ்நிலைகளைப் பதிவு செய்யவும் எங்களை அனுமதிக்கவில்லை. ஒரு நாளைக்கு பில்லியன் கணக்கான அரட்டைச் செய்திகளில் காணப்படும் ஒவ்வொரு சொற்றொடரையும் மற்றும் அதன் அனைத்து மாறுபாடுகளையும் கைமுறையாக ஆராய்ந்து, பொருத்தமான லேபிளைப் பொருத்துவதற்குப் பதிலாக, பயிற்சிக்குத் தேவையான தொடர்புடைய மாதிரிகளைத் தேர்ந்தெடுக்க, நாங்கள் தரவு மாதிரி எடுப்பான்களை உருவாக்கிச் சோதித்தோம். எங்கள் நோக்கம், மனிதர் லேபிளிங் பிழைகளின் சாத்தியக்கூறுகளைக் குறைப்பதற்கும், மேலும் பரந்த அளவிலானவற்றை உள்ளடக்குவதற்கும், பாதிப்பில்லாத உரையாடல்களைத் தவிர்த்து, தனிப்பட்ட அடையாளத் தகவல்கள் (PII) தொடர்பான தரவைக் கொண்ட உரையாடல்களில் கவனம் செலுத்துவதாகும். இரண்டு மாதிரி எடுப்பான்கள் மிகவும் பயனுள்ளதாக நிரூபிக்கப்பட்டுள்ளன:

  1. மாடல் மதிப்பெண் வெளியீடுகளைப் பயன்படுத்தி நிச்சயமற்ற மாதிரியெடுத்தல்: இந்த மாதிரியெடுப்பான், வலுவான நேர்மறை அல்லது எதிர்மறை சமிக்ஞையை வெளிப்படுத்தாத மாதிரிகளைத் தேர்ந்தெடுத்தது, இது தெளிவற்ற நிகழ்வுகளை மேலும் செம்மைப்படுத்த எங்களுக்கு உதவியது.
  2. தொடர்ச்சியான PII தொகுதிகளில் இருந்து மாதிரிகள்: இந்த மாதிரித் தேர்வான், சில உரையாடல்களில் குறியிடப்பட்ட ஆனால் தொடர்ச்சியான உரையாடல்களில் குறியிடப்படாத பயனர்களிடமிருந்து மாதிரிகளைத் தேர்ந்தெடுத்தது. இந்தப் பின்தொடர் உரையாடல்கள், தற்போதைய PII வடிகட்டியைத் தவிர்த்துவிட்ட வழக்கத்திற்கு மாறான மொழியைக் கொண்டிருக்க அதிக வாய்ப்புள்ளது. நடைமுறையில், இது ஒரு பயனர் அமைப்பைத் தவிர்க்கத் தவறி, ஒரு புத்திசாலித்தனமான ஓட்டையைக் கண்டுபிடிக்கும் வரை மீண்டும் மீண்டும் முயற்சிப்பதைப் போல இருக்கலாம். 

தற்போதைய உற்பத்தித் தரவுகளில் தரவு மாதிரியெடுத்தல் மற்றும் மனித லேபிளிங் ஆகியவற்றின் இந்த கலவை, மாதிரியைப் பயிற்றுவிப்பதற்கு ஒரு வலுவான அடித்தளத்தை வழங்கியது, ஆனால் எழும் முறைகளைக் கணக்கில் எடுப்பதே எங்கள் நோக்கமாக இருந்ததால், எங்கள் மாதிரிகளில் இன்னும் இல்லாத தரவுகளில் பயிற்றுவிக்க ஒரு வழி தேவைப்பட்டது. 

AI-யால் உருவாக்கப்பட்ட செயற்கைத் தரவு

தற்போதைய மாதிரி தரவுகளை மட்டுமே நம்புவது, புதிய தகவல் தொடர்பு முறைகள் உருவாகும்போது மாற்றியமைத்துக் கொள்ளும் மாதிரியின் திறனைக் கட்டுப்படுத்தி, பக்கச்சார்புகளை ஏற்படுத்தக்கூடும். உதாரணமாக, Roblox-இல் மிகவும் பொதுவான PII கோரிக்கைகள் பிரபலமான சமூக ஊடகத் தளங்களின் கணக்குகள் தொடர்பானவை. உற்பத்தித் தரவுகளில் மட்டுமே பயிற்சி பெற்ற ஒரு மாதிரி, மிகவும் பொதுவான கோரிக்கைகளின் பக்கம் ஒரு பக்கச்சார்பை உருவாக்கி, அதிகம் அறியப்படாத சமூக ஊடகத் தளங்கள், மின்னஞ்சல் முகவரிகள் மற்றும் தொலைபேசி எண்கள் போன்ற அரிதான கோரிக்கைகளில் குறைவாகச் செயல்படக்கூடும். பயனர் தொடர்பாடலும் பிரபலமான சொற்களஞ்சியம் மற்றும் மொழி முறைகளில் ஒன்றுபடும் போக்கைக் கொண்டுள்ளது. உற்பத்தித் தரவுகளில் மட்டுமே பயிற்சி பெற்ற ஒரு மாதிரி, பொதுவான மொழி முறைகளின் பக்கம் சார்புடையதாக மாறி, வழக்கத்திற்கு மாறான அல்லது புதிதாக வெளிப்படும் வழிகளில் வெளிப்படுத்தப்படும் மீறல்களைக் கண்டறியத் தவறக்கூடும்.

இந்த மற்றும் பிற பக்கச்சார்புகளை நீக்க, ஆரம்பப் பயிற்சித் தரவுத்தொகுப்பிலிருந்து பெறப்பட்ட எந்தவொரு பலவீனங்களையும் குறிவைக்கும் ஒரு AI தரவு-உருவாக்கும் குழாயை நாங்கள் வடிவமைத்தோம். முதலில், சூழல், தனிப்பட்ட அடையாளத் தகவல் (PII) வகை, பயனர் ஆளுமை, மொழி மற்றும் எடுத்துக்காட்டு அரட்டை வரிகள் உள்ளிட்ட மாறிகளின் கலவையைப் பயன்படுத்தி நாங்கள் தூண்டுதல்களை உருவாக்கினோம். பின்னர், இந்தத் தூண்டுதல்களின் அடிப்படையில் புதிய அரட்டை வரிகளை உருவாக்கி, அவற்றை மாடலில் உள்ளீடாக வழங்கினோம்.  

மனித மற்றும் AI ரெட் டீமிங்

மாடலின் செயல்திறனைச் சோதிக்கவும், பயிற்சியைச் செம்மைப்படுத்தவும், மேம்பாட்டின் போது நாங்கள் மனித மற்றும் AI ரெட் டீமிங் இரண்டையும் பயன்படுத்தினோம் (இங்கு, ஒரு அமைப்பின் பாதுகாப்பு நடவடிக்கைகளைச் சோதிக்க எதிரான தாக்குதல்களைக் குழுக்கள் உருவகப்படுத்துகின்றன). PII-ஐக் கேட்பதற்கும் பகிர்வதற்கும் வெவ்வேறு முறைகளைப் பரிசோதிக்க நாங்கள் நெறியாளர்களை அழைத்தோம், மேலும் இந்த முறைகளை பல்வேறு வழிகளில் மேம்படுத்துமாறு பெரிய மொழி மாதிரிகளை (LLMs) தூண்டினோம், பின்னர் மாதிரி தவறவிட்ட எந்தவொரு மாதிரிகளையும் அதன் பயிற்சித் தரவுத்தொகுப்பில் சேர்த்தோம். AI ரெட் டீமிங், பல மாறுபாடுகளை விரைவாகச் சோதிக்கவும், நெறியாளர்கள் கவனிக்கத் தவறியிருக்கக்கூடிய முறைகளை உள்ளடக்கவும் எங்களுக்கு உதவியது. உதாரணமாக: 

அசல்: கடவுச்சொல் xxxx
AI மேம்படுத்தியது: THE PAAS WURD IS xxxx

அசல்: பெல்லா எனது தொலைபேசி எண் 346
AI மேம்படுத்தியது: பெல்லா எனது numb3r உண்மையில் threefour6

எங்கள் தற்போதைய பயிற்சித் தரவுகளில் உள்ள இடைவெளிகளைச் சிறப்பாகப் புரிந்துகொள்ளவும், அவற்றைச் சரிசெய்ய எங்கள் செயற்கைத் தரவைத் தழுவிக்கொள்ளவும் ரெட் டீமிங் எங்களுக்கு உதவியது. இது மாதிரி மறுஆக்கங்களுக்கு இடையிலான வேறுபாடுகளை அளவிடவும் எங்களை அனுமதித்தது, இது ஒரு மாதிரியின் இரண்டு பதிப்புகள் மதிப்பீட்டுத் தொகுப்பை நிரப்பத் தொடங்கும் போது மிகவும் கடினமாகிவிடும். ஒரே சூழலில் பாய்பாஸ் விகிதங்களை நேரடியாக ஒப்பிடவும், எந்த மாதிரி புள்ளிவிவரப்படி மிகவும் பயனுள்ளதாக இருந்தது என்பதைத் தீர்மானிக்கவும், ரெட்-டீமிங் கருவியின் கீழ் மாதிரியின் பல பதிப்புகளை நாங்கள் வழங்கினோம்.

செயல்திறன் 

ஒரு நாளைக்கு சராசரியாக 6.1 பில்லியன் அரட்டைச் செய்திகள் பரிமாறிக்கொள்ளப்படுவதால், PII வகைப்படுத்தி Roblox-இல் ஒரு வினாடிக்கு 200,000-க்கும் மேற்பட்ட விசாரணைகளின் உச்சத்தை அடைகிறது. இந்த அளவை நாங்கள் 100ms P90 தாமதத்திற்குள் கையாள்கிறோம். சேவை மற்றும் தரம் ஆகியவற்றுக்கு இடையே சமநிலைப்படுத்த, நாங்கள் என்கோட்-மட்டும் கட்டமைப்பைத் தேர்ந்தெடுத்து, XLM-RoBERTa-Large2-இலிருந்து எங்கள் மாடலை ஃபைன்-டியூன் செய்தோம். செலவுகளைக் குறைப்பதற்காக, CPU-வில் திறமையாக இயக்க டோக்கனைசர் மற்றும் முன்- மற்றும் பின்-செயலாக்க சேவைகளை நாங்கள் பிரிக்கிறோம், மேலும் GPU-வில் தூய டிரான்ஸ்ஃபார்மர் கட்டமைப்பை வழங்குகிறோம். செயல்திறனை அதிகரிக்க, டிரைட்டன் சர்வர்களில் டைனமிக் பேட்சிங்கையும் நாங்கள் பயன்படுத்துகிறோம். 

பொது மற்றும் உள் தரவுத்தொகுப்புகளில் அளவீடு செய்தல் 

எங்கள் சொந்த உற்பத்தித் தரவுகள் மற்றும் பொதுத் தரவுத்தொகுப்புகளைப் பயன்படுத்தி, PII வகைப்படுத்தியை மற்ற அதிநவீன மாடல்களுடன் நாங்கள் ஒப்பீடு செய்தோம். பெரும்பாலான பொது PII தரவுத்தொகுப்புகள், நோக்கத்தைக் குறிக்கக்கூடிய சுற்றியுள்ள உரையைக் காட்டிலும் PII உரையில் மட்டுமே கவனம் செலுத்துகின்றன, எனவே ஒப்பீட்டிற்கான எங்கள் தளத்தின் தேவைகளுடன் எதுவும் சரியாகப் பொருந்தவில்லை. இருப்பினும், காகில் (Kaggle) உள்ள தி லேர்னிங் ஏஜென்சி லேப்ஸ் (The Learning Agency Lab's) PII தரவு கண்டறிதல் தரவுத்தொகுப்பு3 (PII Data Detection Dataset3) போன்ற பிரபலமான PII தரவுத்தொகுப்புகளைப் பயன்படுத்தி, தற்போதைய கண்டறிதல் தீர்வுகளுடன் எங்கள் மாதிரி எவ்வாறு ஒப்பிடப்படுகிறது என்பதை நாங்கள் காண விரும்பினோம்.

ஒப்பீட்டில் உள்ள LLM-கள் ஒரே ஒரு (recall, precision) ஜோடியை மட்டுமே வழங்குவதால், நாங்கள் F1 ஸ்கோர்களைப் பயன்படுத்தினோம். வகைப்பாட்டு மதிப்பெண்களை வெளியிடும் மாதிரிகளுக்கு, சோதனைத் தொகுப்பில் உள்ள உகந்த F1 மதிப்பெண்ணை நாங்கள் தெரிவித்தோம். எங்கள் மாதிரிக்கு உள்ளீடாக பயனரின் அரட்டை வரிகளின் ஒரு பகுதி தேவைப்படுகிறது மற்றும் அது ஒரு PII மதிப்பெண்ணை வெளியிடுகிறது, அதை நாங்கள் அரட்டை வரிகளில் இருநிலை முடிவை எடுக்கப் பயன்படுத்துகிறோம் என்பதைக் கவனத்தில் கொள்ளவும். ஒரு நியாயமான ஒப்பீட்டிற்காக, பொதுவான தரவுத்தொகுப்பை வாக்கியம் வாரியாகப் பிரித்து, ஏதேனும் நேர்மறையான NER PII டோக்கன்களைக் கொண்டிருந்தால் ஒவ்வொரு வாக்கியத்தையும் நேர்மறையாகக் குறியிட்டோம்.

PII V1.1

LlamaGuard-v3 1B

LlamaGuard-v3 8B

LlamaGuard-v4 12B

NemoGuard 8B

பயிரானா NER

காகில் PII தரவுத்தொகுப்பு

45.48%

5.90%

5.46%

3.72%

3.26%

33.20%

ராப்ளாக்ஸ் மதிப்பீடு ஆங்கிலம்

94.34%

3.17%

27.73%

26.55%

26.29%

13.88%

எங்கள் தரநிலைச் சோதனைகளில், தி லேர்னிங் ஏஜென்சி லேபின் பொதுத் தரவுத்தொகுப்பு மற்றும் ராப்ளக்ஸில் உள்ள 47,000-க்கும் மேற்பட்ட பல்வேறு, நிஜ-உலக மாதிரிகளை உள்ளடக்கிய எங்கள் உள் உற்பத்தித் தரவு ஆகிய இரண்டிலும் எங்கள் மாதிரி மற்ற திறந்த மூல மாதிரிகளை விட மிகச் சிறப்பாகச் செயல்பட்டது. பரந்த உரையாடல் சூழலை இணைப்பதிலும், மொழியின் மாறும் தன்மைக்கு தொடர்ந்து ஏற்பாடு செய்வதிலும் கவனம் செலுத்துவது, ஒரு பயனர் தனிப்பட்ட அடையாளத் தகவலைக் கேட்க அல்லது பகிர விரும்பும் அதிகமான உரையாடல்களைக் கண்டறிவதற்கான ஒரு பயனுள்ள அணுகுமுறையாக நிரூபிக்கப்பட்டுள்ளது.  

PII வகைப்படுத்தி என்பது ராப்லாக்ஸில் பாதுகாப்பையும் நாகரிகத்தையும் மேம்படுத்த நாங்கள் பயன்படுத்தும் பல புதுமையான அமைப்புகளில் ஒன்றாகும். ஒரு உரையாடல் PII கோரிக்கையை நோக்கித் திரும்பும்போது அதைக் கண்டறியும் திறன், கண்டறிதலைத் தவிர்க்கக்கூடிய மறைமுகமான கோரிக்கைகளை எங்களால் கைப்பற்ற முடியும் என்பதைக் குறிக்கிறது. எந்த அமைப்பும் முழுமையானது அல்ல என்றாலும், உற்பத்தியில் எங்கள் முதல் ஆண்டின் முடிவுகள் ஏற்கனவே நம்பிக்கைக்குரியவையாக உள்ளன, மேலும் எங்கள் திறந்த மூல பாதுகாப்பு கருவித்தொகுப்பில் உள்ள மற்ற கருவிகளுடன் இந்தக் கருவியை திறந்த மூல சமூகத்துடன் பகிர்ந்து கொள்ள நாங்கள் ஆவலுடன் உள்ளோம். 

  1. 98% மீட்டெடுப்பு என்பது 1% FPR-இல் ராப்லாக்ஸ் உள் சோதனைத் தொகுப்பில் அளவிடப்படுகிறது. தரவுத்தொகுப்பு உற்பத்தித் தரவுகளிலிருந்து சேகரிக்கப்பட்டு, பாதுகாப்பு வல்லுநர்களால் பலமுறை மதிப்பாய்வு செய்யப்பட்டு லேபிளிடப்படுகிறது.
  2.  கனோ, ஏ., கந்த்ஹேல்வால், கே., கோயல், என்., சவுத்ரி, வி., வென்சెక్, ஜி., குஸ்மான், எஃப்., கிரேவ், ஈ., ஓட், எம்., ஜெட்ல்மொயர், எல்., மற்றும் ஸ்டோயானோவ், வி. 2019. பெரும் அளவிலான மேற்பார்வையற்ற பலமொழி பிரதிநிதித்துவக் கற்றல். arXiv முன் அச்சு arXiv:1911.02116.
  3.  ஹோம்ஸ், எல்., கிராஸ்லி, எஸ். ஏ., சிக்கா, எச்., மற்றும் மோரிஸ், டபிள்யூ. 2023. PIILO: தனிப்பட்ட முறையில் அடையாளம் காணக்கூடிய தகவல்களை லேபிளிங் மற்றும் மறைப்பதற்கான ஒரு திறந்த மூல அமைப்பு. இன்ஃபர்மேஷன் அண்ட் லேர்னிங் சயின்ஸ், 124 (9/10), 266-284.