இந்த தளத்தின் உள்ளடக்கம் செயற்கை நுண்ணறிவு (AI) அல்லது இயந்திர மொழிபெயர்ப்பு தொழில்நுட்பம் மூலம் மொழிபெயர்க்கப்பட்டுள்ளது; பிழைகள் இருக்கலாம்.

Skip to content

ராப்ளக்ஸில் வரம்பற்ற உரை உருவாக்கத்தைப் பாதுகாக்க அதிநவீன LLM உதவுகிறது

ராப்ளாக்ஸ் கார்ட் 1.0: வலுவான பாதுகாப்பு அரண்களுடன் பாதுகாப்பை மேம்படுத்துதல்

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations
  • இன்று, டெவலப்பர்கள் மற்றும் தளங்களுக்கான ஒரு திறந்த மூல பாதுகாப்பு கருவித்தொகுப்பான ராப்ளாக்ஸ் கார்ட் 1.0-ஐ அறிவிக்கிறோம்.  
  • முதல் Roblox Guard திறன், LLM பாதுகாப்பிற்கான ஒரு அதிநவீன (SOTA) பாதுகாப்பு வழிமுறை மாதிரி, இப்போது கிடைக்கிறது, இது முன்னணி பாதுகாப்பு அளவுகோல்களில் ஒரு புதிய தரத்தை நிர்ணயிக்கிறது.
  • பாதுகாப்பு தரப்படுத்துதலுக்கான தரவுத்தொகுப்பான ரோப்லாக்ஸ் கார்ட்-எவால் (Roblox Guard-Eval)-ஐயும் நாங்கள் வெளியிடுகிறோம். 
சவால்

எங்களின் தயாரிப்புகளை Roblox-இன் உயர் பாதுகாப்பு மற்றும் நாகரிகத் தரநிலைகளுக்கு இணங்க வைத்திருக்க நாங்கள் முயன்று வருவதால், Roblox-இல் உள்ள பெரும்பாலான உள்ளடக்கத்தை நாங்கள் ஆரம்ப நாட்களிலிருந்தே முன்கூட்டியே நெறிப்படுத்தி வருகிறோம். டெக்ஸ்ட் ஜெனரேஷன் API-ஐ நாங்கள் வெளியிடுவதற்கு முன்பு, பெரிய மொழி மாதிரிகளின் (LLMs) ஆற்றலைப் பயன்படுத்தி, தங்களின் அனுபவங்களுக்குள் உரையை உருவாக்குவதன் மூலம், மேலும் வளமான, ஆழ்ந்த ஈடுபாடுள்ள அனுபவங்களை உருவாக்க டெவலப்பர்களுக்கு உதவும் வழிகளை ஆராய்ந்தோம். உதாரணமாக, ஒரு டெவலப்பர் முழுமையாக ஊடாடும் NPC-ஐ உருவாக்கலாம், அல்லது விளையாட்டை எப்படி விளையாடுவது என்பது குறித்த ஊடாடும் பயிற்சியை வழங்கலாம்.

எங்கள் தயாரிப்புகளை Roblox-இன் உயர் பாதுகாப்பு மற்றும் நாகரிகத் தரங்களுடன் இணக்கமாக வைத்திருக்க நாங்கள் முயன்று வருவதால், Roblox-இல் உள்ள பெரும்பாலான உள்ளடக்கத்தை நாங்கள் ஆரம்ப நாட்களிலிருந்தே முன்முயற்சியுடன் நெறிப்படுத்தி வருகிறோம். டெக்ஸ்ட் ஜெனரேஷன் API-ஐ வெளியிடுவதற்கு முன்பு, பாதுகாப்பை முதலில் எவ்வாறு கட்டமைப்பது என்று நாங்கள் ஆராய்ந்தோம். உள்ளீடுகள் (பயனர்களிடமிருந்து வரும் உரைகள்) மற்றும் வெளியீடுகள் (API-யிலிருந்து உருவாக்கப்பட்ட உரை) இரண்டையும் பாதுகாக்க உதவும் ஒரு புதிய மாதிரியை நாங்கள் உருவாக்கினோம். 

புதுமை

Roblox Guard 1.0 கருவித்தொகுப்பில் உள்ள முதல் திறன், ஒரு SOTA அறிவுறுத்தல் நுணுக்கப் பயிற்சி பெற்ற LLM ஆகும், இது எங்கள் உரை உருவாக்கும் API-ஐப் பாதுகாக்க உதவும் வகையில் வடிவமைக்கப்பட்டுள்ளது. இது உந்துதல் மற்றும் பதில் ஆகிய இரண்டின் நிலைகளிலும் பாதுகாப்பு வகைப்பாட்டைச் செய்கிறது, ஒவ்வொரு உள்ளீடும் அல்லது வெளியீடும் எங்கள் கொள்கைகளை மீறுகிறதா இல்லையா என்பதைத் தீர்மானிக்கிறது. இந்த இரட்டை-நிலை மதிப்பீடு, பயனர் வினவல்கள் மற்றும் மாடலின் சொந்த உருவாக்கப்பட்ட வெளியீடுகள் இரண்டையும் நெறிப்படுத்த அவசியமானதாகும். 

எங்கள் LLM தற்போது, மெட்டாவின் லாமா கார்ட், கூகுள் AI-யின் ஷீல்டுஜெம்மா, என்விடியா நெமோ கார்ட்ரெயில்ஸ், ஓப்பன்ஏஐ-யின் ஜிபிடி-4ஓ மற்றும் பிற போன்ற பிரபலமான LLM கார்ட்ரெயில் மாடல்களை நிலையான அளவுகோல்களில் மிஞ்சி செயல்படுகிறது. மேலும், ராப்ளக்ஸ் கார்ட் 1.0 LLM, பார்க்கப்படாத வகைப்பாட்டு அமைப்பைக் கொண்ட, அதன் களத்திற்கு அப்பாற்பட்ட தரவுத்தொகுப்புகளில் வலுவான பொதுமைப்படுத்தலையும் காட்டுகிறது. எங்கள் முதல் திறனுக்கான LLM எடைகள் மற்றும் எங்கள் Roblox Guard-Eval தரப்படுத்தல் தரவுத்தொகுப்பு ஆகிய இரண்டையும் நாங்கள் திறந்த மூலமாக வெளியிட்டுள்ளோம். 

எங்கள் அமைப்பின் மையத்தில், Llama-3.1-8B-Instruct மாடலிலிருந்து நுணுக்கமாகப் பயிற்றுவிக்கப்பட்ட ஒரு LLM உள்ளது. பாதுகாப்புத் தீர்ப்பு செயல்திறனை மேம்படுத்துவதற்காக, உயர்தர அறிவுறுத்தல் நுணுக்கப்பயிற்சிக்கு ஒரு குறிப்பிட்ட கவனம் செலுத்தி இந்த LLM-ஐ நாங்கள் பயிற்றுவித்தோம். இந்தச் செயல்பாட்டில், நிஜ உலகப் பாதுகாப்புச் சூழ்நிலைகளின் பரந்த அளவிலான தன்மைகளைப் பிரதிபலிக்கும் வகையில் உந்துதல்களையும் பதில்களையும் கவனமாகத் தொகுப்பது ஒரு முக்கியமான படியாக இருந்தது. 

எங்கள் அறிவுறுத்தல் தொகுப்பு எந்தவொரு தனியுரிமத் தரவையும் பயன்படுத்தவில்லை—கலப்புத் (LLM-உருவாக்கப்பட்ட) மற்றும் திறந்த மூலத் தரவுகளின் கலவையை மட்டுமே பயன்படுத்துகிறது, இது பயிற்சித் தரவை எளிதாக அளவிடுதலுக்கும், அளவிடுதல் விதிகளைப் பயன்படுத்துவதற்கும் எங்களை அனுமதிக்கிறது—இது இந்த முதல் Roblox Guard LLM-ஐ SOTA-வாக ஆக்குகிறது. பல்வேறு திறந்த மூல மற்றும் கலப்புத் தரவுத் தொகுப்புகளை ஒன்றிணைக்கும்போது, அறிவுறுத்தல்களைத் தொகுப்பதற்கு தரவுத் தொகுப்பு-குறிப்பிட்ட வகைப்பாட்டைப் பயன்படுத்துவதே சிறந்த அணுகுமுறை என்பதை நாங்கள் கண்டறிந்தோம், ஏனெனில் பணிகளின் பன்முகத்தன்மை LLM-கள் வெவ்வேறு வகையான உரைகளுக்குப் பயிற்சி அளிக்க உதவுகிறது. இது வெவ்வேறு பாதுகாப்பு வகைப்படுத்தல்களுக்குப் பொதுமைப்படுத்தக்கூடிய ஒரு வலுவான மாதிரியாக வழிவகுத்தது. மேலும், சிந்தனைச் சங்கிலி (chain-of-thought) பகுத்தறிவுகளை, அதாவது மாதிரியானது அதன் பகுத்தறிவு செயல்முறையை வெளிப்படுத்த ஊக்குவிக்கப்படும் ஒரு முறையை, எங்கள் அறிவுறுத்தல் தொகுப்பில் இணைத்துள்ளோம். இந்த இடைநிலை பகுத்தறிவு படிகள் மாதிரியானது வலுவான சூழல்சார்ந்த அடித்தளத்தைப் பெற உதவின.

முடிவுகள்
எங்கள் பாதுகாப்புக் குழு, ரோப்லாக்ஸின் உள்ளடக்கப் பாதுகாப்பு வகைப்பாட்டில் உள்ள 25 துணைப்பிரிவுகளைப் பிரதிநிதித்துவப்படுத்தும் வகையில், ஒரு பிரத்யேக, உயர்தர மதிப்பீட்டுத் தரவுத்தொகுப்பை உருவாக்கியுள்ளது. இந்த மதிப்பீட்டுத் தொகுப்பு, உள்-சிவப்புக் குழுச் சோதனையின் (internal red-teaming) மூலம் உருவாக்கப்பட்டது. இதில், பாதிப்புகளைக் கண்டறிய, எதிரான தாக்குதல்களை உருவகப்படுத்துவதன் மூலம் நாங்கள் அமைப்பைச் சோதிக்கிறோம், மேலும் இதில் பயனர் உருவாக்கிய அல்லது தனிப்பட்ட தரவுகள் எதுவும் இல்லை. இந்த மதிப்பீட்டுத் தரவுத்தொகுப்பு, தரவை உறுதிசெய்ய உதவும் வகையில், கொள்கை நிபுணர்கள் குழுவால் கையால் குறியிடப்பட்ட பதில்களுடன் கூடிய உரை மற்றும் பதில் ஜோடிகளைக் கொண்டுள்ளது. இது பலதரப்பட்ட மீறல் வகைகளை உள்ளடக்கியது, இது மதிப்பீட்டிற்காக மேலும் துல்லியமான மற்றும் அர்த்தமுள்ள லேபிள்களை உருவாக்க எங்களுக்கு உதவுகிறது. இறுதி மதிப்பீட்டுத் தொகுப்பில் 2,873 எடுத்துக்காட்டுகள் உள்ளன. LLM பாதுகாப்பு அரண்கள் மற்றும் தணிக்கை அமைப்புகளை தரப்படுத்துவதற்கு உதவும் வகையில், விரிவாக்கக்கூடிய பாதுகாப்பு வகைப்பாட்டைக் கொண்ட இந்த மதிப்பீட்டுத் தரவுத்தொகுப்பை நாங்கள் திறந்த மூலமாக வெளியிட்டுள்ளோம். 

எங்கள் மாடல்களை, உரைத்தொகுப்பு மற்றும் பதிலுக்காக உள்ள விரிவான திறந்த மூல தரவுத்தொகுப்புகளிலும், Roblox Guard-Eval-இலும் நாங்கள் அளவீடு செய்கிறோம். இது, எங்கள் மாடலை உள்ள-துறை மற்றும் வெளியுறை தரவுத்தொகுப்புகள் இரண்டிலும் மதிப்பீடு செய்ய எங்களுக்கு உதவுகிறது. இருநிலை மீறும்/மீறாத வகைப்பாட்டிற்கான எஃப்-1 மதிப்பின் அடிப்படையில் எங்கள் முடிவுகளை நாங்கள் தெரிவிக்கிறோம். மேலே உள்ள அட்டவணையில், எங்கள் செயல்திறனை பல நன்கு அறியப்பட்ட மாதிரிகளுடன் நாங்கள் ஒப்பிடுகிறோம். இந்த முதல் ரோப்லாக்ஸ் கார்ட் திறன், களத்திற்கு அப்பாற்பட்ட தரவுத்தொகுப்புகளில் பொதுமைப்படுத்தும்போது மற்ற மாதிரிகளை விட சிறப்பாக செயல்படுகிறது.

எங்கள் ரோப்லாக்ஸ் கார்ட் 1.0 கருவிகள் உட்பட எங்கள் பாதுகாப்பு அமைப்புகளை நாங்கள் தொடர்ந்து மேம்படுத்தி வருகிறோம், மேலும் விரைவில் கூடுதல் திறன்களை வெளியிடத் திட்டமிட்டுள்ளோம். எதிர்காலப் புதுப்பிப்புகள், மேம்பாடுகள் மற்றும் எதிர்கால திறந்த மூல வெளியீடுகளுக்கு எங்கள் HuggingFace மற்றும் GitHub பக்கங்களைப் பார்க்கவும்.