பகிர்

ராப்ளக்ஸில் வரம்பற்ற உரை உருவாக்கத்தைப் பாதுகாக்க அதிநவீன LLM உதவுகிறது

ராப்ளாக்ஸ் கார்ட் 1.0: வலுவான பாதுகாப்பு அரண்களுடன் பாதுகாப்பை மேம்படுத்துதல்

எழுதியவர் மகேஷ் நந்தவனா, ஆடம் மெக்ஃபார்லின், மற்றும் நிச்சாய் கன்னா

வெளியிடப்பட்டது 22 ஜூலை, 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

இன்று, டெவலப்பர்கள் மற்றும் தளங்களுக்கான ஒரு திறந்த மூல பாதுகாப்பு கருவித்தொகுப்பான ராப்ளாக்ஸ் கார்ட் 1.0-ஐ அறிவிக்கிறோம்.
முதல் Roblox Guard திறன், LLM பாதுகாப்பிற்கான ஒரு அதிநவீன (SOTA) பாதுகாப்பு வழிமுறை மாதிரி, இப்போது கிடைக்கிறது, இது முன்னணி பாதுகாப்பு அளவுகோல்களில் ஒரு புதிய தரத்தை நிர்ணயிக்கிறது.
பாதுகாப்பு தரப்படுத்துதலுக்கான தரவுத்தொகுப்பான ரோப்லாக்ஸ் கார்ட்-எவால் (Roblox Guard-Eval)-ஐயும் நாங்கள் வெளியிடுகிறோம்.

சவால்

எங்களின் தயாரிப்புகளை Roblox-இன் உயர் பாதுகாப்பு மற்றும் நாகரிகத் தரநிலைகளுக்கு இணங்க வைத்திருக்க நாங்கள் முயன்று வருவதால், Roblox-இல் உள்ள பெரும்பாலான உள்ளடக்கத்தை நாங்கள் ஆரம்ப நாட்களிலிருந்தே முன்கூட்டியே நெறிப்படுத்தி வருகிறோம். டெக்ஸ்ட் ஜெனரேஷன் API-ஐ நாங்கள் வெளியிடுவதற்கு முன்பு, பெரிய மொழி மாதிரிகளின் (LLMs) ஆற்றலைப் பயன்படுத்தி, தங்களின் அனுபவங்களுக்குள் உரையை உருவாக்குவதன் மூலம், மேலும் வளமான, ஆழ்ந்த ஈடுபாடுள்ள அனுபவங்களை உருவாக்க டெவலப்பர்களுக்கு உதவும் வழிகளை ஆராய்ந்தோம். உதாரணமாக, ஒரு டெவலப்பர் முழுமையாக ஊடாடும் NPC-ஐ உருவாக்கலாம், அல்லது விளையாட்டை எப்படி விளையாடுவது என்பது குறித்த ஊடாடும் பயிற்சியை வழங்கலாம்.

எங்கள் தயாரிப்புகளை Roblox-இன் உயர் பாதுகாப்பு மற்றும் நாகரிகத் தரங்களுடன் இணக்கமாக வைத்திருக்க நாங்கள் முயன்று வருவதால், Roblox-இல் உள்ள பெரும்பாலான உள்ளடக்கத்தை நாங்கள் ஆரம்ப நாட்களிலிருந்தே முன்முயற்சியுடன் நெறிப்படுத்தி வருகிறோம். டெக்ஸ்ட் ஜெனரேஷன் API-ஐ வெளியிடுவதற்கு முன்பு, பாதுகாப்பை முதலில் எவ்வாறு கட்டமைப்பது என்று நாங்கள் ஆராய்ந்தோம். உள்ளீடுகள் (பயனர்களிடமிருந்து வரும் உரைகள்) மற்றும் வெளியீடுகள் (API-யிலிருந்து உருவாக்கப்பட்ட உரை) இரண்டையும் பாதுகாக்க உதவும் ஒரு புதிய மாதிரியை நாங்கள் உருவாக்கினோம்.

புதுமை

Roblox Guard 1.0 கருவித்தொகுப்பில் உள்ள முதல் திறன், ஒரு SOTA அறிவுறுத்தல் நுணுக்கப் பயிற்சி பெற்ற LLM ஆகும், இது எங்கள் உரை உருவாக்கும் API-ஐப் பாதுகாக்க உதவும் வகையில் வடிவமைக்கப்பட்டுள்ளது. இது உந்துதல் மற்றும் பதில் ஆகிய இரண்டின் நிலைகளிலும் பாதுகாப்பு வகைப்பாட்டைச் செய்கிறது, ஒவ்வொரு உள்ளீடும் அல்லது வெளியீடும் எங்கள் கொள்கைகளை மீறுகிறதா இல்லையா என்பதைத் தீர்மானிக்கிறது. இந்த இரட்டை-நிலை மதிப்பீடு, பயனர் வினவல்கள் மற்றும் மாடலின் சொந்த உருவாக்கப்பட்ட வெளியீடுகள் இரண்டையும் நெறிப்படுத்த அவசியமானதாகும்.

எங்கள் LLM தற்போது, மெட்டாவின் லாமா கார்ட், கூகுள் AI-யின் ஷீல்டுஜெம்மா, என்விடியா நெமோ கார்ட்ரெயில்ஸ், ஓப்பன்ஏஐ-யின் ஜிபிடி-4ஓ மற்றும் பிற போன்ற பிரபலமான LLM கார்ட்ரெயில் மாடல்களை நிலையான அளவுகோல்களில் மிஞ்சி செயல்படுகிறது. மேலும், ராப்ளக்ஸ் கார்ட் 1.0 LLM, பார்க்கப்படாத வகைப்பாட்டு அமைப்பைக் கொண்ட, அதன் களத்திற்கு அப்பாற்பட்ட தரவுத்தொகுப்புகளில் வலுவான பொதுமைப்படுத்தலையும் காட்டுகிறது. எங்கள் முதல் திறனுக்கான LLM எடைகள் மற்றும் எங்கள் Roblox Guard-Eval தரப்படுத்தல் தரவுத்தொகுப்பு ஆகிய இரண்டையும் நாங்கள் திறந்த மூலமாக வெளியிட்டுள்ளோம்.

எங்கள் அமைப்பின் மையத்தில், Llama-3.1-8B-Instruct மாடலிலிருந்து நுணுக்கமாகப் பயிற்றுவிக்கப்பட்ட ஒரு LLM உள்ளது. பாதுகாப்புத் தீர்ப்பு செயல்திறனை மேம்படுத்துவதற்காக, உயர்தர அறிவுறுத்தல் நுணுக்கப்பயிற்சிக்கு ஒரு குறிப்பிட்ட கவனம் செலுத்தி இந்த LLM-ஐ நாங்கள் பயிற்றுவித்தோம். இந்தச் செயல்பாட்டில், நிஜ உலகப் பாதுகாப்புச் சூழ்நிலைகளின் பரந்த அளவிலான தன்மைகளைப் பிரதிபலிக்கும் வகையில் உந்துதல்களையும் பதில்களையும் கவனமாகத் தொகுப்பது ஒரு முக்கியமான படியாக இருந்தது.

எங்கள் அறிவுறுத்தல் தொகுப்பு எந்தவொரு தனியுரிமத் தரவையும் பயன்படுத்தவில்லை—கலப்புத் (LLM-உருவாக்கப்பட்ட) மற்றும் திறந்த மூலத் தரவுகளின் கலவையை மட்டுமே பயன்படுத்துகிறது, இது பயிற்சித் தரவை எளிதாக அளவிடுதலுக்கும், அளவிடுதல் விதிகளைப் பயன்படுத்துவதற்கும் எங்களை அனுமதிக்கிறது—இது இந்த முதல் Roblox Guard LLM-ஐ SOTA-வாக ஆக்குகிறது. பல்வேறு திறந்த மூல மற்றும் கலப்புத் தரவுத் தொகுப்புகளை ஒன்றிணைக்கும்போது, அறிவுறுத்தல்களைத் தொகுப்பதற்கு தரவுத் தொகுப்பு-குறிப்பிட்ட வகைப்பாட்டைப் பயன்படுத்துவதே சிறந்த அணுகுமுறை என்பதை நாங்கள் கண்டறிந்தோம், ஏனெனில் பணிகளின் பன்முகத்தன்மை LLM-கள் வெவ்வேறு வகையான உரைகளுக்குப் பயிற்சி அளிக்க உதவுகிறது. இது வெவ்வேறு பாதுகாப்பு வகைப்படுத்தல்களுக்குப் பொதுமைப்படுத்தக்கூடிய ஒரு வலுவான மாதிரியாக வழிவகுத்தது. மேலும், சிந்தனைச் சங்கிலி (chain-of-thought) பகுத்தறிவுகளை, அதாவது மாதிரியானது அதன் பகுத்தறிவு செயல்முறையை வெளிப்படுத்த ஊக்குவிக்கப்படும் ஒரு முறையை, எங்கள் அறிவுறுத்தல் தொகுப்பில் இணைத்துள்ளோம். இந்த இடைநிலை பகுத்தறிவு படிகள் மாதிரியானது வலுவான சூழல்சார்ந்த அடித்தளத்தைப் பெற உதவின.

முடிவுகள்

எங்கள் பாதுகாப்புக் குழு, ரோப்லாக்ஸின் உள்ளடக்கப் பாதுகாப்பு வகைப்பாட்டில் உள்ள 25 துணைப்பிரிவுகளைப் பிரதிநிதித்துவப்படுத்தும் வகையில், ஒரு பிரத்யேக, உயர்தர மதிப்பீட்டுத் தரவுத்தொகுப்பை உருவாக்கியுள்ளது. இந்த மதிப்பீட்டுத் தொகுப்பு, உள்-சிவப்புக் குழுச் சோதனையின் (internal red-teaming) மூலம் உருவாக்கப்பட்டது. இதில், பாதிப்புகளைக் கண்டறிய, எதிரான தாக்குதல்களை உருவகப்படுத்துவதன் மூலம் நாங்கள் அமைப்பைச் சோதிக்கிறோம், மேலும் இதில் பயனர் உருவாக்கிய அல்லது தனிப்பட்ட தரவுகள் எதுவும் இல்லை. இந்த மதிப்பீட்டுத் தரவுத்தொகுப்பு, தரவை உறுதிசெய்ய உதவும் வகையில், கொள்கை நிபுணர்கள் குழுவால் கையால் குறியிடப்பட்ட பதில்களுடன் கூடிய உரை மற்றும் பதில் ஜோடிகளைக் கொண்டுள்ளது. இது பலதரப்பட்ட மீறல் வகைகளை உள்ளடக்கியது, இது மதிப்பீட்டிற்காக மேலும் துல்லியமான மற்றும் அர்த்தமுள்ள லேபிள்களை உருவாக்க எங்களுக்கு உதவுகிறது. இறுதி மதிப்பீட்டுத் தொகுப்பில் 2,873 எடுத்துக்காட்டுகள் உள்ளன. LLM பாதுகாப்பு அரண்கள் மற்றும் தணிக்கை அமைப்புகளை தரப்படுத்துவதற்கு உதவும் வகையில், விரிவாக்கக்கூடிய பாதுகாப்பு வகைப்பாட்டைக் கொண்ட இந்த மதிப்பீட்டுத் தரவுத்தொகுப்பை நாங்கள் திறந்த மூலமாக வெளியிட்டுள்ளோம்.

எங்கள் மாடல்களை, உரைத்தொகுப்பு மற்றும் பதிலுக்காக உள்ள விரிவான திறந்த மூல தரவுத்தொகுப்புகளிலும், Roblox Guard-Eval-இலும் நாங்கள் அளவீடு செய்கிறோம். இது, எங்கள் மாடலை உள்ள-துறை மற்றும் வெளியுறை தரவுத்தொகுப்புகள் இரண்டிலும் மதிப்பீடு செய்ய எங்களுக்கு உதவுகிறது. இருநிலை மீறும்/மீறாத வகைப்பாட்டிற்கான எஃப்-1 மதிப்பின் அடிப்படையில் எங்கள் முடிவுகளை நாங்கள் தெரிவிக்கிறோம். மேலே உள்ள அட்டவணையில், எங்கள் செயல்திறனை பல நன்கு அறியப்பட்ட மாதிரிகளுடன் நாங்கள் ஒப்பிடுகிறோம். இந்த முதல் ரோப்லாக்ஸ் கார்ட் திறன், களத்திற்கு அப்பாற்பட்ட தரவுத்தொகுப்புகளில் பொதுமைப்படுத்தும்போது மற்ற மாதிரிகளை விட சிறப்பாக செயல்படுகிறது.

எங்கள் ரோப்லாக்ஸ் கார்ட் 1.0 கருவிகள் உட்பட எங்கள் பாதுகாப்பு அமைப்புகளை நாங்கள் தொடர்ந்து மேம்படுத்தி வருகிறோம், மேலும் விரைவில் கூடுதல் திறன்களை வெளியிடத் திட்டமிட்டுள்ளோம். எதிர்காலப் புதுப்பிப்புகள், மேம்பாடுகள் மற்றும் எதிர்கால திறந்த மூல வெளியீடுகளுக்கு எங்கள் HuggingFace மற்றும் GitHub பக்கங்களைப் பார்க்கவும்.

சமீபத்தியது

மேலும் முடிவுகள்

ராப்ளக்ஸில் வரம்பற்ற உரை உருவாக்கத்தைப் பாதுகாக்க அதிநவீன LLM உதவுகிறது

சவால்

புதுமை

முடிவுகள்

ராப்ளக்ஸில் வரம்பற்ற உரை உருவாக்கத்தைப் பாதுகாக்க அதிநவீன LLM உதவுகிறது

சவால்

புதுமை

முடிவுகள்

பொறியியல்

22 புதிய மொழிகள் மற்றும் கூர்மையான கண்டறிதல் திறன்களுடன் எங்கள் வாய்ஸ் சேஃப்டி கிளாசிஃபையரை மேம்படுத்துதல்

செய்திகள்

ராப்ளாக்ஸ் ரியாலிட்டி தொலைநோக்குப் பார்வையை விரைவுபடுத்த முன்னோடி AI நிறுவனர்கள் இணைகின்றனர்

பொறியியல்

கியூப் பார்ட்: ஒரு திறந்த-சொற்களஞ்சிய பகுதி-கட்டுப்பாடுள்ள 3D ஜெனரேட்டர்