ராப்ளக்ஸில் வரம்பற்ற உரை உருவாக்கத்தைப் பாதுகாக்க அதிநவீன LLM உதவுகிறது
ராப்ளாக்ஸ் கார்ட் 1.0: வலுவான பாதுகாப்பு அரண்களுடன் பாதுகாப்பை மேம்படுத்துதல்

- இன்று, டெவலப்பர்கள் மற்றும் தளங்களுக்கான ஒரு திறந்த மூல பாதுகாப்பு கருவித்தொகுப்பான ராப்ளாக்ஸ் கார்ட் 1.0-ஐ அறிவிக்கிறோம்.
- முதல் Roblox Guard திறன், LLM பாதுகாப்பிற்கான ஒரு அதிநவீன (SOTA) பாதுகாப்பு வழிமுறை மாதிரி, இப்போது கிடைக்கிறது, இது முன்னணி பாதுகாப்பு அளவுகோல்களில் ஒரு புதிய தரத்தை நிர்ணயிக்கிறது.
- பாதுகாப்பு தரப்படுத்துதலுக்கான தரவுத்தொகுப்பான ரோப்லாக்ஸ் கார்ட்-எவால் (Roblox Guard-Eval)-ஐயும் நாங்கள் வெளியிடுகிறோம்.
சவால்
எங்களின் தயாரிப்புகளை Roblox-இன் உயர் பாதுகாப்பு மற்றும் நாகரிகத் தரநிலைகளுக்கு இணங்க வைத்திருக்க நாங்கள் முயன்று வருவதால், Roblox-இல் உள்ள பெரும்பாலான உள்ளடக்கத்தை நாங்கள் ஆரம்ப நாட்களிலிருந்தே முன்கூட்டியே நெறிப்படுத்தி வருகிறோம். டெக்ஸ்ட் ஜெனரேஷன் API-ஐ நாங்கள் வெளியிடுவதற்கு முன்பு, பெரிய மொழி மாதிரிகளின் (LLMs) ஆற்றலைப் பயன்படுத்தி, தங்களின் அனுபவங்களுக்குள் உரையை உருவாக்குவதன் மூலம், மேலும் வளமான, ஆழ்ந்த ஈடுபாடுள்ள அனுபவங்களை உருவாக்க டெவலப்பர்களுக்கு உதவும் வழிகளை ஆராய்ந்தோம். உதாரணமாக, ஒரு டெவலப்பர் முழுமையாக ஊடாடும் NPC-ஐ உருவாக்கலாம், அல்லது விளையாட்டை எப்படி விளையாடுவது என்பது குறித்த ஊடாடும் பயிற்சியை வழங்கலாம்.
எங்கள் தயாரிப்புகளை Roblox-இன் உயர் பாதுகாப்பு மற்றும் நாகரிகத் தரங்களுடன் இணக்கமாக வைத்திருக்க நாங்கள் முயன்று வருவதால், Roblox-இல் உள்ள பெரும்பாலான உள்ளடக்கத்தை நாங்கள் ஆரம்ப நாட்களிலிருந்தே முன்முயற்சியுடன் நெறிப்படுத்தி வருகிறோம். டெக்ஸ்ட் ஜெனரேஷன் API-ஐ வெளியிடுவதற்கு முன்பு, பாதுகாப்பை முதலில் எவ்வாறு கட்டமைப்பது என்று நாங்கள் ஆராய்ந்தோம். உள்ளீடுகள் (பயனர்களிடமிருந்து வரும் உரைகள்) மற்றும் வெளியீடுகள் (API-யிலிருந்து உருவாக்கப்பட்ட உரை) இரண்டையும் பாதுகாக்க உதவும் ஒரு புதிய மாதிரியை நாங்கள் உருவாக்கினோம்.
புதுமை
Roblox Guard 1.0 கருவித்தொகுப்பில் உள்ள முதல் திறன், ஒரு SOTA அறிவுறுத்தல் நுணுக்கப் பயிற்சி பெற்ற LLM ஆகும், இது எங்கள் உரை உருவாக்கும் API-ஐப் பாதுகாக்க உதவும் வகையில் வடிவமைக்கப்பட்டுள்ளது. இது உந்துதல் மற்றும் பதில் ஆகிய இரண்டின் நிலைகளிலும் பாதுகாப்பு வகைப்பாட்டைச் செய்கிறது, ஒவ்வொரு உள்ளீடும் அல்லது வெளியீடும் எங்கள் கொள்கைகளை மீறுகிறதா இல்லையா என்பதைத் தீர்மானிக்கிறது. இந்த இரட்டை-நிலை மதிப்பீடு, பயனர் வினவல்கள் மற்றும் மாடலின் சொந்த உருவாக்கப்பட்ட வெளியீடுகள் இரண்டையும் நெறிப்படுத்த அவசியமானதாகும்.
எங்கள் LLM தற்போது, மெட்டாவின் லாமா கார்ட், கூகுள் AI-யின் ஷீல்டுஜெம்மா, என்விடியா நெமோ கார்ட்ரெயில்ஸ், ஓப்பன்ஏஐ-யின் ஜிபிடி-4ஓ மற்றும் பிற போன்ற பிரபலமான LLM கார்ட்ரெயில் மாடல்களை நிலையான அளவுகோல்களில் மிஞ்சி செயல்படுகிறது. மேலும், ராப்ளக்ஸ் கார்ட் 1.0 LLM, பார்க்கப்படாத வகைப்பாட்டு அமைப்பைக் கொண்ட, அதன் களத்திற்கு அப்பாற்பட்ட தரவுத்தொகுப்புகளில் வலுவான பொதுமைப்படுத்தலையும் காட்டுகிறது. எங்கள் முதல் திறனுக்கான LLM எடைகள் மற்றும் எங்கள் Roblox Guard-Eval தரப்படுத்தல் தரவுத்தொகுப்பு ஆகிய இரண்டையும் நாங்கள் திறந்த மூலமாக வெளியிட்டுள்ளோம்.
எங்கள் அமைப்பின் மையத்தில், Llama-3.1-8B-Instruct மாடலிலிருந்து நுணுக்கமாகப் பயிற்றுவிக்கப்பட்ட ஒரு LLM உள்ளது. பாதுகாப்புத் தீர்ப்பு செயல்திறனை மேம்படுத்துவதற்காக, உயர்தர அறிவுறுத்தல் நுணுக்கப்பயிற்சிக்கு ஒரு குறிப்பிட்ட கவனம் செலுத்தி இந்த LLM-ஐ நாங்கள் பயிற்றுவித்தோம். இந்தச் செயல்பாட்டில், நிஜ உலகப் பாதுகாப்புச் சூழ்நிலைகளின் பரந்த அளவிலான தன்மைகளைப் பிரதிபலிக்கும் வகையில் உந்துதல்களையும் பதில்களையும் கவனமாகத் தொகுப்பது ஒரு முக்கியமான படியாக இருந்தது.
எங்கள் அறிவுறுத்தல் தொகுப்பு எந்தவொரு தனியுரிமத் தரவையும் பயன்படுத்தவில்லை—கலப்புத் (LLM-உருவாக்கப்பட்ட) மற்றும் திறந்த மூலத் தரவுகளின் கலவையை மட்டுமே பயன்படுத்துகிறது, இது பயிற்சித் தரவை எளிதாக அளவிடுதலுக்கும், அளவிடுதல் விதிகளைப் பயன்படுத்துவதற்கும் எங்களை அனுமதிக்கிறது—இது இந்த முதல் Roblox Guard LLM-ஐ SOTA-வாக ஆக்குகிறது. பல்வேறு திறந்த மூல மற்றும் கலப்புத் தரவுத் தொகுப்புகளை ஒன்றிணைக்கும்போது, அறிவுறுத்தல்களைத் தொகுப்பதற்கு தரவுத் தொகுப்பு-குறிப்பிட்ட வகைப்பாட்டைப் பயன்படுத்துவதே சிறந்த அணுகுமுறை என்பதை நாங்கள் கண்டறிந்தோம், ஏனெனில் பணிகளின் பன்முகத்தன்மை LLM-கள் வெவ்வேறு வகையான உரைகளுக்குப் பயிற்சி அளிக்க உதவுகிறது. இது வெவ்வேறு பாதுகாப்பு வகைப்படுத்தல்களுக்குப் பொதுமைப்படுத்தக்கூடிய ஒரு வலுவான மாதிரியாக வழிவகுத்தது. மேலும், சிந்தனைச் சங்கிலி (chain-of-thought) பகுத்தறிவுகளை, அதாவது மாதிரியானது அதன் பகுத்தறிவு செயல்முறையை வெளிப்படுத்த ஊக்குவிக்கப்படும் ஒரு முறையை, எங்கள் அறிவுறுத்தல் தொகுப்பில் இணைத்துள்ளோம். இந்த இடைநிலை பகுத்தறிவு படிகள் மாதிரியானது வலுவான சூழல்சார்ந்த அடித்தளத்தைப் பெற உதவின.
முடிவுகள்

எங்கள் மாடல்களை, உரைத்தொகுப்பு மற்றும் பதிலுக்காக உள்ள விரிவான திறந்த மூல தரவுத்தொகுப்புகளிலும், Roblox Guard-Eval-இலும் நாங்கள் அளவீடு செய்கிறோம். இது, எங்கள் மாடலை உள்ள-துறை மற்றும் வெளியுறை தரவுத்தொகுப்புகள் இரண்டிலும் மதிப்பீடு செய்ய எங்களுக்கு உதவுகிறது. இருநிலை மீறும்/மீறாத வகைப்பாட்டிற்கான எஃப்-1 மதிப்பின் அடிப்படையில் எங்கள் முடிவுகளை நாங்கள் தெரிவிக்கிறோம். மேலே உள்ள அட்டவணையில், எங்கள் செயல்திறனை பல நன்கு அறியப்பட்ட மாதிரிகளுடன் நாங்கள் ஒப்பிடுகிறோம். இந்த முதல் ரோப்லாக்ஸ் கார்ட் திறன், களத்திற்கு அப்பாற்பட்ட தரவுத்தொகுப்புகளில் பொதுமைப்படுத்தும்போது மற்ற மாதிரிகளை விட சிறப்பாக செயல்படுகிறது.
எங்கள் ரோப்லாக்ஸ் கார்ட் 1.0 கருவிகள் உட்பட எங்கள் பாதுகாப்பு அமைப்புகளை நாங்கள் தொடர்ந்து மேம்படுத்தி வருகிறோம், மேலும் விரைவில் கூடுதல் திறன்களை வெளியிடத் திட்டமிட்டுள்ளோம். எதிர்காலப் புதுப்பிப்புகள், மேம்பாடுகள் மற்றும் எதிர்கால திறந்த மூல வெளியீடுகளுக்கு எங்கள் HuggingFace மற்றும் GitHub பக்கங்களைப் பார்க்கவும்.


