अत्याधुनिक एलएलएम Roblox वर अमर्यादित मजकूर निर्मितीचे संरक्षण करण्यात मदत करते
Roblox Guard 1.0: मजबूत संरक्षणात्मक उपाययोजनांसह सुरक्षिततेत प्रगती

- आज आम्ही Roblox Guard 1.0 जाहीर करत आहोत, जे विकासक आणि प्लॅटफॉर्मसाठी एक मुक्त-स्रोत सुरक्षा टूलकिट आहे.
- पहिल्या Roblox Guard क्षमतेत, LLM सुरक्षिततेसाठी अत्याधुनिक (SOTA) गार्डरेल मॉडेल आता उपलब्ध आहे, ज्याने प्रमुख सुरक्षा बेंचमार्कमध्ये नवीन मानदंड स्थापन केला आहे.
- आम्ही Roblox Guard-Eval देखील जारी करत आहोत, जे सुरक्षा बेंचमार्किंगसाठीचे एक डेटासेट आहे.
चुनौती
आम्ही अलीकडेच एक टेक्स्ट जनरेशन API जारी केली आहे जी विकासकांना त्यांच्या अनुभवांमध्ये मजकूर तयार करून अधिक समृद्ध आणि अधिक मनोरम अनुभव तयार करण्यासाठी मोठ्या भाषा मॉडेल्स (LLMs) ची शक्ती वापरण्याची परवानगी देते. उदाहरणार्थ, एक विकासक पूर्णपणे परस्परसंवादी NPC तयार करू शकतो, किंवा गेम कसा खेळायचा यावर परस्परसंवादी ट्यूटोरियल प्रदान करू शकतो.
आम्ही आमची उत्पादने Roblox च्या उच्च सुरक्षा आणि सभ्यतेच्या मानकांशी सुसंगत ठेवण्यासाठी सुरुवातीपासूनच Roblox वरील बहुतेक सामग्रीचे सक्रियपणे नियमन केले आहे. Text Generation API जारी करण्यापूर्वी, आम्ही सुरक्षेला प्रथम प्राधान्य देण्याचा विचार केला. आम्ही इनपुट्स (वापरकर्त्यांकडून येणारे प्रॉम्प्ट्स) आणि आउटपुट्स (API कडून तयार केलेला मजकूर) दोन्हीचे संरक्षण करण्यासाठी एक नवीन मॉडेल विकसित केले.
नवकल्पना
Roblox Guard 1.0 टूलकिटमधील पहिली क्षमता म्हणजे SOTA (State-of-the-art) निर्देशांनुसार फाइन-ट्यून केलेले LLM, जे आमच्या टेक्स्ट जनरेशन API चे संरक्षण करण्यास मदत करण्यासाठी डिझाइन केलेले आहे. हे प्रॉम्प्ट आणि प्रतिसाद या दोन्ही स्तरांवर सुरक्षा वर्गीकरण करते, प्रत्येक इनपुट किंवा आउटपुट आमच्या धोरणांचे उल्लंघन करते की नाही हे ठरवते. वापरकर्त्यांच्या प्रश्नांची आणि मॉडेलद्वारे तयार केलेल्या आउटपुट्सची मध्यस्थी करण्यासाठी हे द्वि-स्तरीय मूल्यमापन आवश्यक आहे.
आमचे एलएलएम सध्या मानक बेंचमार्कवर मेटाच्या Llama Guard, Google AI च्या ShieldGemma, NVIDIA NeMo Guardrails, OpenAI च्या GPT-4o आणि इतर लोकप्रिय एलएलएम गार्डरेल मॉडेल्सपेक्षा चांगले कामगिरी करत आहे. Roblox Guard 1.0 एलएलएम अजून न पाहिलेल्या वर्गीकरणासह (taxonomy) बाह्य-क्षेत्रातील डेटासेटवरही मजबूत सामान्यीकरण क्षमता दाखवते. आम्ही आमच्या पहिल्या क्षमतेसाठी LLM वेट्स आणि आमचा Roblox Guard-Eval बेंचमार्किंग डेटासेट दोन्ही ओपन सोर्स केले आहेत.
आमच्या प्रणालीच्या केंद्रस्थानी Llama-3.1-8B-Instruct मॉडेलवरून फाईन-ट्यून केलेले एक एलएलएम आहे. आम्ही सुरक्षा निर्णय कामगिरीसाठी अनुकूल करण्यासाठी उच्च-गुणवत्तेच्या सूचना ट्यूनिंगवर विशेष लक्ष केंद्रित करून हे एलएलएम प्रशिक्षित केले. या प्रक्रियेत एक महत्त्वाचा टप्पा म्हणजे विविध वास्तविक-जगातील सुरक्षा परिस्थितींचे प्रतिबिंब दाखवण्यासाठी प्रॉम्प्ट्स आणि प्रतिसाद काळजीपूर्वक तयार करणे.
आमच्या निर्देश संचात कोणताही मालकीचा डेटा वापरला जात नाही—फक्त कृत्रिम (LLM-निर्मित) आणि मुक्त-स्रोत डेटाचे संयोजन वापरले जाते, ज्यामुळे आम्हाला प्रशिक्षण डेटा अधिक सहजपणे वाढवता येतो आणि स्केलिंग कायद्यांचा लाभ घेता येतो—यामुळे हे पहिले Roblox Guard LLM SOTA बनले आहे. विविध मुक्त-स्रोत आणि कृत्रिम डेटा संच विलीन करताना, आम्हाला आढळले की निर्देश तयार करण्यासाठी डेटासेट-विशिष्ट वर्गीकरण प्रणाली वापरणे हा सर्वोत्तम मार्ग आहे, कारण कामांच्या विविधतेमुळे LLM ला विविध प्रकारच्या प्रॉम्प्टवर प्रशिक्षण घेण्यास मदत होते. यामुळे विविध सुरक्षा वर्गीकरणांसाठी सामान्यीकरण करता येणारा एक मजबूत मॉडेल तयार झाला. आम्ही सूचना संचात 'चेन-ऑफ-थॉट' तर्कसंगती देखील समाविष्ट केली, ज्यात मॉडेलला त्याची तर्कप्रक्रिया स्पष्टपणे मांडण्यासाठी प्रोत्साहित केले जाते. या मध्यवर्ती तर्क पायऱ्यांनी मॉडेलला अधिक मजबूत संदर्भिक पाया दिला.
परिणाम

आम्ही आमच्या मॉडेल्सचे बेंचमार्किंग प्रॉम्प्ट आणि प्रतिसाद या दोन्हीसाठीच्या ओपन-सोर्स डेटासेट्सच्या व्यापक संचावर तसेच Roblox Guard-Eval वर करतो. यामुळे आम्हाला आमचे मॉडेल इन-डोमेन आणि आउट-ऑफ-डोमेन दोन्ही डेटासेट्सवर मूल्यांकन करण्याची संधी मिळते. आम्ही बायनरी उल्लंघन/गैर-उल्लंघन वर्गीकरणासाठी F-1 स्कोअरच्या दृष्टीने आमचे निकाल सादर करतो. वरच्या तक्त्यात, आम्ही आमच्या कामगिरीची तुलना अनेक प्रसिद्ध मॉडेल्सच्या कामगिरीशी केली आहे. ही पहिली Roblox Guard क्षमता बाह्य-क्षेत्रातील डेटासेट्सवर सामान्यीकरण करताना इतर मॉडेल्सपेक्षा उत्कृष्ट कामगिरी करते.
आम्ही आमच्या Roblox Guard 1.0 साधनांसह आमच्या सुरक्षा प्रणालींमध्ये सातत्याने सुधारणा करत आहोत आणि लवकरच अतिरिक्त क्षमता जारी करण्याची योजना आखत आहोत. भविष्यातील अद्यतने, सुधारणा आणि भविष्यातील ओपन-सोर्स प्रकाशनांसाठी कृपया HuggingFace आणि GitHub वरील आमच्या पृष्ठांवर लक्ष ठेवा.


