शेअर करा

अत्याधुनिक एलएलएम Roblox वर अमर्यादित मजकूर निर्मितीचे संरक्षण करण्यात मदत करते

Roblox Guard 1.0: मजबूत संरक्षणात्मक उपाययोजनांसह सुरक्षिततेत प्रगती

लेखक महेश नंदवाना, अॅडम मॅकफार्लिन, आणि निश्चे खन्ना

प्रकाशित २२ जुलै, २०२५

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

आज आम्ही Roblox Guard 1.0 जाहीर करत आहोत, जे विकासक आणि प्लॅटफॉर्मसाठी एक मुक्त-स्रोत सुरक्षा टूलकिट आहे.
पहिल्या Roblox Guard क्षमतेत, LLM सुरक्षिततेसाठी अत्याधुनिक (SOTA) गार्डरेल मॉडेल आता उपलब्ध आहे, ज्याने प्रमुख सुरक्षा बेंचमार्कमध्ये नवीन मानदंड स्थापन केला आहे.
आम्ही Roblox Guard-Eval देखील जारी करत आहोत, जे सुरक्षा बेंचमार्किंगसाठीचे एक डेटासेट आहे.

चुनौती

आम्ही अलीकडेच एक टेक्स्ट जनरेशन API जारी केली आहे जी विकासकांना त्यांच्या अनुभवांमध्ये मजकूर तयार करून अधिक समृद्ध आणि अधिक मनोरम अनुभव तयार करण्यासाठी मोठ्या भाषा मॉडेल्स (LLMs) ची शक्ती वापरण्याची परवानगी देते. उदाहरणार्थ, एक विकासक पूर्णपणे परस्परसंवादी NPC तयार करू शकतो, किंवा गेम कसा खेळायचा यावर परस्परसंवादी ट्यूटोरियल प्रदान करू शकतो.

आम्ही आमची उत्पादने Roblox च्या उच्च सुरक्षा आणि सभ्यतेच्या मानकांशी सुसंगत ठेवण्यासाठी सुरुवातीपासूनच Roblox वरील बहुतेक सामग्रीचे सक्रियपणे नियमन केले आहे. Text Generation API जारी करण्यापूर्वी, आम्ही सुरक्षेला प्रथम प्राधान्य देण्याचा विचार केला. आम्ही इनपुट्स (वापरकर्त्यांकडून येणारे प्रॉम्प्ट्स) आणि आउटपुट्स (API कडून तयार केलेला मजकूर) दोन्हीचे संरक्षण करण्यासाठी एक नवीन मॉडेल विकसित केले.

नवकल्पना

Roblox Guard 1.0 टूलकिटमधील पहिली क्षमता म्हणजे SOTA (State-of-the-art) निर्देशांनुसार फाइन-ट्यून केलेले LLM, जे आमच्या टेक्स्ट जनरेशन API चे संरक्षण करण्यास मदत करण्यासाठी डिझाइन केलेले आहे. हे प्रॉम्प्ट आणि प्रतिसाद या दोन्ही स्तरांवर सुरक्षा वर्गीकरण करते, प्रत्येक इनपुट किंवा आउटपुट आमच्या धोरणांचे उल्लंघन करते की नाही हे ठरवते. वापरकर्त्यांच्या प्रश्नांची आणि मॉडेलद्वारे तयार केलेल्या आउटपुट्सची मध्यस्थी करण्यासाठी हे द्वि-स्तरीय मूल्यमापन आवश्यक आहे.

आमचे एलएलएम सध्या मानक बेंचमार्कवर मेटाच्या Llama Guard, Google AI च्या ShieldGemma, NVIDIA NeMo Guardrails, OpenAI च्या GPT-4o आणि इतर लोकप्रिय एलएलएम गार्डरेल मॉडेल्सपेक्षा चांगले कामगिरी करत आहे. Roblox Guard 1.0 एलएलएम अजून न पाहिलेल्या वर्गीकरणासह (taxonomy) बाह्य-क्षेत्रातील डेटासेटवरही मजबूत सामान्यीकरण क्षमता दाखवते. आम्ही आमच्या पहिल्या क्षमतेसाठी LLM वेट्स आणि आमचा Roblox Guard-Eval बेंचमार्किंग डेटासेट दोन्ही ओपन सोर्स केले आहेत.

आमच्या प्रणालीच्या केंद्रस्थानी Llama-3.1-8B-Instruct मॉडेलवरून फाईन-ट्यून केलेले एक एलएलएम आहे. आम्ही सुरक्षा निर्णय कामगिरीसाठी अनुकूल करण्यासाठी उच्च-गुणवत्तेच्या सूचना ट्यूनिंगवर विशेष लक्ष केंद्रित करून हे एलएलएम प्रशिक्षित केले. या प्रक्रियेत एक महत्त्वाचा टप्पा म्हणजे विविध वास्तविक-जगातील सुरक्षा परिस्थितींचे प्रतिबिंब दाखवण्यासाठी प्रॉम्प्ट्स आणि प्रतिसाद काळजीपूर्वक तयार करणे.

आमच्या निर्देश संचात कोणताही मालकीचा डेटा वापरला जात नाही—फक्त कृत्रिम (LLM-निर्मित) आणि मुक्त-स्रोत डेटाचे संयोजन वापरले जाते, ज्यामुळे आम्हाला प्रशिक्षण डेटा अधिक सहजपणे वाढवता येतो आणि स्केलिंग कायद्यांचा लाभ घेता येतो—यामुळे हे पहिले Roblox Guard LLM SOTA बनले आहे. विविध मुक्त-स्रोत आणि कृत्रिम डेटा संच विलीन करताना, आम्हाला आढळले की निर्देश तयार करण्यासाठी डेटासेट-विशिष्ट वर्गीकरण प्रणाली वापरणे हा सर्वोत्तम मार्ग आहे, कारण कामांच्या विविधतेमुळे LLM ला विविध प्रकारच्या प्रॉम्प्टवर प्रशिक्षण घेण्यास मदत होते. यामुळे विविध सुरक्षा वर्गीकरणांसाठी सामान्यीकरण करता येणारा एक मजबूत मॉडेल तयार झाला. आम्ही सूचना संचात 'चेन-ऑफ-थॉट' तर्कसंगती देखील समाविष्ट केली, ज्यात मॉडेलला त्याची तर्कप्रक्रिया स्पष्टपणे मांडण्यासाठी प्रोत्साहित केले जाते. या मध्यवर्ती तर्क पायऱ्यांनी मॉडेलला अधिक मजबूत संदर्भिक पाया दिला.

परिणाम

आमच्या सुरक्षा संघाने Roblox च्या सामग्री सुरक्षा वर्गीकरण प्रणालीमध्ये 25 उपवर्गांचे प्रतिनिधित्व करणारा एक सानुकूल, उच्च-गुणवत्तेचा मूल्यांकन डेटासेट विकसित केला आहे. हा मूल्यांकन संच अंतर्गत रेड-टीमिंगद्वारे तयार केला गेला आहे, ज्यात आम्ही प्रणालीची कमकुवतता शोधण्यासाठी शत्रुत्वपूर्ण हल्ल्यांचे अनुकरण करून चाचणी करतो, आणि यात वापरकर्त्यांनी तयार केलेला किंवा वैयक्तिक डेटा समाविष्ट नाही. या मूल्यांकन डेटासेटमध्ये प्रॉम्प्ट आणि प्रतिसाद जोड्या आहेत, ज्यात प्रतिसादांना गुणवत्ता सुनिश्चित करण्यासाठी धोरण तज्ञांच्या गटाने हाताने लेबल केले आहे. हे उल्लंघनांच्या प्रकारांच्या विस्तृत श्रेणीचा समावेश करते, ज्यामुळे मूल्यांकनासाठी अधिक अचूक आणि अर्थपूर्ण लेबल तयार करण्यात आम्हाला मदत होते. अंतिम मूल्यांकन संचात 2,873 उदाहरणे आहेत. आम्ही हा मूल्यांकन डेटासेट ओपन सोर्स केला आहे, ज्यात LLM गार्डरेल्स आणि मॉडरेशन सिस्टमचे बेंचमार्किंग करण्यासाठी एक विस्तारयोग्य सुरक्षा वर्गीकरण प्रणाली आहे.

आम्ही आमच्या मॉडेल्सचे बेंचमार्किंग प्रॉम्प्ट आणि प्रतिसाद या दोन्हीसाठीच्या ओपन-सोर्स डेटासेट्सच्या व्यापक संचावर तसेच Roblox Guard-Eval वर करतो. यामुळे आम्हाला आमचे मॉडेल इन-डोमेन आणि आउट-ऑफ-डोमेन दोन्ही डेटासेट्सवर मूल्यांकन करण्याची संधी मिळते. आम्ही बायनरी उल्लंघन/गैर-उल्लंघन वर्गीकरणासाठी F-1 स्कोअरच्या दृष्टीने आमचे निकाल सादर करतो. वरच्या तक्त्यात, आम्ही आमच्या कामगिरीची तुलना अनेक प्रसिद्ध मॉडेल्सच्या कामगिरीशी केली आहे. ही पहिली Roblox Guard क्षमता बाह्य-क्षेत्रातील डेटासेट्सवर सामान्यीकरण करताना इतर मॉडेल्सपेक्षा उत्कृष्ट कामगिरी करते.

आम्ही आमच्या Roblox Guard 1.0 साधनांसह आमच्या सुरक्षा प्रणालींमध्ये सातत्याने सुधारणा करत आहोत आणि लवकरच अतिरिक्त क्षमता जारी करण्याची योजना आखत आहोत. भविष्यातील अद्यतने, सुधारणा आणि भविष्यातील ओपन-सोर्स प्रकाशनांसाठी कृपया HuggingFace आणि GitHub वरील आमच्या पृष्ठांवर लक्ष ठेवा.

नवीनतम

अधिक निकाल

अत्याधुनिक एलएलएम Roblox वर अमर्यादित मजकूर निर्मितीचे संरक्षण करण्यात मदत करते

चुनौती

नवकल्पना

परिणाम

अत्याधुनिक एलएलएम Roblox वर अमर्यादित मजकूर निर्मितीचे संरक्षण करण्यात मदत करते

चुनौती

नवकल्पना

परिणाम

अभियांत्रिकी

आमच्या व्हॉइस सेफ्टी क्लासिफायरचे 22 नवीन भाषा आणि अधिक तीक्ष्ण शोध क्षमतांसह अपग्रेड

बातमी

प्रगतीशील एआय संस्थापक रॉब्लॉक्स रिऍलिटी व्हिजन गतीने पुढे नेण्यासाठी एकत्र आले

अभियांत्रिकी

क्यूबपार्ट: एक खुल्या शब्दसंग्रहाचा, भागात्मकपणे नियंत्रित 3D जनरेटर