अत्याधुनिक एलएलएम Roblox पर असीमित टेक्स्ट जनरेशन की सुरक्षा में मदद करता है
रॉब्लॉक्स गार्ड 1.0: मजबूत सुरक्षा उपायों के साथ सुरक्षा को आगे बढ़ाना

- आज, हम Roblox Guard 1.0 की घोषणा कर रहे हैं, जो डेवलपर्स और प्लेटफ़ॉर्म के लिए एक ओपन-सोर्स सुरक्षा टूलकिट है।
- पहली Roblox Guard क्षमता, LLM सुरक्षा के लिए एक अत्याधुनिक (SOTA) गार्डरेल मॉडल, अब उपलब्ध है, जो प्रमुख सुरक्षा बेंचमार्क में एक नया मानक स्थापित कर रहा है।
- हम Roblox Guard-Eval भी जारी कर रहे हैं, जो सुरक्षा बेंचमार्किंग के लिए एक डेटासेट है।
चुनौती
हमने हाल ही में एक टेक्स्ट जनरेशन एपीआई जारी किया है जो डेवलपर्स को अपने अनुभवों के भीतर टेक्स्ट उत्पन्न करके अधिक समृद्ध, अधिक इमर्सिव अनुभव बनाने के लिए बड़े भाषा मॉडल (एलएलएम) की शक्ति का उपयोग करने में सक्षम बनाता है। उदाहरण के लिए, एक डेवलपर एक पूरी तरह से इंटरैक्टिव एनपीसी बना सकता है, या गेम खेलने के तरीके पर एक इंटरैक्टिव ट्यूटोरियल प्रदान कर सकता है।
हमने शुरुआती दिनों से ही Roblox पर अधिकांश सामग्री का सक्रिय रूप से मॉडरेशन किया है, क्योंकि हम अपने उत्पादों को Roblox के उच्च सुरक्षा और सभ्यता मानकों के अनुरूप बनाए रखने के लिए काम करते हैं। टेक्स्ट जनरेशन एपीआई जारी करने से पहले, हमने सुरक्षा को पहले रखने के तरीकों पर ध्यान दिया। हमने इनपुट (उपयोगकर्ताओं से प्रॉम्प्ट) और आउटपुट (एपीआई से उत्पन्न टेक्स्ट) दोनों की सुरक्षा में मदद करने के लिए एक नया मॉडल विकसित किया।
नवाचार
Roblox गार्ड 1.0 टूलकिट में पहली क्षमता एक SOTA (स्टेट-ऑफ़-द-आर्ट) इंस्ट्रक्शन फाइन-ट्यून की गई LLM है, जिसे हमारे टेक्स्ट जनरेशन API की सुरक्षा में मदद करने के लिए डिज़ाइन किया गया है। यह प्रॉम्प्ट और प्रतिक्रिया दोनों स्तरों पर सुरक्षा वर्गीकरण करती है, यह तय करते हुए कि प्रत्येक इनपुट या आउटपुट हमारी नीतियों का उल्लंघन करता है या नहीं। यह दो-स्तरीय मूल्यांकन उपयोगकर्ता प्रश्नों और मॉडल द्वारा उत्पन्न आउटपुट दोनों को मॉडरेट करने के लिए आवश्यक है।
हमारा एलएलएम वर्तमान में मानक बेंचमार्क पर मेटा के लामा गार्ड, गूगल एआई के शील्डजेमा, एनवीडिया नेमो गार्डरेल्स, ओपनएआई के जीपीटी-4ओ और अन्य जैसे लोकप्रिय एलएलएम गार्डरेल मॉडल से बेहतर प्रदर्शन कर रहा है। रोब्लॉक्स गार्ड 1.0 एलएलएम अज्ञात वर्गीकरण प्रणाली वाले आउट-ऑफ-डोमेन डेटासेट पर भी मजबूत सामान्यीकरण दिखाता है। हमने अपनी पहली क्षमता के लिए LLM वेट और हमारे Roblox Guard-Eval बेंचमार्किंग डेटासेट दोनों को ओपन सोर्स कर दिया है।
हमारी प्रणाली के केंद्र में एक एलएलएम (LLM) है जिसे Llama-3.1-8B-Instruct मॉडल से फाइन-ट्यून किया गया है। हमने सुरक्षा निर्णय प्रदर्शन को अनुकूलित करने के लिए उच्च-गुणवत्ता वाली निर्देश ट्यूनिंग पर विशेष ध्यान केंद्रित करके इस एलएलएम को प्रशिक्षित किया। इस प्रक्रिया में एक महत्वपूर्ण कदम वास्तविक दुनिया के सुरक्षा परिदृश्यों की विविध श्रृंखला को दर्शाने के लिए प्रॉम्प्ट और प्रतिक्रियाओं को सावधानीपूर्वक तैयार करना था।
हमारे निर्देश सेट में कोई स्वामित्व वाला डेटा (proprietary data) का उपयोग नहीं किया जाता है—केवल सिंथेटिक (LLM-जनित) और ओपन-सोर्स डेटा का संयोजन, जो हमें प्रशिक्षण डेटा को अधिक आसानी से स्केल करने और स्केलिंग कानूनों का लाभ उठाने की अनुमति देता है—जिससे यह पहला Roblox Guard LLM SOTA बन जाता है। विभिन्न ओपन-सोर्स और सिंथेटिक डेटा सेट को मर्ज करते समय, हमने पाया कि निर्देश तैयार करने के लिए डेटासेट-विशिष्ट वर्गीकरण (taxonomy) का उपयोग करना सबसे अच्छा तरीका था, क्योंकि कार्य विविधता (task diversity) LLM को विभिन्न प्रकार के प्रॉम्प्ट पर प्रशिक्षित करने में मदद करती है। इसका परिणाम एक मजबूत मॉडल के रूप में हुआ जिसे विभिन्न सुरक्षा वर्गीकरणों के लिए सामान्यीकृत किया जा सकता है। हमने निर्देश सेट में चेन-ऑफ-थॉट तर्कों को भी शामिल किया, जिसमें मॉडल को अपनी तर्क प्रक्रिया को स्पष्ट रूप से व्यक्त करने के लिए प्रोत्साहित किया जाता है। इन मध्यवर्ती तर्क चरणों ने मॉडल को मजबूत संदर्भिक आधार प्रदान किया।
परिणाम

हम अपने मॉडलों का बेंचमार्किंग एक व्यापक ओपन-सोर्स डेटासेट संग्रह पर करते हैं, जो प्रॉम्प्ट और प्रतिक्रिया दोनों के लिए है, साथ ही Roblox Guard-Eval पर भी। इससे हमें अपने मॉडल का मूल्यांकन इन-डोमेन और आउट-ऑफ-डोमेन डेटासेट दोनों पर करने की अनुमति मिलती है। हम बाइनरी उल्लंघनकारी/गैर-उल्लंघनकारी वर्गीकरण के लिए F-1 स्कोर के संदर्भ में अपने परिणामों की रिपोर्ट करते हैं। ऊपर दी गई तालिका में, हम अपनी कार्यक्षमता की तुलना कई प्रसिद्ध मॉडलों से करते हैं। यह पहली Roblox गार्ड क्षमता आउट-ऑफ-डोमेन डेटासेट पर सामान्यीकरण करते समय अन्य मॉडलों से बेहतर प्रदर्शन करती है।
हम अपनी सुरक्षा प्रणालियों, जिसमें हमारे Roblox Guard 1.0 टूल भी शामिल हैं, में लगातार सुधार कर रहे हैं और निकट भविष्य में अतिरिक्त क्षमताएं जारी करने की योजना बना रहे हैं। कृपया भविष्य के अपडेट और सुधारों, साथ ही भविष्य के ओपन-सोर्स रिलीज़ के लिए HuggingFace और GitHub पर हमारे पेजों पर नज़र रखें।


