साझा करें

अत्याधुनिक एलएलएम Roblox पर असीमित टेक्स्ट जनरेशन की सुरक्षा में मदद करता है

रॉब्लॉक्स गार्ड 1.0: मजबूत सुरक्षा उपायों के साथ सुरक्षा को आगे बढ़ाना

द्वारा महेश नंदवाना, एडम मैकफर्लिन, और निश्चेई खन्ना

प्रकाशित 22 जुल॰ 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

आज, हम Roblox Guard 1.0 की घोषणा कर रहे हैं, जो डेवलपर्स और प्लेटफ़ॉर्म के लिए एक ओपन-सोर्स सुरक्षा टूलकिट है।
पहली Roblox Guard क्षमता, LLM सुरक्षा के लिए एक अत्याधुनिक (SOTA) गार्डरेल मॉडल, अब उपलब्ध है, जो प्रमुख सुरक्षा बेंचमार्क में एक नया मानक स्थापित कर रहा है।
हम Roblox Guard-Eval भी जारी कर रहे हैं, जो सुरक्षा बेंचमार्किंग के लिए एक डेटासेट है।

चुनौती

हमने हाल ही में एक टेक्स्ट जनरेशन एपीआई जारी किया है जो डेवलपर्स को अपने अनुभवों के भीतर टेक्स्ट उत्पन्न करके अधिक समृद्ध, अधिक इमर्सिव अनुभव बनाने के लिए बड़े भाषा मॉडल (एलएलएम) की शक्ति का उपयोग करने में सक्षम बनाता है। उदाहरण के लिए, एक डेवलपर एक पूरी तरह से इंटरैक्टिव एनपीसी बना सकता है, या गेम खेलने के तरीके पर एक इंटरैक्टिव ट्यूटोरियल प्रदान कर सकता है।

हमने शुरुआती दिनों से ही Roblox पर अधिकांश सामग्री का सक्रिय रूप से मॉडरेशन किया है, क्योंकि हम अपने उत्पादों को Roblox के उच्च सुरक्षा और सभ्यता मानकों के अनुरूप बनाए रखने के लिए काम करते हैं। टेक्स्ट जनरेशन एपीआई जारी करने से पहले, हमने सुरक्षा को पहले रखने के तरीकों पर ध्यान दिया। हमने इनपुट (उपयोगकर्ताओं से प्रॉम्प्ट) और आउटपुट (एपीआई से उत्पन्न टेक्स्ट) दोनों की सुरक्षा में मदद करने के लिए एक नया मॉडल विकसित किया।

नवाचार

Roblox गार्ड 1.0 टूलकिट में पहली क्षमता एक SOTA (स्टेट-ऑफ़-द-आर्ट) इंस्ट्रक्शन फाइन-ट्यून की गई LLM है, जिसे हमारे टेक्स्ट जनरेशन API की सुरक्षा में मदद करने के लिए डिज़ाइन किया गया है। यह प्रॉम्प्ट और प्रतिक्रिया दोनों स्तरों पर सुरक्षा वर्गीकरण करती है, यह तय करते हुए कि प्रत्येक इनपुट या आउटपुट हमारी नीतियों का उल्लंघन करता है या नहीं। यह दो-स्तरीय मूल्यांकन उपयोगकर्ता प्रश्नों और मॉडल द्वारा उत्पन्न आउटपुट दोनों को मॉडरेट करने के लिए आवश्यक है।

हमारा एलएलएम वर्तमान में मानक बेंचमार्क पर मेटा के लामा गार्ड, गूगल एआई के शील्डजेमा, एनवीडिया नेमो गार्डरेल्स, ओपनएआई के जीपीटी-4ओ और अन्य जैसे लोकप्रिय एलएलएम गार्डरेल मॉडल से बेहतर प्रदर्शन कर रहा है। रोब्लॉक्स गार्ड 1.0 एलएलएम अज्ञात वर्गीकरण प्रणाली वाले आउट-ऑफ-डोमेन डेटासेट पर भी मजबूत सामान्यीकरण दिखाता है। हमने अपनी पहली क्षमता के लिए LLM वेट और हमारे Roblox Guard-Eval बेंचमार्किंग डेटासेट दोनों को ओपन सोर्स कर दिया है।

हमारी प्रणाली के केंद्र में एक एलएलएम (LLM) है जिसे Llama-3.1-8B-Instruct मॉडल से फाइन-ट्यून किया गया है। हमने सुरक्षा निर्णय प्रदर्शन को अनुकूलित करने के लिए उच्च-गुणवत्ता वाली निर्देश ट्यूनिंग पर विशेष ध्यान केंद्रित करके इस एलएलएम को प्रशिक्षित किया। इस प्रक्रिया में एक महत्वपूर्ण कदम वास्तविक दुनिया के सुरक्षा परिदृश्यों की विविध श्रृंखला को दर्शाने के लिए प्रॉम्प्ट और प्रतिक्रियाओं को सावधानीपूर्वक तैयार करना था।

हमारे निर्देश सेट में कोई स्वामित्व वाला डेटा (proprietary data) का उपयोग नहीं किया जाता है—केवल सिंथेटिक (LLM-जनित) और ओपन-सोर्स डेटा का संयोजन, जो हमें प्रशिक्षण डेटा को अधिक आसानी से स्केल करने और स्केलिंग कानूनों का लाभ उठाने की अनुमति देता है—जिससे यह पहला Roblox Guard LLM SOTA बन जाता है। विभिन्न ओपन-सोर्स और सिंथेटिक डेटा सेट को मर्ज करते समय, हमने पाया कि निर्देश तैयार करने के लिए डेटासेट-विशिष्ट वर्गीकरण (taxonomy) का उपयोग करना सबसे अच्छा तरीका था, क्योंकि कार्य विविधता (task diversity) LLM को विभिन्न प्रकार के प्रॉम्प्ट पर प्रशिक्षित करने में मदद करती है। इसका परिणाम एक मजबूत मॉडल के रूप में हुआ जिसे विभिन्न सुरक्षा वर्गीकरणों के लिए सामान्यीकृत किया जा सकता है। हमने निर्देश सेट में चेन-ऑफ-थॉट तर्कों को भी शामिल किया, जिसमें मॉडल को अपनी तर्क प्रक्रिया को स्पष्ट रूप से व्यक्त करने के लिए प्रोत्साहित किया जाता है। इन मध्यवर्ती तर्क चरणों ने मॉडल को मजबूत संदर्भिक आधार प्रदान किया।

परिणाम

हमारी सुरक्षा टीम ने Roblox की सामग्री सुरक्षा वर्गीकरण-पद्धति (taxonomy) में 25 उपश्रेणियों का प्रतिनिधित्व करने वाला एक कस्टम उच्च-गुणवत्ता वाला मूल्यांकन डेटासेट विकसित किया है। यह मूल्यांकन सेट आंतरिक रेड-टीमिंग द्वारा बनाया गया है, जिसमें हम कमजोरियों की तलाश के लिए प्रतिद्वंद्वी हमलों का अनुकरण करके सिस्टम का परीक्षण करते हैं, और इसमें उपयोगकर्ता-जनित या व्यक्तिगत डेटा शामिल नहीं है। इस मूल्यांकन डेटासेट में प्रॉम्प्ट और प्रतिक्रिया जोड़े शामिल हैं, जिनकी प्रतिक्रियाओं को गुणवत्ता सुनिश्चित करने में मदद के लिए नीति विशेषज्ञों के एक समूह द्वारा मैन्युअल रूप से लेबल किया गया है। यह उल्लंघन के प्रकारों की एक विस्तृत श्रृंखला को कवर करता है, जिससे हमें मूल्यांकन के लिए अधिक सटीक और सार्थक लेबल बनाने में मदद मिलती है। अंतिम मूल्यांकन सेट में 2,873 उदाहरण शामिल हैं। हमने इस मूल्यांकन डेटासेट को ओपन सोर्स कर दिया है, जिसमें एलएलएम गार्डरेल और मॉडरेशन सिस्टम को बेंचमार्क करने में मदद के लिए एक विस्तार योग्य सुरक्षा वर्गीकरण (taxonomy) है।

हम अपने मॉडलों का बेंचमार्किंग एक व्यापक ओपन-सोर्स डेटासेट संग्रह पर करते हैं, जो प्रॉम्प्ट और प्रतिक्रिया दोनों के लिए है, साथ ही Roblox Guard-Eval पर भी। इससे हमें अपने मॉडल का मूल्यांकन इन-डोमेन और आउट-ऑफ-डोमेन डेटासेट दोनों पर करने की अनुमति मिलती है। हम बाइनरी उल्लंघनकारी/गैर-उल्लंघनकारी वर्गीकरण के लिए F-1 स्कोर के संदर्भ में अपने परिणामों की रिपोर्ट करते हैं। ऊपर दी गई तालिका में, हम अपनी कार्यक्षमता की तुलना कई प्रसिद्ध मॉडलों से करते हैं। यह पहली Roblox गार्ड क्षमता आउट-ऑफ-डोमेन डेटासेट पर सामान्यीकरण करते समय अन्य मॉडलों से बेहतर प्रदर्शन करती है।

हम अपनी सुरक्षा प्रणालियों, जिसमें हमारे Roblox Guard 1.0 टूल भी शामिल हैं, में लगातार सुधार कर रहे हैं और निकट भविष्य में अतिरिक्त क्षमताएं जारी करने की योजना बना रहे हैं। कृपया भविष्य के अपडेट और सुधारों, साथ ही भविष्य के ओपन-सोर्स रिलीज़ के लिए HuggingFace और GitHub पर हमारे पेजों पर नज़र रखें।

नवीनतम

अधिक परिणाम

अत्याधुनिक एलएलएम Roblox पर असीमित टेक्स्ट जनरेशन की सुरक्षा में मदद करता है

चुनौती

नवाचार

परिणाम

अत्याधुनिक एलएलएम Roblox पर असीमित टेक्स्ट जनरेशन की सुरक्षा में मदद करता है

चुनौती

नवाचार

परिणाम

अभियांत्रिकी

हमारे वॉइस सेफ्टी क्लासिफायर को 22 नई भाषाओं और बेहतर पहचान क्षमताओं के साथ अपग्रेड करना

समाचार

अग्रणी एआई संस्थापक रॉब्लॉक्स रियलिटी विजन को गति देने के लिए शामिल हुए

अभियांत्रिकी

क्यूबपार्ट: एक खुली-शब्दावली वाला, भाग-नियंत्रित 3D जनरेटर