हमारे ओपन-सोर्स वॉयस सुरक्षा मॉडल के लिए और भाषाएँ लॉन्च करना

- हम अपने ओपन-सोर्स वॉयस सेफ्टी क्लासिफायर के पैरामीटर 94.6 मिलियन से बढ़ाकर 120.2 मिलियन कर रहे हैं और इसे सात अतिरिक्त भाषाओं में विस्तारित कर रहे हैं।
- क्लासिफायर के पहले संस्करण के बाद से, हमने 1% फर्जी-सकारात्मक दर पर अंग्रेजी-भाषा के वॉयस चैट डेटा पर सटीकता को 59.1% रिकॉल तक बढ़ा दिया है। यह पिछली रिलीज़ के 30.9% रिकॉल की तुलना में 92% की सुधार है।
रॉब्लॉक्स में हम जो कुछ भी करते हैं, उसमें सुरक्षा और सभ्यता को बढ़ावा देना हमेशा से ही हमारी नींव रहा है। हमने मजबूत सुरक्षा प्रणालियाँ बनाने में लगभग दो दशक बिताए हैं, और जैसे-जैसे नई तकनीक उपलब्ध हो रही है, हम उन्हें लगातार बढ़ा रहे हैं और विकसित कर रहे हैं। 2024 में, हमने 40 से अधिक सुरक्षा सुधार किए, जिसमें हमारे पेरेंटल कंट्रोल्स का नवीनीकरण भी शामिल है, जिसे हम आज फिर से अपडेट कर रहे हैं। हमने उद्योग के पहले ओपन-सोर्स वॉयस सेफ्टी क्लासिफायर में से एक भी लॉन्च किया, जिसे 23,000 से अधिक बार डाउनलोड किया जा चुका है। आज, हम एक अपडेटेड संस्करण जारी कर रहे हैं, जो और भी सटीक है और अधिक भाषाओं में काम करता है।
हमारे उपयोगकर्ताओं की सुरक्षा में मदद करने वाली कई सुरक्षा प्रणालियाँ, जिनमें यह क्लासिफायर भी शामिल है, एआई मॉडल द्वारा संचालित हैं। हम इनमें से कुछ को ओपन-सोर्स करते हैं क्योंकि हम जानते हैं कि एआई सुरक्षा में प्रगति साझा करने से हमारे पूरे उद्योग को लाभ होता है। यही कारण है कि हम हाल ही में ROOST—एक नया गैर-लाभकारी संगठन जो ओपन-सोर्स सुरक्षा उपकरणों को बढ़ावा देकर डिजिटल सुरक्षा के महत्वपूर्ण क्षेत्रों से निपटने के लिए समर्पित है—में एक संस्थापक भागीदार के रूप में शामिल हुए हैं।
दुनिया भर में हर दिन हमारे प्लेटफ़ॉर्म पर होने वाली सामग्री और इंटरैक्शन की मात्रा को प्रबंधित करते समय, उपयोगकर्ताओं को सुरक्षित रखने के लिए एआई एक आवश्यक तत्व है। हमें विश्वास है कि हमारे द्वारा बनाए गए मॉडल हमारी ज़रूरतों को पूरा करने में मदद कर रहे हैं। उदाहरण के लिए, 2024 की चौथी तिमाही में, रॉब्लॉक्स उपयोगकर्ताओं ने 300 अरब सामग्री अपलोड की। उन अरबों वीडियो, ऑडियो, टेक्स्ट, वॉयस चैट, अवतार और 3D अनुभवों में से केवल 0.01% को हमारी नीतियों का उल्लंघन करते हुए पाया गया। और उस नीति-उल्लंघन करने वाली सामग्री में से लगभग सभी को उपयोगकर्ताओं द्वारा देखने से पहले ही स्वचालित रूप से प्री-स्क्रीन करके हटा दिया गया था।
हमने अपने वॉयस सेफ्टी क्लासिफायर के ओपन-सोर्स संस्करण को और अधिक सटीक बनाने और अधिक भाषाओं में सामग्री को मॉडरेट करने में हमारी मदद करने के लिए अपडेट किया है। नया मॉडल:
- बहुभाषी डेटा पर प्रशिक्षण के कारण यह सात अतिरिक्त भाषाओं—स्पेनिश, जर्मन, फ्रेंच, पुर्तगाली, इतालवी, कोरियाई और जापानी—में उल्लंघनों का पता लगाता है।
- इसकी कुल रिकॉल दर 59.1% तक बढ़ गई है, जो पिछली रिलीज़ में 30.9% रिकॉल की तुलना में 92% की वृद्धि है, और इसमें कम फर्जी-पॉजिटिव दरें हैं।
- यह बड़े पैमाने पर सेवा देने के लिए अनुकूलित है, जो चरम पर प्रति सेकंड 8,300 अनुरोधों (जिनमें से अधिकांश में कोई उल्लंघन नहीं होता) तक सेवा प्रदान करता है।
पहले मॉडल के रिलीज़ होने के बाद से, हमने 50% से अधिक भाषण प्रति घंटे वाले अमेरिकी उपयोगकर्ताओं के बीच दुरुपयोग रिपोर्ट दरों में कमी देखी है। इसने हमें प्रतिदिन लाखों मिनट की वॉयस चैट को मानव मॉडरेटर की तुलना में अधिक सटीक रूप से मॉडरेट करने में भी मदद की है। हम अपनी सुरक्षा प्रणालियों को आगे बढ़ाना कभी बंद नहीं करते हैं और हम ओपन-सोर्स संस्करण को भी अपडेट करना जारी रखेंगे।
कुशल बहुभाषी वॉयस सुरक्षा वर्गीकरणकर्ता
हमारा शुरुआती ओपन-सोर्स वॉयस सेफ्टी क्लासिफायर एक WavLM बेस+ मॉडल पर आधारित था, जिसे मशीन-लेबल किए गए अंग्रेजी-भाषा के वॉयस चैट ऑडियो सैंपल के साथ फाइन-ट्यून किया गया था। इस एंड-टू-एंड आर्किटेक्चर के उत्साहजनक परिणामों ने एक कस्टमाइज़्ड आर्किटेक्चर के साथ और प्रयोग करने के लिए प्रेरित किया। हमने मॉडल की जटिलता और सटीकता को अनुकूलित करने के लिए नॉलेज डिस्टिलेशन का इस्तेमाल किया, जो बड़े पैमाने पर इंफरेंस सर्विंग के लिए आकर्षक है। हमारा नया क्लासिफायर इन मौलिक बिल्डिंग ब्लॉक्स का उपयोग करता है, और डेटा उपयोग तथा आर्किटेक्चर परिष्करण में इस काम को बड़े पैमाने पर बढ़ाता और विस्तारित करता है।
बहुभाषी डेटा पर प्रशिक्षण के माध्यम से, हमारा एकल क्लासिफायर मॉडल हमारी शीर्ष आठ समर्थित भाषाओं में से किसी पर भी निर्बाध रूप से काम कर सकता है। और हमारे प्रशिक्षण में सुधार का मतलब है कि यह मॉडल पहले संस्करण की तुलना में एक सामान्य इनफरेंस परिदृश्य में चलाने के लिए 20% से 30% तेज़ और अधिक सटीक है।
नया वॉयस सेफ्टी क्लासिफायर अभी भी WavLM आर्किटेक्चर पर आधारित है, लेकिन इसकी लेयर कॉन्फ़िगरेशन पिछली रिलीज़ और WavLM प्री-ट्रेन्ड मॉडलों से अलग है। विशेष रूप से, हमने ट्रांसफॉर्मर लेयर्स के आंतरिक टाइम रिज़ॉल्यूशन को कम करने के लिए एक अतिरिक्त कन्वोल्यूशनल लेयर जोड़ी है। कुल मिलाकर, हमारे नए मॉडल आर्किटेक्चर में 120.2 मिलियन पैरामीटर हैं, जो पिछले संस्करण में 94.6 मिलियन की तुलना में 27% की वृद्धि है। इस वृद्धि के बावजूद, 4 से 15 सेकंड के इनपुट सेगमेंट के साथ उपयोग किए जाने पर नया मॉडल 20% से 30% कम कंप्यूट समय लेता है। यह इसलिए संभव है क्योंकि मॉडल इनपुट सिग्नल को पहले की तुलना में एक छोटे प्रतिनिधित्व में संपीड़ित करता है।
लेबलिंग रणनीतियों की विविधता का उपयोग
एंड-टू-एंड मॉडल के पर्यवेक्षित प्रशिक्षण के लिए ऑडियो और क्लास लेबल के चयनित जोड़ों की आवश्यकता होती है। हमने अपनी डेटा पाइपलाइन में महत्वपूर्ण सुधार किए, जिसने लेबल किए गए डेटा की एक स्थिर धारा सुनिश्चित की। प्रशिक्षण सामग्री का आधार समर्थित भाषाओं में 100,000 घंटे से अधिक के भाषण का एक बड़ा मशीन-लेबल किया गया डेटासेट है। हमने भाषण का स्वचालित रूप से प्रतिलेखन किया और इसे हमारे इन-हाउस टेक्स्ट-आधारित विषाक्तता वर्गीकरणकर्ता से गुजारा, जो वांछित नीति और विषाक्तता श्रेणियों को साझा करता है। डेटा संग्रह, सीमांत मामलों (एज केस) और कम आम नीति उल्लंघनों को बेहतर ढंग से पकड़ने के लिए, सामान्य भाषण की तुलना में अपमानजनक सामग्री के नमूने उच्च संभावना के साथ एकत्र करता है।

स्पीच ट्रांसक्रिप्ट और टेक्स्ट-आधारित वर्गीकरण पर आधारित लेबल, वॉयस चैट सामग्री में देखी जाने वाली बारीकियों को पूरी तरह से कैप्चर नहीं कर सकते हैं। इसलिए हमने पिछले प्रशिक्षण चरण से मॉडल को फाइन-ट्यून करने के लिए मानव-लेबल वाले डेटा का उपयोग किया। हालांकि वर्गीकरण का कार्य समान है, लेकिन बाद वाला प्रशिक्षण चरण निर्णय सीमाओं को परिष्कृत करने और वॉयस चैट के लिए विशिष्ट अभिव्यक्तियों के प्रति प्रतिक्रियाशीलता पर जोर देने में मदद करता है। यह पाठ्यक्रम सीखने का एक रूप है जो हमें मूल्यवान मानव-लेबल वाले उदाहरणों से अधिकतम लाभ उठाने में मदद करता है।
एंड-टू-एंड मॉडल प्रशिक्षण के साथ एक चुनौती यह है कि यदि समय के साथ लेबलिंग नीति बदल जाती है तो लक्ष्य लेबल अप्रचलित हो सकते हैं। इसलिए, जैसे-जैसे हम अपनी स्वीकार्य वॉयस नीति को परिष्कृत करते हैं, हमें उन डेटा के लिए विशेष हैंडलिंग की आवश्यकता होती है जो पुराने लेबलिंग मानकों का उपयोग करते हैं। इसके लिए, हमने एक मल्टीटास्क दृष्टिकोण का उपयोग किया जो मॉडल को उन डेटासेट से सीखने की अनुमति देता है जो वर्तमान वॉयस चैट नीति से मेल नहीं खाते हैं। इसमें पुरानी नीति के लिए एक अलग वर्गीकरण हेड समर्पित करना शामिल है, जिससे मॉडल ट्रंक लक्षित लेबल या प्राथमिक हेड को प्रभावित किए बिना पुराने डेटासेट से सीख सकता है।
आसान परिनियोजन के लिए एक कैलिब्रेटेड मॉडल
वर्गीकरण मॉडल का उपयोग करने के लिए ऑपरेटिंग पॉइंट पर निर्णय लेने और कार्य की आवश्यकताओं के अनुसार क्लासिफायर की संवेदनशीलता को मिलाने की आवश्यकता होती है। आसान मॉडल परिनियोजन को सुविधाजनक बनाने के लिए, हमने मॉडल आउटपुट को कैलिब्रेट किया, जिसे वॉयस चैट मॉडरेशन के लिए ट्यून किया गया था। हमने एक अलग रखे गए डेटासेट से टुकड़ों में रैखिक रूपांतरणों का अनुमान लगाया, और यह प्रत्येक आउटपुट हेड और समर्थित भाषा के लिए अलग से किया। इन रूपांतरणों को मॉडल डिस्टिलेशन के दौरान लागू किया गया, जिससे यह सुनिश्चित हुआ कि अंतिम मॉडल मूल रूप से कैलिब्रेटेड था। इसने इंफरेंस के दौरान पोस्ट-प्रोसेसिंग की आवश्यकता को समाप्त कर दिया।
हम इस नए ओपन-सोर्स मॉडल को समुदाय के साथ साझा करने के लिए उत्साहित हैं और जैसे ही हमारे पास भविष्य के अपडेट होंगे, उन्हें साझा करने के लिए तत्पर हैं।


