रॉब्लॉक्स विशाल पैमाने पर सामग्री को मॉडरेट करने के लिए एआई का उपयोग कैसे करता है
25 भाषाओं में प्रतिदिन अरबों सामग्री टुकड़ों का वास्तविक समय में मॉडरेटिंग

- Roblox पर प्रकाशित सामग्री का सक्रिय रूप से मॉडरेट करने के लिए, हम लगभग पाँच वर्षों से एआई का लाभ उठाकर स्केलेबल सिस्टम बना रहे हैं।
- आज, हमारा बुनियादी ढांचा, एमएल मॉडल, और हजारों मानवीय विशेषज्ञ मिलकर हमारे उपयोगकर्ताओं के लिए Roblox को एक सुरक्षित, अधिक सभ्य स्थान बनाने में मदद करते हैं।
- हम इन सभी प्रणालियों को बड़े पैमाने पर, गति और उच्च गुणवत्ता वाले डेटा के साथ निरंतर सुधार के लिए विकसित करते हैं।
रॉब्लॉक्स पर हम जो कुछ भी करते हैं, उसकी नींव सुरक्षा है। शुरुआत से ही, हमने सक्रिय रूप से सामग्री का मॉडरेशन किया है क्योंकि हम जानते थे कि उपयोगकर्ता-जनित सामग्री पर बने प्लेटफ़ॉर्म के लिए मॉडरेशन महत्वपूर्ण है। जब रॉब्लॉक्स काफी छोटा था, तब मानव समीक्षक यह काम करते थे—जिसमें हमारे संस्थापक और सीईओ भी शामिल थे, जिन्होंने शुरुआत में सामग्री के मॉडरेशन में समय बिताया था। समय के साथ, प्लेटफ़ॉर्म (मात्रा और गति दोनों में) मानव मॉडरेटर की क्षमता से परे बढ़ गया। किसी भी नए उत्पाद को लॉन्च करते समय, सुरक्षा हमेशा पहला तत्व है जिस पर हम विचार करते हैं।
औसतन 97.8 मिलियन दैनिक सक्रिय उपयोगकर्ता¹ खेलने, संवाद करने और बनाने के लिए रॉब्लॉक्स पर आते हैं। हर दिन, उपयोगकर्ता 28 अलग-अलग भाषाओं में औसतन 6.1 बिलियन चैट संदेश और 1.1 मिलियन घंटे की वॉयस कम्युनिकेशन भेजते हैं। निर्माता प्रतिदिन लाखों एसेट्स अपलोड करते हैं—और हजारों और आइटम हमारे अवतार मार्केटप्लेस में जोड़े जाते हैं। इन अरबों रचनाओं और संदेशों में से अधिकांश सभ्य होते हैं। वास्तविक दुनिया की तरह—यह सबसे अधिक लोगों के एक-दूसरे से संवाद करने का तरीका है। लेकिन जब ऐसा नहीं होता है, तो हमारी टेक्स्ट फ़िल्टरिंग प्रणाली उपयोगकर्ताओं तक पहुँचने से पहले समस्याग्रस्त टेक्स्ट को ब्लॉक करने में मदद करती है और वॉयस उल्लंघनों का वास्तविक समय में आकलन किया जाता है। और इस स्थिति में कि हमें अवैध सामग्री का कोई नोटिस प्राप्त होता है, कार्रवाई करने में हमारा मध्य समय दस मिनट है।
इस मात्रा की सामग्री को मिलीसेकंड के भीतर लगातार मॉडरेट करना एक ऐसा काम है जिसे इंसान अकेले नहीं कर सकते—चाहे हमारे पास कितने भी लोग क्यों न हों। इस पैमाने और गति पर काम करने के लिए सैकड़ों हजारों मानवीय मॉडरेटरों की आवश्यकता होगी जो बिना सप्ताहांत या छुट्टियों के 24/7 काम करें—और यह सिर्फ चैट संदेशों को मॉडरेट करने के लिए है। Roblox पर अन्य सभी प्रकार की सामग्री का मध्यस्थता करने के लिए हमें हजारों और लोगों की आवश्यकता होगी। Roblox पर प्रतिदिन उत्पन्न होने वाली सामग्री की मात्रा स्केलेबल बुनियादी ढांचे, मशीन लर्निंग (एमएल) मॉडल और विशेष रूप से बनाए गए उपकरणों की मांग करती है।
एमएल (ML) इन निर्णयों को मिलीसेकंड में, बार-बार, लगातार और दिन के 24 घंटे ले सकता है। हम अभी भी उन कम आम मामलों को संबोधित करने के लिए मनुष्यों की आवश्यकता रखते हैं और उनका उपयोग करते हैं, जहाँ संदर्भ के आधार पर गहरे, सूक्ष्म मानवीय निर्णय की आवश्यकता होती है। हम दुनिया भर के हजारों मानवीय विशेषज्ञों के साथ मजबूत, नवीन सुरक्षा और मॉडरेशन उपकरणों को जोड़ते हैं, जो नई और विकसित हो रही चुनौतियों से निपटने के लिए हमारी प्रणालियों की निगरानी और निरंतर प्रशिक्षण प्रदान करते हैं। रोब्लॉक्स की सभी मॉडरेशन प्रणालियाँ निम्नलिखित सिद्धांतों पर आधारित हैं:
- हम Roblox पर सक्रिय रूप से सामग्री का मॉडरेट करते हैं।
- हम जब भी संभव हो, उपयोगकर्ताओं को वास्तविक समय में प्रतिक्रिया प्रदान करते हैं, क्योंकि अक्सर लोग नियमों को नहीं जानते।
- हम एआई को केवल तभी तैनात करते हैं जब यह बड़े पैमाने पर सटीकता और रिकॉल दोनों में मनुष्यों से काफी बेहतर प्रदर्शन करता है।
- हम एआई में निरंतर सुधार, विकसित और दुर्लभ मामलों, जटिल जांचों, और अपीलों के लिए मानवीय संसाधनों का लाभ उठाते हैं।
Roblox पर उत्पन्न हो रही सामग्री की बढ़ती मात्रा को कुशलतापूर्वक मॉडरेट करने के लिए, हम हमेशा तीन आयामों: पैमाने, गति और गुणवत्ता के साथ नवाचार कर रहे हैं, और इसके लिए निरंतर सुधार की आवश्यकता होती है।
पैमाना: प्रतिदिन अरबों सामग्री टुकड़ों का मध्यस्थण
फरवरी से दिसंबर, 20241 तक, उपयोगकर्ताओं ने लगभग 1 ट्रिलियन सामग्री अपलोड की। उन अरबों टेक्स्ट चैट, ऑडियो, वॉयस और छवियों में से केवल 0.01% को ही हमारी किसी भी नीति का उल्लंघन करते हुए पाया गया। और हमारी नीतियों का उल्लंघन करने वाली लगभग सभी सामग्री को उपयोगकर्ताओं द्वारा देखने से पहले ही स्वचालित रूप से प्री-स्क्रीन और हटा दिया गया था। हालांकि यह पैमाना अपेक्षाकृत नया है, लेकिन मॉडरेशन के प्रति हमारी प्रतिबद्धता नई नहीं है। एक दशक से भी पहले, हमने नियम-आधारित टेक्स्ट फ़िल्टर बनाया था। लगभग पाँच साल पहले, हमने उस समय का अत्याधुनिक ट्रांसफ़ॉर्मर-आधारित टेक्स्ट फ़िल्टर तैनात किया था। आज, हमारे टेक्स्ट फ़िल्टर प्रतिदिन औसतन 6.1 अरब चैट संदेशों को संसाधित करते हैं, जो विभिन्न प्रकार की नीति उल्लंघनों के लिए विशेष रूप से बनाए गए कई मॉडलों द्वारा संचालित हैं।
इनमें से एक मॉडल इन-गेम और प्लेटफ़ॉर्म चैट के लिए व्यक्तिगत रूप से पहचानने योग्य जानकारी (PII) के लिए हमारा फ़िल्टर है। उपयोगकर्ताओं का दूसरों से PII मांगना अधिक गंभीर मुद्दों की ओर पहला कदम हो सकता है, इसलिए हमने PII साझा करने को रोकने पर हमेशा एक सख्त रुख अपनाया है। भेजा गया हर चैट संदेश एक "अनुरोध" है, जो सिस्टम से समीक्षा करने और यह निर्धारित करने के लिए कहता है कि क्या कोई PII उल्लेखित है। यह टेक्स्ट फ़िल्टर मॉडल प्रति सेकंड इतनी सारी अनुरोधों (RPS) को संभाल रहा था कि हमारे मौजूदा CPU-आधारित सर्विंग स्टैक पर इसे सपोर्ट करना मुश्किल हो रहा था। इसलिए हमने अपने सेलुलर इंफ्रास्ट्रक्चर का लाभ उठाते हुए, GPUs पर एक पूरी तरह से नया सर्विंग स्टैक बनाया। इन उच्च RPS मांगों को पूरा करने के लिए, हमने पहले टोकनाइज़ेशन को इंफरेंस से अलग किया और फिर बड़े मॉडलों के क्वांटिज़ेशन और डिस्टिलेशन द्वारा इंफरेंस को गति दी। इन सुधारों ने मिलकर हमारे RPS को चार गुना बढ़ा दिया।
नए स्टैक पर, PII फ़िल्टर अब पीक पर 370,000 RPS (प्रति सेकंड अनुरोध) हैंडल कर रहा है। हमारे बेहतर PII फ़िल्टर ने फ़ॉल्स पॉज़िटिव को 30% तक कम कर दिया है, जिसके कारण सभी समर्थित भाषाओं में सिस्टम द्वारा स्वचालित रूप से पता लगाए गए PII उल्लेखों में 25% की वृद्धि हुई है। हम पहले से ही इस सुधार को कई अन्य भाषाओं में लागू करने और अन्य टेक्स्ट फ़िल्टर और सतहों पर इसी तरह के सुधार लाने पर काम कर रहे हैं। हालाँकि हमें इन सुधारों पर गर्व है, हम जानते हैं कि PII साझा करने के तरीके हमेशा विकसित हो रहे हैं और हम इन बदलावों के साथ अपनी प्रणालियों को भी विकसित कर रहे हैं।
हमारी पूरी मॉडरेशन प्रणाली का आधार बड़े, ट्रांसफॉर्मर-आधारित मॉडल हैं, जिनमें विभिन्न मोडालिटीज़ का ज्ञान है। परिचालन और उत्पादन आवश्यकताओं के आधार पर, हम सिस्टम को तेज़ और कुशल बनाए रखने के लिए इन मॉडलों को संक्षेपित और क्वांटાઇज़ करते हैं। ये तकनीकें विभिन्न प्रकार के मल्टीमोडल मॉडल चलाने के लिए आवश्यक हैं, हमारे टेक्स्ट फ़िल्टर को प्रबंधित करने वाले मॉडल अब 750,000 RPS से अधिक को कुशलतापूर्वक संभाल रहे हैं।

गति: वास्तविक-समय प्रतिक्रिया के साथ उपयोगकर्ता व्यवहार को बदलना
प्राकृतिक, वास्तविक समय संचार के लिए बातचीत को जारी रखने हेतु लगभग तत्काल फ़िल्टरिंग की आवश्यकता होती है। विचारों पर पुनरावृत्ति और सहयोग के लिए रचनात्मकता को बनाए रखने हेतु त्वरित प्रतिक्रिया की आवश्यकता होती है। हमारी बहु-स्तरीय रक्षा प्रणाली में सक्रिय उपाय जैसे चेतावनी सूचनाएं, टाइम-आउट और निलंबन शामिल हैं। टेक्स्ट को फ़िल्टर करते समय, हम वास्तविक समय में प्रतिक्रिया कर सकते हैं और मिलीसेकंड के भीतर नीति-उल्लंघन करने वाले शब्दों जैसे PII, अपशब्द और घृणास्पद भाषण को ब्लॉक कर सकते हैं, जिससे उपयोगकर्ताओं को अनुचित सामग्री से बचाया जा सके।
वॉयस संचार को उसी तरह से ब्लॉक नहीं किया जा सकता है, इसलिए हम ऑन-स्क्रीन सूचनाओं के माध्यम से उपयोगकर्ताओं को शिक्षित करते हैं। हमारी चेतावनी सूचनाओं ने प्रभावी रूप से उपयोगकर्ता के व्यवहार को बदल दिया है और सभ्यता तथा जुड़ाव दोनों को बढ़ाया है। हमारा वॉयस सेफ्टी क्लासिफायर आठ भाषाओं में 15 सेकंड के भीतर चैट का मॉडरेशन करता है। हमने उद्योग के साथ सुरक्षा नवाचारों को साझा करने की अपनी व्यापक प्रतिबद्धता के हिस्से के रूप में इस मॉडल को ओपन-सोर्स भी किया है।

यदि कोई उपयोगकर्ता हमारी नीतियों का उल्लंघन जारी रखता है, तो परिणाम और भी गंभीर हो जाते हैं, जिनमें संक्षिप्त चेतावनी से लेकर वॉयस चैट तक की पहुंच खोने तक शामिल है। आंतरिक शोध से पता चला है कि निलंबन का प्रभाव बाद के तीन सप्ताह तक रहता है, जिससे पुनः उल्लंघन की दर और उपयोगकर्ता रिपोर्टों की संख्या कम हो जाती है। प्रारंभिक प्रयोगों से यह भी पता चला है कि इस प्रकार के तत्काल हस्तक्षेप और परिणाम सभ्यता पर सकारात्मक प्रभाव डालते हैं। हमारे वॉयस क्लासिफायर के नवीनतम संस्करण की रिकॉल दर हमारे शुरुआती संस्करण से 92% अधिक है, जिसमें 1% फॉलस पॉजिटिव दर है—और यह चरम पर, 8,300 आरपीएस (RPS) तक हैंडल कर रहा है। हम सटीकता और रिकॉल दोनों को बेहतर बनाने के और भी तरीके खोजते रहते हैं।
वॉयस चैट में सूचनाओं के साथ हमें जो सफलता मिली है, उसके आधार पर, हमने टेक्स्ट चैट के लिए रीयल-टाइम फीडबैक लागू करना भी शुरू कर दिया है। हाल के प्रयोगों में, हमने पाया कि अनुभव के भीतर टेक्स्ट चैट सूचनाएं और टाइम-आउट जारी करने से फ़िल्टर किए गए चैट संदेशों में 5% की कमी और दुर्व्यवहार रिपोर्टों से होने वाले परिणामों में 6% की कमी आई। हम रचनाकारों द्वारा अपनी रचनाएं अपलोड करते समय रीयल-टाइम फीडबैक के साथ प्रयोग करना भी शुरू कर रहे हैं।
डेटा गुणवत्ता: निरंतर सुधार के लिए प्रशिक्षण मॉडल
हम इन प्रणालियों को कम फर्जी नकारात्मक परिणामों (गलत हटाने) के लिए प्रशिक्षित करते हैं—यानी किसी भी ऐसी चीज़ को हटाने से बचने के लिए जो नीति उल्लंघन हो सकती है। हम यह भी जानते हैं कि जब कोई ऐसी चीज़ हटा दी जाती है जिसे उपयोगकर्ता अनुपालन योग्य मानते हैं, तो उन्हें निराशा होती है। इसलिए हम फर्जी सकारात्मक परिणामों (गलत हटाने) को भी कम करने के लिए अपनी प्रणालियों में लगातार सुधार करते रहते हैं। सभी क्लासिफायरों की सटीकता में सुधार के लिए सही ढंग से लेबल किया गया डेटा आवश्यक है।
मजबूत प्रशिक्षण और मूल्यांकन डेटासेट बनाने के लिए पर्याप्त उच्च-गुणवत्ता वाले उदाहरणों और उन्हें सटीक रूप से लेबल करने के लिए मानवीय विशेषज्ञों, दोनों की आवश्यकता होती है। ऐसे मामले हैं जहाँ हमारे पास पर्याप्त डेटा नहीं होता है क्योंकि यह एक दुर्लभ परिदृश्य या एक एज केस होता है। कभी-कभी हमारे पास बहुत अधिक डेटा होता है और हमें सबसे प्रभावी उदाहरणों की पहचान करने की आवश्यकता होती है। और हमें ऐसे डेटा की आवश्यकता है जो वास्तव में Roblox पर हो रही चीज़ों से मेल खाता हो। इसमें क्षणिक उदाहरण, जैसे स्लैंग या मीम्स शामिल हैं। हमारे बच्चों, किशोरों और गेमर्स के दर्शक हमें हमेशा नए स्लैंग शब्द, नए रुझान और हमारे मॉडरेशन टूल्स को चकमा देने के नए तरीके बताते रहते हैं। वे हमें सतर्क रखते हैं, इसीलिए हम अपने मॉडरेशन टूल्स और अपनी नीतियों, दोनों का लगातार परीक्षण और मूल्यांकन करते हैं।
हम इन डेटासेटों को क्यूरेट करने के लिए विभिन्न प्रकार की सैंपलिंग रणनीतियों का उपयोग करते हैं, और हम इन डेटा उदाहरणों को उत्पन्न करने और लेबल करने के लिए एआई और मानव विशेषज्ञों दोनों का लाभ उठाते हैं। हमारे नीति विशेषज्ञ उदाहरणों को हाथ से क्यूरेट करते हैं, जिन्हें हम गोल्डन सेट कहते हैं। ये वे उदाहरण हैं जो उन मुद्दों से सबसे अधिक मेल खाते हैं जिन्हें हम सिस्टम से पता लगाने के लिए चाहते हैं। हम अनिश्चितता सैंपलिंग सहित कई सैंपलिंग रणनीतियों के साथ बहुत बड़े डेटासेट से नमूने लेते हैं, जिसमें हम उन एज केस (edge cases) के नमूने लेते हैं जिनमें मॉडल पहले भ्रमित था। हमें मानव विशेषज्ञों और एआई-सहायक रेड टीमों (AARTs के बारे में और अधिक) से नमूने मिलते हैं, जो कमजोरियों का पता लगाने के लिए प्रतिद्वंद्वी हमलों का अनुकरण करके सिस्टम का परीक्षण करते हैं।
जैसे-जैसे हमें नए मुद्दे, स्लैंग, मीम्स आदि मिलते हैं, हम अपने प्रशिक्षण सेट का विस्तार और सुधार भी करते हैं। हमें इनमें से कुछ उदाहरण हमारी अपील प्रक्रिया के माध्यम से मिलते हैं, जहाँ उपयोगकर्ता अतिरिक्त समीक्षा का अनुरोध कर सकते हैं। यदि निर्णय पलट जाता है, तो वह उदाहरण हमारे डेटासेट का हिस्सा बन जाता है ताकि हमारी प्रणाली को अगली बार सही परिणाम देने में मदद मिल सके।
हमें अन्य उदाहरण हमारी मजबूत दुरुपयोग रिपोर्टिंग प्रणाली से मिलते हैं, जो प्रभावी रूप से हमारे मानवीय मॉडरेटरों की टीम का विस्तार करके इसमें उन करोड़ों उपयोगकर्ताओं को शामिल करती है जो इन अनुभवों और समुदाय की परवाह करते हैं। हमने हाल ही में अपने रिपोर्टिंग टूल में सुधार किया है ताकि उपयोगकर्ताओं के पास एक पूरे दृश्य को कैप्चर करने का विकल्प हो, जिसमें अवतार और ऑब्जेक्ट आईडी शामिल हैं, और वे उस हिस्से को हाइलाइट कर सकें जिसे वे रिपोर्ट करना चाहते हैं। हमने उपयोगकर्ताओं द्वारा इसे अपनाने की दर में मजबूती देखी है, जिसमें लगभग 15% योग्य रिपोर्टों में दृश्य अटूटियाँ (visual annotations) प्रदान की जाती हैं। यह अतिरिक्त संदर्भ हमें उन समस्याग्रस्त अनुभवों की सक्रिय रूप से पहचान करने में मदद करता है जहाँ उपयोगकर्ता अक्सर चिंताएँ रिपोर्ट करते हैं। चूँकि मॉडल प्रशिक्षण तुरंत नहीं होता है, इसलिए हम अपनी प्रतिक्रिया क्षमता बढ़ाने के लिए उपयोगकर्ता रिपोर्टों से स्वचालित रूप से एआई-संचालित नियम बनाने की भी खोज कर रहे हैं।

हम इन डेटासेटों को सिंथेटिक डेटा से पूरक करते हैं, जहाँ बड़े भाषा मॉडल (एलएलएम) वास्तविक दुनिया के उदाहरणों का अनुकरण करने वाले कृत्रिम डेटा उदाहरण और लेबल उत्पन्न करते हैं। यहाँ लाभ यह है कि हम लाखों उदाहरणों और लेबलों को उत्पन्न कर सकते हैं, यहाँ तक कि किसी दुर्लभ या एज केस के लिए भी। एक बार जब हमारे पास पर्याप्त लेबल किया गया डेटा हो जाता है, तो हम इसे दो डेटासेटों में विभाजित करते हैं: एक प्रशिक्षण के लिए और एक मूल्यांकन के लिए। एक मजबूत मूल्यांकन डेटासेट का होना महत्वपूर्ण है: यदि मूल्यांकन सेट बहुत आसान है, तो मॉडल के मेट्रिक्स ऐसा दिखाएंगे कि यह अच्छी तरह से काम कर रहा है—लेकिन यह प्रोडक्शन में खराब प्रदर्शन करेगा। डेटा की मात्रा से अधिक डेटा की सटीकता महत्वपूर्ण है। 'गंदे इनपुट से गंदा आउटपुट' (Garbage in, garbage out) एमएल (ML) के साथ एक वास्तविक चिंता है क्योंकि मॉडल का प्रदर्शन इसे प्रशिक्षित और मूल्यांकन करने के लिए उपयोग किए गए डेटा की सटीकता पर बहुत अधिक निर्भर करता है।
एक बार जब हमारे पास एक मजबूत मूल्यांकन डेटासेट हो जाता है, तो हम इसका आकलन दो प्रमुख मेट्रिक्स के आधार पर करते हैं: संरेखण और गुणवत्ता। संरेखण का परीक्षण करने के लिए, उन्हीं उदाहरणों को लेबल करने के लिए कई लोगों को भेजा जाता है और यह देखा जाता है कि क्या उनके लेबल सहमत हैं (या संरेखित हैं)। यदि उनके लेबलों के बीच संरेखण 80% या उससे अधिक है, तो इसका मतलब है कि हमारे मॉडरेटर बड़े पैमाने पर सुसंगत निर्णय ले सकते हैं। यदि यह 80% से कम है, तो नीति या प्रशिक्षण भ्रमित करने वाला हो सकता है, और हमें दोहराव करना होगा। गुणवत्ता का परीक्षण करने के लिए, हम गोल्डन सेट को यह आकलन करने के लिए मनुष्यों को भेजते हैं कि क्या यह नीति का उल्लंघन करता है या नहीं और यह सुनिश्चित करते हैं कि वे सही निर्णय लें। हम विशेषज्ञों द्वारा समीक्षा के लिए निर्णयों का नमूना भी लेते हैं। यदि वे सभी सही निर्णय लेते हैं, तो हमारी नीति को सही ढंग से लागू किया जा सकता है। उच्च संरेखण और उच्च गुणवत्ता यह दर्शाता है कि हमारी नीति को सही और लगातार लागू किया जा सकता है। यदि नहीं, तो हम वापस जाकर नीति और प्रशिक्षण सेट दोनों का मूल्यांकन करते हैं।
रॉब्लॉक्स जैसे प्लेटफ़ॉर्म की रचनात्मक प्रकृति, जहाँ उपयोगकर्ता लगभग कुछ भी बनाने और संवाद करने के लिए स्वतंत्र हैं, का मतलब है कि यह हमेशा विकसित हो रहा है। हमारे समुदाय को सुरक्षित और सभ्य रखने के लिए हमारे मॉडरेशन तरीकों को भी उतनी ही तेजी से विकसित होना होगा। हमारी सक्रिय शिक्षण प्रणालियाँ भाषा के विकसित होने, उपयोगकर्ता के पैटर्न बदलने और वास्तविक दुनिया की घटनाओं के होने पर मॉडलों को लगातार अपडेट करती रहती हैं। हम लगातार ऐसी प्रणालियाँ बना रहे हैं जो स्केलेबल, तेज़, सटीक हों और उस गतिशील दुनिया के साथ लगातार अनुकूलन करें जिसमें हम सभी रहते हैं।
1 2025 की पहली तिमाही तक।
2 17 फरवरी, 2024 से 31 दिसंबर, 2024 तक की रिपोर्टिंग अवधि को कवर करता है।


