जेनेरेटिव एआई के साथ Roblox पर निर्माण में क्रांति

इस साल की शुरुआत में, हमने रॉब्लॉक्स पर जेनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) के लिए अपनी दृष्टि साझा की थी और उन सहज नए उपकरणों के बारे में बताया था जो हर उपयोगकर्ता को एक निर्माता बनने में सक्षम बनाएंगे। जैसे-जैसे ये उपकरण पूरे उद्योग में तेजी से विकसित हो रहे हैं, मैं हमारे द्वारा की गई प्रगति, जेनरेटिव एआई निर्माण को लोकतांत्रित करने के लिए अभी भी आगे की राह, और हम क्यों सोचते हैं कि जेनरेटिव एआई रॉब्लॉक्स के भविष्य के लिए एक महत्वपूर्ण तत्व है, इस पर कुछ अपडेट देना चाहता था।
जेनरेटिव एआई और बड़े भाषा मॉडल (एलएलएम) में प्रगति, सुरक्षा बनाए रखते हुए और भारी कंप्यूट संसाधनों की आवश्यकता के बिना, आसान और तेज़ निर्माण को सक्षम करके इमर्सिव अनुभवों के भविष्य को अनलॉक करने का एक अविश्वसनीय अवसर प्रस्तुत करती है। इसके अलावा, मल्टीमोडल एआई मॉडल में प्रगति, जिसका अर्थ है कि वे कई प्रकार की सामग्री—जैसे छवियां, कोड, टेक्स्ट, 3डी मॉडल और ऑडियो—के साथ प्रशिक्षित होते हैं, निर्माण उपकरणों में नई प्रगति के लिए दरवाजे खोलती है। ये वही मॉडल मल्टीमोडल आउटपुट भी उत्पन्न करना शुरू कर रहे हैं, जैसे कि एक मॉडल जो टेक्स्ट आउटपुट के साथ-साथ कुछ दृश्य भी बना सकता है जो टेक्स्ट के पूरक हों। हम इन एआई उपलब्धियों को अधिक अनुभवी निर्माताओं की दक्षता को एक साथ बढ़ाने और रोब्लॉक्स पर और भी अधिक लोगों को बेहतरीन विचारों को साकार करने में सक्षम बनाने के एक विशाल अवसर के रूप में देखते हैं। इस वर्ष की रोब्लॉक्स डेवलपर्स कॉन्फ्रेंस (आरडीसी) में, हमने कई नए उपकरणों की घोषणा की जो जेनरेटिव एआई को रोब्लॉक्स स्टूडियो और उससे भी आगे लाएंगे ताकि रोब्लॉक्स पर किसी को भी तेजी से स्केल करने, अधिक तेज़ी से पुनरावृत्ति करने और बेहतर सामग्री बनाने के लिए अपने कौशल को बढ़ाने में मदद मिल सके।
रॉब्लॉक्स असिस्टेंट
Roblox ने हमेशा रचनाकारों को इमर्सिव 3D अनुभव बनाने के लिए आवश्यक उपकरण, सेवाएँ और समर्थन प्रदान किया है। साथ ही, हमने अपने रचनाकारों को बनाने में मदद के लिए थर्ड-पार्टी जेनरेटिव और संवादात्मक एआई का उपयोग शुरू करते देखा है। हालाँकि ये रचनाकारों के कार्यभार को कम करने में मददगार हैं, लेकिन ये ऑफ-द-शेल्फ संस्करण अंत-से-अंत (end-to-end) Roblox वर्कफ़्लो के लिए डिज़ाइन नहीं किए गए थे या Roblox कोड, स्लैंग और लिंगो पर प्रशिक्षित नहीं थे। इसका मतलब है कि रचनाकारों को Roblox के लिए सामग्री बनाने के लिए इन संस्करणों का उपयोग करने हेतु महत्वपूर्ण अतिरिक्त काम का सामना करना पड़ता है। हम इन उपकरणों के मूल्य को Roblox स्टूडियो में लाने के तरीकों पर काम कर रहे हैं, और RDC में हमने असिस्टेंट का एक शुरुआती उदाहरण साझा किया।
असिस्टेंट हमारा वार्तालाप एआई है जो सभी कौशल स्तरों के क्रिएटर्स को सामग्री बनाने में शामिल नीरस, दोहराव वाले कार्यों पर काफी कम समय बिताने में सक्षम बनाता है और उन्हें कथा, गेम-प्ले और अनुभव डिजाइन जैसी उच्च-मूल्य वाली गतिविधियों पर अधिक समय बिताने की अनुमति देता है। रोब्लॉक्स इमर्सिव 3D दुनिया के लिए इस वार्तालाप एआई मॉडल को बनाने के लिए एक अनूठी स्थिति में है, जिसका श्रेय प्रशिक्षण के लिए सार्वजनिक 3D मॉडलों के एक बड़े सेट तक हमारी पहुंच, हमारे प्लेटफ़ॉर्म एपीआई के साथ एक मॉडल को एकीकृत करने की हमारी क्षमता, और हमारे अभिनव एआई समाधानों के बढ़ते सूट को जाता है। निर्माता प्राकृतिक भाषा टेक्स्ट प्रॉम्प्ट का उपयोग करके सीन बना सकेंगे, 3D मॉडल संपादित कर सकेंगे, और वस्तुओं पर इंटरैक्टिव व्यवहार लागू कर सकेंगे। असिस्टेंट निर्माण के तीन चरणों: सीखना, कोडिंग, और बनाना का समर्थन करेगा:
- सीखना: चाहे कोई निर्माता रोब्लॉक्स पर विकसित करने में बिल्कुल नया हो या एक अनुभवी, रोब्लॉक्स असिस्टेंट प्राकृतिक भाषा का उपयोग करके विभिन्न प्रकार की सतहों पर सवालों के जवाब देने में मदद करेगा।
- कोडिंग: असिस्टेंट हमारे हाल के कोड असिस्ट टूल का विस्तार करेगा। उदाहरण के लिए, डेवलपर्स असिस्टेंट से अपने कोड को बेहतर बनाने, कोड के किसी हिस्से की व्याख्या करने, या ठीक से काम नहीं कर रहे कोड को डीबग करने और उसके लिए समाधान सुझाने के लिए कह सकते हैं।
- निर्माण: असिस्टेंट निर्माताओं को नए विचारों का तेजी से प्रोटोटाइप बनाने में मदद करेगा। उदाहरण के लिए, एक नया निर्माता "इस सड़क के किनारे कुछ स्ट्रीटलाइट लगाएं" या "अलग-अलग तरह के पेड़ों के साथ एक जंगल बनाएं। अब कुछ झाड़ियाँ और फूल जोड़ें" जैसे प्रॉम्प्ट टाइप करके पूरे सीन बना सकता है और उनके अलग-अलग संस्करण आज़मा सकता है।
असिस्टेंट के साथ काम करना सहयोगात्मक, इंटरैक्टिव और पुनरावृत्तिशील होगा, जिससे निर्माता प्रतिक्रिया दे सकेंगे और असिस्टेंट सही समाधान प्रदान करने के लिए काम करेगा। यह एक विशेषज्ञ निर्माता को भागीदार के रूप में रखने जैसा होगा, जिससे आप विचारों पर चर्चा कर सकें और सही होने तक विचारों को आज़मा सकें।
Assistant को सबसे अच्छा साथी बनाने के लिए, हमने RDC में एक और घोषणा की: हमने डेवलपर्स को अपने गुमनामीकृत Luau स्क्रिप्ट डेटा का योगदान करने के लिए आमंत्रित किया। यह स्क्रिप्ट डेटा हमारे AI टूल्स, जैसे Code Assist और Assistant, को अधिक कुशल कोड का सुझाव देने और बनाने में काफी बेहतर बनाने में मदद करेगा, जिससे उन Roblox डेवलपर्स को लाभ होगा जो उनका उपयोग करते हैं। इसके अलावा, यदि डेवलपर्स Roblox से परे साझा करने का विकल्प चुनते हैं, तो उनके स्क्रिप्ट डेटा को एक डेटा सेट में जोड़ा जाएगा जिसे तीसरे पक्षों को उनके AI चैट टूल को Luau कोड का सुझाव देने में बेहतर बनाने के लिए प्रशिक्षित करने हेतु उपलब्ध कराया जाएगा, जिससे दुनिया भर के Luau डेवलपर्स को लाभ होगा।
स्पष्ट करने के लिए, व्यापक उपयोगकर्ता अनुसंधान और शीर्ष डेवलपर्स के साथ पारदर्शी बातचीत के माध्यम से, हमने इसे वैकल्पिक (opt-in) बनाया है और यह सुनिश्चित करने में मदद करेगा कि सभी प्रतिभागी इस बात को समझें और सहमति दें कि इस कार्यक्रम में क्या शामिल है। Roblox के साथ स्क्रिप्ट डेटा साझा करने में भाग लेने का विकल्प चुनने वालों को धन्यवाद के रूप में, हम असिस्टेंट और कोड असिस्ट के अधिक शक्तिशाली संस्करणों तक पहुंच प्रदान करेंगे जो इस समुदाय-प्रशिक्षित मॉडल द्वारा संचालित हैं। जिन्होंने ऑप्ट-इन नहीं किया है, उन्हें असिस्टेंट और कोड असिस्ट के हमारे मौजूदा संस्करणों तक पहुंच जारी रहेगी।
अवतार बनाना आसान
अंततः, हम चाहते हैं कि हमारे 65.5 मिलियन दैनिक उपयोगकर्ताओं में से प्रत्येक के पास एक ऐसा अवतार हो जो वास्तव में उनका प्रतिनिधित्व करता हो और यह व्यक्त करता हो कि वे कौन हैं। हमने हाल ही में अपने UGC प्रोग्राम के सदस्यों के लिए अवतार बॉडी और स्टैंडअलोन हेड दोनों बनाने और बेचने की क्षमता जारी की है। आज, इस प्रक्रिया के लिए स्टूडियो या हमारे UGC प्रोग्राम तक पहुंच, एक काफी उच्च स्तर के कौशल, और चेहरे के भाव, शरीर की गति, 3D रिगिंग, आदि को सक्षम करने के लिए कई दिनों के काम की आवश्यकता होती है। यह अवतार बनाने में समय लेने वाला है और, अब तक, उपलब्ध विकल्पों की संख्या को सीमित कर दिया है। हम और भी आगे जाना चाहते हैं।
Roblox पर हर किसी को एक व्यक्तिगत, अभिव्यक्तिपूर्ण अवतार देने के लिए, हमें अवतारों को बनाना और अनुकूलित करना बहुत आसान बनाना होगा। RDC में, हमने एक नए टूल की घोषणा की जिसे हम 2024 में जारी कर रहे हैं, जो किसी छवि या कई छवियों से एक कस्टम अवतार बनाने को आसान बनाएगा। इस टूल के साथ, स्टूडियो या हमारे UGC प्रोग्राम तक पहुंच वाला कोई भी क्रिएटर एक छवि अपलोड कर पाएगा, उसके लिए एक अवतार बनाया जाएगा, और फिर उसे अपनी पसंद के अनुसार संशोधित कर पाएगा। लंबे समय में, हमारा इरादा इसे सीधे Roblox पर एक्सपीरियंस के भीतर भी उपलब्ध कराने का है।
इसे संभव बनाने के लिए, हम Roblox की अवतार स्कीमा और Roblox के स्वामित्व वाले 3D अवतार मॉडलों के एक सेट पर AI मॉडल को प्रशिक्षित कर रहे हैं। एक दृष्टिकोण 2D छवियों से 3D स्टाइलाइज़्ड अवतार उत्पन्न करने के लिए अनुसंधान का लाभ उठाता है। हम सीमित 3डी प्रशिक्षण डेटा को 2डी जेनरेटिव तकनीकों के साथ बढ़ाने के लिए प्री-ट्रेन्ड टेक्स्ट-टू-इमेज डिफ्यूजन मॉडल का उपयोग करने, और प्रशिक्षण के लिए एक जेनरेटिव एडवर्सरियल नेटवर्क (GAN)-आधारित 3डी जेनरेशन नेटवर्क का उपयोग करने पर भी विचार कर रहे हैं। अंत में, हम अवतारों की परिणामी मल्टी-व्यू छवियों का मार्गदर्शन करने के लिए पूर्वनिर्धारित पोज़ को परतों में लगाने हेतु कंट्रोलनेट का उपयोग करने पर काम कर रहे हैं।
यह प्रक्रिया अवतार के लिए एक 3D मेष बनाती है। इसके बाद, हम 3D अवतार पोज़ पर प्रशिक्षित 3D सेमंटिक सेगमेंटेशन रिसर्च का उपयोग करते हैं, ताकि उस 3D मेष को उपयुक्त चेहरे की विशेषताएँ, केजिंग, रिगिंग और टेक्सचर जोड़ने के लिए समायोजित किया जा सके, और मूल रूप से, स्थिर 3D मेष को एक Roblox अवतार में बदल दिया जा सके। अंत में, एक मेश-एडिटिंग टूल उपयोगकर्ताओं को मॉडल को मोर्फ़ और समायोजित करने की अनुमति देता है ताकि यह उनके कल्पना किए गए संस्करण जैसा दिखने लगे। और यह सब तेज़ी से होता है—कुछ ही मिनटों में—एक नया अवतार तैयार होता है जिसे Roblox में आयात किया जा सकता है और किसी अनुभव में उपयोग किया जा सकता है।
आवाज़ संचार का संचालन
हमारे लिए एआई सिर्फ़ सृजन के बारे में नहीं है, बल्कि यह बड़े पैमाने पर एक विविध, सुरक्षित और सभ्य समुदाय को सुनिश्चित करने के लिए एक कहीं अधिक कुशल प्रणाली भी है। जैसे ही हम वॉयस चैट और Roblox Connect, आपके अवतार के रूप में नई कॉलिंग सुविधा, और RDC में घोषित एपीआई सहित नई वॉयस सुविधाओं को शुरू कर रहे हैं, हमें एक नई चुनौती का सामना करना पड़ रहा है—वास्तविक समय में बोली जाने वाली भाषा को मॉडरेट करना। इसके लिए वर्तमान उद्योग मानक एक प्रक्रिया है जिसे स्वचालित भाषण मान्यता (ASR) के रूप में जाना जाता है, जो मूल रूप से एक ऑडियो फ़ाइल लेती है, उसे टेक्स्ट में बदलने के लिए ट्रांसक्राइब करती है, और फिर अनुचित भाषा, कीवर्ड आदि खोजने के लिए टेक्स्ट का विश्लेषण करती है।
यह उन कंपनियों के लिए अच्छी तरह से काम करता है जो इसे छोटे पैमाने पर उपयोग कर रही हैं, लेकिन जब हमने वॉयस कम्युनिकेशन को मॉडरेट करने के लिए इसी ASR प्रक्रिया का उपयोग करने का पता लगाया, तो हमें जल्द ही एहसास हुआ कि हमारे पैमाने पर यह मुश्किल और अप्रभावी है। यह दृष्टिकोण वक्ता की आवाज़ के वॉल्यूम और लहजे में निहित अत्यंत मूल्यवान जानकारी, साथ ही बातचीत के व्यापक संदर्भ को भी खो देता है। हमें हर दिन विभिन्न भाषाओं में जिन लाखों मिनटों की बातचीत को ट्रांसक्राइब करना पड़ता है, उनमें से केवल एक बहुत छोटा प्रतिशत ही अनुचित लग सकता है। और जैसे-जैसे हम विस्तार करते हैं, इस सिस्टम को गति बनाए रखने के लिए अधिक और अधिक कंप्यूटिंग शक्ति की आवश्यकता होगी। इसलिए हमने इस पर करीब से गौर किया कि हम इसे और अधिक कुशलता से कैसे कर सकते हैं, एक ऐसी पाइपलाइन बनाकर जो सीधे लाइव ऑडियो से सामग्री को लेबल करने तक जाती है, ताकि यह इंगित किया जा सके कि वह हमारी नीतियों का उल्लंघन करती है या नहीं।
अंततः, हम ASR का उपयोग करके अपने इन-हाउस वॉयस डेटा सेट का वर्गीकरण करने, और फिर उस वर्गीकृत वॉयस डेटा का उपयोग सिस्टम को प्रशिक्षित करने के लिए करने में सक्षम हुए। अधिक विशेष रूप से, इस नए सिस्टम को प्रशिक्षित करने के लिए, हम ऑडियो से शुरू करते हैं और एक प्रतिलिपि (transcript) बनाते हैं। फिर हम ऑडियो को वर्गीकृत करने के लिए ट्रांसक्रिप्ट को अपने Roblox टेक्स्ट फ़िल्टर सिस्टम से चलाते हैं। यह टेक्स्ट फ़िल्टर सिस्टम Roblox पर नीति-उल्लंघन वाली भाषा का पता लगाने में बहुत अच्छा है क्योंकि हम वर्षों से Roblox-विशिष्ट स्लैंग, संक्षिप्ताक्षर और बोलचाल की भाषा के लिए इसी फ़िल्टर सिस्टम को अनुकूलित करते आ रहे हैं। प्रशिक्षण की इन परतों के अंत में, हमारे पास एक ऐसा मॉडल है जो वास्तविक समय में सीधे ऑडियो से नीति उल्लंघनों का पता लगाने में सक्षम है।
हालाँकि इस सिस्टम में गाली-गलौज जैसे विशिष्ट कीवर्ड का पता लगाने की क्षमता है, लेकिन नीति उल्लंघन शायद ही कभी सिर्फ एक शब्द होते हैं। एक शब्द अक्सर एक संदर्भ में समस्याग्रस्त लग सकता है और दूसरे संदर्भ में बिल्कुल ठीक हो सकता है। मूल रूप से, इस प्रकार के उल्लंघनों में यह शामिल होता है कि आप क्या कह रहे हैं, आप इसे कैसे कह रहे हैं, और ये बयान किस संदर्भ में दिए गए हैं।
संदर्भ को बेहतर ढंग से समझने के लिए, हम एक ट्रांसफॉर्मर-आधारित आर्किटेक्चर की अंतर्निहित शक्ति का लाभ उठाते हैं, जो अनुक्रम सारांश में बहुत अच्छा है। यह डेटा के एक अनुक्रम, जैसे कि ऑडियो स्ट्रीम, को ले सकता है और आपके लिए उसका सारांश तैयार कर सकता है। यह आर्किटेक्चर हमें एक लंबी ऑडियो अनुक्रम को संरक्षित करने में सक्षम बनाता है ताकि हम न केवल शब्दों बल्कि संदर्भ और स्वरों को भी पहचान सकें। एक बार जब ये सभी तत्व एक साथ आ जाते हैं, तो हमारे पास एक अंतिम प्रणाली होती है जहाँ इनपुट ऑडियो होता है और आउटपुट एक वर्गीकरण होता है—नीति का उल्लंघन करता है या नहीं। यह सिस्टम कीवर्ड और नीति का उल्लंघन करने वाले वाक्यांशों का पता लगा सकता है, साथ ही स्वर, भावना और अन्य संदर्भ का भी पता लगा सकता है जो इरादा निर्धारित करने के लिए महत्वपूर्ण है। यह नया सिस्टम, जो सीधे ऑडियो से नीति का उल्लंघन करने वाले भाषण का पता लगाता है, एक पारंपरिक ASR सिस्टम की तुलना में काफी अधिक कंप्यूट कुशल है, जो इस बात की पुनर्कल्पना करने के हमारे प्रयासों के साथ-साथ इसे बड़े पैमाने पर लागू करना बहुत आसान बना देगा कि लोग कैसे एक साथ आते हैं।
हमें अपने वॉयस कम्युनिकेशन टूल्स पर इस तरह की भाषा के संभावित परिणामों के बारे में चेतावनी देने के लिए एक नए तरीके की भी आवश्यकता थी। हमारे पास इस अभिनव पहचान प्रणाली के साथ, हम अब एक सुरक्षित वातावरण बनाए रखने के लिए ऑनलाइन व्यवहार को प्रभावित करने के तरीकों का परीक्षण कर रहे हैं। हम जानते हैं कि लोग कभी-कभी अनजाने में हमारी नीतियों का उल्लंघन करते हैं और हम यह समझना चाहते हैं कि क्या कभी-कभार दिया गया कोई अनुस्मारक आगे के अपराधों को रोकने में मदद कर सकता है। इसमें मदद के लिए, हम सूचनाओं के माध्यम से वास्तविक समय में उपयोगकर्ता प्रतिक्रिया के साथ प्रयोग कर रहे हैं। यदि सिस्टम यह पता लगाता है कि आपने कुछ बार हमारी नीतियों का उल्लंघन किया है, तो हम आपकी स्क्रीन पर एक पॉप-अप सूचना प्रदर्शित करेंगे जो आपको सूचित करेगी कि आपकी भाषा हमारी नीतियों का उल्लंघन करती है और अधिक जानकारी के लिए आपको हमारी नीतियों पर निर्देशित करेगी।
हालांकि, वॉयस स्ट्रीम सूचनाएं मॉडरेशन सिस्टम का केवल एक तत्व हैं। हम अपने समग्र मॉडरेशन निर्णयों को चलाने के लिए प्लेटफ़ॉर्म पर व्यवहारिक पैटर्न, साथ ही Roblox पर दूसरों से मिली शिकायतों को भी देखते हैं। इन संकेतों के संचय के परिणामस्वरूप, ऑडियो सुविधाओं तक पहुंच रद्द करने सहित, या अधिक गंभीर उल्लंघनों के लिए, प्लेटफ़ॉर्म से पूरी तरह से प्रतिबंधित किए जाने जैसे, अधिक कठोर परिणाम हो सकते हैं। हमारे समुदाय को सुरक्षित और सभ्य रखना महत्वपूर्ण है क्योंकि मल्टीमोडल एआई मॉडल, जेनरेटिव एआई, और एलएलएम (LLMs) में ये प्रगति मिलकर रचनाकारों के लिए अविश्वसनीय नए उपकरणों और क्षमताओं को सक्षम कर रहे हैं।
हमारा मानना है कि रचनाकारों को ये उपकरण प्रदान करने से कम अनुभवी रचनाकारों के लिए प्रवेश की बाधा कम होगी और अधिक अनुभवी रचनाकार इस प्रक्रिया के अधिक थकाऊ कार्यों से मुक्त होंगे। इससे वे फाइन-ट्यूनिंग और विचार-मंथन के रचनात्मक पहलुओं पर अधिक समय बिता सकेंगे। इस सब का हमारा लक्ष्य हर किसी को, हर जगह, अपने विचारों को साकार करने में सक्षम बनाना है और Roblox पर उपलब्ध अवतारों, वस्तुओं और अनुभवों की विविधता को बहुत बढ़ाना है। हम नई रचनाओं की सुरक्षा में मदद करने के लिए जानकारी और उपकरण भी साझा कर रहे हैं।
हम पहले से ही अद्भुत संभावनाओं की कल्पना कर रहे हैं: मान लीजिए कोई सीधे एक तस्वीर से एक अवतार डोपलगैंगर बना पाता है, तो वे फिर अपने अवतार को लंबा करने या उसे एनीमे शैली में दिखाने के लिए अनुकूलित कर सकते हैं। या वे असिस्टेंट से कारें, इमारतें और दृश्य जोड़ने, लाइटिंग या हवा की स्थिति सेट करने, या इलाके को बदलने के लिए कहकर एक अनुभव बना सकते हैं। वहां से, वे असिस्टेंट के साथ बस आगे-पीछे टाइप करके चीजों को परिष्कृत करने के लिए सुधार कर सकते हैं। हम जानते हैं कि जब ये उपकरण उपलब्ध होंगे, तो लोगों द्वारा इनसे बनाई गई वास्तविकता हमारी कल्पना से भी कहीं आगे होगी।




