इस साइट की सामग्री का अनुवाद कृत्रिम बुद्धिमत्ता (AI) या मशीन अनुवाद तकनीक का उपयोग करके किया गया है, और इसमें त्रुटियाँ हो सकती हैं.

Skip to content

कंट्रोलनेट और स्टारकोडर: जेनरेटिव एआई के लिए रॉब्लॉक्स अनुसंधान में प्रगति

हम कृत्रिम बुद्धिमत्ता (एआई) सहित सभी क्षेत्रों में, ज़िम्मेदार और समुदाय से जुड़े शोध को आगे बढ़ाने के लिए पूरी तरह से प्रतिबद्ध हैं। हम पारदर्शिता, बाहरी सत्यापन, और सहयोग तथा प्रायोजन के माध्यम से शैक्षणिक संस्थानों का समर्थन करके यह हासिल करते हैं। यह दृष्टिकोण हमें हमारे तीन फोकस क्षेत्रों: जनरेटिव एआई, डेटा सेंटर स्केलिंग, और ऑनलाइन सुरक्षा में सबसे बड़ी प्रगति हासिल करने में तेजी लाने की अनुमति देता है। आज, हम अपनी दो जेनरेटिव एआई अनुसंधान परियोजनाओं से अंतर्दृष्टि और परिणाम साझा कर रहे हैं। कंट्रोलनेट एक ओपन-सोर्स न्यूरल नेटवर्क है जो अधिक सटीक छवि आउटपुट के लिए छवि निर्माण मॉडल में सशर्त नियंत्रण जोड़ता है। स्टारकोडर कोड निर्माण के लिए एक अत्याधुनिक ओपन-सोर्स लार्ज लैंग्वेज मॉडल (एलएलएम) है। 

दोनों परियोजनाएं अकादमिक और उद्योग सहयोग हैं। दोनों ही हमारे रचनाकारों: 3D कलाकारों और प्रोग्रामरों के लिए, मौलिक रूप से अधिक शक्तिशाली उपकरणों पर केंद्रित हैं। सबसे महत्वपूर्ण बात यह है कि परिवर्तनकारी अनुसंधान के माध्यम से दीर्घकालिक दृष्टिकोण में निवेश करने के हमारे मिशन के अनुरूप, ये परियोजनाएं कई अनुप्रयोगों के लिए एआई की मौलिक वैज्ञानिक समझ और नियंत्रण में प्रगति के संकेत दिखाती हैं। हमारा मानना है कि इस काम का रॉब्लॉक्स के भविष्य और समग्र रूप से इस क्षेत्र पर महत्वपूर्ण प्रभाव पड़ सकता है और हमें इसे खुले तौर पर साझा करने पर गर्व है।

कंट्रोलनेट

हाल की एआई प्रगति — विशेष रूप से गहरे तंत्रिका नेटवर्क का उपयोग करने वाली डेटा-संचालित मशीन लर्निंग (एमएल) विधियाँ — ने सृजनात्मक उपकरणों में नई प्रगति को बढ़ावा दिया है। इन प्रगति में हमारी कोड असिस्ट और मटेरियल जनरेटर सुविधाएँ शामिल हैं जो हमारे मुफ्त टूल, रॉब्लॉक्स स्टूडियो में सार्वजनिक रूप से उपलब्ध हैं। आधुनिक जनरेटिव एआई सिस्टम में मॉडल नामक डेटा संरचनाएं होती हैं जिन्हें अरबों प्रशिक्षण संचालन के माध्यम से परिष्कृत किया जाता है। आज के सबसे शक्तिशाली मॉडल मल्टीमोडल हैं, जिसका अर्थ है कि उन्हें टेक्स्ट, छवियों और ऑडियो जैसे मीडिया के मिश्रण पर प्रशिक्षित किया जाता है। यह उन्हें डेटा सेट के विशिष्ट तत्वों, जैसे कि रंग पैलेट या वर्तनी, पर ओवरफिट करने के बजाय मीडिया में अंतर्निहित सामान्य अर्थों को खोजने की अनुमति देता है। 

इन नई एआई प्रणालियों में अभिव्यक्ति की महत्वपूर्ण शक्ति है, लेकिन उस शक्ति को मुख्य रूप से "प्रॉम्प्ट इंजीनियरिंग" के माध्यम से निर्देशित किया जाता है। ऐसा करने का मतलब है बस इनपुट टेक्स्ट को बदलना, ठीक वैसे ही जैसे कोई सर्च इंजन क्वेरी को तब सुधारते हैं जब वह आपकी अपेक्षा के अनुरूप परिणाम न दे। हालांकि यह किसी नई तकनीक जैसे कि एक अनिर्देशित चैटबॉट के साथ खेलने का एक आकर्षक तरीका हो सकता है, लेकिन यह सामग्री बनाने का एक कुशल या प्रभावी तरीका नहीं है। इसके बजाय रचनाकारों को ऐसे शक्तिशाली उपकरणों की आवश्यकता है, जिनका वे अनुमान लगाने के बजाय सक्रिय नियंत्रण के माध्यम से प्रभावी ढंग से लाभ उठा सकें।

कंट्रोलनेट प्रोजेक्ट इन कुछ चुनौतियों को हल करने की दिशा में एक कदम है। यह प्रॉम्प्ट इंजीनियरिंग पर निर्भर किए बिना, स्टेबल डिफ्यूजन जैसे बड़े प्री-ट्रेन्ड एआई मॉडल की शक्ति का उपयोग करने का एक कुशल तरीका प्रदान करता है। कंट्रोलनेट केवल टेक्स्ट प्रॉम्प्ट से परे, अतिरिक्त इनपुट शर्तें प्रदान करने की अनुमति देकर कलाकार को अधिक नियंत्रण देता है। रॉब्लॉक्स शोधकर्ता और स्टैनफोर्ड विश्वविद्यालय के प्रोफेसर मनीष अग्रवाल और स्टैनफोर्ड शोधकर्ता ल्वमिन झांग हमारे संयुक्त कंट्रोलनेट प्रोजेक्ट के लक्ष्यों को इस प्रकार निर्धारित करते हैं:

  1. जेनरेटिव एआई टूल्स के लिए एक बेहतर उपयोगकर्ता इंटरफ़ेस विकसित करना। अस्पष्ट प्रॉम्प्ट हेरफेर से आगे बढ़ना और किसी विचार या रचनात्मक अवधारणा को संप्रेषित करने के अधिक प्राकृतिक तरीकों का निर्माण करना।
  2. अधिक सटीक स्थानिक नियंत्रण प्रदान करना, ताकि "एक छवि जैसी" या "…की शैली में एक छवि" बनाने से आगे बढ़कर, रचनाकार के मन में जो छवि है, उसे ठीक उसी तरह साकार किया जा सके।
  3. जेनेरेटिव एआई प्रशिक्षण को एक अधिक कंप्यूट-कुशल प्रक्रिया में बदलना जो तेज़ी से निष्पादित हो, जिसमें कम मेमोरी की आवश्यकता हो, और जो कम विद्युत ऊर्जा की खपत करे।
  4. छवि जनरेटिव एआई को एक पुन: प्रयोज्य बिल्डिंग ब्लॉक में विस्तारित करें। फिर इसे मानकीकृत छवि प्रसंस्करण और 3डी रेंडरिंग पाइपलाइनों के साथ एकीकृत किया जा सकता है। 

रचनाकारों को स्थानिक नियंत्रण के लिए एक अतिरिक्त छवि प्रदान करने की अनुमति देकर, कंट्रोलनेट अंतिम उत्पन्न छवि पर अधिक नियंत्रण प्रदान करता है। उदाहरण के लिए, एक मौजूदा टेक्स्ट-टू-इमेज जनरेटर पर "सींग वाले नर हिरण" का एक प्रॉम्प्ट ने विभिन्न प्रकार की छवियां उत्पन्न कीं, जैसा कि नीचे दिखाया गया है:

पहले के AI समाधानों से उत्पन्न ये छवियाँ आकर्षक हैं, लेकिन दुर्भाग्यवश ये मूलतः मनमाने परिणाम हैं—इन पर कोई नियंत्रण नहीं है। उन पुराने छवि-उत्पादन प्रणालियों में आउटपुट को नियंत्रित करने का कोई तरीका नहीं है, सिवाय टेक्स्ट प्रॉम्प्ट को संशोधित करने के।

ControlNet के साथ, निर्माता के पास अब कहीं अधिक शक्ति है। ControlNet का उपयोग करने का एक तरीका है कि पालन की जाने वाली सामान्य आकृति निर्धारित करने के लिए एक प्रॉम्प्ट और एक स्रोत छवि दोनों प्रदान की जाएँ। इस मामले में, परिणामी छवियाँ फिर भी विविधता प्रदान करेंगी, लेकिन, महत्वपूर्ण रूप से, निर्दिष्ट आकृति को बनाए रखेंगी:

निर्माता किनारों का एक सेट, बिना किसी प्रॉम्प्ट वाली एक छवि, या सिस्टम को अभिव्यक्तिपूर्ण इनपुट प्रदान करने के कई अन्य तरीके भी निर्दिष्ट कर सकता था।

एक कंट्रोलनेट बनाने के लिए, हम एक बड़े डिफ्यूजन मॉडल के नेटवर्क के भीतर वेट्स को दो संस्करणों में क्लोन करते हैं। एक है ट्रेनेबल नेटवर्क (यह नियंत्रण प्रदान करता है; यह "कंट्रोलनेट" है) और दूसरा है लॉक्ड नेटवर्क। लॉक्ड नेटवर्क अरबों छवियों से सीखी गई क्षमता को संरक्षित करता है और कोई भी पिछला इमेज जनरेटर हो सकता है। फिर हम अतिरिक्त छवि से सशर्त नियंत्रण सीखने के लिए ट्रेनेबल नेटवर्क को कार्य-विशिष्ट डेटा सेट पर प्रशिक्षित करते हैं। ट्रेनएबल और लॉक्ड कॉपीज़ एक अनोखे प्रकार की कन्वोल्यूशन लेयर से जुड़ी होती हैं जिसे हम ज़ीरो कन्वोल्यूशन कहते हैं, जहाँ कन्वोल्यूशन वेट्स सीखे हुए तरीके से शून्य से ऑप्टिमाइज़्ड पैरामीटर तक क्रमिक रूप से बढ़ते हैं, जिसका अर्थ है कि शुरुआत में उनका कोई प्रभाव नहीं होता है और सिस्टम लॉक्ड नेटवर्क पर लागू करने के लिए नियंत्रण का इष्टतम स्तर प्राप्त करता है।

चूंकि मूल वेट लॉक्ड नेटवर्क के माध्यम से संरक्षित रहते हैं, इसलिए मॉडल विभिन्न आकारों के प्रशिक्षण डेटा सेट के साथ अच्छी तरह से काम करता है। और ज़ीरो कन्वोल्यूशन लेयर इस प्रक्रिया को बहुत तेज़ बनाती है — यह शून्य से नई परतें प्रशिक्षित करने की तुलना में एक डिफ्यूज़न मॉडल को फाइन-ट्यून करने के करीब है। 

हमने छवि निर्माण के लिए इस तकनीक का व्यापक सत्यापन किया है। कंट्रोलनेट केवल आउटपुट छवि की गुणवत्ता में सुधार नहीं करता है। यह किसी विशिष्ट कार्य के लिए एक नेटवर्क के प्रशिक्षण को भी अधिक कुशल बनाता है और इस प्रकार हमारे लाखों निर्माताओं के लिए बड़े पैमाने पर इसे तैनात करना व्यावहारिक बनाता है। प्रयोगों में, कंट्रोलनेट उन वैकल्पिक परिदृश्यों की तुलना में 10 गुना तक की दक्षता वृद्धि प्रदान करता है जिनमें एक मॉडल को पूरी तरह से फिर से प्रशिक्षित करने की आवश्यकता होती है। यह दक्षता महत्वपूर्ण है, क्योंकि पारंपरिक सॉफ्टवेयर विकास की तुलना में नए मॉडल बनाने की प्रक्रिया समय लेने वाली और संसाधन-गहन होती है। प्रशिक्षण को अधिक कुशल बनाना बिजली बचाता है, लागत कम करता है, और उस दर को बढ़ाता है जिस पर नई कार्यक्षमता जोड़ी जा सकती है।

ControlNet की अनूठी संरचना का मतलब है कि यह विभिन्न आकारों के प्रशिक्षण डेटा सेट और कई अलग-अलग प्रकार के मीडिया के साथ अच्छी तरह से काम करता है। ControlNet को कई अलग-अलग प्रकार की नियंत्रण प्रणालियों (control modalities) के साथ काम करते हुए दिखाया गया है, जिसमें तस्वीरें, हाथ से खींची गई रेखाएँ, और ओपनपोज़ पोज़ डिटेक्शन शामिल हैं। हमारा मानना है कि जनरेटिव एआई सामग्री के लिए कंट्रोलनेट को कई अलग-अलग प्रकार के मीडिया पर लागू किया जा सकता है। यह शोध समुदाय के लिए प्रयोग करने और इसे आगे बढ़ाने हेतु खुला और सार्वजनिक रूप से उपलब्ध है, और इसके साथ और खोजें करने पर हम और जानकारी प्रस्तुत करना जारी रखेंगे।

स्टारकोडर

जेनरेटिव एआई का उपयोग छवियां, ऑडियो, टेक्स्ट, प्रोग्राम सोर्स कोड, या किसी अन्य प्रकार के रिच मीडिया को बनाने के लिए किया जा सकता है। हालांकि, विभिन्न मीडिया में, सबसे बड़ी सफलता वाले अनुप्रयोग वे होते हैं जिनके लिए आउटपुट का मूल्यांकन व्यक्तिपरक रूप से किया जाता है। उदाहरण के लिए, एक छवि तब सफल होती है जब वह एक मानव दर्शक को आकर्षित करती है। यदि समग्र छवि आकर्षक है तो छवि में कुछ त्रुटियाँ, जैसे किनारों पर अजीब विशेषताएँ या यहाँ तक कि हाथ पर एक अतिरिक्त उंगली, भी ध्यान न दें। इसी तरह, किसी कविता या लघु कहानी में व्याकरण संबंधी त्रुटियाँ या कुछ तार्किक छलांगें हो सकती हैं, लेकिन यदि सार आकर्षक है, तो हम इन्हें माफ कर देते हैं। 

व्यक्तिपरक मानदंडों पर विचार करने का एक और तरीका यह है कि परिणाम क्षेत्र निरंतर होता है। एक परिणाम दूसरे से बेहतर हो सकता है, लेकिन कोई ऐसी विशिष्ट सीमा नहीं है जिस पर परिणाम पूरी तरह से स्वीकार्य या अस्वीकार्य हो जाए। अन्य क्षेत्रों और मीडिया के रूपों के लिए आउटपुट का मूल्यांकन वस्तुनिष्ठ रूप से किया जाता है। उदाहरण के लिए, एक जेनरेटिव एआई प्रोग्रामिंग सहायक द्वारा उत्पन्न स्रोत कोड या तो सही होता है या नहीं। यदि कोड एक परीक्षण पास नहीं कर सकता है, तो वह विफल हो जाता है, भले ही वह एक मान्य समाधान के कोड के समान ही क्यों न हो। यह एक विच्छेदित परिणाम क्षेत्र है। एक विच्छेदित क्षेत्र में सफल होना दोनों ही कारणों से अधिक कठिन है क्योंकि मानदंड अधिक सख्त होते हैं और क्योंकि कोई क्रमिक रूप से एक अच्छे समाधान के करीब नहीं पहुँच सकता है—कोड या तो काम करता है या बिल्कुल नहीं करता।

टेक्स्ट आउटपुट के लिए उपयोग किए जाने वाले एलएलएम चैटबॉट जैसी व्यक्तिपरक, निरंतर अनुप्रयोगों के लिए अच्छी तरह से काम करते हैं। वे अंग्रेजी और फ्रेंच जैसी कई मानवीय भाषाओं में गद्य निर्माण के लिए भी अच्छी तरह से काम करते प्रतीत होते हैं। हालांकि, मौजूदा एलएलएम प्रोग्रामिंग भाषाओं के लिए उतना अच्छा काम नहीं करते दिखते जितना वे उन मानवीय भाषाओं के लिए करते हैं। कोड गणित का एक रूप है जो प्राकृतिक भाषा की तुलना में अर्थ व्यक्त करने का एक बहुत अलग, वस्तुनिष्ठ तरीका है। यह एक निरंतर परिणाम स्थान के बजाय एक असतत परिणाम स्थान है। Roblox निर्माताओं के लिए प्रोग्रामिंग भाषा कोड जनरेशन की उच्चतम गुणवत्ता प्राप्त करने के लिए, हमें LLMs को लागू करने के ऐसे तरीकों की आवश्यकता है जो इस विच्छेदित, वस्तुनिष्ठ स्थान में अच्छी तरह से काम कर सकें। हमें Lua, JavaScript, या Python जैसे किसी विशेष भाषा सिंटैक्स से स्वतंत्र रूप से कोड की कार्यक्षमता व्यक्त करने के लिए भी मजबूत तरीकों की आवश्यकता है। 

स्टारकोडर, कोड जनरेशन के लिए एक नया अत्याधुनिक ओपन-सोर्स एलएलएम, इस तकनीकी चुनौती में एक बड़ी प्रगति है और यह सभी के लिए एक वास्तव में खुला एलएलएम है। स्टारकोडर बिगकोड रिसर्च कंसोर्टियम का एक परिणाम है, जिसमें शैक्षणिक और उद्योग अनुसंधान प्रयोगशालाओं के 600 से अधिक सदस्य शामिल हैं। रोब्लॉक्स के शोधकर्ता और नॉर्थईस्टर्न यूनिवर्सिटी के प्रोफेसर अर्जुन गुहा ने स्टारकोडर विकसित करने के लिए इस टीम का नेतृत्व करने में मदद की। ये पहले प्रकाशित परिणाम विशेष रूप से कोड के पहलू पर केंद्रित हैं, जो वह क्षेत्र है जिसमें व्यक्तिपरक तरीकों की सापेक्ष सफलता को देखते हुए, इस क्षेत्र को सबसे अधिक नई वृद्धि की आवश्यकता है। 

LLM के माध्यम से जनरेटिव एआई प्रदान करने के लिए जो बड़े एआई इकोसिस्टम और Roblox समुदाय का समर्थन करते हैं, हमें ऐसे मॉडल की आवश्यकता है जो विशेष रूप से उचित रूप से लाइसेंस प्राप्त और जिम्मेदारी से एकत्र किए गए डेटा सेट पर प्रशिक्षित किए गए हों। इन पर बिना प्रतिबंध वाले लाइसेंस भी होने चाहिए ताकि कोई भी उनका उपयोग कर सके, उन पर निर्माण कर सके, और इकोसिस्टम में योगदान दे सके। आज, सबसे शक्तिशाली LLM स्वामित्व वाले हैं, या वाणिज्यिक उपयोग के सीमित रूपों के लिए लाइसेंस प्राप्त हैं, जो शोधकर्ताओं की मॉडल के साथ प्रयोग करने की क्षमता को प्रतिबंधित या सीमित करते हैं। इसके विपरीत, StarCoder एक वास्तव में खुला मॉडल है, जिसे उद्योग और शैक्षणिक शोधकर्ताओं के गठबंधन के माध्यम से बनाया गया है और इसे किसी भी पैमाने पर व्यावसायिक अनुप्रयोग के लिए बिना किसी प्रतिबंध के लाइसेंस प्राप्त है। StarCoder को विशेष रूप से जिम्मेदारी से एकत्रित, उचित रूप से लाइसेंस प्राप्त सामग्री पर प्रशिक्षित किया गया है। इस मॉडल को शुरू में सार्वजनिक कोड पर प्रशिक्षित किया गया था और उन लोगों के लिए एक ऑप्ट-आउट प्रक्रिया उपलब्ध है जो नहीं चाहते कि उनका कोड प्रशिक्षण के लिए उपयोग किया जाए।

आज, स्टारकोडर पाइथन, सी++, और जावा सहित 86 अलग-अलग प्रोग्रामिंग भाषाओं पर काम करता है। पेपर के प्रकाशन के समय तक, यह कई भाषाओं का समर्थन करने वाले हर ओपन कोड एलएलएम से बेहतर प्रदर्शन कर रहा था और कई बंद, मालिकाना मॉडल के साथ प्रतिस्पर्धी भी था। 

स्टारकोडर एलएलएम (LLM) इकोसिस्टम में एक योगदान है, लेकिन हमारा शोध लक्ष्य इससे कहीं अधिक गहरा है। इस शोध का सबसे बड़ा प्रभाव कोड, टेक्स्ट, छवियों, भाषण, वीडियो सहित वस्तुनिष्ठ और व्यक्तिपरक दोनों तरह के मल्टीमोडल मॉडलों की सेमांटिक मॉडलिंग को आगे बढ़ाना, और डोमेन-ट्रांसफर तकनीकों के माध्यम से प्रशिक्षण दक्षता को बढ़ाना है। हम स्रोत कोड जेनरेशन जैसे वस्तुनिष्ठ कार्यों के लिए जेनरेटिव एआई की मेंटेनेबिलिटी और कंट्रोलेबिलिटी में भी गहरी अंतर्दृष्टि प्राप्त करने की उम्मीद करते हैं। उभरती प्रौद्योगिकी के एक दिलचस्प प्रदर्शन और एक सुरक्षित, विश्वसनीय और कुशल उत्पाद के बीच एक बड़ा अंतर है जो अपने उपयोगकर्ता समुदाय के लिए मूल्य लाता है। हमारे एमएल मॉडल के लिए, हम मेमोरी फूटप्रिंट, ऊर्जा संरक्षण और निष्पादन समय के लिए प्रदर्शन को अनुकूलित करते हैं। हमने एक मजबूत बुनियादी ढांचा भी विकसित किया है, एआई कोर को सिस्टम के बाकी हिस्सों से जोड़ने के लिए सॉफ्टवेयर से घेर दिया है, और जैसे-जैसे नई सुविधाएँ जोड़ी जाती हैं, बार-बार अपडेट के लिए एक सहज प्रणाली विकसित की है। 

रॉब्लॉक्स के वैज्ञानिकों और इंजीनियरों को वैज्ञानिक समुदाय के कुछ सबसे तेज दिमागों के साथ एक साथ लाना, अभूतपूर्व तकनीक की हमारी खोज का एक प्रमुख घटक है। हमें इन शुरुआती परिणामों को साझा करने और शोध समुदाय को हमारे साथ जुड़ने और इन प्रगतिओं पर आगे बढ़ने के लिए आमंत्रित करने पर गर्व है।