इस साइट की सामग्री का अनुवाद कृत्रिम बुद्धिमत्ता (AI) या मशीन अनुवाद तकनीक का उपयोग करके किया गया है, और इसमें त्रुटियाँ हो सकती हैं.

Skip to content

रॉब्लॉक्स क्यूब का परिचय: 3D और 4D के लिए हमारा मुख्य जेनरेटिव एआई सिस्टम

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • हम जेनरेटिव एआई के लिए अपना क्यूब 3डी फाउंडेशन मॉडल जारी कर रहे हैं।
  • हम क्यूब 3D फाउंडेशन मॉडल का एक संस्करण ओपन-सोर्स भी कर रहे हैं।
  • क्यूब 3D मेष जनरेशन का बीटा संस्करण—Roblox स्टूडियो में और इन-एक्सपीरियंस Lua API के रूप में—इस सप्ताह उपलब्ध होगा। 

पिछली पतझड़ में, हमने Roblox पर 3D वस्तुएं और सीन बनाने के लिए एक ओपन-सोर्स 3D फाउंडेशन मॉडल बनाने की एक महत्वाकांक्षी परियोजना की घोषणा की थी। इस सप्ताह, हम इस मॉडल की पहली रिलीज़ को ओपन-सोर्स कर रहे हैं ताकि इसे GitHub और HuggingFace दोनों पर Roblox प्लेटफ़ॉर्म पर या उससे बाहर किसी के भी उपयोग के लिए उपलब्ध कराया जा सके। हमने इस मॉडल का नाम क्यूब 3डी रखा है। हम अपनी मेष जनरेशन एपीआई के बीटा लॉन्च के साथ इसकी पहली क्षमता भी लॉन्च कर रहे हैं। आने वाले वर्षों में हम जो कई एआई टूल विकसित करेंगे, उनमें क्यूब आधारभूत होगा, जिसमें अत्यधिक जटिल सीन-जनरेशन टूल भी शामिल हैं। यह अंततः एक मल्टीमोडल मॉडल होगा, जिसे टेक्स्ट, इमेज, वीडियो और अन्य प्रकार के इनपुट पर प्रशिक्षित किया जाएगा—और यह हमारे मौजूदा एआई निर्माण टूल के साथ एकीकृत होगा।

क्यूब 3डी सीधे टेक्स्ट और, भविष्य में, इमेज इनपुट से 3डी मॉडल और वातावरण उत्पन्न करता है। आज, अत्याधुनिक 3डी जनरेशन 3डी वस्तुओं को बनाने के लिए छवियों और पुनर्निर्माण दृष्टिकोण का उपयोग करती है। यह एक अच्छा विकल्प है जब पर्याप्त 3डी प्रशिक्षण डेटा नहीं होता है। हालाँकि, हमारे प्लेटफ़ॉर्म की प्रकृति के कारण, हम नेटिव 3डी डेटा पर प्रशिक्षण देते हैं। उत्पन्न वस्तु आज के गेम इंजनों के साथ पूरी तरह से संगत है और वस्तुओं को कार्यात्मक बनाने के लिए इसका विस्तार किया जा सकता है। 

यहाँ का अंतर एक रेसट्रैक मूवी सेट जैसा है। टीवी पर, आप एक पूरी तरह से कार्यात्मक रेसट्रैक जैसा कुछ देख सकते हैं, जिसमें स्टैंड, गैराज और एक विजयी लेन हो। लेकिन अगर आप उस सेट पर घूमेंगे, तो आपको जल्द ही एहसास होगा कि संरचनाएं वास्तव में सपाट थीं। एक सच्ची इमर्सिव 3डी दुनिया बनाने के लिए पूरी, कार्यात्मक संरचनाओं की आवश्यकता होती है, जिसमें ऐसे गैराज हों जिनमें आप गाड़ी चलाकर जा सकें, ऐसे स्टैंड हों जिनमें आप बैठ सकें, और एक कार्यात्मक पोडियम के साथ एक विजयी लेन हो।

इसे हासिल करने के लिए, हमने टेक्स्ट टोकन (या वर्णों के सेट) पर प्रशिक्षित अत्याधुनिक मॉडलों से प्रेरणा ली है, ताकि वे वाक्य बनाने के लिए अगले टोकन की भविष्यवाणी कर सकें। हमारी नवाचार भी इसी मूल विचार पर आधारित है। हमने 3D वस्तुओं को टोकनाइज़ करने और टोकन के रूप में आकृतियों को समझने की क्षमता विकसित की है और क्यूब 3डी को एक संपूर्ण 3D वस्तु बनाने के लिए अगले शेप टोकन का अनुमान लगाने के लिए प्रशिक्षित किया है। जब हम इसे पूरे सीन जेनरेशन तक विस्तारित करते हैं, तो क्यूब 3डी लेआउट का अनुमान लगाता है और उस लेआउट को पूरा करने के लिए पुनरावर्ती रूप से आकार का अनुमान लगाता है।

कोई भी व्यक्ति अपनी ज़रूरतों के अनुसार क्यूब 3डी को फ़ाइन-ट्यून कर सकता है, इसके लिए प्लग-इन विकसित कर सकता है, या अपने डेटा पर इसे प्रशिक्षित कर सकता है। हमारा मानना है कि एआई टूल खुलेपन और पारदर्शिता पर आधारित होने चाहिए, इसीलिए हम ओपन-सोर्स एआई समुदाय में एक प्रतिबद्ध भागीदार हैं। हमने अपने एआई सुरक्षा मॉडल में से एक जारी किया क्योंकि हमारा दृढ़ विश्वास है कि एआई सुरक्षा में प्रगति साझा करने से पूरे उद्योग को नवाचार और तकनीकी प्रगति को गति देने में मदद मिलती है। इसी कारण से, हमने ROOST की स्थापना में भी मदद की, जो ओपन-सोर्स सुरक्षा उपकरणों के साथ डिजिटल सुरक्षा के महत्वपूर्ण क्षेत्रों से निपटने के लिए समर्पित एक नया गैर-लाभकारी संगठन है। क्यूब 3डी को ओपन-सोर्स करने में, हमारा लक्ष्य शोधकर्ताओं, डेवलपर्स और व्यापक एआई समुदाय को उद्योग-व्यापी 3डी जनरेशन को सीखने, बढ़ाने और आगे बढ़ाने में सक्षम बनाना है।

रचना के लिए क्यूब 3डी

हम पहले भी इस बारे में बात कर चुके हैं कि एआई 3डी एसेट्स, एक्सेसरीज़ और अनुभवों के निर्माण को कैसे गति दे सकता है। अंततः एआई और भी अधिक इमर्सिव और व्यक्तिगत खेल और संबंधों को सक्षम करेगा। हम निर्माण चक्र के हर चरण में एआई का समर्थन करने के लिए बुनियादी ढांचे में निवेश करते हैं—इन अनुभवों के डेवलपर्स और उन उपयोगकर्ताओं दोनों के लिए जो उनमें समय बिताते हैं। हम एक ऐसे भविष्य की कल्पना करते हैं जहाँ डेवलपर्स अपने अनुभवों में एआई को सक्षम करके अपने उपयोगकर्ताओं को बनाने के नए तरीके देंगे। यह उनके गेमप्ले के हिस्से के रूप में 85 मिलियन से अधिक दैनिक सक्रिय उपयोगकर्ताओं के हाथों में एआई की शक्ति देता है।

पिछले वर्ष में, हमने Roblox Studio के भीतर अपने AI-संचालित असिस्टेंट के माध्यम से कई नई सुविधाएँ पेश की हैं, ताकि डेवलपर्स को वे उपकरण और क्षमताएँ प्रदान की जा सकें जिनकी उन्हें रचना करने और घंटों की मैन्युअल मेहनत को खत्म करने के लिए आवश्यकता है। Cube के साथ, हमारा इरादा 3D रचना को और अधिक कुशल बनाना है। 3D मेष जनरेशन के साथ, डेवलपर्स नई रचनात्मक दिशाओं का तेजी से पता लगा सकते हैं और यह तय करके अपनी उत्पादकता बढ़ा सकते हैं कि किस पर आगे बढ़ना है।

कल्पना कीजिए कि आप एक रेसट्रैक गेम बना रहे हैं। आज, आप असिस्टेंट में एक त्वरित प्रॉम्प्ट टाइप करके मेष जनरेशन एपीआई का उपयोग कर सकते हैं, जैसे "/generate a motorcycle" या "/generate orange safety cone." सेकंडों के भीतर, एपीआई इन वस्तुओं का एक मेष संस्करण बना देगा। फिर उन्हें टेक्सचर, रंग, आदि के साथ विकसित किया जा सकता है। इस एपीआई के साथ, आप प्रॉप्स का मॉडल या अपनी जगह का डिज़ाइन बहुत तेज़ी से कर सकते हैं—साधारण वस्तुओं का मॉडल बनाने में घंटों खर्च करने की कोई आवश्यकता नहीं है। यह आपको मज़ेदार चीज़ों पर ध्यान केंद्रित करने देता है, जैसे कि ट्रैक लेआउट डिज़ाइन करना और कार हैंडलिंग को ठीक करना। यह एपीआई बनाए गए प्रत्येक ऑब्जेक्ट पर घंटों बचाता है और आपको वह समय नए विचारों के साथ प्रयोग करने के लिए वापस देता है, इस चिंता के बिना कि बहुत अधिक समय या प्रयास खर्च हो जाएगा। लंबे समय में, हम और अधिक जटिल और कार्यात्मक ऑब्जेक्ट, यहां तक कि सीन को भी सक्षम करने की योजना बना रहे हैं।

यह तकनीक उन करोड़ों रचनात्मक लोगों तक फैली हुई है जो हर दिन Roblox पर खेलते और जुड़ते हैं। हम एक ऐसे भविष्य की कल्पना करते हैं जहाँ डेवलपर्स अपने उपयोगकर्ताओं को AI का उपयोग करके निर्माता बनने में सक्षम बनाएँगे। Mesh Generation API सक्षम होने पर, खिलाड़ी अपनी कल्पना में जो कुछ भी ला सकते हैं, उसे जीवंत कर सकते हैं। यदि कोई खिलाड़ी एक भविष्यवादी कार चाहता है, तो वे बस "साइड विंग्स वाली भविष्य की लाल कार" या "काले चमड़े की मोटरसाइकिल जैकेट" टाइप कर सकते हैं और उसे बनते हुए देख सकते हैं। इस तरह की इन-गेम एआई जनरेशन रचनात्मकता के एक बिल्कुल नए स्तर को अनलॉक करने जा रही है। खिलाड़ी अपने अनुभव को उन तरीकों से निजीकृत कर सकते हैं जिनकी डेवलपर्स ने कभी कल्पना भी नहीं की थी, और यह उनके खेलों को और भी आकर्षक बनाने वाला है।

अंडर द हुड: 3D और टेक्स्ट/इमेज टोकन के बीच क्रॉस अटेंशन

मुख्य तकनीकी चुनौती टेक्स्ट और छवियों को 3D आकारों से जोड़ना था। हमारी मुख्य तकनीकी सफलता 3D टोकनाइज़ेशन है, जो हमें 3D वस्तुओं को उसी तरह टोकन के रूप में प्रस्तुत करने की अनुमति देता है जैसे टेक्स्ट को टोकन के रूप में प्रस्तुत किया जा सकता है। यह हमें अगले आकार का अनुमान लगाने की क्षमता देता है, ठीक वैसे ही जैसे भाषा मॉडल किसी वाक्य में अगले शब्द का अनुमान लगाते हैं।

3डी जनरेशन हासिल करने के लिए, हमने एकल वस्तु की ऑटो-रिग्रेशन जनरेशन, आकार पूर्ति, और मल्टी-ऑब्जेक्ट/सीन लेआउट जनरेशन के लिए एक एकीकृत आर्किटेक्चर डिज़ाइन किया है। ऑटो-रिग्रेशन ट्रांसफॉर्मर ऐसे न्यूरल नेटवर्क हैं जो अगले घटक की भविष्यवाणी करने के लिए पिछले इनपुट का उपयोग करते हैं। यह आर्किटेक्चर स्केलेबिलिटी और मल्टीमोडल संगतता दोनों प्रदान करता है ताकि जैसे-जैसे हम मॉडल का विस्तार करेंगे, यह कई अलग-अलग प्रकार के इनपुट (टेक्स्ट, विज़ुअल, ऑडियो और 3डी) के साथ काम करेगा। हम इस मॉडल को ओपन-सोर्स कर रहे हैं। इस शुरुआती चरण में, निर्माता टेक्स्ट प्रॉम्प्ट के आधार पर 3D वस्तुएँ बना सकेंगे। भविष्य में, हमारा इरादा है कि निर्माता मल्टीमोडल इनपुट के आधार पर पूरे सीन बना सकें।

आकार निर्माण के लिए एक जेनरेटिव प्री-ट्रेन्ड ट्रांसफॉर्मर (GPT) को प्रशिक्षित करने के लिए, हम अलग-अलग 3D आकार टोकन का उपयोग करते हैं और उन्हें टेक्स्ट प्रॉम्प्ट के साथ संरेखित करते हैं। यह नया दृष्टिकोण हमें एक ऐसी 3D सीन निर्माण की दुनिया के लिए तैयार करता है जिसे खेला जा सकता है।

क्यूब किस ओर जा रहा है

आज, दुनिया का एक बड़ा हिस्सा वाक्य में शब्दों की भविष्यवाणी करने के लिए टेक्स्ट के लिए एआई का उपयोग करता है। कई लोग पिक्सल की भविष्यवाणी करने के लिए छवियों के लिए भी इसका उपयोग करते हैं। जब सीन बनाने की बात आती है, तो यह और भी जटिल हो जाता है, जहाँ ये सभी तत्व एक साथ आते हैं और एक-दूसरे के संदर्भ में काम करने की आवश्यकता होती है। उदाहरण के लिए, एक ऐसे अनुभव की कल्पना करें जिसमें एक साधारण सीन हो जिसे "पेड़ों के साथ एक रेसट्रैक के सामने मोटरसाइकिल पर एक अवतार" के रूप में वर्णित किया जा सकता है। 

इस अनुभव को बनाने में कई तत्व शामिल होते हैं। पेड़ दो 3D मेश (3D meshes) का संयोजन हैं, मोटरसाइकिल विवरण और त्रिभुजों के साथ एक घनी मेश है, और इमारतें Roblox पार्ट्स से बनी हैं। मोटरबाइक पर अवतार के शरीर, अंगों और सिर के लिए अधिक जटिल ज्यामितीय विशेषताएँ हैं। अंत में, हमें एक लेआउट के साथ इसे सब एक साथ जोड़ने का एक तरीका चाहिए। इसके लिए, हमें बाउंडिंग बॉक्स की आवश्यकता होती है, जो किसी वस्तु के आकार और स्थान को परिभाषित करने के लिए उसकी रूपरेखा तैयार करते हैं, ताकि यह पता चल सके कि इस ज्यामिति को कैसे व्यवस्थित किया जाए। यह एक मेहनत का काम है, लेकिन एआई प्रत्येक चरण में मदद करने में सक्षम है। एआई के साथ, निर्माता पहले संस्करण तक तेजी से पहुंच सकते हैं और नए विचारों का परीक्षण करने या अपने सीन को बेहतर बनाने के लिए अधिक समय पा सकते हैं। 

जब हम उस स्तर पर पहुँचेंगे, तो हम चाहते हैं कि हमारे द्वारा बनाई गई 3D वस्तुएँ और सीन पूरी तरह से कार्यात्मक हों। हम इसे 4D सृजन कहते हैं, जहाँ चौथा आयाम वस्तुओं, वातावरण और लोगों के बीच की बातचीत है। इसे प्राप्त करने के लिए न केवल इमर्सिव 3D वस्तुएँ और सीन बनाने की क्षमता, बल्कि उन वस्तुओं के बीच के संदर्भों और संबंधों को समझने की क्षमता भी आवश्यक है। यही वह जगह है जहाँ हम क्यूब (Cube) के साथ जा रहे हैं। 

मेश जनरेशन के इस पहले उपयोग के मामले से परे, हम सीन जनरेशन और समझ तक विस्तार करने की योजना बना रहे हैं। हम उपयोगकर्ताओं को वे अनुभव प्रदान कर पाएंगे जिनमें उनकी सबसे अधिक रुचि है और संदर्भ के अनुसार वस्तुओं को जोड़कर दृश्यों को बढ़ा पाएंगे। उदाहरण के लिए, जंगल के दृश्य वाले एक अनुभव में, एक डेवलपर Assistant से मौसम बदलने का संकेत देने के लिए पेड़ों की सभी हरी-भरी पत्तियों को पतझड़ की पत्तियों से बदलने के लिए कह सकता है। हमारे AI Assistant टूल डेवलपर के अनुरोधों पर प्रतिक्रिया करते हैं, जिससे उन्हें अपने अनुभवों को तेजी से बनाने, अनुकूलित करने और स्केल करने में मदद मिलती है। 

हम अपने फाउंडेशन मॉडल में सुधार और विस्तार करते रहने पर अपडेट और नई कार्यक्षमता साझा करेंगे। तब तक, हम आशा करते हैं कि आप क्यूब 3D मॉडल के हमारे ओपन-सोर्स संस्करण का उपयोग करने और उस पर निर्माण करने का आनंद लेंगे, जिसे आप GitHub और HuggingFace पर एक्सेस कर सकते हैं।