Roblox Cube सादर करत आहोत: 3D आणि 4D साठी आमची मुख्य जनरेटिव्ह AI प्रणाली

- आम्ही जनरेटिव्ह एआयसाठी आमचे Cube 3D फाउंडेशन मॉडेल जारी करत आहोत.
- आम्ही Cube 3D फाउंडेशन मॉडेलची एक आवृत्ती ओपन-सोर्स करत आहोत.
- क्यूब 3D मेष जनरेशनची बीटा आवृत्ती—Roblox स्टुडिओमध्ये आणि इन-एक्सपीरियन्स Lua API म्हणून—या आठवड्यात उपलब्ध होईल.
गेल्या शरद ऋतूत, आम्ही Roblox वर 3D वस्तू आणि दृश्ये तयार करण्यासाठी एक ओपन-सोर्स 3D फाउंडेशन मॉडेल तयार करण्याच्या महत्त्वाकांक्षी प्रकल्पाची घोषणा केली होती. या आठवड्यात, आम्ही या मॉडेलची पहिली रिलीझ ओपन-सोर्स करत आहोत, ज्यामुळे ते GitHub आणि HuggingFace वर Roblox प्लॅटफॉर्मवर किंवा त्याबाहेर कोणालाही वापरण्यासाठी उपलब्ध होईल. आम्ही या मॉडेलचे नाव क्यूब 3D ठेवले आहे. आमच्या मेश जनरेशन API च्या बीटा लाँचसह, आम्ही त्याच्या पहिल्या क्षमतांपैकी एक देखील सुरू करत आहोत. येत्या वर्षांत आम्ही विकसित करणार असलेल्या अनेक AI साधनांना, ज्यात अत्यंत गुंतागुंतीच्या सीन-जनरेशन साधनांचा समावेश असेल, त्यासाठी क्यूब आधारभूत ठरेल. हे शेवटी एक मल्टीमोडल मॉडेल असेल, जे मजकूर, प्रतिमा, व्हिडिओ आणि इतर प्रकारच्या इनपुटवर प्रशिक्षित असेल—आणि ते आमच्या विद्यमान AI निर्मिती साधनांसोबत एकत्रित होईल.
Cube 3D थेट मजकूरापासून आणि भविष्यात प्रतिमा इनपुट्समधून 3D मॉडेल्स आणि वातावरण तयार करते. आज, अत्याधुनिक 3D निर्मिती 3D वस्तू तयार करण्यासाठी प्रतिमा आणि पुनर्रचना पद्धतीचा वापर करते. जेव्हा पुरेसा 3D प्रशिक्षण डेटा उपलब्ध नसतो तेव्हा हा एक चांगला पर्याय असतो. तथापि, आमच्या प्लॅटफॉर्मच्या स्वरूपामुळे, आम्ही मूळ 3D डेटावर प्रशिक्षण देतो. तयार केलेली वस्तू आजच्या गेम इंजिन्सशी पूर्णपणे सुसंगत आहे आणि वस्तूंना कार्यक्षम बनवण्यासाठी ती विस्तारित केली जाऊ शकते.
येथे फरक हा रेसट्रॅक चित्रपटाच्या सेटसारखा आहे. टीव्हीवर, तुम्हाला स्टँड, गॅरेज आणि विजयाची लेन असलेला एक पूर्णपणे कार्यरत रेसट्रॅक दिसू शकतो. पण जर तुम्ही त्या सेटवर फेरफटका मारला, तर तुम्हाला लवकरच कळेल की त्या संरचना प्रत्यक्षात सपाट आहेत. खरोखरच मनोरम 3D जग तयार करण्यासाठी पूर्ण, कार्यरत संरचना आवश्यक आहेत, ज्यात तुम्ही गाडी घेऊन जाऊ शकता असे गॅरेज, तुम्ही बसू शकता असे स्टँड, आणि कार्यरत पोडियमसह विजयाची लेन असावी लागते.
हे साध्य करण्यासाठी, आम्ही मजकूर टोकन (किंवा अक्षरांच्या संचावर) प्रशिक्षित अत्याधुनिक मॉडेल्सकडून प्रेरणा घेतली आहे, जे वाक्य तयार करण्यासाठी पुढील टोकन भाकीत करू शकतात. आमची नवकल्पना त्याच मूलभूत कल्पनेवर आधारित आहे. आम्ही 3D वस्तूंचे टोकनाइझ करण्याची आणि टोकन म्हणून आकार समजून घेण्याची क्षमता विकसित केली आहे आणि पूर्ण 3D वस्तू तयार करण्यासाठी पुढील आकार टोकन काय असेल हे भाकीत करण्यासाठी आम्ही Cube 3D ला प्रशिक्षित केले आहे. जेव्हा आम्ही हे संपूर्ण सीन जनरेशनपर्यंत वाढवतो, तेव्हा Cube 3D लेआउट भाकीत करते आणि त्या लेआउटला पूर्ण करण्यासाठी परस्परक्रियेतून आकार भाकीत करते.
कोणीही त्यांच्या गरजेनुसार Cube 3D ला त्यांच्या स्वतःच्या डेटावर फाइन-ट्यून करू शकतो, त्यासाठी प्लग-इन विकसित करू शकतो किंवा त्याचे प्रशिक्षण देऊ शकतो. आमचा विश्वास आहे की AI साधने खुलेपणा आणि पारदर्शकतेवर आधारित असावीत, म्हणूनच आम्ही ओपन-सोर्स AI समुदायातील एक कटिबद्ध भागीदार आहोत. आम्ही आमच्या AI सुरक्षा मॉडेल्सपैकी एक जाहीर केला आहे कारण आमचा ठाम विश्वास आहे की AI सुरक्षेत झालेल्या प्रगतीची देवाणघेवाण केल्याने संपूर्ण उद्योगाला नवकल्पना आणि तांत्रिक प्रगतीला गती देण्यास मदत होते. या कारणास्तव, आम्ही ROOST या नवीन ना-नफा संस्थेची स्थापना करण्यातही मदत केली, जी ओपन-सोर्स सुरक्षा साधनांसह डिजिटल सुरक्षेतील महत्त्वाच्या क्षेत्रांवर काम करण्यासाठी समर्पित आहे. Cube 3D ला ओपन-सोर्स करून, आमचे उद्दिष्ट संशोधक, विकासक आणि विस्तृत AI समुदायाला 3D जनरेशनला संपूर्ण उद्योगात शिकवणे, वाढवणे आणि पुढे नेणे सक्षम करणे आहे.
निर्मितीसाठी क्यूब 3D
आम्ही यापूर्वीच चर्चा केली आहे की AI कसे 3D मालमत्ता, अॅक्सेसरी आणि अनुभव तयार करण्याची गती वाढवू शकते. शेवटी, AI अधिकच मनमोकळे आणि वैयक्तिकृत खेळ आणि संबंध सक्षम करेल. आम्ही निर्मिती चक्राच्या प्रत्येक टप्प्यावर AI ला समर्थन देण्यासाठी पायाभूत सुविधांमध्ये गुंतवणूक करतो—या अनुभवांच्या विकासकांसाठी तसेच त्यात वेळ घालवणाऱ्या वापरकर्त्यांसाठी. आम्ही अशा भविष्याची कल्पना करतो जिथे विकासक त्यांच्या अनुभवांमध्ये AI सक्षम करून त्यांच्या वापरकर्त्यांना नवीन प्रकारे निर्मिती करण्याचे मार्ग देतील. यामुळे त्यांच्या गेमप्लेचा भाग म्हणून 85 दशलक्षाहून अधिक दैनिक सक्रिय वापरकर्त्यांच्या हाती AI ची शक्ती येईल.
गेल्या वर्षभरात, आम्ही Roblox Studio मधील आमच्या AI-संचालित Assistant द्वारे अनेक नवीन वैशिष्ट्ये सादर केली आहेत, ज्यामुळे विकासकांना आवश्यक साधने आणि क्षमता उपलब्ध होतात आणि तासांचा हाताने होणारा कामाचा वेळ वाचतो. Cube द्वारे, आम्ही 3D निर्मिती अधिक कार्यक्षम बनवण्याचा मानस आहे. 3D मेश जनरेशनसह, विकासक नवीन सर्जनशील दिशांना पटकन शोधू शकतात आणि कोणत्या दिशेने पुढे जायचे हे त्वरीत ठरवून त्यांची उत्पादकता वाढवू शकतात.
समजा तुम्ही एक रेसट्रॅक गेम तयार करत आहात. आज, तुम्ही असिस्टंटमधील मेष जनरेशन API वापरून "/generate a motorcycle" किंवा "/generate orange safety cone" असे एक साधे प्रॉम्प्ट टाइप करू शकता. काही सेकंदात, ही API या वस्तूंचे मेष व्हर्जन तयार करेल. नंतर त्यावर टेक्सचर, रंग इत्यादींचा वापर करून त्याला अंतिम रूप देता येईल. या API मुळे तुम्ही प्रॉप्स मॉडेल करू शकता किंवा तुमची जागा डिझाइन खूप वेगाने करू शकता—साध्या वस्तूंचे मॉडेलिंग करण्यासाठी तास घालवण्याची गरज नाही. हे तुम्हाला ट्रॅकची रचना आणि कारच्या हाताळणीचे सूक्ष्मसमायोजन यांसारख्या मजेदार गोष्टींवर लक्ष केंद्रित करण्याची मुभा देते. ही API प्रत्येक तयार केलेल्या ऑब्जेक्टवर तास वाचवते आणि जास्त वेळ किंवा मेहनत खर्च होईल याची काळजी न करता नवीन कल्पनांसह प्रयोग करण्यासाठी तो वेळ तुम्हाला परत देते. दीर्घकालीन दृष्टीने, आम्ही अधिक जटिल आणि कार्यक्षम ऑब्जेक्ट्स, अगदी सीन्सही सक्षम करण्याची योजना आखत आहोत.






अंडर द हुड: 3D आणि मजकूर/प्रतिमा टोकन्स दरम्यान क्रॉस अटेंशन
मुख्य तांत्रिक आव्हान म्हणजे मजकूर आणि प्रतिमांना 3D आकारांशी जोडणे. आमचा मुख्य तांत्रिक शोध म्हणजे 3D टोकनायझेशन, ज्यामुळे आम्हाला 3D वस्तूंना मजकूराप्रमाणे टोकनमध्ये प्रतिनिधित्व करता येते. यामुळे आम्हाला पुढील आकार भाकीत करण्याची क्षमता मिळते, जसे भाषा मॉडेल्स वाक्यातील पुढील शब्द भाकीत करतात.

3D निर्मिती साध्य करण्यासाठी, आम्ही एकल वस्तूची ऑटो-रिग्रेशिव निर्मिती, आकार पूर्णता, आणि बहु-वस्तू/दृश्य लेआउट निर्मितीसाठी एकसंध आर्किटेक्चर डिझाइन केले आहे. ऑटो-रिग्रेशिव ट्रान्सफॉर्मर्स ही न्यूरल नेटवर्क आहेत जी पुढील घटक भाकीत करण्यासाठी मागील इनपुटचा वापर करतात. हे आर्किटेक्चर स्केलेबिलिटी आणि मल्टीमोडल सुसंगतता दोन्ही प्रदान करते, ज्यामुळे आपण मॉडेलचा विस्तार केल्यावर ते विविध प्रकारच्या इनपुट (टेक्स्ट, व्हिज्युअल, ऑडिओ, आणि 3D) सह काम करेल. आम्ही हा मॉडेल ओपन-सोर्स करत आहोत. या प्रारंभिक टप्प्यात, निर्माते मजकूर प्रॉम्प्टवर आधारित 3D वस्तू तयार करू शकतील. पुढे जाऊन, आमचा मानस आहे की निर्माते मल्टीमोडल इनपुटवर आधारित संपूर्ण सीन तयार करू शकतील.
आकार निर्मितीसाठी जनरेटिव्ह प्री-ट्रेन्ड ट्रान्सफॉर्मर (GPT) ला प्रशिक्षित करण्यासाठी, आम्ही डिस्क्रीट 3D आकार टोकन्स वापरतो आणि त्यांना टेक्स्ट प्रॉम्प्ट्सशी संरेखित करतो. हा नवीन दृष्टिकोन आम्हाला प्ले करण्यायोग्य 3D सीन निर्मितीच्या जगासाठी सज्ज करतो.

क्यूब कुठे जात आहे
आजकाल जगभरात बरेच लोक वाक्यमधील शब्द भाकीत करण्यासाठी मजकुरासाठी एआयचा वापर करतात. अनेकजण प्रतिमांसाठी पिक्सेल्स भाकीत करण्यासाठीही त्याचा वापर करतात. दृश्य तयार करताना हे खूपच गुंतागुंतीचे होते, कारण या सर्व घटक एकत्र येऊन परस्पर संदर्भात काम करणे आवश्यक असते. उदाहरणार्थ, एका साध्या दृश्याचा विचार करा ज्याचे वर्णन "झाडांसह असलेल्या रेसट्रॅकसमोर मोटरसायकलवर असलेला अवतार" असे करता येईल.
हा अनुभव तयार करण्यासाठी अनेक घटक एकत्र येतात. झाडे दोन 3D मेशचे संयोजन आहेत, मोटरसायकल तपशील आणि त्रिकोणांनी बनलेली एक घनदाट मेश आहे, आणि इमारती Roblox भागांपासून बनवलेल्या आहेत. मोटरसायकलवरील अवतारच्या शरीर, अवयव आणि डोक्यासाठी अधिक जटिल भूमितीय वैशिष्ट्ये आहेत. शेवटी, आपल्याला सर्वकाही एका लेआउटसह एकत्र बांधण्यासाठी एक मार्ग आवश्यक आहे. त्यासाठी, आपल्याला बाउंडिंग बॉक्सेसची (bounding boxes) गरज असते, जी एखाद्या वस्तूची आकारमान आणि स्थान ठरवण्यासाठी तिची सीमा आखतात, ज्यामुळे ही भूमिती कशी मांडायची हे समजू शकते. ही एक कष्टांची प्रक्रिया आहे, परंतु प्रत्येक टप्प्यावर मदत करण्यास एआय (AI) सक्षम आहे. एआयच्या मदतीने, निर्माते पहिली आवृत्ती लवकर तयार करू शकतात आणि नवीन कल्पनांची चाचणी करण्यासाठी किंवा त्यांच्या सीनला (scene) सुधारण्यासाठी अधिक वेळ मिळवू शकतात.
जेव्हा आपण तिथे पोहोचू, तेव्हा आम्हाला तयार केलेल्या 3D वस्तू आणि दृश्ये पूर्णपणे कार्यक्षम असावीत अशी आमची इच्छा आहे. आम्ही याला 4D निर्मिती म्हणतो, जिथे चौथा परिमाण म्हणजे वस्तू, पर्यावरण आणि लोकांमधील परस्परसंवाद होय. हे साध्य करण्यासाठी केवळ मनमग्न करणार्या 3D वस्तू आणि दृश्ये तयार करण्याचीच नव्हे, तर त्या वस्तूंमधील संदर्भ आणि संबंध समजून घेण्याचीही क्षमता आवश्यक आहे. Cube सोबत आम्ही याच दिशेने जात आहोत.
मेष निर्मितीच्या या पहिल्या उपयोगाच्या पलीकडे, आम्ही दृश्य निर्मिती आणि समजूत वाढवण्याचा मानस ठेवतो. आम्ही वापरकर्त्यांना त्यांचा सर्वात जास्त रस असलेला अनुभव देऊ शकू आणि संदर्भानुसार वस्तू जोडल्याने दृश्यांना अधिक समृद्ध करू शकू. उदाहरणार्थ, जंगलाच्या दृश्याच्या अनुभवात, एखादा विकासक Assistant ला हंगामातील बदलाचे सूचक म्हणून झाडांवरील सर्व हिरव्या पानांना शरद ऋतूतील पानांनी बदलण्यास सांगू शकतो. आमची AI Assistant साधने विकासकांच्या विनंत्यांवर प्रतिक्रिया देतात, ज्यामुळे त्यांना त्यांच्या अनुभवांना पटकन तयार करण्यास, अनुकूल करण्यास आणि वाढविण्यास मदत होते.
आम्ही आमच्या फाउंडेशन मॉडेलमध्ये सुधारणा आणि विस्तार करत राहू तसतसे आम्ही अद्यतने आणि नवीन कार्यक्षमता शेअर करू. तोपर्यंत, आम्हाला आशा आहे की तुम्हाला GitHub आणि HuggingFace वर उपलब्ध आमच्या Cube 3D मॉडेलच्या ओपन-सोर्स आवृत्तीचा वापर करून आणि त्यावर आधारित नवीन गोष्टी तयार करून आनंद होईल.



