এই সাইটের বিষয়বস্তু কৃত্রিম বুদ্ধিমত্তা (AI) বা মেশিন অনুবাদ প্রযুক্তি ব্যবহার করে অনুবাদ করা হয়েছে এবং ত্রুটি থাকতে পারে।

Skip to content

রবলোক্স কিউব পরিচিতি: আমাদের ৩ডি ও ৪ডি-র জন্য মূল জেনারেটিভ এআই সিস্টেম

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • আমরা জেনারেটিভ এআই-এর জন্য আমাদের কিউব 3D ফাউন্ডেশন মডেল রিলিজ করছি।
  • আমরা Cube 3D ফাউন্ডেশন মডেলের একটি সংস্করণও ওপেন-সোর্স করছি।
  • Roblox Studio-তে এবং ইন-এক্সপেরিয়েন্স Lua API হিসেবে Cube 3D মেশ জেনারেেশনের বিটা সংস্করণ এই সপ্তাহে উপলব্ধ হবে। 

গত শরতে, আমরা Roblox-এ 3D অবজেক্ট এবং দৃশ্য তৈরি করার জন্য একটি ওপেন-সোর্স 3D ফাউন্ডেশন মডেল নির্মাণের একটি উচ্চাকাঙ্খী প্রকল্প ঘোষণা করেছিলাম। এই সপ্তাহে, আমরা এই মডেলের প্রথম রিলিজ ওপেন-সোর্স করছি, যাতে এটি GitHub এবং HuggingFace-এ Roblox প্ল্যাটফর্মের ভিতরে বা বাইরে যে কেউ ব্যবহার করতে পারে। আমরা এই মডেলটির নাম দিয়েছি কিউব 3D। আমরা আমাদের মেশ জেনারেট API-এর বিটা লঞ্চের মাধ্যমে এর প্রথম বৈশিষ্ট্যটি চালু করছি। কিউব আগামী বছরগুলোতে আমরা যেসব AI টুল তৈরি করব, তার অনেকগুলোর ভিত্তি হবে, যার মধ্যে অত্যন্ত জটিল সিন-জেনারেট টুলও থাকবে। এটি শেষ পর্যন্ত একটি মাল্টিমোডাল মডেল হবে, যা টেক্সট, ইমেজ, ভিডিও এবং অন্যান্য ধরনের ইনপুটে প্রশিক্ষিত হবে—এবং আমাদের বিদ্যমান AI সৃষ্টি টুলগুলোর সাথে একীভূত হবে।

Cube 3D সরাসরি টেক্সট এবং ভবিষ্যতে ইমেজ ইনপুট থেকে 3D মডেল ও পরিবেশ তৈরি করে। আজকের অত্যাধুনিক 3D জেনারেশন ছবি এবং পুনর্গঠন পদ্ধতি ব্যবহার করে 3D অবজেক্ট তৈরি করে। যখন পর্যাপ্ত 3D প্রশিক্ষণ ডেটা থাকে না, তখন এটি একটি ভালো বিকল্প। তবে, আমাদের প্ল্যাটফর্মের প্রকৃতির কারণে, আমরা নেটিভ 3D ডেটাতেই প্রশিক্ষণ দিই। তৈরি করা অবজেক্ট আজকের গেম ইঞ্জিনের সাথে সম্পূর্ণ সামঞ্জস্যপূর্ণ এবং এগুলোকে কার্যকরী করতে আরও বিস্তৃত করা যায়। 

এখানে পার্থক্যটি ঠিক একটি রেসট্র্যাক মুভি সেটের মতো। টিভিতে আপনি হয়তো দেখতে পান একটি সম্পূর্ণ কার্যকরী রেসট্র্যাক, যার স্ট্যান্ড, গ্যারেজ এবং একটি ভিক্টরি লেন রয়েছে। কিন্তু যদি আপনি সেই সেটের চারপাশে হাঁটেন, তাহলে দ্রুতই বুঝতে পারবেন যে সেই কাঠামোগুলো আসলে সমতল। একটি সত্যিকারের নিমগ্ন ৩ডি বিশ্ব তৈরি করতে প্রয়োজন সম্পূর্ণ, কার্যকরী কাঠামো, যার মধ্যে রয়েছে এমন গ্যারেজ যেখানে আপনি গাড়ি চালিয়ে প্রবেশ করতে পারেন, এমন স্ট্যান্ড যেখানে আপনি বসতে পারেন, এবং একটি কার্যকরী পডিয়ামসহ ভিক্টরি লেন।

এটি অর্জন করতে, আমরা টেক্সট টোকেন (অথবা অক্ষরের সেট) নিয়ে প্রশিক্ষিত সর্বাধুনিক মডেলগুলো থেকে অনুপ্রেরণা নিয়েছি, যেগুলো পরবর্তী টোকেন পূর্বাভাস দিয়ে একটি বাক্য গঠন করতে পারে। আমাদের উদ্ভাবন একই মূল ধারণার উপর ভিত্তি করে গড়ে উঠেছে। আমরা 3D অবজেক্টগুলোকে টোকেনাইজ করার এবং টোকেন হিসেবে আকৃতি বোঝার ক্ষমতা তৈরি করেছি এবং Cube 3D-কে একটি সম্পূর্ণ 3D অবজেক্ট তৈরি করার জন্য পরবর্তী আকৃতির টোকেন পূর্বাভাস দিতে প্রশিক্ষণ দিয়েছি। যখন আমরা এটিকে পুরো দৃশ্য তৈরিতে (full scene generation) প্রসারিত করি, তখন Cube 3D বিন্যাস (layout) পূর্বাভাস দেয় এবং সেই বিন্যাস সম্পূর্ণ করতে পুনরাবৃত্তিমূলকভাবে আকৃতি পূর্বাভাস দেয়।

যে কেউ তাদের নিজস্ব ডেটা ব্যবহার করে Cube 3D-কে ফাইন-টিউন করতে, প্লাগ-ইন তৈরি করতে বা প্রশিক্ষণ দিতে পারে, যাতে তা তাদের প্রয়োজন মেটাতে পারে। আমরা বিশ্বাস করি যে এআই টুলগুলো উন্মুক্ততা ও স্বচ্ছতার ভিত্তিতে তৈরি হওয়া উচিত, এজন্যই আমরা ওপেন-সোর্স এআই সম্প্রদায়ের একজন প্রতিশ্রুতিবদ্ধ অংশীদার। আমরা আমাদের একটি এআই সেফটি মডেল প্রকাশ করেছি কারণ আমরা দৃঢ়ভাবে বিশ্বাস করি যে এআই নিরাপত্তায় অগ্রগতি শেয়ার করা পুরো শিল্পকে উদ্ভাবন এবং প্রযুক্তিগত উন্নয়ন ত্বরান্বিত করতে সাহায্য করে। এই কারণেই, আমরা ROOST প্রতিষ্ঠায়ও সাহায্য করেছি, যা ওপেন-সোর্স নিরাপত্তা সরঞ্জামের মাধ্যমে ডিজিটাল নিরাপত্তার গুরুত্বপূর্ণ ক্ষেত্রগুলো মোকাবেলায় নিবেদিত একটি নতুন অলাভজনক সংস্থা। Cube 3D-কে ওপেন-সোর্স করার মাধ্যমে, আমাদের লক্ষ্য হল গবেষক, ডেভেলপার এবং বিস্তৃত এআই সম্প্রদায়কে 3D জেনারেশন শিল্পব্যাপী শেখা, বৃদ্ধি এবং উন্নতি করতে সক্ষম করা।

সৃষ্টির জন্য কিউব 3D

আমরা পূর্বেই আলোচনা করেছি যে কীভাবে এআই ৩ডি সম্পদ, আনুষাঙ্গিক এবং অভিজ্ঞতা তৈরিকে ত্বরান্বিত করতে পারে। শেষ পর্যন্ত এআই আরও নিমগ্ন এবং ব্যক্তিগতকৃত খেলাধুলা ও সংযোগকে সক্ষম করবে। আমরা সৃষ্টির চক্রের প্রতিটি ধাপে এআইকে সমর্থন করার জন্য অবকাঠামোতে বিনিয়োগ করি—এই অভিজ্ঞতাগুলির নির্মাতাদের এবং সেগুলিতে সময় ব্যয়কারী ব্যবহারকারীদের উভয়ের জন্যই। আমরা এমন একটি ভবিষ্যতের কথা কল্পনা করি যেখানে ডেভেলপাররা তাদের অভিজ্ঞতায় AI সক্রিয় করে ব্যবহারকারীদের সৃষ্টির নতুন উপায় দেবে। এর ফলে ৮৫ মিলিয়নেরও বেশি দৈনিক সক্রিয় ব্যবহারকারীর হাতে তাদের গেমপ্লের অংশ হিসেবে AI-এর ক্ষমতা চলে যাবে।

গত এক বছরে, আমরা Roblox Studio-এর মধ্যে আমাদের AI-চালিত Assistant-এর মাধ্যমে বেশ কয়েকটি নতুন ফিচার চালু করেছি, যাতে ডেভেলপাররা তাদের সৃষ্টির প্রতিটি ধাপে প্রয়োজনীয় টুলস ও ক্ষমতা পান এবং ঘণ্টার পর ঘণ্টা ম্যানুয়াল কাজ থেকে মুক্তি পান। Cube-এর মাধ্যমে, আমরা 3D সৃষ্টিকে আরও দক্ষ করে তুলতে চাই। 3D মেশ জেনারেশনের মাধ্যমে, ডেভেলপাররা দ্রুত নতুন সৃজনশীল দিকগুলো অন্বেষণ করতে পারবেন এবং কোনটি নিয়ে এগিয়ে যেতে হবে তা দ্রুত সিদ্ধান্ত নিয়ে তাদের উৎপাদনশীলতা বাড়াতে পারবেন।

ধরা যাক আপনি একটি রেসট্র্যাক গেম তৈরি করছেন। আজ, আপনি অ্যাসিস্ট্যান্টের মধ্যে মেষ জেনারেশন API ব্যবহার করতে পারেন একটি দ্রুত প্রম্পট টাইপ করে, যেমন "/generate a motorcycle" বা "/generate orange safety cone।" কয়েক সেকেন্ডের মধ্যে, API এই বস্তুগুলির একটি মেষ সংস্করণ তৈরি করবে। তারপর সেগুলোকে টেক্সচার, রঙ ইত্যাদি দিয়ে আরও সমৃদ্ধ করা যেতে পারে। এই API-এর মাধ্যমে, আপনি প্রপস মডেল করতে বা আপনার স্পেস ডিজাইন করতে অনেক দ্রুত করতে পারবেন—সরল বস্তু মডেল করতে ঘণ্টার পর ঘণ্টা ব্যয় করার কোনো প্রয়োজন নেই। এটি আপনাকে মজার বিষয়গুলিতে ফোকাস করতে দেয়, যেমন ট্র্যাকের বিন্যাস ডিজাইন করা এবং গাড়ির হ্যান্ডলিং সূক্ষ্মভাবে সামঞ্জস্য করা। এই API প্রতিটি তৈরি বস্তুতে ঘণ্টার পর ঘণ্টা সময় বাঁচায় এবং সেই সময় আপনাকে নতুন ধারণা নিয়ে পরীক্ষা-নিরীক্ষা করার জন্য ফেরত দেয়, অতিরিক্ত সময় বা প্রচেষ্টা ব্যয় করার চিন্তা ছাড়াই। দীর্ঘমেয়াদে, আমরা আরও জটিল এবং কার্যকরী বস্তু, এমনকি দৃশ্যও সক্ষম করার পরিকল্পনা করছি।

এই প্রযুক্তি প্রতিদিন Roblox-এ খেলেন এবং সংযোগ স্থাপন করেন এমন কয়েক কোটি সৃজনশীল মানুষের ক্ষেত্রেও প্রযোজ্য। আমরা এমন এক ভবিষ্যৎ দেখি যেখানে ডেভেলপাররা তাদের ব্যবহারকারীদের AI-এর মাধ্যমে সৃজনশীল নির্মাতায় পরিণত হতে সক্ষম করবেন। Mesh Generation API সক্রিয় থাকলে, খেলোয়াড়রা তাদের কল্পনায় যা কিছু আনতে পারে, তা বাস্তবে রূপ দিতে পারে। যদি কোনো খেলোয়াড় ভবিষ্যতের একটি গাড়ি চায়, তারা শুধু "পাশের পাখা সহ ভবিষ্যতের লাল গাড়ি" বা "কালো চামড়ার মোটরসাইকেল জ্যাকেট" টাইপ করলেই তা তৈরি হতে দেখবে। এই ধরনের ইন-গেম এআই জেনারেটেশন সৃজনশীলতার এক সম্পূর্ণ নতুন স্তর উন্মোচন করতে যাচ্ছে। খেলোয়াড়রা তাদের অভিজ্ঞতা এমনভাবে ব্যক্তিগতকরণ করতে পারবে যা ডেভেলপাররা কখনো কল্পনাও করেনি, এবং তা তাদের গেমগুলোকে আরও আকর্ষণীয় করে তুলবে।

আন্ডার দ্য হুড: 3D এবং টেক্সট/ইমেজ টোকেনের মধ্যে ক্রস অ্যাটেনশন

প্রধান প্রযুক্তিগত চ্যালেঞ্জ ছিল টেক্সট এবং ইমেজকে 3D আকৃতির সাথে সংযুক্ত করা। আমাদের মূল প্রযুক্তিগত সাফল্য হল 3D টোকেনাইজেশন, যা আমাদের 3D অবজেক্টগুলোকে ঠিক একইভাবে টোকেন হিসেবে উপস্থাপন করতে দেয় যেমন টেক্সটকে টোকেন হিসেবে উপস্থাপন করা যায়। এটি আমাদেরকে পরবর্তী আকৃতি পূর্বাভাস করার ক্ষমতা দেয়, ঠিক যেমন ভাষামূলক মডেলগুলো বাক্যে পরবর্তী শব্দ পূর্বাভাস করে।

3D জেনারেট করার জন্য, আমরা একক অবজেক্টের অটোরিগ্রেসিভ জেনারেশন, শেপ কমপ্লিশন, এবং মাল্টিঅবজেক্ট/সিন লেআউট জেনারেশনের জন্য একটি সমন্বিত আর্কিটেকচার ডিজাইন করেছি। অটোরিগ্রেসিভ ট্রান্সফরমার হল নিউরাল নেটওয়ার্ক যা পূর্ববর্তী ইনপুট ব্যবহার করে পরবর্তী উপাদান পূর্বাভাস দেয়। এই আর্কিটেকচার স্কেলযোগ্যতা এবং মাল্টিমোডাল সামঞ্জস্য উভয়ই প্রদান করে, যাতে মডেলটি সম্প্রসারণের সাথে সাথে বিভিন্ন ধরনের ইনপুট (টেক্সট, ভিজ্যুয়াল, অডিও, এবং 3D) এর সাথে কাজ করতে পারে। আমরা এই মডেলটি ওপেন-সোর্স করছি। এই প্রাথমিক পর্যায়ে, নির্মাতারা টেক্সট প্রম্পটের ভিত্তিতে ৩ডি অবজেক্ট তৈরি করতে সক্ষম হবেন। ভবিষ্যতে, আমরা চাই নির্মাতারা মাল্টিমোডাল ইনপুটের ভিত্তিতে সম্পূর্ণ দৃশ্য তৈরি করতে সক্ষম হবেন।

আকৃতি তৈরি করার জন্য একটি জেনারেটিভ প্রি-ট্রেনড ট্রান্সফরমার (GPT) প্রশিক্ষণ দিতে, আমরা পৃথক পৃথক 3D আকৃতির টোকেন ব্যবহার করি এবং সেগুলোকে টেক্সট প্রম্পটের সাথে সামঞ্জস্য করি। এই নতুন পদ্ধতি আমাদেরকে এমন একটি 3D দৃশ্য তৈরি করার জগতে নিয়ে যায় যা খেলা যাবে।

কিউব কোথায় যাচ্ছে

আজকাল বিশ্বের অধিকাংশই পাঠ্যের জন্য এআই ব্যবহার করে, বাক্যে শব্দ পূর্বাভাস দিতে। অনেকে ছবিতেও এটি ব্যবহার করে, পিক্সেল পূর্বাভাস দিতে। দৃশ্য তৈরি করার সময় এটি অনেক বেশি জটিল হয়ে ওঠে, যখন এই সব উপাদান একসঙ্গে আসে এবং পরস্পরের প্রেক্ষাপটে কাজ করতে হয়। উদাহরণস্বরূপ, একটি সাধারণ দৃশ্যের কথা ভাবুন যা বর্ণনা করা যায় "গাছপালা সহ একটি রেসট্র্যাকের সামনে মোটরসাইকেলে একটি অবতার" হিসেবে। 

এই অভিজ্ঞতা তৈরি করতে অনেক উপাদান লাগে। গাছগুলো দুইটি 3D মেশের সমন্বয়ে গঠিত, মোটরসাইকেলটি বিস্তারিত এবং ত্রিভুজাকার অংশ নিয়ে গঠিত একটি ঘন মেশ, এবং ভবনগুলো Roblox পার্টস দিয়ে তৈরি। মোটরবাইকে থাকা অবতারটির দেহ, অঙ্গপ্রত্যঙ্গ এবং মাথা আরও জটিল জ্যামিতিক বৈশিষ্ট্যে গঠিত। অবশেষে, আমাদের একটি লেআউটের মাধ্যমে সবকিছু একসঙ্গে সংযুক্ত করার উপায় প্রয়োজন। এর জন্য আমাদের বাউন্ডিং বক্সের (bounding boxes) প্রয়োজন, যা একটি বস্তুর আকার এবং অবস্থান নির্ধারণের জন্য তার সীমানা নির্দেশ করে, যাতে আমরা এই জ্যামিতি কীভাবে সাজাবো তা জানতে পারি। এটি একটি সময়সাপেক্ষ এবং কষ্টসাধ্য প্রক্রিয়া, তবে প্রতিটি ধাপে সাহায্য করার জন্য এআই (AI) সক্ষম। এআই-এর মাধ্যমে, নির্মাতারা প্রথম সংস্করণটি দ্রুত তৈরি করতে পারেন এবং নতুন ধারণা পরীক্ষা করতে বা তাদের দৃশ্য (scene) উন্নত করতে আরও সময় পেতে পারেন। 

যখন আমরা সেখানে পৌঁছাব, আমরা চাই আমাদের তৈরি করা 3D অবজেক্ট এবং দৃশ্যগুলো সম্পূর্ণরূপে কার্যকরী হোক। আমরা এটিকে 4D সৃষ্টি বলি, যেখানে চতুর্থ মাত্রা হলো অবজেক্ট, পরিবেশ এবং মানুষের মধ্যে পারস্পরিক ক্রিয়া। এটি অর্জন করতে হলে শুধুমাত্র নিমগ্ন 3D অবজেক্ট এবং দৃশ্য তৈরি করার ক্ষমতা নয়, বরং সেই অবজেক্টগুলোর প্রেক্ষাপট এবং সম্পর্কগুলো বোঝার ক্ষমতাও থাকা প্রয়োজন। এটাই সেই দিক যেখানে আমরা কিউব (Cube) নিয়ে এগিয়ে যাচ্ছি। 

মেষ জেনারেশনের এই প্রথম ব্যবহারের ক্ষেত্রেই সীমাবদ্ধ না থেকে, আমরা দৃশ্য তৈরি এবং বোঝাপড়ায়ও বিস্তৃত করার পরিকল্পনা করছি। আমরা ব্যবহারকারীদের তাদের সবচেয়ে আগ্রহের অভিজ্ঞতাগুলো প্রদান করতে এবং প্রাসঙ্গিক অবজেক্ট যোগ করে দৃশ্যগুলোকে সমৃদ্ধ করতে সক্ষম হব। উদাহরণস্বরূপ, একটি বন দৃশ্যের অভিজ্ঞতায়, একজন ডেভেলপার Assistant-কে ঋতু পরিবর্তনের ইঙ্গিত দিতে গাছের সব সবুজ পাতা শরতের পাতায় প্রতিস্থাপন করতে বলতে পারে। আমাদের AI Assistant টুলগুলো ডেভেলপারের অনুরোধে সাড়া দেয়, তাদের দ্রুত তাদের অভিজ্ঞতা তৈরি, অভিযোজিত এবং স্কেল করতে সাহায্য করে। 

আমরা আমাদের ফাউন্ডেশন মডেলকে উন্নত ও সম্প্রসারিত করার কাজ চালিয়ে যাব এবং আপডেট ও নতুন ফিচার শেয়ার করব। ততক্ষণে, আমরা আশা করি আপনি GitHub এবং HuggingFace-এ আমাদের ওপেন-সোর্স Cube 3D মডেলের সংস্করণ ব্যবহার করে উপভোগ করবেন এবং এর উপর ভিত্তি করে নতুন কিছু তৈরি করবেন।