রবলোক্সের 4D জেনারেটিভ এআই-এর পথে

- Roblox 4D জেনারেটিভ এআই-এর দিকে এগিয়ে যাচ্ছে, একক 3D অবজেক্টের বাইরে গতিশীল মিথস্ক্রিয়া পর্যন্ত বিস্তৃত হচ্ছে।
- ৪ডি চ্যালেঞ্জ সমাধান করতে চেহারা, আকৃতি, পদার্থবিজ্ঞান এবং স্ক্রিপ্ট জুড়ে বহুমোডাল বোঝাপড়া প্রয়োজন।
- আমাদের 4D সিস্টেমের ভিত্তি হিসেবে কাজ করা প্রাথমিক সরঞ্জামগুলো ইতিমধ্যেই প্ল্যাটফর্মে সৃজনশীলতাকে ত্বরান্বিত করছে।
রবলোক্স নির্মাতাদের তাদের ধারণাগুলোকে জীবন্ত করে তুলতে প্রয়োজনীয় টুলস, সেবা ও সহায়তা প্রদান করে ইমার্সিভ 3D অভিজ্ঞতা, অবতার এবং আনুষাঙ্গিক তৈরি করার ক্ষমতা দেয়। এই নির্মাতারা আমাদের প্ল্যাটফর্মে প্রাণবন্ত বিষয়বস্তু তৈরি করেন, যা (২০২৪ সালের প্রথম ত্রৈমাসিক অনুযায়ী) দৈনিক ৭৭ মিলিয়নেরও বেশি সক্রিয় ব্যবহারকারীকে আকৃষ্ট করে। আমাদের বিনামূল্যের Roblox Studio অ্যাপের মাধ্যমে, আমরা একটি জেনারেটিভ এআই টুলসের স্যুট প্রকাশ করেছি, যা বিশেষভাবে Roblox ওয়ার্কফ্লোর জন্য ডিজাইন করা হয়েছে এবং Roblox-নির্দিষ্ট বিষয়বস্তুতে প্রশিক্ষিত।
এই টুলগুলো বিশেষজ্ঞ এবং নবীনদের জন্য সৃষ্টিকে সহজ, আরও কার্যকর এবং আরও মজাদার করে তোলে। Assistant 3D ওয়ার্কস্পেস সম্পাদনা সক্ষম করে, Animation Capture মুখ এবং শরীরের গতি ধারণ করে, Code Assist স্ক্রিপ্ট সম্পাদনা এবং তৈরিতে সাহায্য করে, Material Generator টাইলিং ম্যাটেরিয়াল চেহারা সক্ষম করে, এবং Texture Generator সম্পদ-নির্দিষ্ট টেক্সচার ম্যাপিং সক্ষম করে। এই প্রতিটি জেনারেটিভ এআই টুল 3D সৃজনশীল প্রক্রিয়ার একটি অংশকে উন্নত করে।
একসঙ্গে, এই টুলগুলো একজন নির্মাতার দক্ষতা বৃদ্ধি করে এবং ধারণা থেকে সমাপ্তি পর্যন্ত সময় কমায়। আমরা আমাদের নিজস্ব উদ্ভাবনী গবেষণা সাফল্য এবং বৃহত্তর এআই ইকোসিস্টেমের সেরা সমাধানগুলি ব্যবহার করে এগুলো তৈরি করেছি। এগুলো 1D (স্ক্রিপ্ট), 2D (সারফেস), এবং 3D (স্পেস) এ পৃথক সম্পদ তৈরিকে সম্বোধন করে। আমরা আমাদের 3D জ্যামিতি জেনারেটেশন এবং এডিটিং ল্যাবের কিছু ফলাফল বিভিন্ন আন্তর্জাতিক গবেষণা সম্মেলনে, যার মধ্যে রয়েছে আমাদের নিজস্ব Roblox ডেভেলপার্স কনফারেন্সে, প্রিভিউ করি।
শিল্পক্ষেত্রে, 1D এবং 2D সর্বাধুনিক, এবং 3D জেনারেটিভ এআই-এর সর্বাধুনিক পর্যায়ে রয়েছে। প্রতিটিই ক্রমবর্ধমানভাবে একটি গুরুত্বপূর্ণ চ্যালেঞ্জ যা ক্রমাগত উত্তেজনাপূর্ণ প্রযুক্তিগত অগ্রগতিকে চালিত করে। যেহেতু আমরা 3D জগতে বাস করি, তাই এটিই চূড়ান্ত জেনারেটিভ এআই চ্যালেঞ্জ মনে হতে পারে। তবে, আমাদের সম্প্রদায়ের চাহিদার ভিত্তিতে, এই কাজের জন্য আমাদের দৃষ্টিভঙ্গি আরও বিস্তৃত।
আজ আমরা যেখানে আছি
আমরা ৪ডি জেনারেটিভ এআই-এর দিকে কাজ করছি, যেখানে চতুর্থ মাত্রা হলো ইন্টার্যাকশন। রবলোক্সের অনলাইন প্ল্যাটফর্মের শক্তি হল ইন্টার্যাকশন—মানুষ, বস্তু এবং পরিবেশের মধ্যে। প্রচলিত অনলাইন ভিডিও গেমের বিপরীতে, রবলোক্সের শক্তিশালী রানটাইম ইঞ্জিন ইন্টার্যাকশনে ফোকাস করা একটি অনন্য প্রোগ্রামিং এবং সিমুলেশন মডেলকে কাজে লাগায়। এই মডেলটি একটি মেটাভার্সের ধারণার দ্বারা অনুপ্রাণিত, যেখানে উপাদানগুলো পূর্বনির্ধারিত এবং সীমিত পদ্ধতির পরিবর্তে জটিল, বহু-থেকে-বহু এবং স্বতঃস্ফূর্ত উপায়ে মিলিত হয়।
1D, 2D, এবং 3D জেনারেটিভ AI টুলগুলো পৃথক পৃথক সম্পদ তৈরি করে। 4D জেনারেটিভ AI-তে আমাদের যে চ্যালেঞ্জটি রয়েছে তা হলো সেই সম্পদগুলোকে এমনভাবে জীবন্ত করে তোলা যাতে আমাদের প্ল্যাটফর্মের জন্য উপযুক্ত অবাধ মিথস্ক্রিয়া সম্ভব হয়। এর মানে হলো, উদাহরণস্বরূপ, একটি অবতার শুধু আকৃতি এবং রঙ নয়—এটি একটি কঙ্কাল, অ্যানিমেশন, এবং সরঞ্জাম ধরার ও ভারসাম্য রক্ষার ক্ষমতাও। সেই অবতার এমন পোশাকও পরতে পারে যা বিশেষভাবে তার জন্য ডিজাইন করা হয়নি, এবং যা স্বয়ংক্রিয়ভাবে নিখুঁতভাবে মানিয়ে নেয় এবং সমস্ত গতিবিধি ট্র্যাক করে। আমাদের নতুন Avatar AutoSetup টুল হল এরকম একটি প্রাথমিক উদাহরণ, যা দেখায় যে জেনারেটিভ এআই কীভাবে এই ধরনের সৃষ্টিকে স্বয়ংক্রিয় করতে সাহায্য করতে পারে। ডেভেলপাররা এখন এই প্রক্রিয়াটি ঘণ্টার বা দিনের পরিবর্তে কয়েক মিনিটের মধ্যে সম্পন্ন করতে পারেন।
একটি স্পোর্টস কার শুধু একটি মসৃণ আকৃতি এবং পৃষ্ঠের রঙ নয়—এটি ইঞ্জিন, চলমান অংশ এবং ফিজিক্স রিগও, যা এটিকে নির্ভুলতা ও নিয়ন্ত্রণে ভার্চুয়াল রাস্তা ধরে গর্জন করে ছুটে যেতে সক্ষম করে। প্রতিটি ক্ষেত্রেই বস্তুটি 3D থেকে প্রসারিত হয়ে ফিজিক্সের মাধ্যমে এর সমস্ত অংশের সাথে এবং ব্যবহারকারীর অবতারের মাধ্যমে তার সাথে মিথস্ক্রিয়া করে।
এই প্রতিটি সমৃদ্ধ ইন্টারেক্টিভ 4D উপাদানকে একটি বৃহত্তর পরিবেশে যুক্ত করা যেতে পারে, যেখানে জেনারেটিভ এআই প্রতিটি উপাদানের শৈলীকে সমন্বিত করে এবং বস্তুগুলোর মধ্যে ও পরিবেশের সাথে ইন্টারেক্টিভ সমর্থন যোগ করে। এখন একজন ব্যবহারকারী তাদের অবতারের মাধ্যমে একটি স্ট্রিট রেস চালাতে পারে, যেখানে থাকবে ক্ষতি সংশোধক (damage modifiers) এবং উচ্চ স্কোর, এবং একটি ব্র্যান্ডেড ফ্যাশন স্টোরের সামনে স্কিড করে থামতে পারে, যেখানে তারা তাদের জয় উদযাপন করতে নতুন পোশাক কেনে।
আজকাল, এমন অভিজ্ঞতা তৈরি করতে স্ক্রিপ্ট সোর্স কোড, কর্মক্ষেত্র এবং ডেটা মডেল কাঠামো, 3D জ্যামিতি, অ্যানিমেশন এবং ম্যাটেরিয়াল ম্যানুয়ালি তৈরি করতে হয়। আমাদের বিদ্যমান জেনারেটিভ এআই টুলগুলো পাইপলাইনের প্রতিটি অংশে সহায়তা করে। আমরা এমন একটি সিস্টেম তৈরি করছি যা এই সমস্ত উপাদানকে সংযুক্ত করবে এবং এগুলোকে একযোগে তৈরি করবে। এটি অর্জন করতে, আমাদের 4D জেনারেটিভ এআই সিস্টেমকে মাল্টিমোডাল পদ্ধতিতে প্রশিক্ষণ দিতে হবে, অর্থাৎ একাধিক ধরনের ডেটা একসঙ্গে ব্যবহার করে। এটি ইমেজ এবং টেক্সটের জন্য ইতিমধ্যেই করা হয়েছে, যা Material Generator-কে শক্তি জোগায়। ইন্টারঅ্যাকশন সক্ষম করা এবং ফিজিক্সের জন্য উদ্দেশ্য-নির্দিষ্ট অপ্টিমাইজার যোগ করাই হল 4D সক্ষমতার পরবর্তী স্তরে পৌঁছানোর উপায়।
গত এক বছরেই আমরা দেখেছি Roblox-এ বিষয়বস্তু তৈরির পদ্ধতিতে বিশাল পরিবর্তন এসেছে। সামনে তাকালে, আমরা এমন এক ভবিষ্যত দেখি যেখানে যে কেউ, যেকোনো স্থান থেকে, কেবল একটি কমান্ড টাইপ বা বলার মাধ্যমে একটি ধারণা বাস্তবে রূপ দিতে পারবে। সেখানে পৌঁছাতে, আমাদের পথে যে কিছু চ্যালেঞ্জ আসবে সেগুলো সমাধান করা শুরু করতে হবে।
আমাদের সামনে যে চ্যালেঞ্জগুলো
উপরের পরীক্ষামূলক কাজগুলো শীঘ্রই উপলব্ধ হবে। আরও দূরে, আমাদের তিনটি স্পষ্ট চ্যালেঞ্জ রয়েছে যা আমাদের সমাধান করতে হবে:
১. কার্যকরী: এই ভবিষ্যৎ জেনারেটিভ এআই টুল দ্বারা তৈরি বস্তুগুলো কার্যকরী হতে হবে। এখানে সিস্টেমকে একটি ট্রাক বা বিমানের 3D আকৃতি দেখে তা সিল করা অস্বচ্ছ বস্তু হিসেবে নয়, বরং অন্যভাবে বিবেচনা করতে হবে। এবং নির্মাতাকে হস্তক্ষেপ না করলেও, এটি স্বয়ংক্রিয়ভাবেই বুঝতে পারবে কোন অংশগুলোতে জয়েন্ট থাকা উচিত বা মেষ কোথায় খুলতে হবে।
এই সিস্টেমগুলোকে মানুষের-স্তরের একটি এআই সমস্যা সমাধান করতে হবে—উদাহরণস্বরূপ, সঠিক চাকার অবস্থান খুঁজে বের করা, এবং তারপর চাকার জন্য একটি অক্ষ যোগ করা যাতে সেগুলো বাস্তব জগতে যেমন চলে, ঠিক তেমনই চলে। এবং দরজা কোথায় আছে তা খুঁজে বের করে সেখানে একটি খোলা জায়গা তৈরি করা এবং হিঞ্জ যোগ করা যাতে দরজাটি খুলতে এবং বন্ধ হতে পারে।
২. ইন্টারেক্টিভ: এই ভবিষ্যৎ জেনারেটিভ এআই দিয়ে তৈরি আইটেমগুলোকে শুধুমাত্র স্বতন্ত্রভাবে কাজ করার নয়, পরিবেশের অন্যান্য বস্তুর সাথেও মিথস্ক্রিয়া করার ক্ষমতা থাকতে হবে। সুতরাং এখন যে সিস্টেম আমাদের জন্য একটি দরজা খোলা যায় এমন গাড়ি এবং ঘূর্ণায়মান চাকা তৈরি করেছে, তাকে সেই গাড়িটি যে জগতে রাখা হয়েছে তার পদার্থবিজ্ঞান বুঝতে হবে। যানটি ভূখণ্ডে কীভাবে চলবে? যদি এটি কোনো পাথরের সাথে ধাক্কা খায়, তাহলে পাথরটির আকার এবং যানটির গতির উপর ভিত্তি করে এটি কোথায় এবং কীভাবে ভাঁজ হবে?
এই জটিল চ্যালেঞ্জের জন্য তৈরি করা বস্তু এবং পরিবেশ বা যেসব বস্তুর সাথে এটি মিথস্ক্রিয়া করে, উভয়কেই একে অপরের পদার্থবিজ্ঞান বুঝতে হবে। সৌভাগ্যক্রমে, Roblox-এর এই বিষয়ে কিছুটা সুবিধা রয়েছে, কারণ প্ল্যাটফর্মটি একটি ফিজিক্স ইঞ্জিন হিসেবে তৈরি করা হয়েছে, যার অর্থ হল অভিজ্ঞতার সব বস্তুই ভৌত হতে পারে। যখন জেনারেটিভ এআই একটি 4D বস্তু তৈরি করে, তখন পৃথিবীর অন্যান্য ভৌত-ভিত্তিক বস্তুর সাথে মিথস্ক্রিয়া করার জন্য এটিকে প্রস্তুত করতে পদার্থ, ভর এবং শক্তি-এর মতো ভৌত গুণাবলীও যোগ করা হয়।
৩. নিয়ন্ত্রণযোগ্য: আজ, আমরা প্রম্পট ব্যবহার করে জেনারেটিভ এআই-এর সাথে যোগাযোগ করি। এটি একটি অনিখুঁত বিজ্ঞান, যা এক ধরনের অনুসন্ধানের মতো। কেউ যদি একটি বানি (bunny) এর ছবি চায়, তবে সে বিভিন্ন ধরনের ফলাফল পেতে পারে: একটি বাস্তব খরগোশ, একটি চকোলেটের ইস্টার বানি, একটি কার্টুন বানি, খরগোশের একটি চিত্রকর্ম, অথবা একটি কোট পরা খরগোশের ছবি। তাই আমরা প্রম্পটগুলো পরিমার্জন করি, ফটোরিয়ালিস্টিক ইমেজ বা "স্টাইলে" ইমেজ চাই, যাতে আমাদের মাথায় থাকা ভিশনটি সঠিকভাবে ফুটে ওঠে। আমরা যা খুঁজছি তার কাছাকাছি যেতে সময় এবং বারবার চেষ্টা করতে হয়।
কল্পনা করুন, এমন একটি 3D বস্তুর জন্য এই প্রক্রিয়াটি অনুসরণ করার চেষ্টা করা হচ্ছে যা কাজ করে এবং অন্যান্য বস্তুর সাথে মিথস্ক্রিয়া করে, যেমন আমাদের উপরের উদাহরণে ট্রাকটি। এই স্তরের প্রম্পট ইঞ্জিনিয়ারিং বহুগুণে জটিল হবে—এমন কিছু নয় যা যে কেউ সহজেই ব্যবহার করতে পারবে। একজন সৃষ্টিকর্তার ধারণা বাস্তবে রূপ দিতে, আমাদের যোগাযোগ এবং পরিমার্জন করার জন্য একটি দ্রুত, সহজ উপায় প্রয়োজন, মূলত এমন একটি AI সহকারীর সাথে সহযোগিতা করা যা একজন অংশীদার হিসেবে বেশি এবং অনুসন্ধান-খেলার মতো কম।
এটি একটি শিল্প-ব্যাপী চ্যালেঞ্জ, এবং অনেক কোম্পানি জেনারেটিভ এআই-তে আরও বেশি নিয়ন্ত্রণ আনতে কাজ করছে। আমরা এখানে ControlNet-এর মতো টুল দিয়ে কিছু অগ্রগতি করেছি, যা শুধুমাত্র টেক্সট প্রম্পটের বাইরেও অতিরিক্ত ইনপুট শর্ত প্রদানের মাধ্যমে সৃজনশীলকে নিয়ন্ত্রণ বাড়াতে দেয়। আমরা বর্তমানে এমন অন্যান্য পদ্ধতি অন্বেষণ করছি যা একটি সন্তোষজনক ওয়ার্কফ্লো-এর জন্য আশাব্যঞ্জক, যেমন—গুরুত্বপূর্ণ ধাপের পর AI-কে ব্যবহারকারীর ইনপুট নেওয়ার জন্য বিরতি দিতে বলা। কিন্তু একটি নির্বিঘ্ন অভিজ্ঞতা অর্জনের জন্য আমাদের অনেকদূর যেতে হবে।
এ পর্যন্ত আমরা যে প্রভাব দেখেছি তা নিয়ে আমরা উচ্ছ্বসিত, এবং সামনে যা আসছে তা নিয়ে আরও বেশি উচ্ছ্বসিত। যারা ম্যাটেরিয়াল জেনারেটরের বিটা ব্যবহার করছেন না, তাদের তুলনায় যারা এটি ব্যবহার করছেন তারা পদার্থবিজ্ঞান-ভিত্তিক রেন্ডারিং (PBR) ম্যাটেরিয়াল বৈচিত্র্য ব্যবহারে ১০০ শতাংশেরও বেশি বৃদ্ধি পেয়েছে—মার্চ ২০২৩-এ মাত্র এক হাজারের সামান্য বেশি থেকে জুন ২০২৪-এ দুই হাজারেরও বেশি হয়েছে। ২০২৪ সালের ২ জুন পর্যন্ত, নির্মাতারা কোড অ্যাসিস্ট দ্বারা প্রস্তাবিত প্রায় ৫৩৫ মিলিয়ন ক্যারেক্টারের কোড গ্রহণ করেছেন।
আমরা 4D-এর পথে এই চ্যালেঞ্জগুলো সমাধান করতে শুরু করার সাথে সাথে, আমাদের নির্মাতারা আরও বেশি এবং দ্রুত তৈরি করতে সক্ষম হবেন। আমরা আরও বেশি মানুষকে নির্মাতা হতে সক্ষম করার মাধ্যমে Roblox-এ অভিজ্ঞতার আরও বৈচিত্র্য দেখতেও আশা করছি। তারা যা তৈরি করবে এবং কীভাবে তৈরি করবে তা আমাদের দেখিয়ে দেবে কোথায় নতুন সরঞ্জাম এবং এআই অ্যালগরিদমে বিনিয়োগ করতে হবে, যাতে আমাদের বিদ্যমান সম্প্রদায়ের পাশাপাশি এই নতুন নির্মাতাদের ক্ষমতায়ন করা যায়।
৪ডি জেনারেটিভ এআই-এর মাধ্যমে, রবলোক্স অভিজ্ঞতা এবং সম্পদ সৃষ্টির জন্য একটি নতুন দিগন্ত উন্মোচন করেছে। যদিও চ্যালেঞ্জগুলো নতুন, আমাদের উদ্ভাবনের প্রক্রিয়া সুগঠিত। আমরা আমাদের শীর্ষস্থানীয় অভ্যন্তরীণ গবেষণা ও উন্নয়ন দল, বিশ্ববিদ্যালয় সহযোগিতা, এবং আমাদের সম্প্রদায়ের সাথে অংশীদারিত্বে প্রোটোটাইপের উপর দ্রুত পুনরাবৃত্তি একত্রিত করি।



