শেয়ার করুন

রবলোক্স কীভাবে বিশাল পরিসরে বিষয়বস্তু মডারেট করতে এআই ব্যবহার করে

প্রতিদিন ২৫টি ভাষায় বিলিয়ন বিলিয়ন সামগ্রী বাস্তব সময়ে মডিারেট করা

লেখক নারেন কোনেরু, ইঞ্জিনিয়ারিং ও নিরাপত্তা বিভাগের ভাইস প্রেসিডেন্ট

প্রকাশিত ৯ জুল, ২০২৫

Roblox-এ প্রকাশিত বিষয়বস্তু সক্রিয়ভাবে নিয়ন্ত্রণ করার জন্য আমরা প্রায় পাঁচ বছর ধরে AI-ভিত্তিক স্কেলযোগ্য সিস্টেম তৈরি করে আসছি।
আজ, আমাদের অবকাঠামো, মেশিন লার্নিং মডেল এবং হাজার হাজার মানব বিশেষজ্ঞ একসঙ্গে কাজ করে Roblox-কে আমাদের ব্যবহারকারীদের জন্য আরও নিরাপদ ও সভ্য একটি স্থান হিসেবে গড়ে তুলতে।
আমরা এই সব সিস্টেমই স্কেল, গতি এবং উচ্চমানের ডেটার মাধ্যমে ধারাবাহিক উন্নতির জন্য তৈরি করি।

Roblox-এ আমরা যা কিছু করি তার সবকিছুরই ভিত্তি হল নিরাপত্তা। শুরু থেকেই আমরা সক্রিয়ভাবে বিষয়বস্তু মডারেট করে আসছি কারণ আমরা জানতাম যে ব্যবহারকারী-উৎপাদিত বিষয়বস্তুর উপর নির্মিত একটি প্ল্যাটফর্মের জন্য মডারেটেশন অত্যন্ত গুরুত্বপূর্ণ। যখন Roblox অনেক ছোট ছিল, তখন মানব পর্যালোচকরা এটি করত—এমনকি আমাদের প্রতিষ্ঠাতা ও সিইওও, যিনি শুরুতে বিষয়বস্তু মডারেট করতে সময় ব্যয় করেছিলেন। সময়ের সাথে সাথে, প্ল্যাটফর্মটি (আকার এবং গতি উভয় ক্ষেত্রেই) মানব মডারেটরদের সক্ষমতার বাইরে বৃদ্ধি পেয়েছে। কোনো নতুন পণ্য চালু করার সময়, নিরাপত্তা সবসময়ই আমাদের প্রথম বিবেচ্য বিষয়।

গড়ে প্রতিদিন ৯৭.৮ মিলিয়ন সক্রিয় ব্যবহারকারী^¹ Roblox-এ খেলতে, যোগাযোগ করতে এবং তৈরি করতে আসে। প্রতিদিন, ব্যবহারকারীরা গড়ে ৬.১ বিলিয়ন চ্যাট বার্তা পাঠায় এবং ২৮টি ভিন্ন ভাষায় ১.১ মিলিয়ন ঘণ্টার ভয়েস যোগাযোগ করে। নির্মাতারা প্রতিদিন মিলিয়ন মিলিয়ন অ্যাসেট আপলোড করে—এবং আমাদের অবতার মার্কেটপ্লেসে আরও হাজার হাজার আইটেম যোগ করা হয়। এই কয়েক বিলিয়ন সৃষ্টি ও বার্তার অধিকাংশই সভ্য। বাস্তব জীবনের মতো—এটাই অধিকাংশ মানুষের একে অপরের সাথে যোগাযোগের উপায়। কিন্তু যখন তা হয় না, তখন আমাদের টেক্সট ফিল্টারিং সিস্টেম ব্যবহারকারীদের কাছে পৌঁছানোর আগেই সমস্যাযুক্ত টেক্সট ব্লক করতে সাহায্য করে এবং ভয়েস লঙ্ঘনগুলো রিয়েল-টাইমে মূল্যায়ন করা হয়। এবং যদি আমরা অবৈধ বিষয়বস্তুর নোটিশ পাই, তাহলে আমাদের পদক্ষেপ নেওয়ার মধ্যক সময় দশ মিনিট।

মিলিসেকেন্ডের মধ্যে এই পরিমাণ বিষয়বস্তু ধারাবাহিকভাবে মডারেট করা এমন একটি কাজ যা মানুষ একা করতে পারে না—তাদের সংখ্যা যতই হোক না কেন। এই মাত্রা ও গতিতে কাজ করতে হলে সপ্তাহান্ত বা ছুটি ছাড়া ২৪/৭ শত শত হাজার মানব মডারেটরের প্রয়োজন হবে—এবং তা কেবল চ্যাট বার্তা মডারেট করার জন্যই। Roblox-এ অন্যান্য সব ধরনের কনটেন্ট মডারেট করতে আমাদের আরও হাজার হাজার কর্মী লাগতো। Roblox-এ প্রতিদিন উৎপন্ন হওয়া কনটেন্টের পরিমাণ স্কেলযোগ্য অবকাঠামো, মেশিন লার্নিং (ML) মডেল এবং বিশেষভাবে তৈরি সরঞ্জাম দাবি করে।

মেশিন লার্নিং (ML) এই সিদ্ধান্তগুলো মিলিসেকেন্ডে, বারবার, ধারাবাহিকভাবে এবং দিনে ২৪ ঘণ্টা গ্রহণ করতে পারে। আমরা এখনও কম সাধারণ ক্ষেত্রে, যেখানে প্রেক্ষাপটের ওপর নির্ভর করে আরও সূক্ষ্ম মানবিক বিচারের প্রয়োজন, সেগুলো মোকাবিলা করার জন্য মানুষের সাহায্য নিই এবং তাদের নিয়োগ করি। আমরা শক্তিশালী, উদ্ভাবনী নিরাপত্তা ও মডারেশন টুলগুলোকে বিশ্বের হাজার হাজার মানব বিশেষজ্ঞের সাথে একত্রিত করি, যারা আমাদের সিস্টেমগুলোর তদারকি এবং নতুন ও ক্রমবর্ধমান চ্যালেঞ্জ মোকাবিলায় ধারাবাহিক প্রশিক্ষণ প্রদান করেন। Roblox-এর সব মডারেশন সিস্টেম নিম্নলিখিত নীতিগুলোর ওপর ভিত্তি করে তৈরি:

আমরা Roblox-এ বিষয়বস্তু সক্রিয়ভাবে মডারেশন করি।
যখনই সম্ভব, আমরা ব্যবহারকারীদের রিয়েল-টাইম ফিডব্যাক প্রদান করি, কারণ প্রায়ই মানুষ নিয়মগুলো জানে না।
আমরা তখনই AI ব্যবহার করি যখন এটি ব্যাপক পরিসরে মানুষের তুলনায় প্রিসিশন এবং রিকল—উভয় ক্ষেত্রেই উল্লেখযোগ্যভাবে বেশি কার্যকর প্রমাণিত হয়।
আমরা AI-কে ক্রমাগত উন্নত করতে, বিবর্তিত ও বিরল ঘটনা মোকাবিলা করতে, জটিল তদন্ত পরিচালনা করতে এবং আপিল প্রক্রিয়ায় মানুষের সহায়তা নিই।

Roblox-এ তৈরি হওয়া ক্রমবর্ধমান বিষয়বস্তুর পরিমাণ দক্ষতার সাথে নিয়ন্ত্রণ করতে, আমরা সবসময় তিনটি মাত্রায়—স্কেল, গতি এবং গুণমান—উদ্ভাবন করে চলেছি, এবং এর জন্য অবিরাম উন্নতি প্রয়োজন।

স্কেল: প্রতিদিন বিলিয়ন বিলিয়ন সামগ্রী মডারেট

২০২৪১ সালের ফেব্রুয়ারি থেকে ডিসেম্বর পর্যন্ত, ব্যবহারকারীরা প্রায় ১ ট্রিলিয়ন টুকরো বিষয়বস্তু আপলোড করেছেন। সেই বিলিয়ন বিলিয়ন টেক্সট চ্যাট, অডিও, ভয়েস এবং ইমেজের মাত্র ০.০১% আমাদের কোনো নীতি লঙ্ঘন করেছে বলে শনাক্ত হয়েছে। এবং আমাদের নীতি লঙ্ঘনকারী প্রায় সমস্ত বিষয়বস্তুই ব্যবহারকারীরা দেখার আগেই স্বয়ংক্রিয়ভাবে প্রিস্ক্রিন ও অপসারণ করা হয়েছে। যদিও এই মাত্রা তুলনামূলকভাবে নতুন, আমাদের মডারেশনের প্রতি অঙ্গীকার নতুন নয়। এক দশকেরও বেশি সময় আগে, আমরা একটি নিয়ম-ভিত্তিক টেক্সট ফিল্টার তৈরি করেছিলাম। প্রায় পাঁচ বছর আগে, আমরা তখনকার সর্বাধুনিক ট্রান্সফরমার-ভিত্তিক টেক্সট ফিল্টার মোতায়েন করেছিলাম। আজ, আমাদের টেক্সট ফিল্টারগুলি প্রতিদিন গড়ে ৬.১ বিলিয়ন চ্যাট বার্তা প্রক্রিয়া করে, যা বিভিন্ন ধরনের নীতি লঙ্ঘনের জন্য বিশেষভাবে তৈরি অনেক মডেলের মাধ্যমে পরিচালিত হয়।

এই মডেলগুলির একটি হল ইন-গেম এবং প্ল্যাটফর্ম চ্যাটের জন্য ব্যক্তিগতভাবে শনাক্তযোগ্য তথ্য (PII) ফিল্টার। ব্যবহারকারীরা অন্যদের কাছে PII চাইলে তা আরও গুরুতর সমস্যার দিকে প্রথম ধাপ হতে পারে, তাই আমরা PII শেয়ারিং প্রতিরোধে সবসময়ই কঠোর অবস্থান নিয়েছি। পাঠানো প্রতিটি চ্যাট বার্তা একটি "অনুরোধ," যা সিস্টেমকে পর্যালোচনা করে নির্ধারণ করতে বলে যে কোনো PII উল্লেখ আছে কি না। এই টেক্সট ফিল্টার মডেলটি প্রতি সেকেন্ডে এতগুলো অনুরোধ (RPS) হ্যান্ডেল করছিল যে এটি আমাদের বিদ্যমান CPU-ভিত্তিক সার্ভিং স্ট্যাকে সমর্থন করা কঠিন হয়ে পড়েছিল। তাই আমরা আমাদের সেলুলার অবকাঠামো কাজে লাগিয়ে GPU-তে সম্পূর্ণ নতুন একটি সার্ভিং স্ট্যাক তৈরি করেছি। এই উচ্চ RPS চাহিদা মেটাতে আমরা প্রথমে টোকেনাইজেশনকে ইনফারেন্স থেকে আলাদা করেছি এবং তারপর বড় মডেলগুলির কোয়ান্টাইজেশন ও ডিস্টিলেশনের মাধ্যমে ইনফারেন্সকে ত্বরান্বিত করেছি। একসঙ্গে, এই উন্নতিগুলো আমাদের RPS চারগুণ করেছে।

নতুন স্ট্যাকে, PII ফিল্টার এখন সর্বোচ্চ ৩৭০,০০০ RPS (প্রতি সেকেন্ড অনুরোধ) পরিচালনা করছে। আমাদের উন্নত PII ফিল্টার ভুল ইতিবাচক ফলাফল ৩০% কমিয়েছে, যার ফলে সমস্ত সমর্থিত ভাষায় সিস্টেম স্বয়ংক্রিয়ভাবে PII উল্লেখ শনাক্তকরণে ২৫% বৃদ্ধি পেয়েছে। আমরা ইতিমধ্যেই এই উন্নতিটি অন্যান্য কয়েকটি ভাষায় ছড়িয়ে দেওয়ার এবং অন্যান্য টেক্সট ফিল্টার ও প্ল্যাটফর্মে অনুরূপ উন্নতি আনার কাজ করছি। যদিও আমরা এই উন্নতিগুলো নিয়ে গর্বিত, আমরা জানি PII শেয়ার করার পদ্ধতিগুলো সবসময়ই বিকশিত হচ্ছে এবং আমরা এই পরিবর্তনগুলোর সাথে আমাদের সিস্টেমগুলোকেও বিকশিত করছি।

আমাদের পুরো মডারেশন সিস্টেমের ভিত্তি হিসেবে রয়েছে বড়, ট্রান্সফরমার-ভিত্তিক মডেল, যেগুলো বিভিন্ন মোডালিটির জ্ঞান ধারণ করে। অপারেশনাল ও প্রোডাকশন প্রয়োজনীয়তার ওপর নির্ভর করে, সিস্টেমকে দ্রুত ও দক্ষ রাখতে আমরা এই মডেলগুলোকে ডিস্টিল ও কোয়ান্টাইজ করি। এই কৌশলগুলো বিভিন্ন ধরনের মাল্টিমোডাল মডেল চালানোর জন্য অপরিহার্য; আমাদের টেক্সট ফিল্টার পরিচালনাকারী মডেলগুলো এখন দক্ষতার সাথে ৭৫০,০০০ RPS-এরও বেশি হ্যান্ডেল করছে।

গতি: রিয়েল-টাইম প্রতিক্রিয়ার মাধ্যমে ব্যবহারকারীর আচরণ পরিবর্তন

প্রাকৃতিক, রিয়েল-টাইম যোগাযোগের জন্য কথোপকথনকে প্রবাহমান রাখতে প্রায়-তাত্ক্ষণিক ফিল্টারিং প্রয়োজন। ধারণা নিয়ে পুনরাবৃত্তি ও সহযোগিতার জন্য সৃজনশীলতাকে প্রবাহমান রাখতে দ্রুত প্রতিক্রিয়া প্রয়োজন। আমাদের বহুমাত্রিক প্রতিরক্ষা ব্যবস্থায় রয়েছে সক্রিয় পদক্ষেপ যেমন সতর্কতা বিজ্ঞপ্তি, টাইম-আউট এবং সাসপেনশন। টেক্সট ফিল্টার করার সময় আমরা মিলিসেকেন্ডের মধ্যে PII, অশ্লীলতা এবং ঘৃণা বক্তব্যের মতো নীতি লঙ্ঘনকারী শব্দগুলি ব্লক করতে রিয়েল-টাইমে প্রতিক্রিয়া জানাতে পারি, ব্যবহারকারীদের অনুপযুক্ত বিষয়বস্তুর সংস্পর্শে আসা থেকে রক্ষা করে।

ভয়েস যোগাযোগ একইভাবে ব্লক করা যায় না, তাই আমরা অন-স্ক্রিন বিজ্ঞপ্তির মাধ্যমে ব্যবহারকারীদের শিক্ষিত করি। আমাদের সতর্কতা বিজ্ঞপ্তিগুলি কার্যকরভাবে ব্যবহারকারীর আচরণ পরিবর্তন করেছে এবং ভদ্রতা ও সম্পৃক্ততা উভয়ই বৃদ্ধি করেছে। আমাদের ভয়েস সেফটি ক্লাসিফায়ার আটটি ভাষায় ১৫ সেকেন্ডের মধ্যে চ্যাট মডারেশন করে। আমরা শিল্পের সাথে নিরাপত্তা উদ্ভাবন ভাগাভাগি করার আমাদের বিস্তৃত প্রতিশ্রুতির অংশ হিসেবে এই মডেলটি ওপেন-সোর্সও করেছি।

নোটিফিকেশনগুলো ব্যবহারকারীদের বুঝতে সাহায্য করে তারা কোন নীতি লঙ্ঘন করছে এবং সিস্টেমের সিদ্ধান্তের বিরুদ্ধে আপিল করার সুযোগ দেয়।

যদি কোনো ব্যবহারকারী আমাদের নীতিমালা অব্যাহতভাবে লঙ্ঘন করে, তাহলে পরিণতি ক্রমশ আরও কঠোর হয়, সংক্ষিপ্ত সতর্কতা থেকে শুরু করে ভয়েস চ্যাটে অ্যাক্সেস হারানো পর্যন্ত। অভ্যন্তরীণ গবেষণায় দেখা গেছে যে নিষেধাজ্ঞা পরবর্তী তিন সপ্তাহ পর্যন্ত প্রভাব ফেলে, পুনরায় অপরাধের হার এবং জমা পড়া ব্যবহারকারী রিপোর্টের সংখ্যা কমিয়ে দেয়। প্রাথমিক পরীক্ষায় দেখা গেছে যে এই ধরনের তাৎক্ষণিক হস্তক্ষেপ এবং পরিণতি ভদ্রতার উপর ইতিবাচক প্রভাব ফেলে। আমাদের ভয়েস ক্লাসিফায়ারের সর্বশেষ সংস্করণটির রিকল রেট প্রাথমিক সংস্করণের তুলনায় ৯২% বেশি, ফালস পজিটিভ রেট ১%—এবং সর্বোচ্চ সময়ে এটি ৮,৩০০ আরপিএস পর্যন্ত পরিচালনা করছে। আমরা সঠিকতা এবং রিকল উভয়ই উন্নত করার আরও উপায় অনুসন্ধান চালিয়ে যাচ্ছি।

ভয়েস চ্যাটে নোটিফিকেশনের মাধ্যমে আমরা যে সাফল্য দেখেছি, তার ভিত্তিতে আমরা টেক্সট চ্যাটের জন্য রিয়েল-টাইম ফিডব্যাক বাস্তবায়ন শুরু করেছি। সাম্প্রতিক পরীক্ষায় আমরা দেখেছি যে অভিজ্ঞতার মধ্যেই টেক্সট চ্যাট নোটিফিকেশন এবং টাইম-আউট জারি করার ফলে ফিল্টারকৃত চ্যাট বার্তায় ৫% এবং অপব্যবহার রিপোর্ট থেকে নেওয়া পদক্ষেপগুলোতে ৬% হ্রাস হয়েছে। আমরা রিয়েল-টাইম ফিডব্যাক নিয়ে নির্মাতাদের সাথেও পরীক্ষা-নিরীক্ষা শুরু করেছি, যখন তারা তাদের সৃষ্টিকর্ম আপলোড করে।

ডেটা গুণমান: ধারাবাহিক উন্নতির জন্য প্রশিক্ষণ মডেল

আমরা এই সিস্টেমগুলোকে প্রশিক্ষণ দিই যাতে ভুল নেগেটিভ কম হয়—নীতি লঙ্ঘন থাকতে পারে এমন যেকোনো কিছু অপসারণের দিকে ঝুঁকে। আমরা জানি, যখন ব্যবহারকারীরা মনে করেন কোনো বিষয় নীতি মেনে চলে, সেটি সরিয়ে ফেলা হলে তারা হতাশ হয়। তাই আমরা ভুল পজিটিভও কমাতে আমাদের সিস্টেমগুলো ক্রমাগত উন্নত করি। সঠিকভাবে লেবেল করা ডেটা আমাদের সব ক্লাসিফায়ারের সঠিকতা উন্নত করার জন্য অপরিহার্য।

মজবুত প্রশিক্ষণ ও মূল্যায়ন ডেটাসেট তৈরি করতে পর্যাপ্ত উচ্চ-মানের উদাহরণ এবং সেগুলো সঠিকভাবে লেবেল করার জন্য মানব বিশেষজ্ঞ উভয়েরই প্রয়োজন। এমন কিছু ক্ষেত্রে আমাদের কাছে পর্যাপ্ত ডেটা থাকে না কারণ তা বিরল পরিস্থিতি বা এজ কেস। কখনও কখনও আমাদের কাছে অনেক বেশি ডেটা থাকে এবং সবচেয়ে কার্যকর উদাহরণগুলো চিহ্নিত করতে হয়। এবং আমাদের এমন ডেটার প্রয়োজন যা বাস্তবে Roblox-এ যা ঘটছে তার সাথে মেলে। এর মধ্যে অস্থায়ী উদাহরণ, যেমন স্ল্যাং বা মেমস অন্তর্ভুক্ত। আমাদের শিশু, কিশোর ও গেমারদের শ্রোতারা সবসময় আমাদের নতুন স্ল্যাং শব্দ, নতুন ট্রেন্ড এবং আমাদের মডারেশন টুলস ফাঁকি দেওয়ার নতুন উপায় সম্পর্কে জানায়। তারা আমাদের সবসময় সতর্ক রাখে, এজন্যই আমরা আমাদের মডারেশন টুলস এবং নীতিমালা—উভয়ই—নিয়মিত পরীক্ষা ও মূল্যায়ন করি।

আমরা এই ডেটাসেটগুলো কিউরেট করতে বিভিন্ন ধরনের নমুনা সংগ্রহ কৌশল ব্যবহার করি, এবং এই ডেটা উদাহরণগুলো তৈরি ও লেবেল করতে আমরা AI এবং মানব বিশেষজ্ঞদের উভয়েরই সাহায্য নিই। আমাদের নীতি বিশেষজ্ঞরা হাতে কিউরেট করা উদাহরণ তৈরি করেন, যেগুলোকে আমরা 'গোল্ডেন সেট' বলি। এগুলোই সেই উদাহরণ যা সিস্টেমের মাধ্যমে আমরা যে সমস্যাগুলো সনাক্ত করতে চাই, সেগুলোর সাথে সবচেয়ে ঘনিষ্ঠভাবে মেলে। আমরা অনিশ্চয়তা নমুনা সংগ্রহসহ (uncertainty sampling) বিভিন্ন নমুনা সংগ্রহ কৌশল ব্যবহার করে খুব বড় ডেটাসেট থেকে নমুনা সংগ্রহ করি, যেখানে আমরা পূর্বে মডেলকে বিভ্রান্ত করেছিল এমন এজ কেসগুলো থেকে নমুনা নিই। আমরা মানব বিশেষজ্ঞ এবং এআই-সহায়িত রেড টিম (AARTs) থেকে নমুনা সংগ্রহ করি, যারা দুর্বলতা খুঁজে বের করার জন্য শত্রুতাপূর্ণ আক্রমণ অনুকরণ করে সিস্টেম পরীক্ষা করে।

নতুন কোনো সমস্যা, কথ্য ভাষা, মিম ইত্যাদি খুঁজে পেলে আমরা আমাদের প্রশিক্ষণ সেটও প্রসারিত ও উন্নত করি। আমরা এই উদাহরণগুলোর কিছু পাই আমাদের আপিল প্রক্রিয়ার মাধ্যমে, যেখানে ব্যবহারকারীরা অতিরিক্ত পর্যালোচনার অনুরোধ করতে পারেন। যদি সিদ্ধান্তটি উল্টে দেওয়া হয়, তাহলে সেই উদাহরণটি আমাদের ডেটাসেটের অংশ হয়ে যায়, যাতে আমাদের সিস্টেম পরেরবার সঠিক সিদ্ধান্ত নিতে পারে।

আমরা আমাদের শক্তিশালী অপব্যবহার রিপোর্টিং সিস্টেম থেকেও উদাহরণ পাই, যা কার্যত আমাদের মানব মডারেটরদের দলকে কয়েক কোটি ব্যবহারকারী পর্যন্ত বিস্তৃত করে, যারা এই অভিজ্ঞতা এবং সম্প্রদায়ের প্রতি যত্নশীল। সম্প্রতি আমরা আমাদের রিপোর্টিং টুল উন্নত করেছি যাতে ব্যবহারকারীরা একটি সম্পূর্ণ দৃশ্য—অবতার এবং অবজেক্ট আইডি সহ—ক্যাপচার করতে পারে এবং রিপোর্ট করতে চাওয়া অংশটি হাইলাইট করতে পারে। আমরা দেখেছি ব্যবহারকারীরা ব্যাপকভাবে এটি গ্রহণ করেছে, যেখানে যোগ্য রিপোর্টগুলির প্রায় ১৫% ভিজ্যুয়াল অ্যানোটেইশন প্রদান করে। এই অতিরিক্ত প্রেক্ষাপট আমাদেরকে সক্রিয়ভাবে সেই সমস্যাযুক্ত অভিজ্ঞতাগুলো চিহ্নিত করতে সাহায্য করে যেখানে ব্যবহারকারীরা প্রায়ই উদ্বেগ রিপোর্ট করে। যেহেতু মডেল প্রশিক্ষণ তাৎক্ষণিক নয়, আমরা ব্যবহারকারীর রিপোর্ট থেকে স্বয়ংক্রিয়ভাবে এআই-চালিত নিয়ম তৈরি করার উপায়ও অন্বেষণ করছি যাতে আমাদের প্রতিক্রিয়াশীলতা বৃদ্ধি পায়।

ইন-এক্সপেরিয়েন্স রিপোর্ট UI এখন ব্যবহারকারীদের তাদের রিপোর্ট করতে চাওয়া অংশটি হাইলাইট করতে দেয় (অর্থাৎ, হাঁসের অবতারের চারপাশে সবুজ বৃত্ত)।

আমরা এই ডেটাসেটগুলোকে সিন্থেটিক ডেটা দিয়ে পরিপূরক করি, যেখানে বড় ভাষামডেল (LLM) বাস্তব উদাহরণ অনুকরণ করে কৃত্রিম উদাহরণ ও লেবেল তৈরি করে। এখানে সুবিধা হলো, এমনকি বিরল বা প্রান্তিক ক্ষেত্রেও লক্ষ লক্ষ উদাহরণ ও লেবেল তৈরি করার ক্ষমতা। পর্যাপ্ত লেবেলযুক্ত ডেটা সংগ্রহের পর, আমরা সেগুলোকে দুটি ডেটাসেটে ভাগ করি: একটি প্রশিক্ষণের জন্য এবং একটি মূল্যায়নের জন্য। একটি মজবুত মূল্যায়ন ডেটাসেট থাকা অত্যন্ত গুরুত্বপূর্ণ: যদি মূল্যায়ন সেটটি খুব সহজ হয়, তাহলে মডেলের মেট্রিকগুলো দেখাবে যে এটি ভালো কাজ করছে—কিন্তু প্রোডাকশনে এটি ভেঙে পড়বে। ডেটার পরিমাণের তুলনায় ডেটার সঠিকতা বেশি গুরুত্বপূর্ণ। 'বর্জ্য ইন, বর্জ্য আউট' (Garbage in, garbage out) মেশিন লার্নিং-এ একটি বাস্তব উদ্বেগ, কারণ মডেলের কর্মক্ষমতা প্রশিক্ষণ এবং মূল্যায়নের জন্য ব্যবহৃত ডেটার সঠিকতার উপর ব্যাপকভাবে নির্ভর করে।

একবার আমাদের কাছে একটি মজবুত মূল্যায়ন ডেটাসেট থাকলে, আমরা এটিকে দুটি প্রধান মেট্রিক্সের ভিত্তিতে মূল্যায়ন করি: সামঞ্জস্যতা (alignment) এবং গুণমান (quality)। সামঞ্জস্যতা পরীক্ষা করতে, একই উদাহরণগুলো একাধিক মানুষের কাছে লেবেল করার জন্য পাঠানো হয় এবং দেখা হয় তাদের লেবেলগুলো একমত (অথবা সামঞ্জস্যপূর্ণ) কিনা। যদি তাদের লেবেলের মধ্যে সামঞ্জস্যতা ৮০% বা তার বেশি হয়, তাহলে এর মানে হল আমাদের মডারেটররা বড় পরিসরে ধারাবাহিক সিদ্ধান্ত নিতে পারে। যদি এটি ৮০%-এর কম হয়, তাহলে নীতি বা প্রশিক্ষণ বিভ্রান্তিকর হতে পারে, এবং আমাদের পুনরাবৃত্তি করতে হবে। গুণগত মান যাচাই করতে, আমরা 'গোল্ডেন সেট' মানুষের কাছে পাঠাই যাতে তারা মূল্যায়ন করে যে এটি নীতি লঙ্ঘন করে কিনা এবং সঠিক সিদ্ধান্ত নেয় কিনা। আমরা বিশেষজ্ঞদের পর্যালোচনার জন্য সিদ্ধান্তের নমুনাও সংগ্রহ করি। যদি তারা সবাই সঠিক সিদ্ধান্তে পৌঁছায়, তাহলে আমাদের নীতি সঠিকভাবে প্রয়োগ করা যায়। উচ্চ সামঞ্জস্য এবং উচ্চ গুণগত মান নির্দেশ করে যে আমাদের নীতি সঠিকভাবে এবং ধারাবাহিকভাবে প্রয়োগযোগ্য। যদি তা না হয়, আমরা নীতি এবং প্রশিক্ষণ সেট উভয়ই পুনরায় মূল্যায়ন করি।

Roblox-এর মতো একটি প্ল্যাটফর্মের সৃজনশীল প্রকৃতি, যেখানে ব্যবহারকারীরা প্রায় যেকোনো কিছু তৈরি এবং যোগাযোগ করতে স্বাধীন, তা সবসময়ই বিকশিত হচ্ছে। আমাদের সম্প্রদায়কে নিরাপদ এবং সভ্য রাখতে আমাদের মডারেশন পদ্ধতিগুলোকেও ঠিক ততটাই দ্রুত বিকশিত হতে হয়। আমাদের অ্যাক্টিভ লার্নিং সিস্টেমগুলো ভাষার বিবর্তন, ব্যবহারকারীর ধরণ পরিবর্তন এবং বাস্তব জীবনের ঘটনা ঘটার সাথে সাথে মডেলগুলোকে ক্রমাগত আপডেট করে। আমরা ক্রমাগত এমন সিস্টেম তৈরি করছি যা স্কেলযোগ্য, দ্রুত, সঠিক এবং আমরা যে গতিশীল বিশ্বে বাস করি তার সাথে সামঞ্জস্যপূর্ণভাবে খাপ খায়।

^১. ২০২৫ সালের প্রথম ত্রৈমাসিক পর্যন্ত।

^২.১৭ ফেব্রুয়ারি ২০২৪ থেকে ৩১ ডিসেম্বর ২০২৪ পর্যন্ত রিপোর্টিং সময়কাল অন্তর্ভুক্ত।

Aktuell

Weitere Ergebnisse

রবলোক্স কীভাবে বিশাল পরিসরে বিষয়বস্তু মডারেট করতে এআই ব্যবহার করে

স্কেল: প্রতিদিন বিলিয়ন বিলিয়ন সামগ্রী মডারেট

গতি: রিয়েল-টাইম প্রতিক্রিয়ার মাধ্যমে ব্যবহারকারীর আচরণ পরিবর্তন

ডেটা গুণমান: ধারাবাহিক উন্নতির জন্য প্রশিক্ষণ মডেল

রবলোক্স কীভাবে বিশাল পরিসরে বিষয়বস্তু মডারেট করতে এআই ব্যবহার করে

স্কেল: প্রতিদিন বিলিয়ন বিলিয়ন সামগ্রী মডারেট

গতি: রিয়েল-টাইম প্রতিক্রিয়ার মাধ্যমে ব্যবহারকারীর আচরণ পরিবর্তন

ডেটা গুণমান: ধারাবাহিক উন্নতির জন্য প্রশিক্ষণ মডেল

ইঞ্জিনিয়ারিং

Roblox-এ ইন-গেম রিপোর্টিং কীভাবে কাজ করে

ইঞ্জিনিয়ারিং

২২টি নতুন ভাষা এবং আরও উন্নত সনাক্তকরণ ক্ষমতার মাধ্যমে আমাদের ভয়েস সেফটি ক্লাসিফায়ার আপগ্রেড করা

সমাচার

অগ্রণী এআই প্রতিষ্ঠাতারা রবলোক্স রিয়ালিটি ভিশন ত্বরান্বিত করতে একত্রিত