অত্যাধুনিক এলএলএম Roblox-এ সীমাহীন টেক্সট জেনারেশন সুরক্ষিত রাখতে সাহায্য করে
Roblox Guard 1.0: শক্তিশালী গার্ডরেল দিয়ে নিরাপত্তাকে এগিয়ে নেওয়া

- আজ আমরা Roblox Guard 1.0 ঘোষণা করছি, যা ডেভেলপার এবং প্ল্যাটফর্মগুলির জন্য একটি ওপেন-সোর্স নিরাপত্তা টুলকিট।
- প্রথম Roblox Guard সক্ষমতা, LLM নিরাপত্তার জন্য একটি অত্যাধুনিক (SOTA) গার্ডরেল মডেল, এখন উপলব্ধ, যা শীর্ষস্থানীয় নিরাপত্তা বেঞ্চমার্ক জুড়ে একটি নতুন মান নির্ধারণ করেছে।
- আমরা Roblox Guard-Eval-ও প্রকাশ করছি, যা নিরাপত্তাজনিত বেঞ্চমার্কিংয়ের জন্য একটি ডেটাসেট।
চ্যালেঞ্জ
আমরা সম্প্রতি একটি টেক্সট জেনারেশন API প্রকাশ করেছি যা ডেভেলপারদের বড় ভাষামডেলের (LLM) শক্তি কাজে লাগিয়ে তাদের অভিজ্ঞতার মধ্যেই টেক্সট তৈরি করে আরও সমৃদ্ধ ও নিমগ্ন অভিজ্ঞতা তৈরি করতে সক্ষম করে। উদাহরণস্বরূপ, একজন ডেভেলপার সম্পূর্ণ ইন্টারেক্টিভ NPC তৈরি করতে পারেন, অথবা গেম কীভাবে খেলতে হয় তা শেখানোর জন্য একটি ইন্টারেক্টিভ টিউটোরিয়াল প্রদান করতে পারেন।
আমরা শুরু থেকেই Roblox-এ থাকা বেশিরভাগ বিষয়বস্তু সক্রিয়ভাবে মডারেশন করে আসছি, কারণ আমরা আমাদের পণ্যগুলোকে Roblox-এর উচ্চ নিরাপত্তা ও সভ্যতার মানদণ্ডের সাথে সামঞ্জস্যপূর্ণ রাখতে কাজ করছি। Text Generation API প্রকাশের আগে, আমরা প্রথমেই নিরাপত্তার ব্যবস্থা করার উপায় খুঁজে দেখেছি। আমরা একটি নতুন মডেল তৈরি করেছি যা ইনপুট (ব্যবহারকারীদের প্রম্পট) এবং আউটপুট (API থেকে তৈরি টেক্সট) উভয়কেই সুরক্ষিত রাখতে সাহায্য করে।
উদ্ভাবন
Roblox Guard 1.0 টুলকিটের প্রথম ক্ষমতা হল একটি SOTA নির্দেশনা-ফাইন-টিউনড LLM, যা আমাদের টেক্সট জেনারেশন API-কে সুরক্ষিত রাখতে ডিজাইন করা হয়েছে। এটি প্রম্পট এবং প্রতিক্রিয়া উভয় স্তরে নিরাপত্তা শ্রেণীবদ্ধকরণ করে, সিদ্ধান্ত নেয় প্রতিটি ইনপুট বা আউটপুট আমাদের নীতিমালা লঙ্ঘন করছে কিনা। এই দ্বি-স্তরীয় মূল্যায়ন ব্যবহারকারীর প্রশ্ন এবং মডেলের নিজস্ব তৈরি আউটপুট উভয়ই মডারেট করার জন্য অপরিহার্য।
আমাদের এলএলএম বর্তমানে স্ট্যান্ডার্ড বেঞ্চমার্কে মেটা'র Llama Guard, গুগল এআই'র ShieldGemma, NVIDIA NeMo Guardrails, OpenAI'র GPT-4o এবং অন্যান্য জনপ্রিয় এলএলএম গার্ডরেল মডেলগুলোকে ছাড়িয়ে যাচ্ছে। Roblox Guard 1.0 এলএলএম অচেনা ট্যাক্সোনমি সহ আউট-অফ-ডোমেন ডেটাসেটেও শক্তিশালী সাধারণীকরণ প্রদর্শন করে। আমরা আমাদের প্রথম সক্ষমতার LLM ওজনের এবং Roblox Guard-Eval বেঞ্চমার্কিং ডেটাসেট উভয়ই ওপেন সোর্স করেছি।
আমাদের সিস্টেমের মূল ভিত্তিতে রয়েছে Llama-3.1-8B-Instruct মডেল থেকে ফাইন-টিউন করা একটি LLM। আমরা নিরাপত্তাজনিত বিচার-বিবেচনার কর্মক্ষমতা অপ্টিমাইজ করার জন্য উচ্চ-মানের নির্দেশনা টিউনিং-এ বিশেষভাবে ফোকাস করে এই LLM-কে প্রশিক্ষণ দিয়েছি। এই প্রক্রিয়ার একটি গুরুত্বপূর্ণ ধাপ ছিল বাস্তব-বিশ্বের বিভিন্ন ধরনের নিরাপত্তা পরিস্থিতি প্রতিফলিত করার জন্য প্রম্পট এবং প্রতিক্রিয়াগুলিকে যত্নসহকারে বাছাই করা।
আমাদের নির্দেশিকা সেটে কোনো মালিকানাধীন ডেটা ব্যবহার করা হয়নি—শুধুমাত্র সিন্থেটিক (LLM-উৎপন্ন) এবং ওপেন-সোর্স ডেটার সমন্বয়, যা আমাদেরকে প্রশিক্ষণ ডেটা সহজেই স্কেল করতে এবং স্কেলিং আইনগুলো কাজে লাগাতে দেয়—যার ফলে এটি প্রথম Roblox Guard LLM SOTA হয়েছে। বিভিন্ন ওপেন-সোর্স এবং সিন্থেটিক ডেটা সেট একত্রিত করার সময়, আমরা দেখেছি যে ডেটাসেট-নির্দিষ্ট ট্যাক্সোনমি ব্যবহার করাই নির্দেশিকা তৈরির সেরা পদ্ধতি, কারণ কাজের বৈচিত্র্য LLM-গুলোকে বিভিন্ন ধরনের প্রম্পটে প্রশিক্ষণ নিতে সাহায্য করে। এর ফলে একটি শক্তিশালী মডেল তৈরি হয়েছে যা বিভিন্ন নিরাপত্তা শ্রেণীবিন্যাসে সাধারণীকরণ করা যায়। আমরা নির্দেশিকা সেটে চেইন-অফ-থট যুক্তিও অন্তর্ভুক্ত করেছি, যার মাধ্যমে মডেলটিকে তার যুক্তি প্রক্রিয়া স্পষ্টভাবে প্রকাশ করতে উৎসাহিত করা হয়। এই মধ্যবর্তী যুক্তিগত ধাপগুলো মডেলটিকে আরও শক্তিশালী প্রাসঙ্গিক ভিত্তি প্রদান করেছে।
ফলাফল

আমরা প্রম্পট এবং প্রতিক্রিয়া উভয়ের জন্য একটি ব্যাপক ওপেন-সোর্স ডেটাসেটের সেটে এবং Roblox Guard-Eval-এ আমাদের মডেলগুলির বেঞ্চমার্ক করি। এর ফলে আমরা ইন-ডোমেইন এবং আউট-অফ-ডোমেইন উভয় ডেটাসেটেই আমাদের মডেল মূল্যায়ন করতে পারি। আমরা বাইনারি ভায়োলেটিং/নন-ভায়োলেটিং শ্রেণীবিন্যাসের জন্য F-1 স্কোরের ভিত্তিতে আমাদের ফলাফল উপস্থাপন করি। উপরের টেবিলে, আমরা আমাদের কর্মক্ষমতা কয়েকটি সুপরিচিত মডেলের সাথে তুলনা করেছি। এই প্রথম Roblox Guard সক্ষমতা আউট-অফ-ডোমেইন ডেটাসেটে সাধারণীকরণ করার সময় অন্যান্য মডেলগুলোকে ছাড়িয়ে গেছে।
আমরা ক্রমাগত আমাদের নিরাপত্তা ব্যবস্থা উন্নত করছি, যার মধ্যে রয়েছে আমাদের Roblox Guard 1.0 টুলস, এবং শীঘ্রই অতিরিক্ত সক্ষমতা প্রকাশের পরিকল্পনা করছি। ভবিষ্যতের আপডেট, উন্নতি এবং আসন্ন ওপেন-সোর্স রিলিজের জন্য অনুগ্রহ করে আমাদের HuggingFace এবং GitHub পেজগুলো দেখুন।


