এই সাইটের বিষয়বস্তু কৃত্রিম বুদ্ধিমত্তা (AI) বা মেশিন অনুবাদ প্রযুক্তি ব্যবহার করে অনুবাদ করা হয়েছে এবং ত্রুটি থাকতে পারে।

Skip to content

রবলোক্স PII ক্লাসিফায়ার ওপেন সোর্সিং: চ্যাটে AI PII সনাক্তকরণের আমাদের পদ্ধতি

প্রাসঙ্গিকতা ব্যবহার করে পুনরুদ্ধার উন্নত করা

প্রতিদিন, ব্যবহারকারীরা Roblox-এ গড়ে ৬.১ বিলিয়ন চ্যাট বার্তা তৈরি করে। আমরা শক্তিশালী মডারেশন সিস্টেম ব্যবহার করি, বয়স-ভিত্তিক সীমাবদ্ধতা আরোপ করি এবং যোগাযোগকে নিরাপদ ও সভ্য রাখতে প্যারেন্টাল কন্ট্রোল প্রদান করি। প্ল্যাটফর্মের অধিকাংশ বার্তাই দৈনন্দিন কথোপকথন, যেমন দুই বন্ধু গেমপ্লে কৌশল নিয়ে আলোচনা করছে, তবে একটি ছোট শতাংশ বার্তায় ব্যবহারকারীরা ব্যক্তিগত সনাক্তযোগ্য তথ্য (PII) শেয়ার করার চেষ্টা করে যা সংবেদনশীল হতে পারে। ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্য (PII) বিভিন্ন রূপ নিতে পারে, এবং ব্যবহারকারীরা এটি অনেক নির্দোষ কারণে শেয়ার করে: একজন ব্যবহারকারী গেমপ্লে সমন্বয়ের জন্য অন্য প্ল্যাটফর্মের ব্যবহারকারীর নাম শেয়ার করতে পারে বা উদীয়মান বন্ধুত্ব গড়তে একটি ফোন নম্বর শেয়ার করতে পারে। তবে, বিরল ক্ষেত্রে কিছু দুষ্টু ব্যক্তি ব্যবহারকারীদের Roblox থেকে অন্য প্ল্যাটফর্মে আকৃষ্ট করার জন্য PII সংগ্রহের চেষ্টা করে, যেখানে বাস্তব জীবনের ক্ষতির ঝুঁকি বেশি হতে পারে। বাস্তবে, এই উদ্দেশ্যের পার্থক্যগুলো বোঝা কঠিন, এজন্যই আমরা PII শেয়ার বা অনুসন্ধানের বিরুদ্ধে কঠোর নীতি গ্রহণ করেছি। আমরা ডিফল্টভাবে চ্যাটে সনাক্তকৃত সমস্ত PII ব্লক করতে একাধিক টুল ব্যবহার করি, এবং শুধুমাত্র ১৮ বছর বা তার বেশি বয়সী ব্যবহারকারী এবং ১৩ থেকে ১৭ বছর বয়সী ব্যবহারকারী যারা একে অপরকে ট্রাস্টেড কানেকশন হিসেবে যাচাই করেছে, তাদের জন্যই এই বিধিনিষেধ শিথিল করি। 

ব্যক্তিগত তথ্য (PII) সনাক্তকরণ একটি শিল্প-ব্যাপী প্রযুক্তিগত চ্যালেঞ্জ। শিল্প-মানের সনাক্তকরণ সরঞ্জামগুলো এড়িয়ে চলা যায় এবং উদীয়মান ভাষার নিদর্শনের সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা তাদের থাকে না। যদিও কোনো সরঞ্জামই নিখুঁত নয়, আমরা একটি AI মডেল, Roblox PII Classifier, তৈরি করেছি যা ভাষার পরিবর্তনশীল প্রকৃতিকে বিবেচনায় নিয়ে এবং প্রসঙ্গ ব্যবহার করে এমন পরিস্থিতি সনাক্ত করে যেখানে ব্যবহারকারীরা ফিল্টার এড়িয়ে PII জিজ্ঞাসা বা শেয়ার করার চেষ্টা করছে।

আমরা ঘোষণা করতে পেরে উচ্ছ্বসিত যে আজ আমরা আমাদের ওপেন-সোর্স সেফটি টুলকিটের অন্যান্য টুলগুলোর পাশাপাশি PII ক্লাসিফায়ারও ওপেন সোর্স করছি। ২০২৪ সালের শেষের দিকে PII ক্লাসিফায়ার বাস্তবায়নের পর থেকে, আমরা রিকলে দ্রুত এবং ধারাবাহিক উন্নতি দেখেছি, যার কর্মক্ষমতা অন্যান্য উপলব্ধ মডেলগুলোকে ছাড়িয়ে গেছে। আজ আমরা যে PII মডেলের সংস্করণটি ওপেন সোর্স করছি, তা Roblox-এ ইংরেজি টেক্সট1-এ সম্ভাব্য PII কথোপকথনের ৯৮% রিকল অর্জন করেছে। এই মডেলটি আমাদের প্রোডাকশন ডেটাতে F1 স্কোর 94% অর্জন করেছে, যা LlamaGuard v3 8B (28%) এবং Piiranha NER (14%) এর মতো অন্যান্য অত্যাধুনিক নিরাপত্তা মডেলগুলোকে ছাড়িয়ে গেছে। 

চ্যালেঞ্জসমূহ 

বড় পরিসরে PII কার্যকরভাবে সনাক্তকরণ তিনটি প্রধান চ্যালেঞ্জের ওপর নির্ভর করে: 

  1. বিপরীতমুখী নিদর্শন: ব্যবহারকারীরা সৃজনশীল এবং ক্রমাগত ফিল্টার এড়ানোর নতুন উপায় খুঁজে বের করে। একটি কার্যকর সিস্টেমকে ভাষার বিবর্তন এবং নতুন নিদর্শনের আবির্ভাবের সাথে খাপ খাইয়ে নিতে হবে।
  2. প্রশিক্ষণ এবং মূল্যায়ন: সবচেয়ে কার্যকর মডেল তৈরি করতে, আমাদের কার্যকর প্রশিক্ষণ ডেটাসেট এবং পরিমাপ পদ্ধতিও তৈরি করতে হবে। যেহেতু মডেলটিকে উদীয়মান নিদর্শনগুলোকেও বিবেচনায় নিতে হবে, তাই বর্তমান প্রোডাকশন ডেটা প্রশিক্ষণের জন্য যথেষ্ট নয়।  
  3. পারফরম্যান্স: এমন একটি মডেলকে বৃহৎ পরিসরে সেবা দিতে হলে ব্যবহারকারীর অভিজ্ঞতায় নেতিবাচক প্রভাব এড়াতে সুচিন্তিত আর্কিটেকচার এবং অপ্টিমাইজেশন সিদ্ধান্ত নিতে হয়।

বিপরীতমুখী নিদর্শনসমূহ

বিদ্যমান PII সনাক্তকরণ সমাধানগুলি প্রধানত নামকৃত সত্তা স্বীকৃতি (NER) এর উপর নির্ভর করে, যা টোকেন-স্তরে নির্দিষ্ট ধরনের বিশেষ্য যেমন সোশ্যাল মিডিয়া হ্যান্ডেল, ফোন নম্বর এবং ঠিকানা সনাক্ত করে। কিন্তু বিশেষ্য সনাক্তকরণই একমাত্র চ্যালেঞ্জ নয়। দক্ষ দুষ্কৃতকারীরা ইচ্ছাকৃতভাবে তাদের ভাষা পরিবর্তন করে NER সনাক্তকরণ এড়ায় (যেমন, A, B, এবং C বোঝাতে আলফা, ব্রাভো এবং চার্লি ব্যবহার করা বা কোনো প্ল্যাটফর্মের নাম স্পষ্টভাবে উল্লেখ না করে তার উল্লেখ করা)। একজন দুষ্কৃতকারী তার উদ্দেশ্য অন্য কোনো প্ল্যাটফর্মে সংযোগ করার সংকেত দিতে পারে, অথচ কখনোই সেই সংবেদনশীল তথ্য শেয়ার না করে যা একটি NER ফিল্টার ধরতে পারতো। PII ক্লাসিফায়ারের কাজ শুধু Roblox-এ শেয়ার করা স্পষ্ট PII টেক্সট সনাক্তকরণ ও অস্পষ্টকরণ নয়, বরং যোগাযোগের প্রেক্ষাপট বোঝা এবং দুষ্কৃতকারীদের PII-সংক্রান্ত কথোপকথনে অংশগ্রহণ থেকে বিরত রাখা। 

এখানে একটি কাল্পনিক সামাজিক প্ল্যাটফর্ম StarTalk ব্যবহার করে কিছু প্রতিনিধিত্বমূলক বাইপাসিং প্যাটার্ন দেওয়া হলো:

চরিত্র-স্তরের হেরফের
  1. "তোমার কাছে কি ৫টা টার্টাল্ক আছে যেগুলো তুমি কল করতে চাও? আমি xouple দিন আগে একটা অ্যাকাউন্ট তৈরি করেছি"
  2. "ggrr i hate it tags What's your name That's S And T"
জনপ্রিয় সামাজিক মিডিয়ার অন্তর্নিহিত উল্লেখ
  1. "আবার তোমার র‍্যাটের পিপিএ কী Reverse"
  2. "হে, তুমি কি আমার নাম yellow sun অ্যাপে চেক করবে? ওখানে চ্যাট করি?"

ভাষা ও স্ল্যাং শব্দসমূহ সময়ের সাথে সাথে বিকশিত হয়, এবং দুষ্কৃতকারীরা ক্রমাগত ফিল্টার এড়ানোর নতুন উপায় খুঁজছে। PII ক্লাসিফায়ারের শক্তি হলো নতুন ভাষার ধরণ এবং এড়ানোর উপায়গুলো উদ্ভূত হওয়ার সাথে সাথে খাপ খাইয়ে নেওয়ার ক্ষমতা। যখন আমরা বাস্তব-বিশ্বের প্রতিপক্ষীয় নিদর্শন সনাক্ত করি, তখন সেগুলোকে মডেলের মধ্যে পুনরায় অন্তর্ভুক্ত করি যাতে এটি চলমান ভিত্তিতে প্রশিক্ষিত হতে পারে। 

প্রশিক্ষণ এবং মূল্যায়ন 

অনির্ধারিত
তথ্য সংরক্ষণ মডেলের উন্নয়নকে সমর্থন করে ডেটা কিউরেশনের তিনটি স্তম্ভ, যা পরবর্তীতে আরও উন্নত ডেটা কিউরেশনকে শক্তিশালী করে।

মডেলটিকে প্রথমে প্রশিক্ষণ দিতে আমরা ম্যানুয়ালি PII-সংক্রান্ত ডেটা পর্যালোচনা ও লেবেল করেছিলাম। এতে আমাদের একটি সূচনা বিন্দু তৈরি হয়েছিল, তবে এটি দ্রুত স্কেল করে বিস্তৃত ধরনের পরিস্থিতি ধারণ করতে দিত না। প্রতিদিন বিলিয়ন বিলিয়ন চ্যাট মেসেজে থাকা প্রতিটি শব্দ ও তার সব সম্ভাব্য বিন্যাস ম্যানুয়ালি খুঁজে বের করে উপযুক্ত লেবেল দেওয়ার পরিবর্তে, আমরা প্রশিক্ষণের জন্য প্রাসঙ্গিক নমুনা বাছাই করতে ডেটা স্যাম্পলার তৈরি ও পরীক্ষা করেছিলাম। আমাদের লক্ষ্য ছিল ক্ষতিকর নয় এমন কথোপকথন বাদ দিয়ে শুধুমাত্র PII-সংক্রান্ত তথ্য ধারণকারী কথোপকথনে ফোকাস করা, যাতে মানব লেবেলিং ত্রুটির সম্ভাবনা কমে এবং আরও বিস্তৃত পরিসর কভার করা যায়। দুটি স্যাম্পলার সবচেয়ে কার্যকর প্রমাণিত হয়েছে:

  1. মডেল স্কোর আউটপুট ব্যবহার করে অনিশ্চয়তা স্যাম্পলিং: এই স্যাম্পলারটি এমন নমুনা নির্বাচন করে যা শক্তিশালী কোনো ইতিবাচক বা নেতিবাচক সংকেত তৈরি করে না, যা আমাদের অস্পষ্ট ঘটনাগুলো আরও সূক্ষ্মভাবে বিশ্লেষণ করতে সাহায্য করে।
  2. পরপর PII ব্লক থেকে নমুনা: এই স্যাম্পলারটি এমন ব্যবহারকারীদের নমুনা বেছে নিত, যারা কিছু কথোপকথনে ফ্ল্যাগড হয়েছিল কিন্তু পরপর কথোপকথনে হয়নি। এই পরবর্তী কথোপকথনগুলোতে বর্তমান PII ফিল্টার এড়িয়ে যাওয়া অস্বাভাবিক ভাষা থাকার সম্ভাবনা বেশি ছিল। বাস্তবে, এটি এমন হতে পারে যে একজন ব্যবহারকারী সিস্টেম এড়াতে ব্যর্থ হচ্ছে এবং যতক্ষণ না কোনো চালাক ফাঁক খুঁজে পায় ততক্ষণ আবার চেষ্টা করছে। 

এই ডেটা নমুনায়ন ও বর্তমান প্রোডাকশন ডেটায় মানব লেবেলিংয়ের সমন্বয় মডেল প্রশিক্ষণের জন্য একটি দৃঢ় ভিত্তি প্রদান করেছিল, তবে আমাদের লক্ষ্য ছিল উদীয়মান নিদর্শনগুলোকেও বিবেচনায় আনা, তাই আমাদের এমন ডেটা নিয়ে প্রশিক্ষণের উপায় প্রয়োজন ছিল যা তখনো আমাদের নমুনায় বিদ্যমান ছিল না। 

এআই-উৎপন্ন সিন্থেটিক ডেটা

শুধুমাত্র বর্তমান নমুনাভিত্তিক ডেটার ওপর নির্ভর করলে পক্ষপাত সৃষ্টি হতে পারে এবং নতুন যোগাযোগের ধরণ গড়ে উঠার সঙ্গে সঙ্গে মডেলের খাপ খাইয়ে নেওয়ার ক্ষমতা সীমিত হতে পারে। উদাহরণস্বরূপ, Roblox-এ সবচেয়ে সাধারণ PII অনুরোধগুলো জনপ্রিয় সোশ্যাল মিডিয়া প্ল্যাটফর্ম হ্যান্ডেলগুলোর জন্য হয়ে থাকে। শুধুমাত্র প্রোডাকশন ডেটার ওপর প্রশিক্ষিত একটি মডেল সবচেয়ে সাধারণ অনুরোধগুলোর প্রতি পক্ষপাত তৈরি করতে পারে এবং কম পরিচিত সোশ্যাল মিডিয়া প্ল্যাটফর্ম, ইমেইল ঠিকানা, এবং ফোন নম্বরগুলোর মতো বিরল অনুরোধগুলোতে খারাপ পারফর্ম করতে পারে। ব্যবহারকারীর যোগাযোগও সাধারণত জনপ্রিয় শব্দভাণ্ডার এবং ভাষার ধাঁচের দিকেই এগিয়ে যায়। শুধুমাত্র প্রোডাকশন ডেটায় প্রশিক্ষিত একটি মডেল সাধারণ ভাষার ধাঁচের প্রতি পক্ষপাতদুষ্ট হয়ে অস্বাভাবিক বা উদীয়মান উপায়ে প্রকাশিত লঙ্ঘনগুলো শনাক্ত করতে ব্যর্থ হতে পারে।

এই এবং অন্যান্য পক্ষপাত দূর করতে, আমরা একটি এআই ডেটা-জেনারেটিং পাইপলাইন তৈরি করেছি যা প্রাথমিক প্রশিক্ষণ ডেটাসেট থেকে উত্তরাধিকারসূত্রে প্রাপ্ত যেকোনো দুর্বলতাকে লক্ষ্য করে। প্রথমে, আমরা প্রসঙ্গ, PII ধরন, ব্যবহারকারীর চরিত্র, ভাষা এবং উদাহরণ চ্যাট লাইনসহ বিভিন্ন ভেরিয়েবলের সমন্বয় ব্যবহার করে প্রম্পট তৈরি করেছি। তারপর, আমরা এই প্রম্পটগুলোর ভিত্তিতে নতুন চ্যাট লাইন তৈরি করে সেগুলো মডেলটিতে ইনপুট করেছি।  

মানব ও এআই রেড টিমিং

আমরা ডেভেলপমেন্টের সময় মানব ও এআই রেড টিমিং (যেখানে দলগুলো সিস্টেমের প্রতিরক্ষা পরীক্ষা করতে শত্রুতাপূর্ণ আক্রমণ অনুকরণ করে) উভয়ই ব্যবহার করেছি, মডেলের কার্যকারিতা যাচাই করতে এবং প্রশিক্ষণকে পরিমার্জন করতে। আমরা মডারেটরদের PII চাওয়া এবং শেয়ার করার বিভিন্ন পদ্ধতি নিয়ে পরীক্ষা-নিরীক্ষা করতে আমন্ত্রণ জানিয়েছিলাম এবং LLM-গুলোকে বিভিন্নভাবে এই পদ্ধতিগুলো উন্নত করতে উৎসাহিত করেছি, তারপর মডেলটি যেসব নমুনা মিস করেছিল সেগুলো তার প্রশিক্ষণ ডেটাসেটে যোগ করেছি। AI রেড টিমিং আমাদের দ্রুত অনেক ভেরিয়েশন পরীক্ষা করতে এবং এমন পদ্ধতিগুলো অন্তর্ভুক্ত করতে সাহায্য করেছে যা মডারেটররা হয়তো নাও করতো। উদাহরণস্বরূপ: 

মূল: পাসওয়ার্ডটি xxxx
AI-সংযোজিত: THE PAAS WURD IS xxxx

মূল: বেলা, আমার ফোন নম্বর 346
AI-সংযোজিত: বেলা, আমার numb3r আসলে threefour6

রেড টিমিং আমাদের বর্তমান প্রশিক্ষণ ডেটাতে ফাঁকগুলো আরও ভালোভাবে বুঝতে এবং সেগুলো বন্ধ করার জন্য আমাদের সিনথেটিক ডেটা মানিয়ে নিতে সাহায্য করেছে। এটি আমাদেরকে মডেলের পুনরাবৃত্তিগুলোর মধ্যে পার্থক্য পরিমাপ করতেও সক্ষম করেছে, যা একটি মডেলের দুইটি সংস্করণ মূল্যায়ন সেটে স্যাচুরেশন শুরু করার সাথে সাথে ক্রমশ কঠিন হয়ে পড়ে। আমরা একই পরিবেশে সরাসরি বাইপাস রেট তুলনা করতে এবং কোন মডেলটি পরিসংখ্যানগতভাবে বেশি কার্যকর তা নির্ধারণ করতে রেড-টিমিং টুলের অধীনে মডেলের একাধিক সংস্করণ চালিয়েছি।

পারফরম্যান্স 

প্রতিদিন গড়ে ৬.১ বিলিয়ন চ্যাট বার্তা বিনিময়ের মাধ্যমে, PII ক্লাসিফায়ার Roblox-এ প্রতি সেকেন্ডে ২০০,০০০-এরও বেশি কুয়েরি সর্বোচ্চ পরিমাণে গ্রহণ করে। আমরা এই পরিমাণ ডেটা <100ms P90 ল্যাটেন্সি দিয়ে পরিচালনা করি। সার্ভিং এবং গুণমানের মধ্যে ভারসাম্য বজায় রাখতে, আমরা এনকোড-অনলি আর্কিটেকচার বেছে নিয়েছি এবং XLM-RoBERTa-Large2 থেকে আমাদের মডেলটি ফাইন-টিউন করেছি। আমরা টোকেনাইজার এবং প্রি- ও পোস্ট-প্রসেসিং সার্ভিসগুলো আলাদা করি যাতে সেগুলো CPU-তে দক্ষতার সাথে চলে এবং খরচ কমাতে GPU-তে বিশুদ্ধ ট্রান্সফরমার আর্কিটেকচার সার্ভ করি। আমরা থ্রুপুট বাড়ানোর জন্য Triton সার্ভারগুলিতে ডায়নামিক ব্যাচিংও ব্যবহার করি। 

জনসাধারণ ও অভ্যন্তরীণ ডেটাসেটে বেঞ্চমার্কিং 

আমরা আমাদের নিজস্ব প্রোডাকশন ডেটা এবং পাবলিক ডেটাসেট ব্যবহার করে অন্যান্য অত্যাধুনিক মডেলের বিরুদ্ধে PII ক্লাসিফায়ারের বেঞ্চমার্ক করেছি। বেশিরভাগ পাবলিক PII ডেটাসেট আশেপাশের টেক্সট, যা উদ্দেশ্য নির্দেশ করতে পারে, তার পরিবর্তে সরাসরি PII টেক্সটটিতেই ফোকাস করে, তাই বেঞ্চমার্কিংয়ের জন্য আমাদের প্ল্যাটফর্মের প্রয়োজনীয়তার সাথে কিছুই পুরোপুরি মেলে না। তবুও আমরা দেখতে চেয়েছিলাম আমাদের মডেলটি জনপ্রিয় PII ডেটাসেট যেমন The Learning Agency Lab-এর PII Data Detection Dataset3 (Kaggle-এ) ব্যবহার করে বর্তমান সনাক্তকরণ সমাধানগুলোর তুলনায় কেমন পারফর্ম করে।

আমরা F1 স্কোর ব্যবহার করেছি কারণ তুলনায় থাকা LLM-গুলো মাত্র একটি (রিকল, প্রিসিশন) জোড়া প্রদান করে। যেসব মডেল শ্রেণীবিন্যাস স্কোর আউটপুট করে, আমরা পরীক্ষার সেটে সর্বোত্তম F1 স্কোর রিপোর্ট করেছি। লক্ষ্য করুন, আমাদের মডেল ইনপুট হিসেবে ব্যবহারকারীর চ্যাট লাইনের একটি অংশ (snippet) নেয় এবং একটি PII স্কোর আউটপুট করে, যা আমরা চ্যাট লাইনগুলোর উপর বাইনারি সিদ্ধান্ত নিতে ব্যবহার করি। ন্যায্য তুলনার জন্য, আমরা পাবলিক ডেটাসেটটিকে বাক্য অনুসারে ভাগ করেছি এবং প্রতিটি বাক্যে কোনো ইতিবাচক NER PII টোকেন থাকলে সেটিকে পজিটিভ হিসেবে লেবেল করেছি।

PII V1.1

LlamaGuard-v3 1B

LlamaGuard-v3 8B

LlamaGuard-v4 12B

NemoGuard 8B

পিয়ারাঞ্জা NER

Kaggle PII ডেটাসেট

৪৫.৪৮%

5.90%

5.46%

৩.৭২%

৩.২৬%

৩৩.২০%

রবলোক্স মূল্যায়ন ইংরেজি

৯৪.৩৪%

3.17%

27.73%

26.55%

26.29%

১৩.৮৮%

আমাদের বেঞ্চমার্কে, আমাদের মডেল The Learning Agency Lab-এর পাবলিক ডেটাসেট এবং আমাদের অভ্যন্তরীণ প্রোডাকশন ডেটা—যেখানে Roblox-এ ৪৭,০০০-এরও বেশি বৈচিত্র্যময়, বাস্তব-বিশ্বের নমুনা রয়েছে—উভয় ক্ষেত্রেই অন্যান্য ওপেন সোর্স মডেলগুলোকে ব্যাপকভাবে ছাড়িয়ে গেছে। বিস্তৃত কথোপকথনের প্রেক্ষাপট অন্তর্ভুক্ত করা এবং ভাষার পরিবর্তনশীল প্রকৃতির সাথে ক্রমাগত খাপ খাইয়ে নেওয়ার উপর ফোকাস করা একটি কার্যকর পদ্ধতি হিসেবে প্রমাণিত হয়েছে, যা আরও বেশি কথোপকথন সনাক্ত করতে সাহায্য করে যেখানে ব্যবহারকারী PII জিজ্ঞাসা বা শেয়ার করার ইচ্ছা পোষণ করে।  

PII ক্লাসিফায়ার হল Roblox-এ নিরাপত্তা এবং সভ্যতা প্রচারের জন্য আমরা যে অনেক উদ্ভাবনী সিস্টেম ব্যবহার করি, তার মধ্যে একটি মাত্র। যখন কোনো কথোপকথন PII অনুরোধের দিকে মোড় নেয় তা সনাক্ত করার ক্ষমতা আমাদের সেই সব অস্পষ্ট অনুরোধও ধরতে সাহায্য করে, যা অন্যথায় সনাক্তকরণ এড়িয়ে যেতে পারে। যদিও কোনো সিস্টেমই নিখুঁত নয়, উৎপাদনে আমাদের প্রথম বছরের ফলাফল ইতিমধ্যেই আশাব্যঞ্জক, এবং আমরা আমাদের ওপেন-সোর্স সেফটি টুলকিটের অন্যান্য টুলের পাশাপাশি এই টুলটিও ওপেন-সোর্স কমিউনিটির সাথে ভাগ করে নিতে পেরে উচ্ছ্বসিত। 

  1. ৯৮% রিকল Roblox-এর অভ্যন্তরীণ পরীক্ষামূলক সেটে ১% FPR-এ পরিমাপ করা হয়েছে। ডেটাসেটটি প্রোডাকশন ডেটা থেকে সংগ্রহ করা হয়েছে এবং নিরাপত্তা বিশেষজ্ঞদের দ্বারা একাধিকবার পর্যালোচনা ও লেবেল করা হয়েছে।
  2.  Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., এবং Stoyanov, V. 2019. ব্যাপক পরিসরে তত্ত্বাবধানবিহীন বহু-ভাষিক উপস্থাপনা শেখা। arXiv প্রাক-প্রকাশনা arXiv:1911.02116
  3.  Holmes, L., Crossley, S. A., Sikka, H., and Morris, W. 2023. PIILO: ব্যক্তিগতভাবে সনাক্তযোগ্য তথ্যের লেবেলিং এবং অস্পষ্টকরণের জন্য একটি ওপেন-সোর্স সিস্টেম। Information and Learning Science, 124 (9/10), 266-284.