เนื้อหาในเว็บไซต์นี้ได้รับการแปลโดยใช้ปัญญาประดิษฐ์ (AI) หรือเทคโนโลยีการแปลด้วยเครื่อง และอาจมีข้อผิดพลาด

Skip to content

การเปิดเผยแหล่งข้อมูลสาธารณะของตัวจำแนกข้อมูลส่วนบุคคลที่ระบุตัวตนได้ของ Roblox: แนวทางของเราในการตรวจจับข้อมูลส่วนบุคคลที่ระบุตัวตนได้ของ AI ในการแชท

การใช้บริบทเพื่อปรับปรุงการจดจำ

ทุกวัน ผู้ใช้สร้างข้อความแชทเฉลี่ย 6.1 พันล้านข้อความบน Roblox เราใช้ระบบการตรวจสอบที่แข็งแกร่ง กำหนดข้อจำกัดตามอายุ และให้บริการการควบคุมของผู้ปกครองเพื่อช่วยให้การสื่อสารปลอดภัยและเป็นมิตร ข้อความส่วนใหญ่บนแพลตฟอร์มเป็นการสนทนาในชีวิตประจำวัน เช่น สองเพื่อนคุยกันเกี่ยวกับกลยุทธ์การเล่นเกม แต่ในจำนวนข้อความน้อยนิด ผู้ใช้อาจพยายามแบ่งปันข้อมูลที่สามารถระบุตัวตนได้ (PII) ซึ่งอาจมีความอ่อนไหว ข้อมูลส่วนบุคคลที่ระบุตัวตนได้ (PII) มีหลายรูปแบบ และผู้ใช้แบ่งปันข้อมูลนี้ด้วยเหตุผลที่ไม่เป็นอันตรายหลายประการ: ผู้ใช้อาจแบ่งปันชื่อผู้ใช้จากแพลตฟอร์มอื่นเพื่อประสานการเล่นเกม หรือแบ่งปันหมายเลขโทรศัพท์เพื่อสร้างมิตรภาพใหม่ อย่างไรก็ตาม มีกรณีที่พบได้น้อยที่ผู้ไม่หวังดีพยายามหาข้อมูลส่วนบุคคลเพื่อหลอกล่อผู้ใช้ให้ออกจาก Roblox ไปยังแพลตฟอร์มอื่นซึ่งอาจมีความเสี่ยงต่ออันตรายในโลกจริงสูงกว่า ในทางปฏิบัติ ความแตกต่างในเจตนารมณ์เหล่านี้เป็นเรื่องยากที่จะแยกแยะได้ ซึ่งเป็นเหตุผลที่เรามีนโยบายที่เข้มงวดในการห้ามการแบ่งปันหรือการแสวงหาข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) เราใช้เครื่องมือหลายอย่างเพื่อบล็อกข้อมูล PII ที่ตรวจพบทั้งหมดในแชทโดยค่าเริ่มต้น และเราจะผ่อนปรนข้อจำกัดเฉพาะสำหรับผู้ใช้ที่มีอายุ 18 ปีขึ้นไป และผู้ใช้ที่มีอายุ 13 ถึง 17 ปีที่ได้ยืนยันกันแล้วว่าเป็น "การเชื่อมต่อที่เชื่อถือได้" เท่านั้น 

การตรวจจับข้อมูลส่วนบุคคลที่ระบุตัวตนได้ (PII) เป็นความท้าทายทางเทคนิคที่อุตสาหกรรมต้องเผชิญร่วมกัน เครื่องมือตรวจจับตามมาตรฐานอุตสาหกรรมสามารถถูกหลีกเลี่ยงได้และขาดความสามารถในการปรับตัวให้เข้ากับรูปแบบภาษาใหม่ๆ แม้ว่าจะไม่มีเครื่องมือใดที่สมบูรณ์แบบ แต่เราได้พัฒนาโมเดล AI ชื่อ Roblox PII Classifier เพื่อรองรับธรรมชาติของภาษาที่เปลี่ยนแปลงอยู่เสมอและใช้บริบทในการตรวจจับสถานการณ์ที่ผู้ใช้พยายามหลีกเลี่ยงตัวกรองเพื่อขอหรือแบ่งปันข้อมูล PII

เรารู้สึกตื่นเต้นที่จะประกาศว่าวันนี้เราได้เปิดเผย PII Classifier ให้เป็นโอเพนซอร์สพร้อมกับเครื่องมืออื่นๆ ในชุดเครื่องมือความปลอดภัยโอเพนซอร์สของเรา ตั้งแต่การนำ PII Classifier มาใช้ในช่วงปลายปี 2024 เราได้เห็นการปรับปรุงอย่างรวดเร็วและต่อเนื่องในด้านการเรียกคืนข้อมูล โดยประสิทธิภาพเกินกว่าโมเดลอื่นๆ ที่มีอยู่ รุ่นของโมเดล PII ที่เราเปิดเผยในวันนี้มีการเรียกคืนการสนทนาที่อาจเป็น PII ในข้อความภาษาอังกฤษได้ถึง 98% บน Roblox โมเดลนี้ยังทำคะแนน F1 ได้ถึง 94% บนข้อมูลการผลิตของเรา ซึ่งเหนือกว่าโมเดลความปลอดภัยชั้นนำอื่น ๆ เช่น LlamaGuard v3 8B (28%) และ Piiranha NER (14%) 

ความท้าทาย 

การตรวจจับข้อมูลส่วนบุคคลที่ระบุตัวตนได้อย่างมีประสิทธิภาพในระดับใหญ่สามารถสรุปได้เป็นสามความท้าทายหลัก: 

  1. รูปแบบการต่อต้าน: ผู้ใช้มีความคิดสร้างสรรค์และค้นหาวิธีใหม่ ๆ อย่างต่อเนื่องเพื่อหลบเลี่ยงตัวกรอง ระบบที่มีประสิทธิภาพต้องสามารถปรับตัวได้เมื่อภาษาเปลี่ยนแปลงและรูปแบบใหม่ ๆ เกิดขึ้น
  2. การฝึกอบรมและการประเมินผล: เพื่อสร้างโมเดลที่มีประสิทธิภาพสูงสุด เราจำเป็นต้องสร้างชุดข้อมูลสำหรับการฝึกอบรมและวิธีการวัดผลที่มีประสิทธิภาพด้วย เนื่องจากโมเดลต้องสามารถรองรับรูปแบบที่เกิดขึ้นใหม่ได้ ข้อมูลการผลิตในปัจจุบันจึงไม่เพียงพอสำหรับการฝึกอบรม  
  3. ประสิทธิภาพ: การให้บริการโมเดลเช่นนี้ในขนาดใหญ่ต้องการการออกแบบสถาปัตยกรรมและการตัดสินใจในการเพิ่มประสิทธิภาพอย่างรอบคอบเพื่อป้องกันผลกระทบเชิงลบต่อประสบการณ์ของผู้ใช้

รูปแบบการต่อต้าน

โซลูชันการตรวจจับข้อมูลส่วนบุคคลที่ระบุตัวตนได้ (PII) ที่มีอยู่ในปัจจุบันส่วนใหญ่พึ่งพาการจดจำนิติบุคคล (NER) การตรวจจับในระดับโทเค็นของคำนามบางประเภท เช่น ชื่อผู้ใช้ในโซเชียลมีเดีย หมายเลขโทรศัพท์ และที่อยู่ แต่การตรวจจับคำนามเป็นเพียงส่วนหนึ่งของความท้าทายเท่านั้น ผู้ไม่ประสงค์ดีที่มีความเชี่ยวชาญจะปรับเปลี่ยนภาษาของตนโดยเจตนาเพื่อหลบเลี่ยงการตรวจจับ NER (เช่น การใช้ตัวอักษร A, B, C แทน alpha, bravo, และ Charlie หรืออ้างอิงถึงแพลตฟอร์มโดยไม่ระบุชื่อโดยตรง) เป็นไปได้ที่ผู้ไม่ประสงค์ดีจะส่งสัญญาณถึงเจตนาในการเชื่อมต่อบนแพลตฟอร์มอื่น โดยไม่แบ่งปันข้อมูลที่ละเอียดอ่อนซึ่งตัวกรอง NER จะตรวจจับได้ ภารกิจของ PII Classifier ไม่ใช่แค่การตรวจจับและทำให้ข้อความ PII ที่ชัดเจนซึ่งแชร์บน Roblox ไม่สามารถเข้าใจได้เท่านั้น แต่ยังต้องเข้าใจบริบทของการสื่อสารและหยุดผู้ไม่ประสงค์ดีไม่ให้มีส่วนร่วมในการสนทนาที่เกี่ยวข้องกับ PII ตั้งแต่แรก 

นี่คือรูปแบบการบายพาสที่เป็นตัวแทนโดยใช้แพลตฟอร์มสังคมสมมติชื่อว่า StarTalk:

การควบคุมในระดับตัวละคร
  1. "คุณมีเบอร์โทรประมาณ 5 เบอร์ที่อยากโทรไหม? ฉันเพิ่งสร้างบัญชีเมื่อสองสามวันก่อน"
  2. "กรี๊ด ฉันเกลียดแท็กนี้ ชื่อคุณอะไร นั่นคือ S และ T"
การอ้างอิงโดยนัยถึงสื่อสังคมออนไลน์ยอดนิยม
  1. "อีกครั้ง อะไรคือ ppa ของหนูที่กลับด้าน"
  2. "เฮ้ คุณช่วยตรวจสอบชื่อของฉันในแอป Yellow Sun ได้ไหม? มาคุยกันที่นั่นได้ไหม?"

ภาษาและคำสแลงมีการพัฒนาเปลี่ยนแปลงตลอดเวลา และผู้ไม่หวังดีก็มักแสวงหาวิธีใหม่ๆ ในการหลบเลี่ยงตัวกรองอยู่เสมอ จุดแข็งของ PII Classifier อยู่ที่ความสามารถในการปรับตัวเข้ากับรูปแบบภาษาและวิธีการหลีกเลี่ยงใหม่ๆ ที่เกิดขึ้น เมื่อเราตรวจพบรูปแบบการโจมตีในโลกจริง เราจะนำรูปแบบเหล่านั้นกลับมาปรับปรุงในโมเดล เพื่อช่วยฝึกฝนและพัฒนาโมเดลอย่างต่อเนื่อง 

การฝึกอบรมและการประเมินผล 

ไม่ระบุ
สามเสาหลักของการจัดการข้อมูลสนับสนุนการพัฒนาแบบจำลอง ซึ่งในทางกลับกันช่วยเสริมสร้างการจัดการข้อมูลให้ดียิ่งขึ้น

ในการฝึกโมเดลในขั้นต้น เราได้ตรวจสอบและติดป้ายกำกับข้อมูลที่เกี่ยวข้องกับ PII ด้วยตนเอง ซึ่งให้จุดเริ่มต้นแก่เรา แต่ไม่สามารถขยายขนาดและครอบคลุมสถานการณ์ที่หลากหลายได้อย่างรวดเร็ว แทนที่จะพยายามค้นหาและติดป้ายกำกับคำศัพท์และการสลับตำแหน่งทุกแบบที่พบในข้อความแชทหลายพันล้านข้อความต่อวัน เราจึงสร้างและทดสอบตัวสุ่มตัวอย่างข้อมูลเพื่อเลือกตัวอย่างที่เกี่ยวข้องสำหรับการฝึกฝน เป้าหมายของเราคือการคัดกรองบทสนทนาที่ไม่เกี่ยวข้องออก และมุ่งเน้นไปที่บทสนทนาที่มีข้อมูลส่วนบุคคลที่สามารถระบุตัวบุคคลได้ (PII) เพื่อลดโอกาสของข้อผิดพลาดในการติดป้ายกำกับโดยมนุษย์ และครอบคลุมข้อมูลได้มากขึ้น สองเครื่องมือสุ่มตัวอย่างที่ได้พิสูจน์แล้วว่ามีประสิทธิภาพมากที่สุดคือ:

  1. การสุ่มตัวอย่างความไม่แน่นอนโดยใช้ผลลัพธ์คะแนนของแบบจำลอง: ตัวสุ่มตัวอย่างนี้เลือกตัวอย่างที่ไม่กระตุ้นสัญญาณบวกหรือลบอย่างแรง ทำให้เราสามารถปรับปรุงกรณีที่ไม่ชัดเจนได้ดียิ่งขึ้น
  2. ตัวอย่างจากบล็อก PII ที่ต่อเนื่องกัน: ตัวเก็บตัวอย่างนี้เลือกตัวอย่างจากผู้ใช้ที่ถูกทำเครื่องหมายในบางการสนทนา แต่ไม่ได้รับการทำเครื่องหมายในบทสนทนาต่อเนื่องกัน การสนทนาติดตามผลเหล่านี้มีแนวโน้มที่จะมีภาษาที่ไม่ปกติซึ่งได้ผ่านตัวกรอง PII ปัจจุบันไปแล้ว ในทางปฏิบัติ อาจดูเหมือนผู้ใช้ไม่สามารถผ่านระบบได้และพยายามอีกครั้งจนกว่าจะพบช่องโหว่ที่ชาญฉลาด 

การผสมผสานระหว่างการสุ่มตัวอย่างข้อมูลและการติดป้ายกำกับโดยมนุษย์บนข้อมูลการผลิตในปัจจุบันได้สร้างฐานที่แข็งแกร่งสำหรับการฝึกอบรมแบบจำลอง อย่างไรก็ตาม เนื่องจากเป้าหมายของเราคือการคำนึงถึงรูปแบบที่กำลังเกิดขึ้นใหม่ เราจึงจำเป็นต้องมีวิธีการฝึกอบรมบนข้อมูลที่ยังไม่มีอยู่ในตัวอย่างของเรา 

ข้อมูลสังเคราะห์ที่สร้างโดยปัญญาประดิษฐ์

การพึ่งพาข้อมูลตัวอย่างปัจจุบันเพียงอย่างเดียวอาจทำให้เกิดอคติและจำกัดความสามารถของโมเดลในการปรับตัวเมื่อรูปแบบการสื่อสารใหม่ๆ เกิดขึ้น ตัวอย่างเช่น คำขอข้อมูลส่วนบุคคลที่พบบ่อยที่สุดบน Roblox คือชื่อผู้ใช้ในแพลตฟอร์มโซเชียลมีเดียยอดนิยม โมเดลที่ฝึกฝนด้วยข้อมูลการผลิตเพียงอย่างเดียวอาจพัฒนาอคติไปทางคำขอที่พบบ่อยที่สุดและทำงานได้ไม่ดีในคำขอที่พบได้น้อยกว่า เช่น แพลตฟอร์มโซเชียลมีเดียที่ไม่ค่อยเป็นที่รู้จัก ที่อยู่อีเมล และหมายเลขโทรศัพท์ การสื่อสารของผู้ใช้ก็มีแนวโน้มที่จะรวมตัวกันในคำศัพท์และรูปแบบภาษาที่ได้รับความนิยมเช่นกัน แบบจำลองที่ได้รับการฝึกอบรมเพียงข้อมูลการผลิตอาจกลายเป็นลำเอียงต่อรูปแบบภาษาที่พบได้บ่อย และไม่สามารถระบุการละเมิดที่แสดงออกในรูปแบบที่ไม่ปกติหรือเกิดขึ้นใหม่ได้

เพื่อขจัดอคติเหล่านี้และอคติอื่น ๆ เราได้ออกแบบกระบวนการสร้างข้อมูลด้วย AI ที่มุ่งเป้าไปที่จุดอ่อนใด ๆ ที่ได้รับมาจากชุดข้อมูลการฝึกอบรมเริ่มต้น ขั้นแรก เราสร้างข้อความกระตุ้นโดยใช้การผสมผสานของตัวแปรต่าง ๆ รวมถึงบริบท ประเภทข้อมูลส่วนบุคคล (PII) บุคลิกภาพของผู้ใช้ ภาษา และตัวอย่างบทสนทนา จากนั้น เราสร้างบทสนทนาใหม่ตามข้อความกระตุ้นเหล่านี้และป้อนเข้าสู่โมเดล  

การทดสอบแบบทีมแดงโดยมนุษย์และ AI

เราได้ใช้ทั้งทีมมนุษย์และทีม AI ในการทดสอบแบบ Red Teaming (ซึ่งเป็นการจำลองการโจมตีจากฝ่ายตรงข้ามเพื่อทดสอบระบบป้องกัน) ในระหว่างการพัฒนา เพื่อทดสอบประสิทธิภาพของโมเดลและปรับปรุงการฝึกอบรมให้ดียิ่งขึ้น เราได้เชิญผู้ดูแลมาทดลองใช้วิธีการต่าง ๆ ในการขอและแบ่งปันข้อมูลส่วนบุคคล (PII) และกระตุ้นให้ LLMs ช่วยเสริมวิธีการเหล่านี้ในหลากหลายวิธี จากนั้นเราได้เพิ่มตัวอย่างที่โมเดลพลาดเข้าไปในชุดข้อมูลฝึกฝนของมัน การทดสอบโดยทีม AI red teaming ช่วยให้เราสามารถทดสอบรูปแบบต่าง ๆ ได้อย่างรวดเร็วและครอบคลุมวิธีการที่ผู้ดูแลอาจไม่ได้ครอบคลุม ตัวอย่างเช่น: 

ต้นฉบับ: รหัสผ่านคือ xxxx
AI เพิ่มเติม: คำที่ใช่คือ xxxx

ต้นฉบับ: เบลล่า หมายเลขโทรศัพท์ของฉันคือ 346
AI เพิ่มเติม: เบลล่า หมายเลขของฉันจริงๆ คือ สามสี่หก

การทดสอบแบบทีมแดงช่วยให้เราเข้าใจช่องว่างในข้อมูลการฝึกอบรมปัจจุบันของเราได้ดีขึ้น และปรับข้อมูลสังเคราะห์ของเราเพื่อปิดช่องว่างเหล่านั้น นอกจากนี้ยังช่วยให้เราวัดความแตกต่างระหว่างรุ่นของโมเดลได้ ซึ่งกลายเป็นเรื่องยากขึ้นเมื่อสองรุ่นของโมเดลเริ่มทำให้ชุดการประเมินอิ่มตัว เราได้ให้บริการหลายรุ่นของโมเดลภายใต้เครื่องมือการทดสอบแบบทีมแดงเพื่อเปรียบเทียบอัตราการหลบเลี่ยงในสภาพแวดล้อมเดียวกันโดยตรง และกำหนดว่าโมเดลใดมีประสิทธิภาพทางสถิติมากกว่า

ประสิทธิภาพ 

ด้วยข้อความแชทเฉลี่ย 6.1 พันล้านข้อความต่อวัน PII Classifier ได้รับคำขอสูงสุดกว่า 200,000 รายการต่อวินาทีบน Roblox เราจัดการปริมาณนี้ด้วยค่าความหน่วง P90 <100 มิลลิวินาที เพื่อรักษาสมดุลระหว่างการให้บริการและคุณภาพ เราเลือกใช้สถาปัตยกรรมแบบ encode-only และปรับแต่งโมเดลจาก XLM-RoBERTa-Large2 เราแยกบริการ tokenizer และบริการ pre-processing และ post-processing เพื่อทำงานอย่างมีประสิทธิภาพบน CPU และให้บริการสถาปัตยกรรม transformer แบบบริสุทธิ์บน GPU เพื่อลดต้นทุน นอกจากนี้ เรายังใช้ dynamic batching บนเซิร์ฟเวอร์ Triton เพื่อเพิ่มปริมาณงาน 

การเปรียบเทียบประสิทธิภาพบนชุดข้อมูลสาธารณะและภายในองค์กร 

เราได้ทำการเปรียบเทียบ PII Classifier กับโมเดลที่ทันสมัยที่สุดอื่น ๆ โดยใช้ข้อมูลการผลิตของเราเองและชุดข้อมูลสาธารณะ ชุดข้อมูล PII สาธารณะส่วนใหญ่จะเน้นที่ข้อความ PII เองมากกว่าข้อความรอบข้างที่อาจบ่งบอกถึงเจตนา ดังนั้นจึงไม่มีชุดข้อมูลใดที่สอดคล้องกับข้อกำหนดของแพลตฟอร์มเราสำหรับการเปรียบเทียบอย่างสมบูรณ์ อย่างไรก็ตาม เราต้องการดูว่าโมเดลของเราเปรียบเทียบกับโซลูชันการตรวจจับปัจจุบันได้อย่างไร โดยใช้ชุดข้อมูล PII ที่เป็นที่นิยม เช่น ชุดข้อมูลการตรวจจับ PII ของ The Learning Agency Lab บน Kaggle

เราใช้คะแนน F1 เนื่องจาก LLM ในการเปรียบเทียบให้เพียงคู่เดียว (recall, precision) เท่านั้น สำหรับโมเดลที่แสดงคะแนนการจำแนกประเภท เราได้รายงานค่า F1 ที่เหมาะสมที่สุดบนชุดทดสอบ โปรดทราบว่าโมเดลของเราต้องการข้อความแชทของผู้ใช้เป็นอินพุตและแสดงคะแนน PII ซึ่งเราใช้ในการตัดสินใจแบบไบนารีเกี่ยวกับข้อความแชท เพื่อการเปรียบเทียบที่เป็นธรรม เราได้แบ่งชุดข้อมูลสาธารณะตามประโยคและติดป้ายกำกับแต่ละประโยคว่าเป็นบวกหากมีโทเค็น NER PII ที่เป็นบวก

ข้อมูลส่วนบุคคล V1.1

LlamaGuard-v3 1B

LlamaGuard-v3 8B

LlamaGuard-v4 12B

เนโมการ์ด 8B

ปิรันย่า NER

ชุดข้อมูล PII ของ Kaggle

สี่สิบห้าจุดสี่แปดเปอร์เซ็นต์

ห้าจุดเก้าศูนย์เปอร์เซ็นต์

ห้าจุดสี่หกเปอร์เซ็นต์

3.72%

สามจุดยี่สิบหกเปอร์เซ็นต์

สามสิบสามจุดยี่สิบเปอร์เซ็นต์

Roblox Eval ภาษาอังกฤษ

94.34%

สามจุดเจ็ดเปอร์เซ็นต์

ยี่สิบเจ็ดจุดเจ็ดสามเปอร์เซ็นต์

26.55%

ยี่สิบหกจุดสองเก้าเปอร์เซ็นต์

13.88%

ในการทดสอบประสิทธิภาพของเรา โมเดลของเราสามารถทำผลงานได้ดีกว่าโมเดลโอเพนซอร์สอื่น ๆ อย่างมาก ทั้งบนชุดข้อมูลสาธารณะของ The Learning Agency Lab และข้อมูลการผลิตภายในของเรา ซึ่งประกอบด้วยตัวอย่างที่หลากหลายกว่า 47,000 ตัวอย่างจากโลกจริงบน Roblox การมุ่งเน้นในการรวมบริบทการสนทนาที่กว้างขึ้นและการปรับตัวอย่างต่อเนื่องตามลักษณะที่เปลี่ยนแปลงของภาษาได้พิสูจน์แล้วว่าเป็นแนวทางที่มีประสิทธิภาพในการตรวจจับการสนทนาเพิ่มเติมที่ผู้ใช้มีเจตนาจะขอหรือแบ่งปันข้อมูลส่วนบุคคล (PII)  

PII Classifier เป็นเพียงหนึ่งในระบบนวัตกรรมมากมายที่เราใช้เพื่อส่งเสริมความปลอดภัยและความสุภาพบน Roblox ความสามารถในการตรวจจับเมื่อบทสนทนาเบี่ยงเบนไปสู่การขอข้อมูลส่วนบุคคล (PII) หมายความว่าเราสามารถจับคำขอที่คลุมเครือซึ่งอาจหลุดรอดจากการตรวจจับได้ แม้ว่าไม่มีระบบใดที่สมบูรณ์แบบ แต่ผลลัพธ์จากปีแรกที่เราใช้งานจริงนั้นมีความน่าพึงพอใจแล้ว และเรารู้สึกตื่นเต้นที่จะแบ่งปันเครื่องมือนี้กับชุมชนโอเพ่นซอร์สควบคู่ไปกับเครื่องมืออื่นๆ ในชุดเครื่องมือความปลอดภัยโอเพ่นซอร์สของเรา 

  1. อัตราการจดจำ 98% ถูกวัดจากการทดสอบภายในของ Roblox ที่ตั้งค่า FPR ไว้ที่ 1% ชุดข้อมูลถูกรวบรวมจากข้อมูลการผลิตจริงและได้รับการตรวจสอบหลายครั้งพร้อมติดฉลากโดยผู้เชี่ยวชาญด้านความปลอดภัย
  2.  Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., Grave, E., Ott, M., Zettlemoyer, L., และ Stoyanov, V. 2019. การเรียนรู้การแทนค่าข้ามภาษาโดยไม่มีการกำกับดูแลในระดับขนาดใหญ่ arXiv preprint arXiv:1911.02116
  3.  Holmes, L., Crossley, S. A., Sikka, H., และ Morris, W. 2023. PIILO: ระบบโอเพนซอร์สสำหรับการติดป้ายกำกับและการปกปิดข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้. Information and Learning Science, 124 (9/10), 266-284.