เนื้อหาในเว็บไซต์นี้ได้รับการแปลโดยใช้ปัญญาประดิษฐ์ (AI) หรือเทคโนโลยีการแปลด้วยเครื่อง และอาจมีข้อผิดพลาด

Skip to content

Roblox ใช้ AI อย่างไรในการตรวจสอบเนื้อหาในขนาดใหญ่

การดูแลเนื้อหาหลายพันล้านชิ้นต่อวันใน 25 ภาษา—แบบเรียลไทม์

  • เพื่อดำเนินการตรวจสอบเนื้อหาที่เผยแพร่บน Roblox อย่างเชิงรุก เราได้พัฒนาระบบที่สามารถขยายขนาดได้ โดยใช้ประโยชน์จากปัญญาประดิษฐ์มาเป็นเวลาประมาณห้าปีแล้ว
  • วันนี้ โครงสร้างพื้นฐาน, แบบจำลอง ML, และผู้เชี่ยวชาญหลายพันคนของเราทำงานร่วมกันเพื่อช่วยให้ Roblox เป็นที่ที่ปลอดภัยและสุภาพมากขึ้นสำหรับผู้ใช้ของเรา
  • เราพัฒนาระบบทั้งหมดนี้เพื่อรองรับการขยายขนาด ความรวดเร็ว และการปรับปรุงอย่างต่อเนื่องด้วยข้อมูลคุณภาพสูง

ความปลอดภัยเป็นรากฐานของทุกสิ่งที่เราทำที่ Roblox ตั้งแต่เริ่มต้น เราได้ดำเนินการตรวจสอบเนื้อหาอย่างเชิงรุกเพราะเรารู้ว่าการตรวจสอบเป็นสิ่งสำคัญสำหรับแพลตฟอร์มที่สร้างขึ้นจากเนื้อหาที่ผู้ใช้สร้างขึ้น เมื่อ Roblox ยังเล็กกว่านี้มาก ผู้ตรวจสอบที่เป็นมนุษย์เป็นผู้ทำสิ่งนี้ รวมถึงผู้ก่อตั้งและซีอีโอของเราที่ใช้เวลาในการตรวจสอบเนื้อหาในช่วงเริ่มต้น เมื่อเวลาผ่านไป แพลตฟอร์มได้เติบโตขึ้น (ทั้งในแง่ของขนาดและความเร็ว) เกินขีดความสามารถของผู้ดูแลมนุษย์ เมื่อเปิดตัวผลิตภัณฑ์ใหม่ใด ๆ ความปลอดภัยคือสิ่งแรกที่เราคำนึงถึงเสมอ

มีผู้ใช้ที่ใช้งานเฉลี่ย 97.8 ล้านคนต่อวัน1 มาที่ Roblox เพื่อเล่น สื่อสาร และสร้างสรรค์ ทุกวัน ผู้ใช้ส่งข้อความแชทเฉลี่ย 6.1 พันล้านข้อความ และใช้เวลาในการสื่อสารด้วยเสียง 1.1 ล้านชั่วโมงใน 28 ภาษาที่แตกต่างกัน ผู้สร้างอัปโหลดสินทรัพย์นับล้านต่อวัน—และมีไอเท็มอีกหลายพันรายการที่ถูกเพิ่มเข้าสู่ตลาดอวตารของเรา ส่วนใหญ่ของสิ่งสร้างสรรค์และข้อความจำนวนหลายพันล้านนี้ล้วนเป็นสิ่งที่สุภาพ เหมือนในโลกจริง—นี่คือวิธีที่ผู้คนส่วนใหญ่สื่อสารกัน แต่เมื่อไม่เป็นเช่นนั้น ระบบคัดกรองข้อความของเราจะช่วยบล็อกข้อความที่มีปัญหา ก่อนที่มันจะถึงผู้ใช้ และการละเมิดเสียงจะถูกประเมินในเวลาจริง และในกรณีที่เราได้รับแจ้งเกี่ยวกับเนื้อหาที่ผิดกฎหมาย เวลาเฉลี่ยที่เราดำเนินการคือสิบนาที

การตรวจสอบและกลั่นกรองปริมาณเนื้อหาในระดับนี้อย่างต่อเนื่องภายในเวลาเพียงไม่กี่มิลลิวินาทีเป็นงานที่มนุษย์ไม่สามารถจัดการได้เพียงลำพัง—ไม่ว่าจะมีคนมากเพียงใดก็ตาม การทำงานในระดับและด้วยความเร็วเช่นนี้จะต้องใช้ผู้ตรวจสอบเนื้อหาจำนวนหลายแสนคนทำงานตลอด 24 ชั่วโมงทุกวัน ไม่รวมวันหยุดสุดสัปดาห์หรือวันหยุดพักร้อน—และนั่นเป็นเพียงการกลั่นกรองข้อความแชทเท่านั้น เราต้องการผู้ดูแลอีกหลายพันคนเพื่อดูแลเนื้อหาประเภทอื่น ๆ ทั้งหมดบน Roblox ปริมาณเนื้อหาที่สร้างขึ้นทุกวันบน Roblox ต้องการโครงสร้างพื้นฐานที่สามารถขยายได้, แบบจำลองการเรียนรู้ของเครื่อง (ML), และเครื่องมือที่ออกแบบมาเพื่อการใช้งานเฉพาะ 

ML สามารถตัดสินใจเหล่านี้ได้ในเวลาเพียงไม่กี่มิลลิวินาที ทำซ้ำได้อย่างต่อเนื่องและสม่ำเสมอตลอด 24 ชั่วโมงต่อวัน เรายังคงต้องการและใช้มนุษย์ในการจัดการกับกรณีที่ไม่พบบ่อยซึ่งต้องการการตัดสินใจที่ละเอียดอ่อนและลึกซึ้งขึ้นตามบริบท เราผสานเครื่องมือความปลอดภัยและการตรวจสอบที่แข็งแกร่งและนวัตกรรมเข้ากับผู้เชี่ยวชาญมนุษย์หลายพันคนทั่วโลกที่ให้การกำกับดูแลและฝึกอบรมระบบของเราอย่างต่อเนื่องเพื่อรับมือกับความท้าทายใหม่ ๆ ที่เกิดขึ้นและเปลี่ยนแปลงไป ระบบการตรวจสอบทั้งหมดของ Roblox มีพื้นฐานอยู่บนหลักการต่อไปนี้: 

  • เราดำเนินการตรวจสอบเนื้อหาบน Roblox อย่างเชิงรุก
  • เราให้ข้อเสนอแนะแบบเรียลไทม์แก่ผู้ใช้ทุกครั้งที่เป็นไปได้ เนื่องจากบ่อยครั้งที่ผู้คนไม่ทราบกฎเกณฑ์
  • เราใช้ AI เฉพาะเมื่อมันทำงานได้ดีกว่ามนุษย์อย่างมีนัยสำคัญทั้งในด้านความแม่นยำและการเรียกคืนข้อมูลในระดับที่กว้างขวาง 
  • เราใช้ประโยชน์จากมนุษย์ในการปรับปรุง AI อย่างต่อเนื่อง, การพัฒนาและกรณีหายาก, การสืบสวนที่ซับซ้อน, และการอุทธรณ์. 

เพื่อควบคุมปริมาณเนื้อหาที่เพิ่มขึ้นบน Roblox อย่างมีประสิทธิภาพ เราจึงมุ่งมั่นคิดค้นนวัตกรรมใหม่ ๆ อยู่เสมอในสามมิติ ได้แก่ ขนาด ความเร็ว และคุณภาพ ซึ่งล้วนต้องการการพัฒนาอย่างต่อเนื่อง

ขนาด: การจัดการเนื้อหาหลายพันล้านชิ้นต่อวัน

ตั้งแต่เดือนกุมภาพันธ์ถึงธันวาคม ปี 20241 ผู้ใช้ได้อัปโหลดเนื้อหาประมาณ 1 ล้านล้านชิ้น จากจำนวนมหาศาลนี้ มีเพียง 0.01% เท่านั้นที่ถูกตรวจพบว่ามีเนื้อหาละเมิดนโยบายของเรา ไม่ว่าจะเป็นข้อความแชท เสียง ไฟล์เสียง หรือรูปภาพ และเกือบทั้งหมดของเนื้อหาที่ละเมิดนโยบายของเราได้ถูกคัดกรองและลบออกโดยอัตโนมัติก่อนที่ผู้ใช้จะได้เห็น แม้ขนาดของข้อมูลนี้จะถือว่าใหม่สำหรับเรา แต่ความมุ่งมั่นในการดูแลเนื้อหาของเรานั้นไม่เคยเปลี่ยนแปลง เมื่อกว่าทศวรรษที่แล้ว เราได้สร้างตัวกรองข้อความตามกฎเกณฑ์ขึ้นมา ประมาณห้าปีที่แล้ว เราได้นำตัวกรองข้อความที่ใช้ทรานส์ฟอร์เมอร์ซึ่งในขณะนั้นถือเป็นเทคโนโลยีล้ำสมัยที่สุดมาใช้ ปัจจุบัน ตัวกรองข้อความของเราประมวลผลข้อความแชทเฉลี่ย 6.1 พันล้านข้อความต่อวัน โดยขับเคลื่อนด้วยโมเดลจำนวนมากที่ออกแบบมาโดยเฉพาะสำหรับการตรวจจับการละเมิดนโยบายประเภทต่างๆ

หนึ่งในโมเดลเหล่านี้คือตัวกรองข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) สำหรับการแชทในเกมและแพลตฟอร์ม ผู้ใช้ที่ขอข้อมูลส่วนบุคคลจากผู้อื่นอาจเป็นก้าวแรกไปสู่ปัญหาที่รุนแรงขึ้นได้ ดังนั้นเราจึงมีจุดยืนที่เข้มแข็งในการป้องกันการแบ่งปันข้อมูลส่วนบุคคล ทุกข้อความแชทที่ส่งไปจะถือเป็น "คำขอ" ที่ให้ระบบตรวจสอบและพิจารณาว่ามีข้อมูลส่วนบุคคลที่ระบุตัวตนได้หรือไม่ โมเดลตัวกรองข้อความนี้รองรับคำขอได้มากมายต่อวินาที (RPS) จนทำให้ยากต่อการรองรับบนระบบให้บริการที่ใช้ CPU ที่มีอยู่ของเรา ดังนั้นเราจึงสร้างระบบให้บริการใหม่ทั้งหมดบน GPU โดยใช้ประโยชน์จากโครงสร้างพื้นฐานเซลลูลาร์ของเรา ในการรองรับความต้องการ RPS ที่สูงนี้ เราได้แยกการแยกโทเค็นออกจากกระบวนการอนุมานก่อน จากนั้นจึงเร่งความเร็วการอนุมานด้วยการแปลงค่าเป็นจำนวนเต็มและการกลั่นแบบจำลองขนาดใหญ่ การปรับปรุงเหล่านี้ร่วมกันทำให้ RPS ของเราเพิ่มขึ้นเป็นสี่เท่า 

บนสแต็กใหม่ ตัวกรอง PII สามารถรองรับได้ถึง 370,000 RPS ในช่วงเวลาที่มีการใช้งานสูงสุด ตัวกรอง PII ที่ได้รับการปรับปรุงของเราสามารถลดจำนวนการตรวจจับผิดพลาดได้ถึง 30% ซึ่งส่งผลให้ระบบสามารถตรวจจับการกล่าวถึง PII ได้เพิ่มขึ้น 25% ในทุกภาษาที่รองรับ เรากำลังดำเนินการปรับปรุงนี้ให้ครอบคลุมหลายภาษาอื่น ๆ และจะนำการปรับปรุงที่คล้ายกันนี้ไปใช้กับตัวกรองข้อความและพื้นผิวอื่น ๆ ด้วย แม้ว่าเราจะภูมิใจในความก้าวหน้าเหล่านี้ แต่เราก็ทราบดีว่าวิธีการที่ใช้ในการแบ่งปันข้อมูลส่วนบุคคลที่ระบุตัวตนได้ (PII) นั้นมีการพัฒนาอยู่ตลอดเวลา และเรากำลังพัฒนาระบบของเราให้สอดคล้องกับการเปลี่ยนแปลงเหล่านี้เช่นกัน 

ระบบกลั่นกรองทั้งหมดของเราได้รับการสนับสนุนโดยโมเดลขนาดใหญ่ที่ใช้ทรานส์ฟอร์เมอร์ ซึ่งมีองค์ความรู้ครอบคลุมหลากหลายรูปแบบ ขึ้นอยู่กับความต้องการในการดำเนินงานและการผลิต เราทำการกลั่นและแปลงโมเดลเหล่านี้เป็นปริมาณที่น้อยลงเพื่อให้ระบบทำงานได้รวดเร็วและมีประสิทธิภาพ เทคนิคเหล่านี้มีความสำคัญอย่างยิ่งสำหรับการใช้งานโมเดลหลายรูปแบบ โดยโมเดลที่จัดการตัวกรองข้อความของเรากำลังรองรับมากกว่า 750,000 รายการต่อวินาทีอย่างมีประสิทธิภาพ 

ความเร็ว: การเปลี่ยนแปลงพฤติกรรมผู้ใช้ด้วยข้อมูลย้อนกลับแบบเรียลไทม์

การสื่อสารที่เป็นธรรมชาติและเรียลไทม์ต้องการการกรองที่เกือบจะทันทีเพื่อให้การสนทนาดำเนินไปอย่างต่อเนื่อง การปรับปรุงและร่วมมือกันในความคิดต้องการการตอบกลับอย่างรวดเร็วเพื่อให้ความคิดสร้างสรรค์ไหลเวียนอย่างต่อเนื่อง ระบบป้องกันหลายชั้นของเราประกอบด้วยมาตรการเชิงรุกเช่นการแจ้งเตือนล่วงหน้า, การพักการใช้งาน, และการระงับการใช้งานชั่วคราว เมื่อกรองข้อความ เราสามารถตอบสนองในเวลาเรียลไทม์เพื่อบล็อกคำที่ละเมิดนโยบายเช่นข้อมูลส่วนบุคคล (PII), คำหยาบคาย, และคำพูดที่เกลียดชังภายในเวลาไม่กี่มิลลิวินาที ซึ่งช่วยป้องกันไม่ให้ผู้ใช้ถูกเปิดเผยต่อเนื้อหาที่ไม่เหมาะสม 

การสื่อสารด้วยเสียงไม่สามารถถูกบล็อกได้ในลักษณะเดียวกัน ดังนั้นเราจึงให้ความรู้แก่ผู้ใช้ผ่านการแจ้งเตือนบนหน้าจอ การแจ้งเตือนเตือนภัยของเราได้เปลี่ยนแปลงพฤติกรรมของผู้ใช้อย่างมีประสิทธิภาพ และเพิ่มทั้งความสุภาพและการมีส่วนร่วม การคัดกรองความปลอดภัยด้วยเสียงของเราสามารถตรวจสอบการแชทได้ภายใน 15 วินาทีใน 8 ภาษา เราได้เผยแพร่แบบจำลองนี้เป็นโอเพนซอร์สเป็นส่วนหนึ่งของความมุ่งมั่นที่กว้างขวางของเราในการแบ่งปันนวัตกรรมด้านความปลอดภัยกับอุตสาหกรรม

การแจ้งเตือนช่วยให้ผู้ใช้เข้าใจว่าพวกเขากำลังละเมิดนโยบายใด และให้โอกาสผู้ใช้ในการอุทธรณ์การตัดสินใจของระบบ

หากผู้ใช้ยังคงฝ่าฝืนนโยบายของเราอย่างต่อเนื่อง ผลกระทบจะรุนแรงขึ้นเรื่อย ๆ ตั้งแต่การเตือนสั้น ๆ ไปจนถึงการสูญเสียสิทธิ์ในการใช้ระบบเสียง การวิจัยภายในของเราแสดงให้เห็นว่าการระงับการใช้งานมีผลกระทบต่อเนื่องได้ถึงสามสัปดาห์หลังจากนั้น ซึ่งช่วยลดอัตราการกระทำผิดซ้ำและจำนวนรายงานจากผู้ใช้ การทดลองในระยะแรกแสดงให้เห็นว่าการแทรกแซงและการกำหนดผลที่ตามมาในทันทีประเภทนี้ส่งผลเชิงบวกต่อความสุภาพเรียบร้อย เวอร์ชันล่าสุดของระบบจำแนกเสียงของเรา มีอัตราการเรียกคืน (recall rate) สูงกว่าเวอร์ชันแรกถึง 92% โดยมีอัตราการตรวจพบผิดพลาด (false positive rate) เพียง 1% และสามารถรองรับการประมวลผลได้สูงสุดถึง 8,300 รายการต่อวินาที (RPS) ในช่วงเวลาที่มีการใช้งานสูงสุด เรายังคงมุ่งมั่นพัฒนาวิธีการเพิ่มเติมเพื่อปรับปรุงทั้งความแม่นยำและอัตราการเรียกคืนให้ดียิ่งขึ้น

จากความสำเร็จที่เราได้เห็นจากการแจ้งเตือนในแชทเสียง เราได้เริ่มนำการให้ข้อมูลย้อนกลับแบบเรียลไทม์มาใช้กับแชทข้อความด้วย ในการทดลองล่าสุด เราพบว่าการแจ้งเตือนแชทข้อความและการหมดเวลาในประสบการณ์ส่งผลให้ข้อความแชทที่ถูกกรองลดลง 5% และผลลัพธ์จากการรายงานการละเมิดลดลง 6% นอกจากนี้ เรายังเริ่มทดลองให้ข้อมูลย้อนกลับแบบเรียลไทม์แก่ผู้สร้างเมื่ออัปโหลดผลงานของพวกเขาด้วย

คุณภาพข้อมูล: การฝึกอบรมแบบจำลองเพื่อการปรับปรุงอย่างต่อเนื่อง

เราฝึกฝนระบบเหล่านี้ให้ปรับให้เหมาะสมเพื่อลดการตรวจไม่พบเนื้อหาที่ละเมิดนโยบายให้น้อยที่สุด โดยให้ความสำคัญกับการลบเนื้อหาที่อาจละเมิดนโยบายออกไปก่อน เราเข้าใจดีว่าผู้ใช้รู้สึกไม่พอใจเมื่อเนื้อหาที่เชื่อว่าไม่ละเมิดนโยบายถูกนำออกไป ดังนั้นเราจึงปรับปรุงระบบของเราอย่างต่อเนื่องเพื่อลดการตรวจพบเนื้อหาที่ไม่ละเมิดนโยบายให้น้อยที่สุดเช่นกัน ข้อมูลที่ได้รับการติดป้ายกำกับอย่างถูกต้องเป็นสิ่งสำคัญอย่างยิ่งต่อการปรับปรุงความแม่นยำของระบบคัดกรองทั้งหมดของเรา 

การสร้างชุดข้อมูลสำหรับการฝึกอบรมและการประเมินผลที่แข็งแกร่งนั้นต้องการทั้งตัวอย่างที่มีคุณภาพสูงเพียงพอและผู้เชี่ยวชาญมนุษย์เพื่อทำการติดป้ายกำกับอย่างถูกต้อง มีกรณีที่เรามีข้อมูลไม่เพียงพอเนื่องจากเป็นสถานการณ์ที่หายากหรือเป็นกรณีขอบ บางครั้งเรามีข้อมูลมากเกินไปและจำเป็นต้องระบุตัวอย่างที่มีประสิทธิภาพมากที่สุด และเราต้องการข้อมูลที่ตรงกับสิ่งที่เกิดขึ้นจริงบน Roblox ซึ่งรวมถึงตัวอย่างชั่วคราว เช่น คำแสลงหรือมีม ผู้ชมของเราซึ่งประกอบด้วยเด็ก เยาวชน และเกมเมอร์ มักจะแนะนำคำสแลงใหม่ ๆ เทรนด์ใหม่ ๆ และวิธีใหม่ ๆ ในการหลบเลี่ยงเครื่องมือการตรวจสอบของเราอยู่เสมอ พวกเขาทำให้เราต้องคอยตื่นตัวอยู่ตลอดเวลา นั่นคือเหตุผลที่เราทดสอบและประเมินทั้งเครื่องมือการตรวจสอบและนโยบายของเราอย่างต่อเนื่อง 

เราใช้กลยุทธ์การสุ่มตัวอย่างที่หลากหลายในการรวบรวมชุดข้อมูลเหล่านี้ และเราใช้ทั้ง AI และผู้เชี่ยวชาญมนุษย์ในการสร้างและติดป้ายกำกับตัวอย่างข้อมูลเหล่านี้ ผู้เชี่ยวชาญด้านนโยบายของเราคัดสรรตัวอย่างด้วยตนเอง ซึ่งเราเรียกว่าชุดข้อมูลทองคำ ตัวอย่างเหล่านี้เป็นตัวอย่างที่ตรงกับประเด็นที่เราต้องการให้ระบบตรวจจับได้มากที่สุด เราสุ่มตัวอย่างจากชุดข้อมูลขนาดใหญ่มากด้วยกลยุทธ์การสุ่มตัวอย่างหลายรูปแบบ รวมถึงการสุ่มตัวอย่างความไม่แน่นอน ซึ่งเราจะสุ่มตัวอย่างจากกรณีขอบที่โมเดลเคยสับสนมาก่อน เราได้รับตัวอย่างจากผู้เชี่ยวชาญมนุษย์และทีมแดงที่ได้รับการช่วยเหลือจาก AI (เพิ่มเติมเกี่ยวกับ AARTs) ซึ่งทดสอบระบบโดยการจำลองการโจมตีที่เป็นปฏิปักษ์เพื่อค้นหาจุดอ่อน 

เรายังขยายและปรับปรุงชุดการฝึกอบรมของเราเมื่อเราพบปัญหาใหม่ ๆ คำแสลง, มีม, เป็นต้น เราได้รับตัวอย่างบางส่วนผ่านกระบวนการอุทธรณ์ของเรา ที่ผู้ใช้สามารถขอการตรวจสอบเพิ่มเติมได้ หากการตัดสินใจถูกยกเลิก ตัวอย่างนั้นจะกลายเป็นส่วนหนึ่งของชุดข้อมูลของเราเพื่อช่วยให้ระบบของเราทำได้ถูกต้องในครั้งต่อไป 

เราได้รับข้อมูลจากผู้อื่นผ่านระบบรายงานการละเมิดที่แข็งแกร่งของเรา ซึ่งช่วยขยายทีมผู้ดูแลที่เป็นมนุษย์ของเราให้มีผู้ใช้หลายสิบล้านคนที่ใส่ใจกับประสบการณ์เหล่านี้และชุมชนของเรา เมื่อไม่นานมานี้เราได้ปรับปรุงเครื่องมือการรายงานของเราเพื่อให้ผู้ใช้มีตัวเลือกในการจับภาพฉากทั้งหมด รวมถึง ID ของอวตารและวัตถุ และเน้นส่วนที่ต้องการรายงาน เราได้เห็นการยอมรับจากผู้ใช้ที่แข็งแกร่ง โดยมีรายงานที่มีสิทธิ์ประมาณ 15% ที่มีการใส่คำอธิบายประกอบแบบภาพ ข้อมูลบริบทเพิ่มเติมนี้ช่วยให้เราสามารถระบุประสบการณ์ที่มีปัญหาได้อย่างเชิงรุก ในจุดที่ผู้ใช้รายงานปัญหาบ่อยครั้ง เนื่องจากการฝึกอบรมโมเดลไม่สามารถทำได้ทันที เราจึงกำลังศึกษาการสร้างกฎที่ขับเคลื่อนด้วย AI จากรายงานของผู้ใช้โดยอัตโนมัติ เพื่อเพิ่มประสิทธิภาพในการตอบสนองของเรา 

หน้าต่างรายงานประสบการณ์ไม่ดี UI ตอนนี้ให้ผู้ใช้สามารถทำเครื่องหมายสิ่งที่ต้องการรายงานได้ (เช่น วงกลมสีเขียวที่อยู่รอบๆ อวาตาร์รูปเป็ด)

เราเสริมชุดข้อมูลเหล่านี้ด้วยข้อมูลสังเคราะห์ ซึ่งใช้แบบจำลองภาษาขนาดใหญ่ (LLMs) ในการสร้างตัวอย่างข้อมูลและป้ายกำกับเทียมที่เลียนแบบตัวอย่างในโลกจริง ข้อดีคือสามารถสร้างตัวอย่างและป้ายกำกับได้หลายล้านรายการ แม้จะเป็นกรณีที่พบได้ยากหรือขอบเขตจำกัด เมื่อเรามีข้อมูลที่มีป้ายกำกับเพียงพอแล้ว เราจะแบ่งข้อมูลออกเป็นสองชุด: ชุดหนึ่งสำหรับการฝึกฝน และอีกชุดสำหรับการประเมินผล การมีชุดข้อมูลสำหรับการประเมินที่แข็งแกร่งนั้นสำคัญอย่างยิ่ง: หากชุดข้อมูลสำหรับการประเมินง่ายเกินไป ตัวชี้วัดของแบบจำลองจะดูเหมือนว่าทำงานได้ดี—แต่จะล้มเหลวเมื่อนำไปใช้ในสภาพแวดล้อมจริง ความถูกต้องของข้อมูลมีความสำคัญมากกว่าปริมาณของข้อมูล การมีข้อมูลที่ไม่ดีจะทำให้ผลลัพธ์ไม่ดีตามไปด้วย ซึ่งเป็นปัญหาที่เกิดขึ้นจริงใน ML เนื่องจากประสิทธิภาพของแบบจำลองขึ้นอยู่กับคุณภาพของข้อมูลที่ใช้ในการฝึกฝนและประเมินอย่างมาก 

เมื่อเรามีชุดข้อมูลการประเมินที่แข็งแกร่งแล้ว เราจะประเมินมันตามสองตัวชี้วัดหลัก: ความสอดคล้องและคุณภาพ ในการทดสอบความสอดคล้อง ตัวอย่างเดียวกันจะถูกส่งไปยังมนุษย์หลายคนเพื่อให้ติดป้ายกำกับและดูว่าป้ายกำกับของพวกเขาสอดคล้องกันหรือไม่ (หรือสอดคล้อง) หากความสอดคล้องระหว่างป้ายกำกับของพวกเขาอยู่ที่ 80% หรือมากกว่า นั่นหมายความว่าผู้ดูแลของเราสามารถตัดสินใจอย่างสม่ำเสมอในระดับใหญ่ได้ หากต่ำกว่า 80% นโยบายหรือการฝึกอบรมอาจทำให้สับสน และเราจำเป็นต้องปรับปรุงใหม่ เพื่อทดสอบคุณภาพ เราส่งชุดข้อมูลทองคำให้กับมนุษย์เพื่อประเมินว่ามันละเมิดนโยบายหรือไม่ และเพื่อให้แน่ใจว่าพวกเขาตัดสินใจถูกต้อง เราทำการสุ่มตัวอย่างการตัดสินใจให้ผู้เชี่ยวชาญตรวจสอบด้วย หากทุกคนตัดสินใจถูกต้อง นโยบายของเราสามารถบังคับใช้ได้อย่างถูกต้อง การสอดคล้องที่สูงและคุณภาพสูงบ่งชี้ว่านโยบายของเราสามารถบังคับใช้ได้อย่างถูกต้องและสม่ำเสมอ หากไม่เป็นเช่นนั้น เราจะกลับไปประเมินทั้งนโยบายและชุดข้อมูลการฝึกอบรม 

ธรรมชาติที่สร้างสรรค์ของแพลตฟอร์มอย่าง Roblox ซึ่งผู้ใช้สามารถสร้างและสื่อสารเกือบทุกสิ่งได้อย่างอิสระ หมายความว่าแพลตฟอร์มนี้มีการพัฒนาอยู่เสมอ วิธีการตรวจสอบของเราจึงต้องพัฒนาอย่างรวดเร็วเช่นกันเพื่อให้ชุมชนของเราปลอดภัยและมีน้ำใจต่อกัน ระบบการเรียนรู้แบบมีส่วนร่วมของเราจะอัปเดตแบบจำลองอย่างต่อเนื่องเมื่อภาษาเปลี่ยนแปลง รูปแบบการใช้งานของผู้ใช้เปลี่ยนไป และเหตุการณ์ในโลกจริงเกิดขึ้น เราอยู่ในระหว่างการพัฒนาระบบที่สามารถปรับขนาดได้ รวดเร็ว แม่นยำ และปรับตัวได้อย่างต่อเนื่องกับโลกที่เปลี่ยนแปลงอย่างรวดเร็วที่เราทุกคนอาศัยอยู่ 

1ณ ไตรมาสแรกของปี 2025

2ครอบคลุมช่วงเวลาการรายงานตั้งแต่วันที่ 17 กุมภาพันธ์ 2024 ถึงวันที่ 31 ธันวาคม 2024