แชร์

การยกระดับระบบจำแนกความปลอดภัยเสียงของเราด้วย 22 ภาษาใหม่และความสามารถในการตรวจจับที่แม่นยำยิ่งขึ้น

ภาษาใหม่, หมวดหมู่การละเมิดใหม่ 2 หมวดหมู่, และการเรียกคืนเพิ่มขึ้น 14%

โดย นเรน โคนูรู, รองประธาน, วิศวกรรม, เวซา ซิลโวล่า, และ ยานเน่ พิลคโคเนน

เผยแพร่ 17 มิ.ย. 2569

Roblox ช่วยอำนวยความสะดวกในการประมวลผลข้อมูลเสียงหลายล้านนาทีต่อวันใน 30 ภาษา ซึ่งถือเป็นความท้าทายครั้งใหญ่ในด้านความปลอดภัยแบบเรียลไทม์ในระดับมหาศาล ตลอดสองปีที่ผ่านมา ระบบภายในของเราได้พัฒนาอย่างมีนัยสำคัญ—เติบโตจาก 94.6 ล้านพารามิเตอร์เป็น 320 ล้านพารามิเตอร์ และขยายหมวดหมู่การละเมิดนโยบายจาก 5 หมวดหมู่เป็น 8 หมวดหมู่—เพื่อรองรับการร้องขอ 10,000 ครั้งต่อวินาทีในช่วงเวลาที่มีการใช้งานสูงสุด

เราได้เปิดเผยแบบจำลองการจำแนกความปลอดภัยเสียงของเราในรูปแบบโอเพนซอร์สในปี 2024 เพื่อช่วยส่งเสริมความปลอดภัยเสียงในอุตสาหกรรม และในวันนี้เราได้ปล่อยเวอร์ชัน 3 ของแบบจำลองนี้ ซึ่งให้การสนับสนุนผู้ใช้สำหรับภาษาใหม่ 22 ภาษา และหมวดหมู่การละเมิดนโยบายเพิ่มเติม 2 หมวดหมู่ โดยมีอัตราการตรวจจับเพิ่มขึ้น 14% และอัตราการถูกต้องเพิ่มขึ้น 5% เมื่อเทียบกับเวอร์ชันก่อนหน้า

จาก V1 ถึง V3 และก้าวต่อไป

เมื่อเราเริ่มต้นสร้างระบบเพื่อความปลอดภัยของเสียงแบบเรียลไทม์ เราให้ความสำคัญกับภาษาอังกฤษเป็นอันดับแรก เราได้สร้างกระบวนการติดฉลากข้อมูลโดยอัตโนมัติเพื่อสร้างข้อมูลฝึกอบรมในปริมาณมาก ในปี 2024 โมเดลโอเพนซอร์สเวอร์ชัน 1 ใช้ข้อมูลภาษาอังกฤษที่ผ่านการติดฉลากโดยเครื่องจักรจำนวน 2,400 ชั่วโมงสำหรับการฝึกโมเดล หลังจากการเปิดตัวครั้งแรกและการนำระบบแจ้งเตือนไปใช้งาน อัตราการรายงานการละเมิดในสหรัฐอเมริกาลดลงมากกว่า 50% ต่อชั่วโมงของการพูด

ในปี 2025 เราได้เพิ่มภาษาเพิ่มเติมและปรับปรุงโมเดลให้ดียิ่งขึ้น และได้เปิดตัวโมเดลเวอร์ชัน 2 สำหรับการฝึกโมเดลเวอร์ชันล่าสุด v3 ในปี 2026 เราใช้ข้อมูลหลายภาษาที่ติดป้ายกำกับโดยเครื่องจักร 250,000 ชั่วโมง และข้อมูลหลายภาษาที่ติดป้ายกำกับโดยมนุษย์ 29,000 ชั่วโมง ทุกโมเดลได้รับการประเมินโดยใช้ชุดข้อมูลที่ติดป้ายกำกับโดยมนุษย์

V3 ของโมเดลโอเพนซอร์สสามารถบรรลุอัตราการเรียกคืน (recall) ที่ 61% โดยถ่วงน้ำหนักตามการกระจายภาษาของแชทเสียงใน Roblox ที่อัตราความผิดพลาดบวก (false positive) 1% เมื่อใช้เฉพาะภาษาที่รองรับโดย v2 ของโมเดลเพื่อเปรียบเทียบ v3 แสดงให้เห็นการปรับปรุงเชิงสัมพัทธ์ 14% ในอัตราการเรียกคืนที่ถ่วงน้ำหนักตามความแพร่หลายของภาษา

ความปลอดภัยของเสียงมีความสำคัญเกินกว่าจะแก้ไขเพียงลำพัง เราได้เปิดเผยโค้ดของตัวจำแนกความปลอดภัยเสียงของเราเป็นโอเพนซอร์สและเข้าร่วมกับ ROOST ในฐานะพันธมิตรผู้ก่อตั้ง เพราะเราเชื่อว่าการแบ่งปันความก้าวหน้าในเทคโนโลยีด้านความปลอดภัยจะช่วยเสริมความแข็งแกร่งให้กับทั้งอุตสาหกรรม โมเดลนี้ได้รับการดาวน์โหลดมากกว่า 70,000 ครั้งบน Hugging Face นับตั้งแต่เปิดตัวครั้งแรก และแต่ละการอัปเดตได้รับการพัฒนาจากสิ่งที่เราได้เรียนรู้จากการใช้งานโมเดลภายในของเราในระดับใหญ่ทั่วทั้งชุมชนของเรา เรายังคงปรับปรุงระบบความปลอดภัยของเราอย่างต่อเนื่อง และเราหวังว่าจะได้แบ่งปันข้อมูลอัปเดตเพิ่มเติมในอนาคต

คำขอบคุณ: เราขอขอบคุณ Thomas Bui, Meghatrisa Chatterjee, Bridget Daly, Jason Golubock, Hannes Heikinheimo, Marek Kapolka, Cheryl Kwan, Markus Lang, Aashna Sharma, Hao-En Sung, Tingting Tang และ Alex Trimm สำหรับการทำงานในโครงการนี้

การยกระดับระบบจำแนกความปลอดภัยเสียงของเราด้วย 22 ภาษาใหม่และความสามารถในการตรวจจับที่แม่นยำยิ่งขึ้น

จาก V1 ถึง V3 และก้าวต่อไป

ข่าว

ผู้ก่อตั้ง AI ชั้นนำร่วมมือกันเพื่อเร่งวิสัยทัศน์แห่งความเป็นจริงของ Roblox

วิศวกรรม

CubePart: เครื่องสร้าง 3 มิติแบบควบคุมส่วนด้วยคำศัพท์เปิด

วิศวกรรม

แนะนำสถาปัตยกรรมไฮบริดของ Roblox: การทำให้เกมมัลติเพลเยอร์ที่มีความสมจริงระดับภาพถ่ายเป็นของทุกคน