แชร์

ระบบ LLM ที่ทันสมัยช่วยปกป้องการสร้างข้อความไม่จำกัดบน Roblox

Roblox Guard 1.0: ยกระดับความปลอดภัยด้วยระบบป้องกันที่แข็งแกร่ง

โดย มาเฮช นันดวานา, อดัม แมคฟาร์ลิน, และ นิชชาอิ คานนา

เผยแพร่ 22 ก.ค. 2568

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

วันนี้ เราขอประกาศเปิดตัว Roblox Guard 1.0 ชุดเครื่องมือความปลอดภัยแบบโอเพ่นซอร์สสำหรับนักพัฒนาและแพลตฟอร์ม
ความสามารถแรกของ Roblox Guard ซึ่งเป็นแบบจำลองรั้วป้องกันที่ทันสมัยที่สุด (SOTA) สำหรับความปลอดภัยของ LLM พร้อมให้บริการแล้ว ตั้งมาตรฐานใหม่ในเกณฑ์มาตรฐานด้านความปลอดภัยชั้นนำ
เรายังได้เปิดตัว Roblox Guard-Eval ซึ่งเป็นชุดข้อมูลสำหรับการประเมินมาตรฐานด้านความปลอดภัย

ความท้าทาย

เราได้เปิดตัว Text Generation API ไปไม่นานมานี้ ซึ่งช่วยให้ผู้พัฒนาสามารถใช้พลังของแบบจำลองภาษาขนาดใหญ่ (LLMs) ได้เพื่อสร้างประสบการณ์ที่สมบูรณ์และน่าดึงดูดยิ่งขึ้นโดยการสร้างข้อความภายในประสบการณ์ของพวกเขา ตัวอย่างเช่น ผู้พัฒนาสามารถสร้าง NPC ที่สามารถโต้ตอบได้เต็มที่ หรือให้คำแนะนำแบบโต้ตอบเกี่ยวกับวิธีการเล่นเกม

เราได้ดำเนินการตรวจสอบเนื้อหาส่วนใหญ่บน Roblox อย่างเชิงรุกมาตั้งแต่ช่วงแรกเริ่ม เพื่อรักษาผลิตภัณฑ์ของเราให้สอดคล้องกับมาตรฐานความปลอดภัยและความสุภาพอันสูงของ Roblox ก่อนที่เราจะเปิดตัว Text Generation API เราได้พิจารณาวิธีการสร้างระบบความปลอดภัยเป็นอันดับแรก เราได้พัฒนาโมเดลใหม่เพื่อช่วยปกป้องทั้งข้อมูลนำเข้า (คำสั่งจากผู้ใช้) และข้อมูลส่งออก (ข้อความที่สร้างขึ้นจาก API)

นวัตกรรม

ความสามารถแรกในชุดเครื่องมือ Roblox Guard 1.0 คือ LLM ที่ปรับแต่งด้วยคำสั่ง SOTA ซึ่งออกแบบมาเพื่อช่วยปกป้อง API การสร้างข้อความของเรา มันทำการจัดประเภทความปลอดภัยทั้งในระดับคำสั่งและระดับการตอบสนอง โดยตัดสินใจว่าแต่ละอินพุตหรือเอาต์พุตละเมิดนโยบายของเราหรือไม่ การประเมินสองระดับนี้มีความสำคัญอย่างยิ่งสำหรับการควบคุมทั้งคำถามของผู้ใช้และเอาต์พุตที่สร้างโดยโมเดลเอง

LLM ของเราในขณะนี้กำลังทำผลงานได้ดีกว่าโมเดล guardrail LLM ยอดนิยม เช่น Llama Guard จาก Meta, ShieldGemma จาก Google AI, NVIDIA NeMo Guardrails, GPT-4o จาก OpenAI และอื่นๆ บนมาตรฐานการทดสอบทั่วไป นอกจากนี้ Roblox Guard 1.0 LLM ยังแสดงให้เห็นถึงความสามารถในการประยุกต์ใช้กับข้อมูลที่ไม่เคยเห็นมาก่อนในชุดข้อมูลนอกโดเมนได้อย่างแข็งแกร่ง เราได้เปิดเผยโค้ดแหล่งต้นฉบับของทั้งน้ำหนัก LLM สำหรับความสามารถแรกของเราและชุดข้อมูลการประเมินผล Roblox Guard-Eval ของเราแล้ว

หัวใจสำคัญของระบบของเราคือ LLM ที่ได้รับการปรับแต่งจากโมเดล Llama-3.1-8B-Instruct เราได้ฝึกฝน LLM นี้โดยเน้นเป็นพิเศษที่การปรับแต่งคำสั่งคุณภาพสูงเพื่อเพิ่มประสิทธิภาพในการตัดสินใจด้านความปลอดภัย ขั้นตอนสำคัญในกระบวนการนี้คือการคัดสรรคำสั่งและคำตอบอย่างรอบคอบเพื่อสะท้อนสถานการณ์ความปลอดภัยที่หลากหลายในโลกจริง

ชุดคำสั่งของเราไม่ใช้ข้อมูลที่เป็นกรรมสิทธิ์—ใช้เพียงการผสมผสานระหว่างข้อมูลสังเคราะห์ (ที่สร้างโดย LLM) และข้อมูลโอเพนซอร์สเท่านั้น ซึ่งช่วยให้เราสามารถขยายข้อมูลการฝึกอบรมได้ง่ายขึ้นและใช้ประโยชน์จากกฎการขยายขนาด—ทำให้ Roblox Guard LLM ตัวแรกนี้เป็น SOTA ในขณะที่รวมชุดข้อมูลโอเพนซอร์สและข้อมูลสังเคราะห์ต่างๆ เราพบว่าการใช้ระบบการจัดหมวดหมู่เฉพาะชุดข้อมูลเป็นวิธีที่ดีที่สุดในการคัดกรองคำสั่ง เพราะความหลากหลายของงานช่วยให้ LLM สามารถฝึกฝนกับคำสั่งต่างๆ ได้ดีขึ้น ผลลัพธ์ที่ได้คือโมเดลที่มีความแข็งแกร่งและสามารถนำไปประยุกต์ใช้กับระบบจำแนกประเภทความปลอดภัยที่แตกต่างกันได้ เราได้รวมเอาเหตุผลแบบโซ่ความคิด (chain-of-thought rationales) ซึ่งเป็นการกระตุ้นให้โมเดลอธิบายกระบวนการคิดของตนอย่างชัดเจน เข้าไปในชุดคำสั่งด้วย ขั้นตอนการให้เหตุผลในระดับกลางเหล่านี้ช่วยให้โมเดลมีรากฐานทางบริบทที่แข็งแกร่งยิ่งขึ้น

ผลลัพธ์

ทีมความปลอดภัยของเราได้พัฒนาชุดข้อมูลการประเมินคุณภาพสูงแบบกำหนดเองครอบคลุมหมวดหมู่ความปลอดภัยของเนื้อหาใน Roblox ซึ่งประกอบด้วย 25 หมวดหมู่ย่อย ชุดข้อมูลการประเมินนี้ถูกสร้างขึ้นโดยการทดสอบภายในแบบ "red-teaming" ซึ่งเราทดสอบระบบโดยการจำลองการโจมตีที่เป็นปฏิปักษ์เพื่อค้นหาช่องโหว่ และไม่มีข้อมูลที่ผู้ใช้สร้างขึ้นหรือข้อมูลส่วนบุคคล ชุดข้อมูลการประเมินนี้ประกอบด้วยคู่ของคำสั่งและคำตอบ โดยคำตอบได้รับการติดป้ายกำกับด้วยมือโดยผู้เชี่ยวชาญด้านนโยบายเพื่อช่วยรับประกันคุณภาพ ชุดข้อมูลครอบคลุมประเภทการละเมิดที่หลากหลาย ช่วยให้เราสร้างป้ายกำกับที่แม่นยำและมีความหมายมากขึ้นสำหรับการประเมิน ชุดข้อมูลการประเมินสุดท้ายประกอบด้วยตัวอย่าง 2,873 ตัวอย่าง เราได้เปิดเผยชุดข้อมูลการประเมินนี้เป็นโอเพนซอร์ส ซึ่งมีระบบการจัดหมวดหมู่ความปลอดภัยที่สามารถขยายได้เพื่อช่วยในการเปรียบเทียบระบบป้องกันและระบบกลั่นกรองของ LLM

เราทำการเปรียบเทียบประสิทธิภาพของโมเดลของเราบนชุดข้อมูลโอเพนซอร์สที่ครอบคลุมทั้งสำหรับการป้อนข้อความและผลลัพธ์ รวมถึงบน Roblox Guard-Eval ซึ่งช่วยให้เราสามารถประเมินโมเดลของเราได้ทั้งในชุดข้อมูลภายในโดเมนและนอกโดเมน เราแสดงผลลัพธ์ของเราในรูปแบบของคะแนน F-1 สำหรับการจำแนกประเภทการละเมิด/ไม่ละเมิดแบบทวิภาค ในตารางด้านบน เราเปรียบเทียบประสิทธิภาพของเรากับโมเดลที่เป็นที่รู้จักหลายตัว ความสามารถแรกของ Roblox Guard นี้มีประสิทธิภาพเหนือกว่าโมเดลอื่น ๆ ในขณะที่สามารถประยุกต์ใช้กับชุดข้อมูลนอกโดเมนได้

เรากำลังปรับปรุงระบบความปลอดภัยของเราอย่างต่อเนื่อง รวมถึงเครื่องมือ Roblox Guard 1.0 และวางแผนที่จะเปิดตัวความสามารถเพิ่มเติมในอนาคตอันใกล้นี้ โปรดติดตามหน้าของเราบน HuggingFace และ GitHub สำหรับการอัปเดตและการปรับปรุงในอนาคต รวมถึงการเปิดตัวโอเพนซอร์สในอนาคต

ล่าสุด

ผลลัพธ์เพิ่มเติม

ระบบ LLM ที่ทันสมัยช่วยปกป้องการสร้างข้อความไม่จำกัดบน Roblox

ความท้าทาย

นวัตกรรม

ผลลัพธ์

ระบบ LLM ที่ทันสมัยช่วยปกป้องการสร้างข้อความไม่จำกัดบน Roblox

ความท้าทาย

นวัตกรรม

ผลลัพธ์

วิศวกรรม

การยกระดับระบบจำแนกความปลอดภัยเสียงของเราด้วย 22 ภาษาใหม่และความสามารถในการตรวจจับที่แม่นยำยิ่งขึ้น

ข่าว

ผู้ก่อตั้ง AI ชั้นนำร่วมมือกันเพื่อเร่งวิสัยทัศน์แห่งความเป็นจริงของ Roblox

วิศวกรรม

CubePart: เครื่องสร้าง 3 มิติแบบควบคุมส่วนด้วยคำศัพท์เปิด