ระบบ LLM ที่ทันสมัยช่วยปกป้องการสร้างข้อความไม่จำกัดบน Roblox
Roblox Guard 1.0: ยกระดับความปลอดภัยด้วยระบบป้องกันที่แข็งแกร่ง

- วันนี้ เราขอประกาศเปิดตัว Roblox Guard 1.0 ชุดเครื่องมือความปลอดภัยแบบโอเพ่นซอร์สสำหรับนักพัฒนาและแพลตฟอร์ม
- ความสามารถแรกของ Roblox Guard ซึ่งเป็นแบบจำลองรั้วป้องกันที่ทันสมัยที่สุด (SOTA) สำหรับความปลอดภัยของ LLM พร้อมให้บริการแล้ว ตั้งมาตรฐานใหม่ในเกณฑ์มาตรฐานด้านความปลอดภัยชั้นนำ
- เรายังได้เปิดตัว Roblox Guard-Eval ซึ่งเป็นชุดข้อมูลสำหรับการประเมินมาตรฐานด้านความปลอดภัย
ความท้าทาย
เราได้เปิดตัว Text Generation API ไปไม่นานมานี้ ซึ่งช่วยให้ผู้พัฒนาสามารถใช้พลังของแบบจำลองภาษาขนาดใหญ่ (LLMs) ได้เพื่อสร้างประสบการณ์ที่สมบูรณ์และน่าดึงดูดยิ่งขึ้นโดยการสร้างข้อความภายในประสบการณ์ของพวกเขา ตัวอย่างเช่น ผู้พัฒนาสามารถสร้าง NPC ที่สามารถโต้ตอบได้เต็มที่ หรือให้คำแนะนำแบบโต้ตอบเกี่ยวกับวิธีการเล่นเกม
เราได้ดำเนินการตรวจสอบเนื้อหาส่วนใหญ่บน Roblox อย่างเชิงรุกมาตั้งแต่ช่วงแรกเริ่ม เพื่อรักษาผลิตภัณฑ์ของเราให้สอดคล้องกับมาตรฐานความปลอดภัยและความสุภาพอันสูงของ Roblox ก่อนที่เราจะเปิดตัว Text Generation API เราได้พิจารณาวิธีการสร้างระบบความปลอดภัยเป็นอันดับแรก เราได้พัฒนาโมเดลใหม่เพื่อช่วยปกป้องทั้งข้อมูลนำเข้า (คำสั่งจากผู้ใช้) และข้อมูลส่งออก (ข้อความที่สร้างขึ้นจาก API)
นวัตกรรม
ความสามารถแรกในชุดเครื่องมือ Roblox Guard 1.0 คือ LLM ที่ปรับแต่งด้วยคำสั่ง SOTA ซึ่งออกแบบมาเพื่อช่วยปกป้อง API การสร้างข้อความของเรา มันทำการจัดประเภทความปลอดภัยทั้งในระดับคำสั่งและระดับการตอบสนอง โดยตัดสินใจว่าแต่ละอินพุตหรือเอาต์พุตละเมิดนโยบายของเราหรือไม่ การประเมินสองระดับนี้มีความสำคัญอย่างยิ่งสำหรับการควบคุมทั้งคำถามของผู้ใช้และเอาต์พุตที่สร้างโดยโมเดลเอง
LLM ของเราในขณะนี้กำลังทำผลงานได้ดีกว่าโมเดล guardrail LLM ยอดนิยม เช่น Llama Guard จาก Meta, ShieldGemma จาก Google AI, NVIDIA NeMo Guardrails, GPT-4o จาก OpenAI และอื่นๆ บนมาตรฐานการทดสอบทั่วไป นอกจากนี้ Roblox Guard 1.0 LLM ยังแสดงให้เห็นถึงความสามารถในการประยุกต์ใช้กับข้อมูลที่ไม่เคยเห็นมาก่อนในชุดข้อมูลนอกโดเมนได้อย่างแข็งแกร่ง เราได้เปิดเผยโค้ดแหล่งต้นฉบับของทั้งน้ำหนัก LLM สำหรับความสามารถแรกของเราและชุดข้อมูลการประเมินผล Roblox Guard-Eval ของเราแล้ว
หัวใจสำคัญของระบบของเราคือ LLM ที่ได้รับการปรับแต่งจากโมเดล Llama-3.1-8B-Instruct เราได้ฝึกฝน LLM นี้โดยเน้นเป็นพิเศษที่การปรับแต่งคำสั่งคุณภาพสูงเพื่อเพิ่มประสิทธิภาพในการตัดสินใจด้านความปลอดภัย ขั้นตอนสำคัญในกระบวนการนี้คือการคัดสรรคำสั่งและคำตอบอย่างรอบคอบเพื่อสะท้อนสถานการณ์ความปลอดภัยที่หลากหลายในโลกจริง
ชุดคำสั่งของเราไม่ใช้ข้อมูลที่เป็นกรรมสิทธิ์—ใช้เพียงการผสมผสานระหว่างข้อมูลสังเคราะห์ (ที่สร้างโดย LLM) และข้อมูลโอเพนซอร์สเท่านั้น ซึ่งช่วยให้เราสามารถขยายข้อมูลการฝึกอบรมได้ง่ายขึ้นและใช้ประโยชน์จากกฎการขยายขนาด—ทำให้ Roblox Guard LLM ตัวแรกนี้เป็น SOTA ในขณะที่รวมชุดข้อมูลโอเพนซอร์สและข้อมูลสังเคราะห์ต่างๆ เราพบว่าการใช้ระบบการจัดหมวดหมู่เฉพาะชุดข้อมูลเป็นวิธีที่ดีที่สุดในการคัดกรองคำสั่ง เพราะความหลากหลายของงานช่วยให้ LLM สามารถฝึกฝนกับคำสั่งต่างๆ ได้ดีขึ้น ผลลัพธ์ที่ได้คือโมเดลที่มีความแข็งแกร่งและสามารถนำไปประยุกต์ใช้กับระบบจำแนกประเภทความปลอดภัยที่แตกต่างกันได้ เราได้รวมเอาเหตุผลแบบโซ่ความคิด (chain-of-thought rationales) ซึ่งเป็นการกระตุ้นให้โมเดลอธิบายกระบวนการคิดของตนอย่างชัดเจน เข้าไปในชุดคำสั่งด้วย ขั้นตอนการให้เหตุผลในระดับกลางเหล่านี้ช่วยให้โมเดลมีรากฐานทางบริบทที่แข็งแกร่งยิ่งขึ้น
ผลลัพธ์

เราทำการเปรียบเทียบประสิทธิภาพของโมเดลของเราบนชุดข้อมูลโอเพนซอร์สที่ครอบคลุมทั้งสำหรับการป้อนข้อความและผลลัพธ์ รวมถึงบน Roblox Guard-Eval ซึ่งช่วยให้เราสามารถประเมินโมเดลของเราได้ทั้งในชุดข้อมูลภายในโดเมนและนอกโดเมน เราแสดงผลลัพธ์ของเราในรูปแบบของคะแนน F-1 สำหรับการจำแนกประเภทการละเมิด/ไม่ละเมิดแบบทวิภาค ในตารางด้านบน เราเปรียบเทียบประสิทธิภาพของเรากับโมเดลที่เป็นที่รู้จักหลายตัว ความสามารถแรกของ Roblox Guard นี้มีประสิทธิภาพเหนือกว่าโมเดลอื่น ๆ ในขณะที่สามารถประยุกต์ใช้กับชุดข้อมูลนอกโดเมนได้
เรากำลังปรับปรุงระบบความปลอดภัยของเราอย่างต่อเนื่อง รวมถึงเครื่องมือ Roblox Guard 1.0 และวางแผนที่จะเปิดตัวความสามารถเพิ่มเติมในอนาคตอันใกล้นี้ โปรดติดตามหน้าของเราบน HuggingFace และ GitHub สำหรับการอัปเดตและการปรับปรุงในอนาคต รวมถึงการเปิดตัวโอเพนซอร์สในอนาคต


