เนื้อหาในเว็บไซต์นี้ได้รับการแปลโดยใช้ปัญญาประดิษฐ์ (AI) หรือเทคโนโลยีการแปลด้วยเครื่อง และอาจมีข้อผิดพลาด

Skip to content

ระบบ LLM ที่ทันสมัยช่วยปกป้องการสร้างข้อความไม่จำกัดบน Roblox

Roblox Guard 1.0: ยกระดับความปลอดภัยด้วยระบบป้องกันที่แข็งแกร่ง

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations
  • วันนี้ เราขอประกาศเปิดตัว Roblox Guard 1.0 ชุดเครื่องมือความปลอดภัยแบบโอเพ่นซอร์สสำหรับนักพัฒนาและแพลตฟอร์ม  
  • ความสามารถแรกของ Roblox Guard ซึ่งเป็นแบบจำลองรั้วป้องกันที่ทันสมัยที่สุด (SOTA) สำหรับความปลอดภัยของ LLM พร้อมให้บริการแล้ว ตั้งมาตรฐานใหม่ในเกณฑ์มาตรฐานด้านความปลอดภัยชั้นนำ
  • เรายังได้เปิดตัว Roblox Guard-Eval ซึ่งเป็นชุดข้อมูลสำหรับการประเมินมาตรฐานด้านความปลอดภัย 
ความท้าทาย

เราได้เปิดตัว Text Generation API ไปไม่นานมานี้ ซึ่งช่วยให้ผู้พัฒนาสามารถใช้พลังของแบบจำลองภาษาขนาดใหญ่ (LLMs) ได้เพื่อสร้างประสบการณ์ที่สมบูรณ์และน่าดึงดูดยิ่งขึ้นโดยการสร้างข้อความภายในประสบการณ์ของพวกเขา ตัวอย่างเช่น ผู้พัฒนาสามารถสร้าง NPC ที่สามารถโต้ตอบได้เต็มที่ หรือให้คำแนะนำแบบโต้ตอบเกี่ยวกับวิธีการเล่นเกม

เราได้ดำเนินการตรวจสอบเนื้อหาส่วนใหญ่บน Roblox อย่างเชิงรุกมาตั้งแต่ช่วงแรกเริ่ม เพื่อรักษาผลิตภัณฑ์ของเราให้สอดคล้องกับมาตรฐานความปลอดภัยและความสุภาพอันสูงของ Roblox ก่อนที่เราจะเปิดตัว Text Generation API เราได้พิจารณาวิธีการสร้างระบบความปลอดภัยเป็นอันดับแรก เราได้พัฒนาโมเดลใหม่เพื่อช่วยปกป้องทั้งข้อมูลนำเข้า (คำสั่งจากผู้ใช้) และข้อมูลส่งออก (ข้อความที่สร้างขึ้นจาก API) 

นวัตกรรม

ความสามารถแรกในชุดเครื่องมือ Roblox Guard 1.0 คือ LLM ที่ปรับแต่งด้วยคำสั่ง SOTA ซึ่งออกแบบมาเพื่อช่วยปกป้อง API การสร้างข้อความของเรา มันทำการจัดประเภทความปลอดภัยทั้งในระดับคำสั่งและระดับการตอบสนอง โดยตัดสินใจว่าแต่ละอินพุตหรือเอาต์พุตละเมิดนโยบายของเราหรือไม่ การประเมินสองระดับนี้มีความสำคัญอย่างยิ่งสำหรับการควบคุมทั้งคำถามของผู้ใช้และเอาต์พุตที่สร้างโดยโมเดลเอง 

LLM ของเราในขณะนี้กำลังทำผลงานได้ดีกว่าโมเดล guardrail LLM ยอดนิยม เช่น Llama Guard จาก Meta, ShieldGemma จาก Google AI, NVIDIA NeMo Guardrails, GPT-4o จาก OpenAI และอื่นๆ บนมาตรฐานการทดสอบทั่วไป นอกจากนี้ Roblox Guard 1.0 LLM ยังแสดงให้เห็นถึงความสามารถในการประยุกต์ใช้กับข้อมูลที่ไม่เคยเห็นมาก่อนในชุดข้อมูลนอกโดเมนได้อย่างแข็งแกร่ง เราได้เปิดเผยโค้ดแหล่งต้นฉบับของทั้งน้ำหนัก LLM สำหรับความสามารถแรกของเราและชุดข้อมูลการประเมินผล Roblox Guard-Eval ของเราแล้ว 

หัวใจสำคัญของระบบของเราคือ LLM ที่ได้รับการปรับแต่งจากโมเดล Llama-3.1-8B-Instruct เราได้ฝึกฝน LLM นี้โดยเน้นเป็นพิเศษที่การปรับแต่งคำสั่งคุณภาพสูงเพื่อเพิ่มประสิทธิภาพในการตัดสินใจด้านความปลอดภัย ขั้นตอนสำคัญในกระบวนการนี้คือการคัดสรรคำสั่งและคำตอบอย่างรอบคอบเพื่อสะท้อนสถานการณ์ความปลอดภัยที่หลากหลายในโลกจริง 

ชุดคำสั่งของเราไม่ใช้ข้อมูลที่เป็นกรรมสิทธิ์—ใช้เพียงการผสมผสานระหว่างข้อมูลสังเคราะห์ (ที่สร้างโดย LLM) และข้อมูลโอเพนซอร์สเท่านั้น ซึ่งช่วยให้เราสามารถขยายข้อมูลการฝึกอบรมได้ง่ายขึ้นและใช้ประโยชน์จากกฎการขยายขนาด—ทำให้ Roblox Guard LLM ตัวแรกนี้เป็น SOTA ในขณะที่รวมชุดข้อมูลโอเพนซอร์สและข้อมูลสังเคราะห์ต่างๆ เราพบว่าการใช้ระบบการจัดหมวดหมู่เฉพาะชุดข้อมูลเป็นวิธีที่ดีที่สุดในการคัดกรองคำสั่ง เพราะความหลากหลายของงานช่วยให้ LLM สามารถฝึกฝนกับคำสั่งต่างๆ ได้ดีขึ้น ผลลัพธ์ที่ได้คือโมเดลที่มีความแข็งแกร่งและสามารถนำไปประยุกต์ใช้กับระบบจำแนกประเภทความปลอดภัยที่แตกต่างกันได้ เราได้รวมเอาเหตุผลแบบโซ่ความคิด (chain-of-thought rationales) ซึ่งเป็นการกระตุ้นให้โมเดลอธิบายกระบวนการคิดของตนอย่างชัดเจน เข้าไปในชุดคำสั่งด้วย ขั้นตอนการให้เหตุผลในระดับกลางเหล่านี้ช่วยให้โมเดลมีรากฐานทางบริบทที่แข็งแกร่งยิ่งขึ้น

ผลลัพธ์
ทีมความปลอดภัยของเราได้พัฒนาชุดข้อมูลการประเมินคุณภาพสูงแบบกำหนดเองครอบคลุมหมวดหมู่ความปลอดภัยของเนื้อหาใน Roblox ซึ่งประกอบด้วย 25 หมวดหมู่ย่อย ชุดข้อมูลการประเมินนี้ถูกสร้างขึ้นโดยการทดสอบภายในแบบ "red-teaming" ซึ่งเราทดสอบระบบโดยการจำลองการโจมตีที่เป็นปฏิปักษ์เพื่อค้นหาช่องโหว่ และไม่มีข้อมูลที่ผู้ใช้สร้างขึ้นหรือข้อมูลส่วนบุคคล ชุดข้อมูลการประเมินนี้ประกอบด้วยคู่ของคำสั่งและคำตอบ โดยคำตอบได้รับการติดป้ายกำกับด้วยมือโดยผู้เชี่ยวชาญด้านนโยบายเพื่อช่วยรับประกันคุณภาพ ชุดข้อมูลครอบคลุมประเภทการละเมิดที่หลากหลาย ช่วยให้เราสร้างป้ายกำกับที่แม่นยำและมีความหมายมากขึ้นสำหรับการประเมิน ชุดข้อมูลการประเมินสุดท้ายประกอบด้วยตัวอย่าง 2,873 ตัวอย่าง เราได้เปิดเผยชุดข้อมูลการประเมินนี้เป็นโอเพนซอร์ส ซึ่งมีระบบการจัดหมวดหมู่ความปลอดภัยที่สามารถขยายได้เพื่อช่วยในการเปรียบเทียบระบบป้องกันและระบบกลั่นกรองของ LLM 

เราทำการเปรียบเทียบประสิทธิภาพของโมเดลของเราบนชุดข้อมูลโอเพนซอร์สที่ครอบคลุมทั้งสำหรับการป้อนข้อความและผลลัพธ์ รวมถึงบน Roblox Guard-Eval ซึ่งช่วยให้เราสามารถประเมินโมเดลของเราได้ทั้งในชุดข้อมูลภายในโดเมนและนอกโดเมน เราแสดงผลลัพธ์ของเราในรูปแบบของคะแนน F-1 สำหรับการจำแนกประเภทการละเมิด/ไม่ละเมิดแบบทวิภาค ในตารางด้านบน เราเปรียบเทียบประสิทธิภาพของเรากับโมเดลที่เป็นที่รู้จักหลายตัว ความสามารถแรกของ Roblox Guard นี้มีประสิทธิภาพเหนือกว่าโมเดลอื่น ๆ ในขณะที่สามารถประยุกต์ใช้กับชุดข้อมูลนอกโดเมนได้

เรากำลังปรับปรุงระบบความปลอดภัยของเราอย่างต่อเนื่อง รวมถึงเครื่องมือ Roblox Guard 1.0 และวางแผนที่จะเปิดตัวความสามารถเพิ่มเติมในอนาคตอันใกล้นี้ โปรดติดตามหน้าของเราบน HuggingFace และ GitHub สำหรับการอัปเดตและการปรับปรุงในอนาคต รวมถึงการเปิดตัวโอเพนซอร์สในอนาคต