LLM Terkini Membantu Melindungi Pembuatan Teks Tanpa Batas di Roblox

Roblox Guard 1.0: Meningkatkan Keamanan dengan Batasan yang Kuat

Oleh Mahesh Nandwana, Adam McFarlin, dan Nishchaie Khanna

Dipublikasikan 22 Jul 2025

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations

Hari ini, kami mengumumkan Roblox Guard 1.0, sebuah toolkit keamanan sumber terbuka untuk pengembang dan platform.
Fitur pertama Roblox Guard, yaitu model pembatas (guardrail) mutakhir (SOTA) untuk keamanan LLM, kini telah tersedia, yang menetapkan standar baru di seluruh tolok ukur keamanan terkemuka.
Kami juga merilis Roblox Guard-Eval, sebuah dataset untuk pengujian perbandingan keamanan.

Tantangan

Baru-baru ini kami merilis API Pembuatan Teks yang memungkinkan pengembang memanfaatkan kekuatan model bahasa besar (LLM) untuk membangun pengalaman yang lebih kaya dan imersif dengan membuat teks dalam pengalaman mereka. Misalnya, pengembang dapat membuat NPC yang sepenuhnya interaktif, atau menyediakan tutorial interaktif tentang cara bermain game.

Kami telah secara proaktif memoderasi sebagian besar konten di Roblox sejak awal, karena kami berupaya menjaga produk kami tetap sejalan dengan standar keamanan dan kesopanan Roblox yang tinggi. Sebelum merilis API Pembuatan Teks, kami melihat cara untuk mengutamakan keamanan. Kami mengembangkan model baru untuk membantu melindungi input (prompt dari pengguna) dan output (teks yang dihasilkan dari API).

Inovasi

Kemampuan pertama dalam toolkit Roblox Guard 1.0 adalah LLM yang disesuaikan dengan instruksi SOTA, yang dirancang untuk membantu melindungi API Pembuatan Teks kami. LLM ini melakukan klasifikasi keamanan baik pada tingkat prompt maupun respons, untuk menentukan apakah setiap input atau output melanggar kebijakan kami atau tidak. Penilaian dua tingkat ini sangat penting untuk memoderasi baik kueri pengguna maupun output yang dihasilkan model itu sendiri.

LLM kami saat ini mengungguli model pembatas LLM populer seperti Llama Guard dari Meta, ShieldGemma dari Google AI, NVIDIA NeMo Guardrails, GPT-4o dari OpenAI, dan lainnya pada tolok ukur standar. LLM Roblox Guard 1.0 juga menunjukkan generalisasi yang kuat pada kumpulan data di luar domain dengan taksonomi yang belum pernah terlihat sebelumnya. Kami telah merilis kode sumber bobot LLM untuk kemampuan pertama kami dan dataset benchmarking Roblox Guard-Eval.

Inti dari sistem kami adalah LLM yang telah disesuaikan dari model Llama-3.1-8B-Instruct. Kami melatih LLM ini dengan fokus khusus pada penyempurnaan instruksi berkualitas tinggi untuk mengoptimalkan kinerja penilaian keamanan. Langkah krusial dalam proses ini adalah menyusun prompt dan respons secara cermat untuk mencerminkan beragam skenario keamanan dunia nyata.

Kumpulan instruksi kami tidak menggunakan data eksklusif—hanya kombinasi data sintetis (yang dihasilkan LLM) dan data sumber terbuka, yang memungkinkan kami untuk lebih mudah menskalakan data pelatihan dan memanfaatkan hukum skalabilitas—sehingga menjadikan LLM Roblox Guard pertama ini sebagai yang terbaik di kelasnya (SOTA). Saat menggabungkan berbagai kumpulan data sumber terbuka dan sintetis, kami menemukan bahwa menggunakan taksonomi khusus kumpulan data adalah pendekatan terbaik untuk menyusun instruksi, karena keragaman tugas membantu LLM melatih diri pada berbagai jenis prompt. Hal ini menghasilkan model yang tangguh yang dapat digeneralisasikan untuk taksonomi keselamatan yang berbeda. Kami juga memasukkan alasan rantai pemikiran, di mana model didorong untuk mengartikulasikan proses penalaran, ke dalam kumpulan instruksi. Langkah-langkah penalaran menengah ini memberikan landasan kontekstual yang lebih kuat pada model.

Hasil

Tim keamanan kami mengembangkan kumpulan data evaluasi berkualitas tinggi yang disesuaikan dengan taksonomi keamanan konten Roblox—yang mewakili 25 subkategori. Kumpulan evaluasi ini dibuat melalui red-teaming internal, di mana kami menguji sistem dengan mensimulasikan serangan musuh untuk mencari kerentanan, dan tidak berisi data yang dibuat pengguna atau data pribadi. Kumpulan data evaluasi ini berisi pasangan prompt dan respons dengan respons yang diberi label secara manual oleh sekelompok ahli kebijakan untuk membantu memastikan kualitasnya. Kumpulan data ini mencakup berbagai jenis pelanggaran, yang membantu kami membuat label yang lebih tepat dan bermakna untuk evaluasi. Kumpulan evaluasi akhir mencakup 2.873 contoh. Kami telah membuka sumber kumpulan data evaluasi ini, yang menampilkan taksonomi keamanan yang dapat diperluas untuk membantu mengukur standar LLM dan sistem moderasi.

Kami menguji model kami pada kumpulan dataset sumber terbuka yang komprehensif untuk prompt dan respons, serta pada Roblox Guard-Eval. Hal ini memungkinkan kami mengevaluasi model kami pada dataset dalam domain dan di luar domain. Kami melaporkan hasil kami dalam bentuk skor F-1 untuk klasifikasi biner melanggar/tidak melanggar. Pada tabel di atas, kami membandingkan kinerja kami dengan beberapa model terkenal lainnya. Kemampuan Roblox Guard pertama ini mengungguli model lain dalam hal generalisasi pada kumpulan data di luar domain.

Kami terus meningkatkan sistem keamanan kami, termasuk alat Roblox Guard 1.0, dan berencana merilis kemampuan tambahan dalam waktu dekat. Silakan pantau halaman kami di HuggingFace dan GitHub untuk pembaruan dan peningkatan di masa mendatang, serta rilis open-source berikutnya.

Terbaru

Lebih banyak hasil

LLM Terkini Membantu Melindungi Pembuatan Teks Tanpa Batas di Roblox

Tantangan

Inovasi

Hasil

LLM Terkini Membantu Melindungi Pembuatan Teks Tanpa Batas di Roblox

Tantangan

Inovasi

Hasil

Teknik

Meningkatkan Klasifikasi Keamanan Suara Kami dengan 22 Bahasa Baru dan Kemampuan Deteksi yang Lebih Akurat

Berita

Pendiri AI Terkemuka Bergabung untuk Mempercepat Visi Realitas Roblox

Teknik

CubePart: Generator 3D dengan Kosakata Terbuka dan Komponen yang Dapat Dikendalikan