Son teknoloji LLM, Roblox'ta sınırsız metin üretiminin korunmasına yardımcı oluyor
Roblox Guard 1.0: Sağlam Koruyucu Önlemlerle Güvenliği Artırma

- Bugün, geliştiriciler ve platformlar için açık kaynaklı bir güvenlik araç seti olan Roblox Guard 1.0'ı duyuruyoruz.
- Roblox Guard'ın ilk özelliği olan, LLM güvenliği için son teknoloji (SOTA) bir koruma modeli artık kullanıma hazır ve önde gelen güvenlik karşılaştırma ölçütlerinde yeni bir standart belirliyor.
- Ayrıca, güvenlik karşılaştırması için bir veri seti olan Roblox Guard-Eval'ı da yayınlıyoruz.
Zorluk
Kısa süre önce, geliştiricilerin büyük dil modellerinin (LLM) gücünden yararlanarak deneyimleri içinde metin oluşturarak daha zengin ve sürükleyici deneyimler oluşturmalarını sağlayan bir Metin Oluşturma API'si yayınladık. Örneğin, bir geliştirici tamamen etkileşimli bir NPC oluşturabilir veya oyunun nasıl oynanacağına dair etkileşimli bir eğitim sunabilir.
Ürünlerimizi Roblox'un yüksek güvenlik ve nezaket standartlarına uygun tutmak için çaba gösterirken, Roblox'taki çoğu içeriği ilk günlerden itibaren proaktif olarak denetledik. Metin Oluşturma API'sini yayınlamadan önce, öncelikle güvenliği nasıl sağlayabileceğimizi inceledik. Hem girdileri (kullanıcılardan gelen komutlar) hem de çıktıları (API'dan oluşturulan metin) korumaya yardımcı olacak yeni bir model geliştirdik.
İnovasyon
Roblox Guard 1.0 araç setindeki ilk özellik, Metin Oluşturma API'mızı korumaya yardımcı olmak için tasarlanmış, SOTA talimatlarıyla ince ayarlanmış bir LLM'dir. Hem komut satırı hem de yanıt düzeyinde güvenlik sınıflandırması gerçekleştirerek, her bir girdinin veya çıktının politikalarımızı ihlal edip etmediğine karar verir. Bu çift düzeyli değerlendirme, hem kullanıcı sorgularını hem de modelin kendi ürettiği çıktıları denetlemek için gereklidir.
LLM'miz şu anda standart karşılaştırmalarda Meta'nın Llama Guard, Google AI'nın ShieldGemma, NVIDIA NeMo Guardrails, OpenAI'nin GPT-4o ve diğerleri gibi popüler LLM koruma modellerinden daha iyi performans göstermektedir. Roblox Guard 1.0 LLM ayrıca, görülmemiş taksonomiye sahip alan dışı veri kümelerinde güçlü bir genelleme sergilemektedir. İlk yeteneğimiz için LLM ağırlıklarını ve Roblox Guard-Eval karşılaştırma veri setimizi açık kaynak olarak yayınladık.
Sistemimizin merkezinde, Llama-3.1-8B-Instruct modelinden ince ayarlanmış bir LLM yer almaktadır. Bu LLM'yi, güvenlik değerlendirme performansını optimize etmek için özellikle yüksek kaliteli talimat ayarlamasına odaklanarak eğittik. Bu süreçteki önemli bir adım, gerçek dünyadaki çeşitli güvenlik senaryolarını yansıtacak şekilde istemleri ve yanıtları özenle derlemekti.
Talimat setimiz hiçbir özel veri kullanmaz; yalnızca sentetik (LLM tarafından üretilen) ve açık kaynak verilerin bir kombinasyonunu kullanır. Bu da eğitim verilerini daha kolay ölçeklendirmemize ve ölçeklendirme yasalarını kullanmamıza olanak tanır; böylece bu ilk Roblox Guard LLM'yi SOTA yapar. Çeşitli açık kaynak ve sentetik veri setlerini birleştirirken, görev çeşitliliğinin LLM'lerin farklı türdeki istemler üzerinde eğitilmesine yardımcı olması nedeniyle, veri setine özgü taksonomiyi kullanmanın talimatları derlemek için en iyi yaklaşım olduğunu gördük. Bu, farklı güvenlik taksonomileri için genelleştirilebilen sağlam bir model ile sonuçlandı. Ayrıca, modelin akıl yürütme sürecini ifade etmesini teşvik eden düşünce zinciri gerekçelerini de talimat setine dahil ettik. Bu ara akıl yürütme adımları, modele daha güçlü bir bağlamsal temel sağladı.
Sonuçlar

Modellerimizi, hem komut istemi hem de yanıt için kapsamlı bir açık kaynak veri kümesi seti üzerinde ve ayrıca Roblox Guard-Eval üzerinde karşılaştırmalı olarak değerlendiriyoruz. Bu, modelimizi hem alan içi hem de alan dışı veri kümeleri üzerinde değerlendirmemizi sağlıyor. Sonuçlarımızı, ihlal/ihlal etmeme ikili sınıflandırması için F-1 puanı cinsinden raporluyoruz. Yukarıdaki tabloda, performansımızı birkaç tanınmış modelin performansıyla karşılaştırıyoruz. Bu ilk Roblox Guard özelliği, alan dışı veri kümelerinde genelleme yaparken diğer modellerden daha iyi performans gösteriyor.
Roblox Guard 1.0 araçlarımız da dahil olmak üzere güvenlik sistemlerimizi sürekli olarak iyileştiriyoruz ve yakın gelecekte ek özellikler yayınlamayı planlıyoruz. Gelecekteki güncellemeler, iyileştirmeler ve açık kaynak sürümleri için lütfen HuggingFace ve GitHub sayfalarımızı takip edin.


