Bu sitedeki içerik yapay zeka (AI) veya makine çeviri teknolojisi kullanılarak çevrilmiştir ve hatalar içerebilir.

Skip to content

Son teknoloji LLM, Roblox'ta sınırsız metin üretiminin korunmasına yardımcı oluyor

Roblox Guard 1.0: Sağlam Koruyucu Önlemlerle Güvenliği Artırma

SEO image for Roblox Expands Advertising Platform as Essential Channel for the Next Generations
  • Bugün, geliştiriciler ve platformlar için açık kaynaklı bir güvenlik araç seti olan Roblox Guard 1.0'ı duyuruyoruz.  
  • Roblox Guard'ın ilk özelliği olan, LLM güvenliği için son teknoloji (SOTA) bir koruma modeli artık kullanıma hazır ve önde gelen güvenlik karşılaştırma ölçütlerinde yeni bir standart belirliyor.
  • Ayrıca, güvenlik karşılaştırması için bir veri seti olan Roblox Guard-Eval'ı da yayınlıyoruz. 
Zorluk

Kısa süre önce, geliştiricilerin büyük dil modellerinin (LLM) gücünden yararlanarak deneyimleri içinde metin oluşturarak daha zengin ve sürükleyici deneyimler oluşturmalarını sağlayan bir Metin Oluşturma API'si yayınladık. Örneğin, bir geliştirici tamamen etkileşimli bir NPC oluşturabilir veya oyunun nasıl oynanacağına dair etkileşimli bir eğitim sunabilir.

Ürünlerimizi Roblox'un yüksek güvenlik ve nezaket standartlarına uygun tutmak için çaba gösterirken, Roblox'taki çoğu içeriği ilk günlerden itibaren proaktif olarak denetledik. Metin Oluşturma API'sini yayınlamadan önce, öncelikle güvenliği nasıl sağlayabileceğimizi inceledik. Hem girdileri (kullanıcılardan gelen komutlar) hem de çıktıları (API'dan oluşturulan metin) korumaya yardımcı olacak yeni bir model geliştirdik. 

İnovasyon

Roblox Guard 1.0 araç setindeki ilk özellik, Metin Oluşturma API'mızı korumaya yardımcı olmak için tasarlanmış, SOTA talimatlarıyla ince ayarlanmış bir LLM'dir. Hem komut satırı hem de yanıt düzeyinde güvenlik sınıflandırması gerçekleştirerek, her bir girdinin veya çıktının politikalarımızı ihlal edip etmediğine karar verir. Bu çift düzeyli değerlendirme, hem kullanıcı sorgularını hem de modelin kendi ürettiği çıktıları denetlemek için gereklidir. 

LLM'miz şu anda standart karşılaştırmalarda Meta'nın Llama Guard, Google AI'nın ShieldGemma, NVIDIA NeMo Guardrails, OpenAI'nin GPT-4o ve diğerleri gibi popüler LLM koruma modellerinden daha iyi performans göstermektedir. Roblox Guard 1.0 LLM ayrıca, görülmemiş taksonomiye sahip alan dışı veri kümelerinde güçlü bir genelleme sergilemektedir. İlk yeteneğimiz için LLM ağırlıklarını ve Roblox Guard-Eval karşılaştırma veri setimizi açık kaynak olarak yayınladık. 

Sistemimizin merkezinde, Llama-3.1-8B-Instruct modelinden ince ayarlanmış bir LLM yer almaktadır. Bu LLM'yi, güvenlik değerlendirme performansını optimize etmek için özellikle yüksek kaliteli talimat ayarlamasına odaklanarak eğittik. Bu süreçteki önemli bir adım, gerçek dünyadaki çeşitli güvenlik senaryolarını yansıtacak şekilde istemleri ve yanıtları özenle derlemekti. 

Talimat setimiz hiçbir özel veri kullanmaz; yalnızca sentetik (LLM tarafından üretilen) ve açık kaynak verilerin bir kombinasyonunu kullanır. Bu da eğitim verilerini daha kolay ölçeklendirmemize ve ölçeklendirme yasalarını kullanmamıza olanak tanır; böylece bu ilk Roblox Guard LLM'yi SOTA yapar. Çeşitli açık kaynak ve sentetik veri setlerini birleştirirken, görev çeşitliliğinin LLM'lerin farklı türdeki istemler üzerinde eğitilmesine yardımcı olması nedeniyle, veri setine özgü taksonomiyi kullanmanın talimatları derlemek için en iyi yaklaşım olduğunu gördük. Bu, farklı güvenlik taksonomileri için genelleştirilebilen sağlam bir model ile sonuçlandı. Ayrıca, modelin akıl yürütme sürecini ifade etmesini teşvik eden düşünce zinciri gerekçelerini de talimat setine dahil ettik. Bu ara akıl yürütme adımları, modele daha güçlü bir bağlamsal temel sağladı.

Sonuçlar
Güvenlik ekibimiz, Roblox'un içerik güvenliği sınıflandırmasında 25 alt kategoriyi temsil eden, özel ve yüksek kaliteli bir değerlendirme veri seti geliştirdi. Bu değerlendirme seti, sistemdeki güvenlik açıklarını bulmak için saldırı simülasyonları yaparak sistemi test ettiğimiz dahili kırmızı takım çalışmasıyla oluşturulmuştur ve kullanıcı tarafından oluşturulan veya kişisel veriler içermez. Bu değerlendirme veri seti, kalitesini garanti altına almak için bir grup politika uzmanı tarafından elle etiketlenmiş yanıtları içeren komut ve yanıt çiftlerini içerir. Çok çeşitli ihlal türlerini kapsayan bu veri seti, değerlendirme için daha kesin ve anlamlı etiketler oluşturmamıza yardımcı olur. Nihai değerlendirme seti 2.873 örnek içerir. LLM koruma önlemlerini ve moderasyon sistemlerini karşılaştırmalı olarak değerlendirmek için genişletilebilir bir güvenlik taksonomisi içeren bu değerlendirme veri setini açık kaynak olarak yayınladık. 

Modellerimizi, hem komut istemi hem de yanıt için kapsamlı bir açık kaynak veri kümesi seti üzerinde ve ayrıca Roblox Guard-Eval üzerinde karşılaştırmalı olarak değerlendiriyoruz. Bu, modelimizi hem alan içi hem de alan dışı veri kümeleri üzerinde değerlendirmemizi sağlıyor. Sonuçlarımızı, ihlal/ihlal etmeme ikili sınıflandırması için F-1 puanı cinsinden raporluyoruz. Yukarıdaki tabloda, performansımızı birkaç tanınmış modelin performansıyla karşılaştırıyoruz. Bu ilk Roblox Guard özelliği, alan dışı veri kümelerinde genelleme yaparken diğer modellerden daha iyi performans gösteriyor.

Roblox Guard 1.0 araçlarımız da dahil olmak üzere güvenlik sistemlerimizi sürekli olarak iyileştiriyoruz ve yakın gelecekte ek özellikler yayınlamayı planlıyoruz. Gelecekteki güncellemeler, iyileştirmeler ve açık kaynak sürümleri için lütfen HuggingFace ve GitHub sayfalarımızı takip edin.