Roblox, Yapay Zekayı Kullanarak İçeriği Büyük Ölçekte Nasıl Denetliyor?
25 dilde günde milyarlarca içerik parçasını gerçek zamanlı olarak denetleme

- Roblox'ta yayınlanan içeriği proaktif olarak denetlemek amacıyla, yaklaşık beş yıldır yapay zekayı kullanan ölçeklenebilir sistemler geliştiriyoruz.
- Bugün, altyapımız, makine öğrenimi modellerimiz ve binlerce uzman, Roblox'u kullanıcılarımız için daha güvenli ve daha medeni bir yer haline getirmek için birlikte çalışıyor.
- Tüm bu sistemleri, yüksek kaliteli verilerle ölçek, hız ve sürekli iyileştirme amacıyla geliştiriyoruz.
Güvenlik, Roblox'ta yaptığımız her şeyin temelini oluşturur. Başından beri, kullanıcı tarafından oluşturulan içerik üzerine kurulu bir platform için moderasyonun kritik öneme sahip olduğunu bildiğimizden, içeriği proaktif olarak denetledik. Roblox çok daha küçükken, bu işi insan denetçiler yapıyordu; başlangıçta içerik denetimi için zaman ayıran kurucumuz ve CEO'muz da dahil. Zamanla platform, insan moderatörlerin kapasitesinin ötesinde (hem ölçek hem de hız açısından) büyüdü. Herhangi bir yeni ürünü piyasaya sürerken, güvenlik her zaman dikkate aldığımız ilk unsurdur.
Ortalama 97,8 milyon günlük aktif kullanıcı1, oynamak, iletişim kurmak ve içerik oluşturmak için Roblox'a geliyor. Her gün, kullanıcılar 28 farklı dilde ortalama 6,1 milyar sohbet mesajı ve 1,1 milyon saatlik sesli iletişim gerçekleştiriyor. Yaratıcılar her gün milyonlarca öğe yüklüyor ve avatar pazarımıza binlerce öğe daha ekleniyor. Bu milyarlarca içerik ve mesajın büyük çoğunluğu medeni bir şekilde paylaşılıyor. Tıpkı gerçek dünyada olduğu gibi, çoğu insan birbiriyle bu şekilde iletişim kuruyor. Ancak durum böyle olmadığında, metin filtreleme sistemimiz sorunlu metinlerin kullanıcılara ulaşmadan engellenmesine yardımcı olur ve sesli iletişim ihlalleri gerçek zamanlı olarak değerlendirilir. Ayrıca, yasa dışı içerik bildirimi aldığımızda, ortalama müdahale süremiz on dakikadır.
Bu hacimdeki içeriği milisaniyeler içinde tutarlı bir şekilde denetlemek, insan sayımız ne kadar fazla olursa olsun, insanların tek başına üstesinden gelemeyeceği bir iştir. Bu ölçekte ve hızda çalışmak, hafta sonları ve tatiller hariç 7/24 çalışan yüz binlerce insan moderatör gerektirir ve bu sadece sohbet mesajlarını denetlemek içindir. Roblox'taki diğer tüm içerik türlerini denetlemek için binlerce kişiye daha ihtiyacımız olurdu. Roblox'ta günlük olarak üretilen içerik hacmi, ölçeklenebilir altyapı, makine öğrenimi (ML) modelleri ve amaca yönelik araçlar gerektirir.
ML, bu kararları milisaniyeler içinde, tekrar tekrar, tutarlı bir şekilde ve 24 saat boyunca verebilir. Yine de, bağlama bağlı olarak daha derin ve incelikli bir insan yargısı gerektiren daha nadir durumları ele almak için insanlara ihtiyacımız var ve onları istihdam ediyoruz. Sağlam, yenilikçi güvenlik ve denetim araçlarını, yeni ve gelişen zorlukları ele almak için sistemlerimizi denetleyen ve sürekli eğitim veren dünya çapındaki binlerce insan uzmanla birleştiriyoruz. Roblox'un tüm denetim sistemleri aşağıdaki ilkelere dayanmaktadır:
- Roblox'taki içeriği proaktif olarak denetliyoruz.
- Kullanıcılar genellikle kuralları bilmedikleri için, mümkün olduğunda onlara gerçek zamanlı geri bildirim sağlıyoruz.
- AI'yı yalnızca, büyük ölçekte hem doğruluk hem de geri çağırma açısından insanlardan önemli ölçüde daha yüksek performans gösterdiğinde kullanıyoruz.
- AI'yı sürekli iyileştirmek, gelişen ve nadir görülen durumlar, karmaşık soruşturmalar ve itirazlar için insanlardan yararlanıyoruz.
Roblox'ta üretilen artan içerik hacmini verimli bir şekilde denetlemek için, ölçek, hız ve kalite olmak üzere üç boyutta sürekli yenilikler yapıyoruz ve bu da sürekli iyileştirme gerektiriyor.
Ölçek: Günde Milyarlarca İçeriği Yönetmek
Şubat 20241'den Aralık 20241'e kadar, kullanıcılar yaklaşık 1 trilyon adet içerik yükledi. Bu milyarlarca metin sohbeti, ses, sesli mesaj ve görüntünün sadece %0,01'i politikalarımızı ihlal ettiği tespit edildi. Politikalarımızı ihlal eden içeriğin neredeyse tamamı, kullanıcılar tarafından görülmeden önce otomatik olarak ön elemeden geçirilip kaldırıldı. Bu ölçek nispeten yeni olsa da, moderasyona olan bağlılığımız yeni değil. On yıldan fazla bir süre önce, kurallara dayalı bir metin filtresi geliştirdik. Yaklaşık beş yıl önce, o zamanlar en son teknolojiye sahip olan transformatör tabanlı bir metin filtresini devreye aldık. Bugün, metin filtrelerimiz, farklı politika ihlali türleri için özel olarak tasarlanmış birçok modelin desteğiyle günde ortalama 6,1 milyar sohbet mesajını işliyor.
Bu modellerden biri, oyun içi ve platform sohbetleri için kişisel olarak tanımlanabilir bilgiler (PII) filtremizdir. Başkalarından PII isteyen kullanıcılar, daha ciddi sorunların ilk adımı olabilir; bu nedenle, PII paylaşımını önlemede her zaman sert bir tutum sergiledik. Gönderilen her sohbet mesajı, sistemden herhangi bir PII'nin bahsedilip bahsedilmediğini incelemesini ve belirlemesini isteyen bir "istek" niteliğindedir. Bu metin filtreleme modeli saniyede o kadar çok istek (RPS) işliyordu ki, mevcut CPU tabanlı hizmet yığınımızda desteklemek zorlaşmaya başlamıştı. Bu nedenle, hücresel altyapımızdan yararlanarak GPU'lar üzerinde tamamen yeni bir hizmet yığını oluşturduk. Bu yüksek RPS taleplerini desteklemek için önce tokenleştirmeyi çıkarımdan ayırdık, ardından daha büyük modellerin nicelleştirilmesi ve damıtılması yoluyla çıkarım sürecini hızlandırdık. Bu iyileştirmeler bir araya gelerek RPS'mizi dört katına çıkardı.
Yeni yığın üzerinde, PII filtresi artık en yoğun anlarda 370.000 RPS'yi işliyor. Geliştirilmiş PII filtremiz, yanlış pozitifleri %30 oranında azalttı; bu da, desteklenen tüm dillerde sistem tarafından otomatik olarak tespit edilen PII bahsini %25 artırdı. Bu iyileştirmeyi diğer birçok dile yaymak ve benzer iyileştirmeleri diğer metin filtrelerine ve arayüzlere de uygulamak için şimdiden çalışmaya başladık. Bu iyileştirmelerden gurur duyuyoruz ancak PII paylaşımında kullanılan yöntemlerin sürekli geliştiğinin farkındayız ve sistemlerimizi de bu değişikliklere paralel olarak geliştiriyoruz.
Tüm moderasyon sistemimizin temelini, çeşitli modaliteler hakkında bilgi içeren büyük, transformatör tabanlı modeller oluşturmaktadır. Operasyonel ve üretim gereksinimlerine bağlı olarak, sistemi hızlı ve verimli tutmak için bu modelleri özetliyor ve nicelendiriyoruz. Bu teknikler, çeşitli multimodal modelleri çalıştırmak için gereklidir; metin filtrelerimizi yöneten modeller şu anda 750.000 RPS'den fazlasını verimli bir şekilde işlemektedir.

Hız: Gerçek Zamanlı Geri Bildirimle Kullanıcı Davranışını Değiştirmek
Doğal, gerçek zamanlı iletişim, konuşmanın akışını sürdürmek için neredeyse anında filtreleme gerektirir. Fikirler üzerinde yineleme ve işbirliği yapmak, yaratıcılığın akışını sürdürmek için hızlı geri bildirim gerektirir. Çok katmanlı savunma sistemimiz, uyarı bildirimleri, zaman aşımı ve askıya alma gibi proaktif önlemleri içerir. Metni filtrelerken, PII, küfür ve nefret söylemi gibi politika ihlali niteliğindeki terimleri milisaniyeler içinde engellemek için gerçek zamanlı olarak tepki verebilir ve kullanıcıların uygunsuz içeriğe maruz kalmasını önleyebiliriz.
Sesli iletişim aynı şekilde engellenemez, bu nedenle kullanıcıları ekran bildirimleri yoluyla bilgilendiriyoruz. Uyarı bildirimlerimiz, kullanıcı davranışını etkili bir şekilde değiştirmiş ve hem nezaketi hem de katılımı artırmıştır. Sesli güvenlik sınıflandırıcımız, sekiz dilde 15 saniye içinde sohbeti denetler. Ayrıca, güvenlik yeniliklerini sektörle paylaşma konusundaki daha geniş taahhüdümüzün bir parçası olarak bu modeli açık kaynak olarak yayınladık.

Bir kullanıcı politikalarımızı ihlal etmeye devam ederse, sonuçlar kısa bir uyarıdan sesli sohbet erişiminin kesilmesine kadar giderek daha ciddi hale gelir. İç araştırmalar, askıya alınma işlemlerinin sonrasında üç haftaya kadar etkili olduğunu, bu süre zarfında tekrar ihlal oranlarının ve gönderilen kullanıcı raporlarının sayısının azaldığını göstermiştir. İlk denemeler, bu tür anlık müdahalelerin ve sonuçların nezakete olumlu bir etkisi olduğunu göstermiştir. Ses sınıflandırıcımızın en son sürümü, ilk sürümümüze göre %92 daha yüksek bir geri çağırma oranına sahiptir, %1 oranında yanlış pozitif sonuç vermektedir ve en yoğun anlarda 8.300 RPS'ye kadar işlem yapabilmektedir. Hem doğruluğu hem de geri çağırma oranını iyileştirmek için yeni yollar aramaya devam ediyoruz.
Sesli sohbetteki bildirimlerin başarısına dayanarak, metin sohbeti için de gerçek zamanlı geri bildirim uygulamasına başladık. Son deneylerde, deneyim içi metin sohbeti bildirimleri ve zaman aşımları uygulamanın, filtrelenen sohbet mesajlarında %5'lik bir azalmaya ve kötüye kullanım raporlarından kaynaklanan sonuçlarda %6'lık bir azalmaya yol açtığını gördük. Ayrıca, içerik oluşturucuların içeriklerini yüklerken onlara gerçek zamanlı geri bildirim vermeyi denemeye başladık.
Veri Kalitesi: Sürekli İyileştirme için Eğitim Modelleri
Bu sistemleri, daha az yanlış negatif sonuç verecek şekilde optimize etmek için eğitiyoruz; yani, politika ihlali içerebilecek her şeyi kaldırma eğilimindeyiz. Ayrıca, kullanıcıların uygun olduğuna inandıkları bir şeyin kaldırılmasının onları hayal kırıklığına uğrattığını da biliyoruz. Bu nedenle, yanlış pozitif sonuçları da en aza indirmek için sistemlerimizi sürekli olarak iyileştiriyoruz. Doğru etiketlenmiş veriler, tüm sınıflandırıcılarımızın doğruluğunu artırmak için çok önemlidir.
Sağlam eğitim ve değerlendirme veri kümeleri oluşturmak için hem yeterli sayıda yüksek kaliteli örnek hem de bunları doğru bir şekilde etiketleyecek insan uzmanlara ihtiyaç vardır. Nadir görülen bir senaryo veya sınırda bir durum olduğu için yeterli veriye sahip olmadığımız durumlar vardır. Bazen çok fazla veriye sahip oluruz ve en etkili örnekleri belirlememiz gerekir. Ayrıca, Roblox'ta gerçekte olanlarla eşleşen verilere ihtiyacımız vardır. Buna argo veya memler gibi geçici örnekler de dahildir. Çocuklar, gençler ve oyunculardan oluşan kitlemiz, bize sürekli yeni argo terimler, yeni trendler ve moderasyon araçlarımızı atlatmanın yeni yollarını gösteriyor. Bizi sürekli tetikte tutuyorlar, bu yüzden hem moderasyon araçlarımızı hem de politikalarımızı sürekli test ediyor ve değerlendiriyoruz.
Bu veri kümelerini derlemek için çeşitli örnekleme stratejileri kullanıyoruz ve bu veri örneklerini oluşturmak ve etiketlemek için hem yapay zekayı hem de insan uzmanları kullanıyoruz. Politika uzmanlarımız, "altın set" olarak adlandırdığımız örnekleri elle derliyor. Bunlar, sistemin tespit etmesini istediğimiz sorunlarla en yakından eşleşen örneklerdir. Belirsizlik örneklemesi de dahil olmak üzere çeşitli örnekleme stratejileriyle çok büyük veri kümelerinden örnekler alıyoruz; bu stratejide, modelin daha önce kafa karışıklığı yaşadığı uç durumları örnekliyoruz. Örnekleri, sistemi test ederek zayıf noktalarını ortaya çıkarmak için saldırgan saldırıları simüle eden insan uzmanlardan ve yapay zeka destekli kırmızı ekiplerden (AART'ler hakkında daha fazla bilgi) alıyoruz.
Ayrıca, yeni sorunlar, argo ifadeler, memler vb. tespit ettikçe eğitim kümelerimizi genişletiyor ve iyileştiriyoruz. Bu örneklerin bir kısmını, kullanıcıların ek inceleme talep edebileceği itiraz sürecimiz aracılığıyla elde ediyoruz. Karar bozulursa, o örnek veri kümemizin bir parçası haline gelir ve sistemimizin bir dahaki sefere doğru karar vermesine yardımcı olur.
Diğer örnekleri ise, insan moderatör ekibimizi bu deneyimlere ve topluluğa önem veren on milyonlarca kullanıcıyı da kapsayacak şekilde etkili bir şekilde genişleten sağlam kötüye kullanım bildirim sistemimizden alıyoruz. Kısa süre önce bildirim aracımızı geliştirdik, böylece kullanıcılar avatar ve nesne kimlikleri dahil olmak üzere tüm sahneyi yakalama ve bildirmek istedikleri kısmı vurgulama seçeneğine sahip oldular. Kullanıcılar tarafından büyük ilgi gördük ve uygun raporların yaklaşık %15'inde görsel açıklamalar sağlandı. Bu ek bağlam, kullanıcıların sık sık endişelerini bildirdiği sorunlu deneyimleri proaktif olarak belirlememize yardımcı oluyor. Model eğitimi anlık olmadığından, yanıt verme hızımızı artırmak için kullanıcı raporlarından AI destekli kuralları otomatik olarak oluşturmayı da araştırıyoruz.

Bu veri kümelerini, büyük dil modellerinin (LLM'ler) gerçek dünyadaki örnekleri taklit eden yapay veri örnekleri ve etiketler ürettiği sentetik verilerle destekliyoruz. Bunun avantajı, nadir veya uç durumlar için bile milyonlarca örnek ve etiket üretebilme yeteneğidir. Yeterli miktarda etiketli veriye ulaştığımızda, bunları iki veri kümesine ayırıyoruz: biri eğitim, diğeri değerlendirme için. Sağlam bir değerlendirme veri setine sahip olmak çok önemlidir: Bir değerlendirme seti çok kolaysa, modelin metrikleri iyi çalışıyor gibi görünecektir, ancak üretimde başarısız olacaktır. Verilerin doğruluğu, hacminden daha önemlidir. "Garbage in, garbage out" (giren çöp, çıkan çöp), makine öğreniminde gerçek bir endişe kaynağıdır, çünkü modelin performansı, onu eğitmek ve değerlendirmek için kullanılan verilerin doğruluğuna büyük ölçüde bağlıdır.
Sağlam bir değerlendirme veri kümesine sahip olduğumuzda, bunu iki temel metrik temelinde değerlendiririz: uyum ve kalite. Uyumu test etmek için, aynı örnekler birden fazla kişiye etiketlemeleri ve etiketlerinin uyuşup uyuşmadığını (veya uyumlu olup olmadığını) görmek için gönderilir. Etiketleri arasındaki uyum %80 veya daha fazla ise, bu, moderatörlerimizin büyük ölçekte tutarlı kararlar verebileceği anlamına gelir. %80'den düşükse, politika veya eğitim kafa karıştırıcı olabilir ve yinelememiz gerekir. Kaliteyi test etmek için, altın kümeyi insanlara göndeririz; böylece politikanın ihlal edilip edilmediğini değerlendirir ve doğru kararı verdiklerinden emin oluruz. Ayrıca, uzmanların incelemesi için karar örnekleri de alırız. Eğer hepsi doğru kararı verirse, politikamız doğru bir şekilde uygulanabilir. Yüksek uyum ve yüksek kalite, politikamızın doğru ve tutarlı bir şekilde uygulanabileceğini gösterir. Aksi takdirde, geri dönüp hem politikayı hem de eğitim kümesini değerlendiririz.
Kullanıcıların neredeyse her şeyi özgürce yaratıp paylaşabildiği Roblox gibi bir platformun yaratıcı doğası, platformun sürekli geliştiği anlamına gelir. Topluluğumuzu güvenli ve medeni tutmak için moderasyon yöntemlerimizin de aynı hızla gelişmesi gerekir. Aktif öğrenme sistemlerimiz, dilin gelişmesi, kullanıcı alışkanlıklarının değişmesi ve gerçek dünyadaki olayların yaşanmasıyla birlikte modelleri sürekli günceller. Hepimizin yaşadığı dinamik dünyaya uyumlu, ölçeklenebilir, hızlı ve doğru sistemler geliştirmeye devam ediyoruz.
12025 yılının ilk çeyreği itibarıyla.
217 Şubat 2024 ile 31 Aralık 2024 arasındaki raporlama dönemini kapsar.


