Bagaimana Roblox Menggunakan AI untuk Memoderasi Konten dalam Skala Besar

Memoderasi Miliaran Potongan Konten Setiap Hari dalam 25 Bahasa—secara Real-Time

Oleh Naren Koneru, Wakil Presiden Bidang Teknik dan Keselamatan

Dipublikasikan 9 Jul 2025

Untuk memoderasi konten yang dipublikasikan di Roblox secara proaktif, kami telah membangun sistem yang dapat diskalakan dengan memanfaatkan AI selama kurang lebih lima tahun.
Saat ini, infrastruktur kami, model ML, dan ribuan ahli manusia bekerja sama untuk membantu menjadikan Roblox tempat yang lebih aman dan lebih beradab bagi pengguna kami.
Kami mengembangkan semua sistem ini untuk skala, kecepatan, dan peningkatan berkelanjutan dengan data berkualitas tinggi.

Keamanan adalah dasar dari segala sesuatu yang kami lakukan di Roblox. Sejak awal, kami telah memoderasi konten secara proaktif karena kami tahu bahwa moderasi sangat penting bagi platform yang dibangun di atas konten buatan pengguna. Ketika Roblox masih jauh lebih kecil, peninjau manusia melakukan hal ini—termasuk pendiri dan CEO kami, yang menghabiskan waktu untuk memoderasi konten pada awalnya. Seiring waktu, platform ini berkembang (baik dalam skala maupun kecepatan) melampaui kemampuan moderator manusia. Saat meluncurkan produk baru apa pun, keamanan selalu menjadi elemen pertama yang kami pertimbangkan.

Rata-rata 97,8 juta pengguna aktif harian1 datang ke Roblox untuk bermain, berkomunikasi, dan berkreasi. Setiap hari, pengguna mengirim rata-rata 6,1 miliar pesan obrolan dan 1,1 juta jam komunikasi suara dalam 28 bahasa berbeda. Para kreator mengunggah jutaan aset per hari—dan ribuan item lainnya ditambahkan ke pasar avatar kami. Sebagian besar dari miliaran kreasi dan pesan ini bersifat sopan. Seperti di dunia nyata—itulah cara kebanyakan orang berkomunikasi satu sama lain. Namun, ketika tidak demikian, sistem penyaringan teks kami membantu memblokir teks bermasalah sebelum mencapai pengguna, dan pelanggaran suara dievaluasi secara real-time. Dan jika kami menerima laporan konten ilegal, waktu tanggapan median kami adalah sepuluh menit.

Memoderasi volume konten sebesar ini secara konsisten dalam hitungan milidetik adalah tugas yang tidak dapat ditangani oleh manusia sendirian—terlepas dari berapa banyak orang yang kami miliki. Bekerja pada skala dan kecepatan ini akan membutuhkan ratusan ribu moderator manusia yang bekerja 24/7, tanpa libur akhir pekan atau cuti—dan itu hanya untuk memoderasi pesan obrolan. Kami membutuhkan ribuan orang lagi untuk memoderasi semua jenis konten lain di Roblox. Volume konten yang dihasilkan setiap hari di Roblox menuntut infrastruktur yang dapat diskalakan, model pembelajaran mesin (ML), dan alat yang dirancang khusus.

ML dapat mengambil keputusan ini dalam hitungan milidetik, berulang kali, secara konsisten, dan 24 jam sehari. Kami masih membutuhkan, dan mempekerjakan, manusia untuk menangani kasus-kasus yang kurang umum di mana diperlukan penilaian manusia yang lebih mendalam dan nuansatif tergantung pada konteksnya. Kami menggabungkan alat keamanan dan moderasi yang kuat dan inovatif dengan ribuan ahli manusia di seluruh dunia yang memberikan pengawasan dan pelatihan berkelanjutan terhadap sistem kami untuk mengatasi tantangan baru dan yang terus berkembang. Semua sistem moderasi Roblox didasarkan pada prinsip-prinsip berikut:

Kami secara proaktif memoderasi konten di Roblox.
Kami memberikan umpan balik secara real time kepada pengguna jika memungkinkan, karena seringkali orang tidak mengetahui aturannya.
Kami menerapkan AI hanya jika kinerjanya secara signifikan lebih tinggi dalam hal presisi dan recall dibandingkan manusia dalam skala besar.
Kami memanfaatkan tenaga manusia untuk terus meningkatkan AI, menangani kasus-kasus yang langka dan terus berkembang, investigasi yang kompleks, serta pengajuan banding.

Untuk memoderasi volume konten yang terus meningkat di Roblox secara efisien, kami selalu berinovasi dalam tiga dimensi: skala, kecepatan, dan kualitas, dan hal ini memerlukan perbaikan berkelanjutan.

Skala: Mengelola Miliaran Potongan Konten Setiap Hari

Dari Februari hingga Desember 2024¹, pengguna mengunggah sekitar 1 triliun konten. Hanya 0,01% dari miliaran obrolan teks, audio, suara, dan gambar tersebut yang terdeteksi melanggar kebijakan kami. Dan hampir semua konten yang melanggar kebijakan kami telah disaring terlebih dahulu secara otomatis dan dihapus sebelum pengguna melihatnya. Meskipun skala ini relatif baru, komitmen kami terhadap moderasi bukanlah hal baru. Lebih dari satu dekade lalu, kami membangun filter teks berbasis aturan. Sekitar lima tahun lalu, kami menerapkan filter teks berbasis transformer yang saat itu merupakan teknologi terdepan. Saat ini, filter teks kami memproses rata-rata 6,1 miliar pesan obrolan per hari, didukung oleh banyak model yang dirancang khusus untuk berbagai jenis pelanggaran kebijakan.

Salah satu model ini adalah filter kami untuk informasi identitas pribadi (PII) dalam obrolan dalam game dan platform. Pengguna yang meminta PII dari orang lain dapat menjadi langkah awal menuju masalah yang lebih serius, sehingga kami selalu mengambil sikap tegas dalam mencegah pembagian PII. Setiap pesan obrolan yang dikirim adalah “permintaan,” yang meminta sistem untuk meninjau dan menentukan apakah ada PII yang disebutkan. Model filter teks ini menangani begitu banyak permintaan per detik (RPS) sehingga menjadi sulit untuk didukung pada stack penyajian berbasis CPU kami yang ada. Oleh karena itu, kami membangun stack penyajian baru sepenuhnya di atas GPU, memanfaatkan infrastruktur seluler kami. Untuk mendukung tuntutan RPS yang tinggi ini, kami pertama-tama memisahkan tokenisasi dari inferensi, lalu mempercepat inferensi melalui kuantisasi dan distilasi model yang lebih besar. Bersama-sama, perbaikan ini meningkatkan RPS kami empat kali lipat.

Pada stack baru, filter PII kini menangani 370.000 RPS pada puncaknya. Filter PII yang ditingkatkan ini telah mengurangi false positive sebesar 30%, yang mengakibatkan peningkatan 25% dalam jumlah penyebutan PII yang terdeteksi secara otomatis oleh sistem di seluruh bahasa yang didukung. Kami sudah bekerja untuk menerapkan peningkatan ini ke beberapa bahasa lain dan membawa peningkatan serupa ke filter teks dan antarmuka lainnya. Meskipun kami bangga dengan peningkatan ini, kami menyadari bahwa metode berbagi PII terus berkembang, dan kami terus mengembangkan sistem kami sejalan dengan perubahan tersebut.

Seluruh sistem moderasi kami didukung oleh model besar berbasis transformer, dengan pengetahuan di berbagai modalitas. Bergantung pada persyaratan operasional dan produksi, kami menyaring dan mengkuantisasi model-model ini agar sistem tetap cepat dan efisien. Teknik-teknik ini sangat penting untuk menjalankan berbagai model multimodal; model yang mengelola filter teks kami kini secara efisien menangani lebih dari 750.000 RPS.

Kecepatan: Mengubah Perilaku Pengguna dengan Umpan Balik Real-Time

Komunikasi yang alami dan real-time memerlukan penyaringan yang hampir seketika agar percakapan tetap lancar. Mengulangi dan berkolaborasi dalam ide-ide memerlukan umpan balik yang cepat agar kreativitas tetap mengalir. Sistem pertahanan berlapis kami mencakup langkah-langkah proaktif seperti pemberitahuan peringatan, waktu tunggu, dan penangguhan. Saat menyaring teks, kami dapat bereaksi secara real-time untuk memblokir istilah yang melanggar kebijakan seperti PII, kata-kata kasar, dan ujaran kebencian dalam hitungan milidetik, sehingga mencegah pengguna terpapar konten yang tidak pantas.

Komunikasi suara tidak dapat diblokir dengan cara yang sama, jadi kami mendidik pengguna melalui notifikasi di layar. Notifikasi peringatan kami telah secara efektif mengubah perilaku pengguna serta meningkatkan kesopanan dan keterlibatan. Klasifikasi keamanan suara kami memoderasi obrolan dalam waktu 15 detik di delapan bahasa. Kami juga telah membuka sumber model ini sebagai bagian dari komitmen kami yang lebih luas untuk berbagi inovasi keamanan dengan industri.

Pemberitahuan membantu pengguna memahami kebijakan mana yang mereka langgar dan memberikan kesempatan kepada pengguna untuk mengajukan banding atas keputusan sistem.

Jika pengguna terus melanggar kebijakan kami, konsekuensinya akan semakin berat, mulai dari peringatan singkat hingga kehilangan akses ke obrolan suara. Penelitian internal menunjukkan bahwa penangguhan memiliki dampak hingga tiga minggu setelahnya, yang mengurangi tingkat pengulangan pelanggaran dan jumlah laporan pengguna yang diajukan. Eksperimen awal menunjukkan bahwa jenis intervensi dan konsekuensi langsung ini memiliki efek positif terhadap kesopanan. Versi terbaru klasifikasi suara kami memiliki tingkat recall 92% lebih tinggi daripada versi awal, dengan tingkat false positive 1%—dan mampu menangani hingga 8.300 RPS pada puncaknya. Kami terus menjajaki cara-cara lain untuk meningkatkan baik akurasi maupun recall.

Berdasarkan kesuksesan yang kami lihat dengan notifikasi dalam obrolan suara, kami juga mulai menerapkan umpan balik real-time untuk obrolan teks. Dalam eksperimen terbaru, kami menemukan bahwa pemberian notifikasi obrolan teks dalam pengalaman dan waktu tunggu menghasilkan penurunan 5% pada pesan obrolan yang disaring dan penurunan 6% pada konsekuensi dari laporan penyalahgunaan. Kami juga mulai bereksperimen dengan umpan balik real-time kepada pembuat konten saat mengunggah karya mereka.

Kualitas Data: Melatih Model untuk Peningkatan Berkelanjutan

Kami melatih sistem ini untuk mengoptimalkan agar lebih sedikit false negative—lebih berhati-hati dalam menghapus apa pun yang mungkin melanggar kebijakan. Kami juga tahu bahwa pengguna akan merasa frustrasi jika sesuatu yang mereka yakini sesuai dengan kebijakan justru dihapus. Jadi, kami terus meningkatkan sistem kami untuk meminimalkan false positive juga. Data yang diberi label dengan benar sangat penting untuk meningkatkan akurasi semua pengklasifikasi kami.

Membangun dataset pelatihan dan evaluasi yang kokoh memerlukan contoh-contoh berkualitas tinggi yang cukup serta ahli manusia untuk melabeli dengan akurat. Ada kasus di mana kami tidak memiliki cukup data karena skenario tersebut langka atau merupakan kasus tepi. Terkadang kami memiliki terlalu banyak data dan perlu mengidentifikasi contoh-contoh yang paling efektif. Dan kami membutuhkan data yang sesuai dengan apa yang sebenarnya terjadi di Roblox. Hal ini termasuk contoh-contoh sementara, seperti slang atau meme. Pengguna kami yang terdiri dari anak-anak, remaja, dan gamer selalu memperkenalkan kami pada istilah slang baru, tren baru, dan cara baru untuk menghindari alat moderasi kami. Mereka membuat kami tetap waspada, itulah mengapa kami terus menguji dan mengevaluasi baik alat moderasi maupun kebijakan kami.

Kami menggunakan berbagai strategi pengambilan sampel untuk mengkurasi dataset ini, dan kami memanfaatkan baik AI maupun ahli manusia untuk menghasilkan dan memberi label pada contoh-contoh data ini. Ahli kebijakan kami mengkurasi contoh-contoh secara manual, yang kami sebut sebagai "golden set". Ini adalah contoh-contoh yang paling sesuai dengan masalah yang ingin kami deteksi oleh sistem. Kami mengambil sampel dari dataset yang sangat besar dengan beberapa strategi pengambilan sampel, termasuk pengambilan sampel ketidakpastian, di mana kami mengambil sampel kasus-kasus tepi di mana model sebelumnya bingung. Kami mendapatkan sampel dari pakar manusia dan tim merah yang dibantu AI (lebih lanjut tentang AART), yang menguji sistem dengan mensimulasikan serangan adversarial untuk mengidentifikasi kelemahan.

Kami juga memperluas dan meningkatkan kumpulan data pelatihan kami saat menemukan masalah baru, bahasa gaul, meme, dan sebagainya. Beberapa contoh ini kami peroleh melalui proses banding, di mana pengguna dapat meminta tinjauan tambahan. Jika keputusan diubah, contoh tersebut menjadi bagian dari dataset kami untuk membantu sistem kami mengambil keputusan yang tepat di masa mendatang.

Kami mendapatkan contoh lain dari sistem pelaporan penyalahgunaan kami yang kuat, yang secara efektif memperluas tim moderator manusia kami untuk mencakup puluhan juta pengguna yang peduli dengan pengalaman ini dan komunitas. Kami baru-baru ini meningkatkan alat pelaporan kami sehingga pengguna memiliki opsi untuk menangkap seluruh adegan, termasuk ID avatar dan objek, serta menyoroti bagian yang ingin mereka laporkan. Kami telah melihat adopsi yang kuat dari pengguna, dengan sekitar 15% laporan yang memenuhi syarat menyertakan anotasi visual. Konteks tambahan ini membantu kami secara proaktif mengidentifikasi pengalaman bermasalah di mana pengguna sering melaporkan kekhawatiran. Karena pelatihan model tidak instan, kami juga sedang menjajaki pembuatan aturan berbasis AI secara otomatis dari laporan pengguna untuk meningkatkan responsivitas kami.

The in-experience report UI now lets users highlight what they want to report (i.e., the green circle around the duck avatar).

Kami melengkapi kumpulan data ini dengan data sintetis, di mana model bahasa besar (LLM) menghasilkan contoh data buatan dan label yang meniru contoh di dunia nyata. Keuntungannya adalah kemampuan untuk menghasilkan jutaan contoh dan label, bahkan untuk kasus yang langka atau ekstrem. Setelah kami memiliki data berlabel yang cukup, kami membaginya menjadi dua kumpulan data: satu untuk pelatihan dan satu untuk evaluasi. Memiliki dataset evaluasi yang kokoh sangat kritis: Jika dataset evaluasi terlalu mudah, metrik model akan terlihat berfungsi dengan baik—tetapi model akan gagal di lingkungan produksi. Akurasi data lebih penting daripada volumenya. "Garbage in, garbage out" adalah masalah nyata dalam ML karena kinerja model sangat bergantung pada akurasi data yang digunakan untuk melatih dan mengevaluasinya.

Setelah memiliki dataset evaluasi yang andal, kami mengevaluasinya berdasarkan dua metrik utama: keselarasan dan kualitas. Untuk menguji keselarasan, contoh yang sama dikirim ke beberapa manusia untuk dilabeli dan melihat apakah label mereka setuju (atau selaras). Jika keselarasan antara label mereka mencapai 80% atau lebih, itu berarti moderator kami dapat membuat keputusan yang konsisten secara massal. Jika kurang dari 80%, kebijakan atau pelatihan mungkin membingungkan, dan kami perlu melakukan iterasi. Untuk menguji kualitas, kami mengirimkan "golden set" kepada manusia untuk menilai apakah melanggar kebijakan atau tidak dan memastikan mereka membuat keputusan yang benar. Kami juga mengambil sampel keputusan untuk ditinjau oleh ahli. Jika semua keputusan benar, maka kebijakan kami dapat diterapkan dengan benar. Kesesuaian dan kualitas yang tinggi menunjukkan bahwa kebijakan kami dapat diterapkan dengan benar dan konsisten. Jika tidak, kami kembali mengevaluasi baik kebijakan maupun set pelatihan.

Sifat kreatif platform seperti Roblox, di mana pengguna bebas menciptakan dan berkomunikasi hampir apa saja, berarti platform ini selalu berkembang. Metode moderasi kami harus berkembang secepatnya untuk menjaga komunitas kami tetap aman dan beradab. Sistem pembelajaran aktif kami terus memperbarui model seiring perkembangan bahasa, perubahan pola pengguna, dan peristiwa dunia nyata. Kami terus membangun sistem yang skalabel, cepat, akurat, dan secara konsisten beradaptasi dengan dunia dinamis yang kita huni.

¹Per kuartal pertama tahun 2025.

²Mencakup periode pelaporan dari 17 Februari 2024 hingga 31 Desember 2024.

Terbaru

Lebih banyak hasil

Bagaimana Roblox Menggunakan AI untuk Memoderasi Konten dalam Skala Besar

Skala: Mengelola Miliaran Potongan Konten Setiap Hari

Kecepatan: Mengubah Perilaku Pengguna dengan Umpan Balik Real-Time

Kualitas Data: Melatih Model untuk Peningkatan Berkelanjutan

Bagaimana Roblox Menggunakan AI untuk Memoderasi Konten dalam Skala Besar

Skala: Mengelola Miliaran Potongan Konten Setiap Hari

Kecepatan: Mengubah Perilaku Pengguna dengan Umpan Balik Real-Time

Kualitas Data: Melatih Model untuk Peningkatan Berkelanjutan

Teknik

Cara Kerja Pelaporan Dalam Game di Roblox

Teknik

Meningkatkan Klasifikasi Keamanan Suara Kami dengan 22 Bahasa Baru dan Kemampuan Deteksi yang Lebih Akurat

Berita

Pendiri AI Terkemuka Bergabung untuk Mempercepat Visi Realitas Roblox