Cách Roblox sử dụng AI để kiểm duyệt nội dung trên quy mô lớn
Kiểm duyệt hàng tỷ nội dung mỗi ngày trên 25 ngôn ngữ — theo thời gian thực

- Để chủ động kiểm duyệt nội dung được đăng tải trên Roblox, chúng tôi đã xây dựng các hệ thống có khả năng mở rộng bằng cách tận dụng trí tuệ nhân tạo (AI) trong khoảng năm năm qua.
- Hiện nay, cơ sở hạ tầng, các mô hình học máy (ML) và hàng nghìn chuyên gia con người của chúng tôi cùng hợp tác để giúp Roblox trở thành một môi trường an toàn và văn minh hơn cho người dùng.
- Chúng tôi phát triển tất cả các hệ thống này để đảm bảo quy mô, tốc độ và cải tiến liên tục với dữ liệu chất lượng cao.
An toàn là nền tảng cho mọi hoạt động của chúng tôi tại Roblox. Ngay từ đầu, chúng tôi đã chủ động kiểm duyệt nội dung vì chúng tôi biết rằng việc kiểm duyệt là rất quan trọng đối với một nền tảng được xây dựng dựa trên nội dung do người dùng tạo ra. Khi Roblox còn nhỏ hơn nhiều, các nhân viên kiểm duyệt là con người đã thực hiện công việc này — bao gồm cả người sáng lập và Giám đốc điều hành của chúng tôi, những người đã dành thời gian để kiểm duyệt nội dung trong giai đoạn đầu. Theo thời gian, nền tảng này đã phát triển (cả về quy mô và tốc độ) vượt quá khả năng của các nhân viên kiểm duyệt. Khi ra mắt bất kỳ sản phẩm mới nào, an toàn luôn là yếu tố đầu tiên chúng tôi xem xét.
Trung bình có 97,8 triệu người dùng hoạt động hàng ngày1 truy cập Roblox để chơi, giao tiếp và sáng tạo. Mỗi ngày, người dùng gửi trung bình 6,1 tỷ tin nhắn chat và 1,1 triệu giờ giao tiếp bằng giọng nói bằng 28 ngôn ngữ khác nhau. Các nhà sáng tạo tải lên hàng triệu tài nguyên mỗi ngày — và hàng nghìn mặt hàng mới được thêm vào thị trường avatar của chúng tôi. Hầu hết trong số hàng tỷ tác phẩm và tin nhắn này đều mang tính văn minh. Giống như trong thế giới thực — đó là cách phần lớn mọi người giao tiếp với nhau. Nhưng khi không phải vậy, hệ thống lọc văn bản của chúng tôi giúp chặn nội dung gây tranh cãi trước khi nó đến tay người dùng và các vi phạm về giọng nói được đánh giá theo thời gian thực. Và trong trường hợp chúng tôi nhận được thông báo về nội dung bất hợp pháp, thời gian trung bình để xử lý là mười phút.
Việc kiểm duyệt khối lượng nội dung khổng lồ này trong vòng vài mili giây là công việc mà con người không thể tự mình xử lý — bất kể chúng tôi có bao nhiêu nhân lực. Để làm việc ở quy mô và tốc độ này, sẽ cần hàng trăm nghìn nhân viên kiểm duyệt làm việc 24/7, không kể cuối tuần hay kỳ nghỉ — và đó chỉ là để kiểm duyệt tin nhắn trò chuyện. Chúng tôi sẽ cần thêm hàng nghìn người nữa để kiểm duyệt tất cả các loại nội dung khác trên Roblox. Khối lượng nội dung được tạo ra hàng ngày trên Roblox đòi hỏi cơ sở hạ tầng có khả năng mở rộng, các mô hình học máy (ML) và các công cụ được thiết kế chuyên dụng.
ML có thể đưa ra các quyết định này trong vài mili giây, lặp đi lặp lại, nhất quán và 24 giờ mỗi ngày. Chúng tôi vẫn cần và sử dụng con người để xử lý các trường hợp ít phổ biến hơn, nơi cần đến sự phán đoán tinh tế và sâu sắc của con người tùy theo bối cảnh. Chúng tôi kết hợp các công cụ an toàn và kiểm duyệt mạnh mẽ, sáng tạo với hàng nghìn chuyên gia con người trên toàn thế giới, những người giám sát và đào tạo liên tục hệ thống của chúng tôi để đối phó với những thách thức mới và đang phát triển. Tất cả các hệ thống kiểm duyệt của Roblox đều dựa trên các nguyên tắc sau:
- Chúng tôi chủ động kiểm duyệt nội dung trên Roblox.
- Chúng tôi cung cấp phản hồi theo thời gian thực cho người dùng bất cứ khi nào có thể, vì thường thì mọi người không biết các quy tắc.
- Chúng tôi chỉ triển khai AI khi nó hoạt động hiệu quả hơn đáng kể so với con người về cả độ chính xác và khả năng thu hồi trên quy mô lớn.
- Chúng tôi tận dụng con người để liên tục cải thiện AI, xử lý các trường hợp hiếm gặp, các cuộc điều tra phức tạp và các khiếu nại.
Để kiểm duyệt hiệu quả khối lượng nội dung ngày càng tăng được sản xuất trên Roblox, chúng tôi luôn đổi mới theo ba chiều: quy mô, tốc độ và chất lượng, và điều này đòi hỏi sự cải tiến liên tục.
Quy mô: Điều phối hàng tỷ nội dung mỗi ngày
Từ tháng 2 đến tháng 12 năm 20241, người dùng đã tải lên khoảng 1 nghìn tỷ nội dung. Chỉ có 0,01% trong số hàng tỷ cuộc trò chuyện văn bản, âm thanh, giọng nói và hình ảnh đó bị phát hiện vi phạm bất kỳ chính sách nào của chúng tôi. Và hầu hết nội dung vi phạm chính sách của chúng tôi đều được sàng lọc trước và xóa tự động trước khi người dùng nhìn thấy. Mặc dù quy mô này còn tương đối mới, nhưng cam kết của chúng tôi đối với việc kiểm duyệt thì không. Hơn một thập kỷ trước, chúng tôi đã xây dựng một bộ lọc văn bản dựa trên quy tắc. Khoảng năm năm trước, chúng tôi đã triển khai một bộ lọc văn bản dựa trên mô hình Transformer, lúc đó là công nghệ tiên tiến nhất. Ngày nay, các bộ lọc văn bản của chúng tôi xử lý trung bình 6,1 tỷ tin nhắn trò chuyện mỗi ngày, được hỗ trợ bởi nhiều mô hình được thiết kế riêng cho các loại vi phạm chính sách khác nhau.
Một trong số các mô hình này là bộ lọc thông tin nhận dạng cá nhân (PII) cho tin nhắn trò chuyện trong game và trên nền tảng. Việc người dùng yêu cầu thông tin PII từ người khác có thể là bước đầu tiên dẫn đến các vấn đề nghiêm trọng hơn, vì vậy chúng tôi luôn có lập trường cứng rắn trong việc ngăn chặn việc chia sẻ PII. Mỗi tin nhắn trò chuyện được gửi đi đều là một “yêu cầu”, đề nghị hệ thống kiểm tra và xác định xem có đề cập đến PII hay không. Mô hình bộ lọc văn bản này phải xử lý quá nhiều yêu cầu mỗi giây (RPS) đến mức khó có thể duy trì trên hệ thống phục vụ dựa trên CPU hiện có của chúng tôi. Vì vậy, chúng tôi đã xây dựng một hệ thống phục vụ hoàn toàn mới trên GPU, tận dụng hạ tầng mạng di động của chúng tôi. Để đáp ứng nhu cầu RPS cao này, trước tiên chúng tôi đã tách quá trình token hóa khỏi quá trình suy luận, sau đó tăng tốc suy luận bằng cách lượng tử hóa và tinh giản các mô hình lớn hơn. Cùng nhau, những cải tiến này đã tăng gấp bốn lần RPS của chúng tôi.
Trên hệ thống mới, bộ lọc PII hiện xử lý 370.000 RPS tại đỉnh điểm. Bộ lọc PII cải tiến của chúng tôi đã giảm 30% kết quả dương tính giả, dẫn đến tăng 25% số lần đề cập PII được hệ thống phát hiện tự động trên tất cả các ngôn ngữ được hỗ trợ. Chúng tôi đang triển khai cải tiến này cho nhiều ngôn ngữ khác và áp dụng các cải tiến tương tự cho các bộ lọc văn bản và giao diện khác. Mặc dù tự hào về những cải tiến này, chúng tôi nhận thức rằng các phương thức chia sẻ PII luôn thay đổi và hệ thống của chúng tôi cũng đang phát triển cùng với những thay đổi đó.
Nền tảng cho toàn bộ hệ thống kiểm duyệt của chúng tôi là các mô hình lớn dựa trên bộ chuyển đổi, với kiến thức về nhiều phương thức khác nhau. Tùy thuộc vào các yêu cầu vận hành và sản xuất, chúng tôi chắt lọc và lượng tử hóa các mô hình này để giữ cho hệ thống hoạt động nhanh và hiệu quả. Các kỹ thuật này rất cần thiết để vận hành nhiều mô hình đa phương thức khác nhau, và các mô hình quản lý bộ lọc văn bản của chúng tôi hiện đang xử lý hiệu quả hơn 750.000 RPS.

Tốc độ: Thay đổi hành vi người dùng thông qua phản hồi thời gian thực
Giao tiếp tự nhiên, thời gian thực đòi hỏi phải lọc gần như ngay lập tức để duy trì dòng chảy của cuộc trò chuyện. Việc lặp lại và hợp tác về ý tưởng đòi hỏi phản hồi nhanh chóng để duy trì sự sáng tạo. Hệ thống phòng thủ nhiều lớp của chúng tôi bao gồm các biện pháp chủ động như thông báo cảnh báo, thời gian chờ và đình chỉ. Khi lọc văn bản, chúng tôi có thể phản ứng trong thời gian thực để chặn các thuật ngữ vi phạm chính sách như PII, ngôn từ thô tục và lời nói kích động thù địch trong vòng vài mili giây, ngăn người dùng tiếp xúc với nội dung không phù hợp.
Giao tiếp bằng giọng nói không thể bị chặn theo cách tương tự, vì vậy chúng tôi hướng dẫn người dùng thông qua các thông báo trên màn hình. Các thông báo cảnh báo của chúng tôi đã thay đổi hiệu quả hành vi của người dùng và tăng cả sự lịch sự lẫn mức độ tương tác. Bộ phân loại an toàn giọng nói của chúng tôi kiểm duyệt cuộc trò chuyện trong vòng 15 giây trên tám ngôn ngữ. Chúng tôi cũng đã mở mã nguồn mô hình này như một phần của cam kết rộng lớn hơn trong việc chia sẻ các sáng kiến an toàn với ngành công nghiệp.

Nếu người dùng tiếp tục vi phạm các chính sách của chúng tôi, hậu quả sẽ ngày càng nghiêm trọng, từ cảnh cáo ngắn gọn đến việc mất quyền truy cập vào tính năng trò chuyện bằng giọng nói. Nghiên cứu nội bộ cho thấy việc đình chỉ tài khoản có tác động kéo dài đến ba tuần sau đó, giúp giảm tỷ lệ tái phạm và số lượng báo cáo người dùng được gửi. Các thử nghiệm ban đầu cho thấy những biện pháp can thiệp và hậu quả tức thời này có tác động tích cực đến sự văn minh. Phiên bản mới nhất của bộ phân loại giọng nói của chúng tôi có tỷ lệ thu hồi cao hơn 92% so với phiên bản ban đầu, với tỷ lệ dương tính giả là 1% — và xử lý, tại đỉnh điểm, lên đến 8.300 RPS. Chúng tôi tiếp tục tìm kiếm các cách thức khác để cải thiện cả độ chính xác và tỷ lệ thu hồi.
Dựa trên thành công mà chúng tôi đã thấy với các thông báo trong trò chuyện bằng giọng nói, chúng tôi cũng đã bắt đầu triển khai phản hồi thời gian thực cho trò chuyện bằng văn bản. Trong các thử nghiệm gần đây, chúng tôi nhận thấy rằng việc gửi thông báo và thời gian chờ trong trò chuyện bằng văn bản trong trải nghiệm đã giúp giảm 5% số tin nhắn trò chuyện bị lọc và giảm 6% hậu quả từ các báo cáo lạm dụng. Chúng tôi cũng đang bắt đầu thử nghiệm phản hồi thời gian thực cho người sáng tạo khi họ tải lên các tác phẩm của mình.
Chất lượng dữ liệu: Đào tạo mô hình để cải tiến liên tục
Chúng tôi huấn luyện các hệ thống này để tối ưu hóa việc giảm thiểu các trường hợp âm tính giả — thiên về phía loại bỏ bất kỳ nội dung nào có thể vi phạm chính sách. Chúng tôi cũng biết rằng người dùng sẽ cảm thấy thất vọng khi một nội dung mà họ cho là tuân thủ lại bị gỡ bỏ. Vì vậy, chúng tôi liên tục cải thiện hệ thống để giảm thiểu các trường hợp dương tính giả. Dữ liệu được gắn nhãn chính xác là yếu tố thiết yếu để cải thiện độ chính xác cho tất cả các bộ phân loại của chúng tôi.
Việc xây dựng các bộ dữ liệu đào tạo và đánh giá mạnh mẽ đòi hỏi cả đủ số lượng ví dụ chất lượng cao lẫn chuyên gia con người để gắn nhãn chính xác. Có những trường hợp chúng tôi không có đủ dữ liệu vì đó là tình huống hiếm gặp hoặc trường hợp biên. Đôi khi chúng tôi có quá nhiều dữ liệu và cần xác định những ví dụ hiệu quả nhất. Và chúng tôi cần dữ liệu phản ánh chính xác những gì đang diễn ra trên Roblox. Điều này bao gồm các ví dụ tạm thời, như ngôn ngữ lóng hoặc meme. Đối tượng người dùng của chúng tôi gồm trẻ em, thanh thiếu niên và game thủ luôn giới thiệu cho chúng tôi những thuật ngữ tiếng lóng mới, xu hướng mới và những cách mới để lách qua các công cụ kiểm duyệt của chúng tôi. Họ luôn khiến chúng tôi phải cảnh giác, đó là lý do tại sao chúng tôi liên tục thử nghiệm và đánh giá cả các công cụ kiểm duyệt lẫn chính sách của mình.
Chúng tôi sử dụng nhiều chiến lược lấy mẫu để tuyển chọn các bộ dữ liệu này, và tận dụng cả AI lẫn chuyên gia con người để tạo ra và gắn nhãn cho các ví dụ dữ liệu. Các chuyên gia chính sách của chúng tôi tuyển chọn thủ công các ví dụ, mà chúng tôi gọi là "bộ dữ liệu chuẩn" (golden set). Đây là những ví dụ phù hợp nhất với các vấn đề mà chúng tôi muốn hệ thống phát hiện. Chúng tôi lấy mẫu từ các bộ dữ liệu rất lớn bằng nhiều chiến lược lấy mẫu, bao gồm lấy mẫu theo độ không chắc chắn (uncertainty sampling), trong đó chúng tôi lấy mẫu các trường hợp ngoại lệ mà mô hình trước đây đã bị nhầm lẫn. Chúng tôi thu thập mẫu từ các chuyên gia con người và các đội đỏ được hỗ trợ bởi AI (AARTs), những người kiểm tra hệ thống bằng cách mô phỏng các cuộc tấn công đối kháng để tìm kiếm điểm yếu.
Chúng tôi cũng mở rộng và cải thiện các tập huấn luyện khi phát hiện các vấn đề mới, ngôn ngữ lóng, meme, v.v. Một số ví dụ này được thu thập qua quy trình khiếu nại, nơi người dùng có thể yêu cầu xem xét lại. Nếu quyết định bị lật ngược, ví dụ đó sẽ trở thành một phần của tập dữ liệu để giúp hệ thống xử lý chính xác hơn trong lần sau.
Chúng tôi thu thập các mẫu khác từ hệ thống báo cáo lạm dụng mạnh mẽ của mình, giúp mở rộng đội ngũ điều phối viên con người của chúng tôi để bao gồm hàng chục triệu người dùng quan tâm đến trải nghiệm này và cộng đồng. Gần đây, chúng tôi đã cải tiến công cụ báo cáo để người dùng có thể chụp toàn bộ cảnh, bao gồm ID avatar và đối tượng, đồng thời đánh dấu phần họ muốn báo cáo. Chúng tôi đã thấy người dùng chấp nhận rộng rãi, với khoảng 15% báo cáo đủ điều kiện cung cấp chú thích trực quan. Bối cảnh bổ sung này giúp chúng tôi chủ động xác định những trải nghiệm có vấn đề mà người dùng thường xuyên báo cáo. Vì việc huấn luyện mô hình không diễn ra ngay lập tức, chúng tôi cũng đang khám phá việc tự động tạo ra các quy tắc dựa trên AI từ báo cáo của người dùng để tăng khả năng phản hồi của chúng tôi.

Chúng tôi bổ sung các bộ dữ liệu này bằng dữ liệu tổng hợp, trong đó các mô hình ngôn ngữ lớn (LLMs) tạo ra các ví dụ và nhãn dữ liệu nhân tạo mô phỏng các trường hợp thực tế. Lợi ích ở đây là khả năng tạo ra hàng triệu ví dụ và nhãn, ngay cả đối với các trường hợp hiếm gặp hoặc biên. Khi đã có đủ dữ liệu có nhãn, chúng tôi chia nó thành hai bộ dữ liệu: một cho đào tạo và một cho đánh giá. Việc có một bộ dữ liệu đánh giá vững chắc là rất quan trọng: Nếu bộ dữ liệu đánh giá quá dễ, các chỉ số của mô hình sẽ trông như thể nó hoạt động tốt — nhưng nó sẽ gặp sự cố trong môi trường sản xuất. Độ chính xác của dữ liệu quan trọng hơn khối lượng. "Garbage in, garbage out" là một mối lo ngại thực sự trong ML vì hiệu suất của mô hình phụ thuộc rất nhiều vào độ chính xác của dữ liệu được sử dụng để huấn luyện và đánh giá nó.
Khi đã có bộ dữ liệu đánh giá đáng tin cậy, chúng tôi đánh giá nó dựa trên hai chỉ số chính: sự nhất quán và chất lượng. Để kiểm tra sự nhất quán, cùng một ví dụ được gửi đến nhiều người dùng để gắn nhãn và xem liệu các nhãn của họ có khớp nhau (hoặc nhất quán) hay không. Nếu tỷ lệ nhất quán giữa các nhãn đạt 80% trở lên, điều đó có nghĩa là các nhà kiểm duyệt của chúng tôi có thể đưa ra quyết định nhất quán trên quy mô lớn. Nếu tỷ lệ này dưới 80%, chính sách hoặc quá trình đào tạo có thể gây nhầm lẫn, và chúng tôi cần điều chỉnh. Để kiểm tra chất lượng, chúng tôi gửi bộ dữ liệu chuẩn (golden set) cho con người để đánh giá xem nó có vi phạm chính sách hay không và đảm bảo họ đưa ra quyết định chính xác. Chúng tôi cũng lấy mẫu các quyết định để các chuyên gia xem xét. Nếu tất cả đều đưa ra quyết định chính xác, thì chính sách của chúng tôi có thể được áp dụng đúng cách. Độ nhất quán cao và chất lượng cao cho thấy chính sách của chúng tôi có thể được áp dụng chính xác và nhất quán. Nếu không, chúng tôi quay lại đánh giá cả chính sách và bộ dữ liệu đào tạo.
Tính sáng tạo của một nền tảng như Roblox, nơi người dùng tự do tạo ra và chia sẻ gần như mọi thứ, có nghĩa là nó luôn thay đổi. Các phương pháp kiểm duyệt của chúng tôi cũng phải phát triển nhanh chóng để giữ cho cộng đồng an toàn và văn minh. Hệ thống học máy chủ động của chúng tôi liên tục cập nhật mô hình khi ngôn ngữ phát triển, thói quen người dùng thay đổi và các sự kiện thực tế diễn ra. Chúng tôi liên tục xây dựng các hệ thống có khả năng mở rộng, nhanh chóng, chính xác và luôn thích ứng với thế giới động mà chúng ta đang sống.
1Tính đến quý đầu tiên của năm 2025.
2Áp dụng cho giai đoạn báo cáo từ ngày 17 tháng 2 năm 2024 đến ngày 31 tháng 12 năm 2024.


