Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content

Nâng cấp hệ thống phân loại giọng nói an toàn của chúng tôi với 22 ngôn ngữ mới và khả năng phát hiện chính xác hơn

Các ngôn ngữ mới, 2 danh mục vi phạm mới và tỷ lệ thu hồi cao hơn 14%

Roblox xử lý hàng triệu phút dữ liệu giọng nói mỗi ngày trên 30 ngôn ngữ, đặt ra thách thức lớn về an toàn thời gian thực trên quy mô lớn. Trong hai năm qua, hệ thống nội bộ của chúng tôi đã phát triển đáng kể — tăng từ 94,6 triệu lên 320 triệu tham số và mở rộng từ năm lên tám danh mục vi phạm chính sách — để hiện có thể xử lý 10.000 yêu cầu mỗi giây vào giờ cao điểm. 

Chúng tôi đã mở mã nguồn mô hình phân loại an toàn giọng nói cơ bản vào năm 2024 để giúp thúc đẩy an toàn giọng nói trong toàn ngành, và hôm nay, chúng tôi ra mắt phiên bản v3 của mô hình này, mang đến cho người dùng hỗ trợ cho 22 ngôn ngữ mới và thêm hai danh mục vi phạm chính sách với độ thu hồi cao hơn 14% và độ chính xác cao hơn 5% so với phiên bản trước.

Từ Phiên bản 1 đến Phiên bản 3 và Hơn Thế Nữa 

Khi bắt tay vào xây dựng hệ thống đảm bảo an toàn giọng nói theo thời gian thực, chúng tôi tập trung vào tiếng Anh trước tiên. Chúng tôi đã xây dựng một quy trình gắn nhãn tự động bằng máy để tạo ra khối lượng lớn dữ liệu huấn luyện. Vào năm 2024, phiên bản v1 của mô hình mã nguồn mở đã sử dụng 2.400 giờ dữ liệu tiếng Anh được gắn nhãn bằng máy để huấn luyện mô hình. Sau khi ra mắt ban đầu và triển khai hệ thống thông báo, tỷ lệ báo cáo lạm dụng tại Mỹ đã giảm hơn 50% trên mỗi giờ phát biểu. 

Năm 2025, chúng tôi đã bổ sung thêm nhiều ngôn ngữ, tinh chỉnh mô hình sâu hơn và phát hành phiên bản v2 của mô hình. Để huấn luyện mô hình v3 mới nhất vào năm 2026, chúng tôi đã sử dụng 250.000 giờ dữ liệu đa ngôn ngữ được máy đánh nhãn và 29.000 giờ dữ liệu đa ngôn ngữ được con người đánh nhãn. Mỗi mô hình đều được đánh giá dựa trên các bộ dữ liệu được con người đánh nhãn.

Phiên bản v3 của mô hình mã nguồn mở đạt tỷ lệ thu hồi (recall) 61% được tính theo phân bố ngôn ngữ trong trò chuyện giọng nói của Roblox, với tỷ lệ dương tính giả (false positive) là 1%. Khi so sánh chỉ với các ngôn ngữ được hỗ trợ bởi phiên bản v2 của mô hình, phiên bản v3 cho thấy sự cải thiện tương đối 14% về tỷ lệ thu hồi được tính theo mức độ phổ biến của ngôn ngữ.

An toàn giọng nói là vấn đề quá quan trọng để giải quyết một cách riêng lẻ. Chúng tôi đã mã nguồn mở bộ phân loại an toàn giọng nói của mình và gia nhập ROOST với tư cách là đối tác sáng lập vì tin rằng việc chia sẻ những tiến bộ trong công nghệ an toàn sẽ củng cố toàn bộ ngành công nghiệp. Mô hình này đã được tải xuống hơn 70.000 lần trên Hugging Face kể từ lần phát hành đầu tiên, và mỗi bản cập nhật đều được định hình dựa trên những gì chúng tôi học được khi vận hành các mô hình nội bộ trên quy mô lớn trong cộng đồng của mình. Chúng tôi tiếp tục cải tiến các hệ thống an toàn của mình và mong muốn được chia sẻ thêm nhiều bản cập nhật trong tương lai. 

Lời cảm ơn: Chúng tôi xin gửi lời cảm ơn đến Thomas Bui, Meghatrisa Chatterjee, Bridget Daly, Jason Golubock, Hannes Heikinheimo, Marek Kapolka, Cheryl Kwan, Markus Lang, Aashna Sharma, Hao-En Sung, Tingting Tang và Alex Trimm vì những đóng góp của họ cho dự án này.