Mô hình ngôn ngữ lớn (LLM) tiên tiến giúp bảo vệ việc tạo văn bản không giới hạn trên Roblox
Roblox Guard 1.0: Nâng cao an toàn với các biện pháp bảo vệ mạnh mẽ

- Hôm nay, chúng tôi xin giới thiệu Roblox Guard 1.0, một bộ công cụ an toàn mã nguồn mở dành cho các nhà phát triển và nền tảng.
- Tính năng đầu tiên của Roblox Guard, một mô hình rào cản tiên tiến nhất (SOTA) dành cho an toàn mô hình ngôn ngữ lớn (LLM), hiện đã có sẵn, thiết lập một tiêu chuẩn mới trên các bài kiểm tra an toàn hàng đầu.
- Chúng tôi cũng đang phát hành Roblox Guard-Eval, một bộ dữ liệu để đánh giá hiệu suất an toàn.
Thách thức
Gần đây, chúng tôi đã phát hành API tạo văn bản cho phép các nhà phát triển khai thác sức mạnh của các mô hình ngôn ngữ lớn (LLM) để xây dựng những trải nghiệm phong phú và hấp dẫn hơn bằng cách tạo văn bản trong các trải nghiệm của họ. Ví dụ: một nhà phát triển có thể tạo ra một NPC hoàn toàn tương tác hoặc cung cấp hướng dẫn tương tác về cách chơi trò chơi.
Chúng tôi đã chủ động kiểm duyệt hầu hết nội dung trên Roblox ngay từ những ngày đầu, nhằm đảm bảo các sản phẩm của chúng tôi tuân thủ các tiêu chuẩn an toàn và văn minh cao của Roblox. Trước khi ra mắt API Tạo văn bản, chúng tôi đã xem xét cách xây dựng tính năng an toàn lên hàng đầu. Chúng tôi đã phát triển một mô hình mới để giúp bảo vệ cả đầu vào (lời nhắc từ người dùng) và đầu ra (văn bản được tạo từ API).
Sự đổi mới
Tính năng đầu tiên trong bộ công cụ Roblox Guard 1.0 là một mô hình ngôn ngữ lớn (LLM) được tinh chỉnh theo hướng dẫn SOTA, được thiết kế để giúp bảo vệ API tạo văn bản của chúng tôi. Nó thực hiện phân loại an toàn ở cả cấp độ lời nhắc và phản hồi, quyết định liệu mỗi đầu vào hoặc đầu ra có vi phạm chính sách của chúng tôi hay không. Đánh giá hai cấp độ này là rất cần thiết để kiểm duyệt cả các truy vấn của người dùng và các đầu ra do chính mô hình tạo ra.
Hiện tại, LLM của chúng tôi đang vượt trội so với các mô hình rào cản LLM phổ biến như Llama Guard của Meta, ShieldGemma của Google AI, NVIDIA NeMo Guardrails, GPT-4o của OpenAI và các mô hình khác trên các tiêu chuẩn đánh giá chuẩn. LLM Roblox Guard 1.0 cũng cho thấy khả năng tổng quát hóa mạnh mẽ trên các tập dữ liệu ngoài lĩnh vực với hệ thống phân loại chưa từng thấy. Chúng tôi đã mở mã nguồn cả trọng số LLM cho tính năng đầu tiên của chúng tôi và bộ dữ liệu chuẩn Roblox Guard-Eval.
Trái tim của hệ thống là mô hình LLM được tinh chỉnh từ mô hình Llama-3.1-8B-Instruct. Chúng tôi đã huấn luyện mô hình này với trọng tâm đặc biệt vào việc tinh chỉnh hướng dẫn chất lượng cao để tối ưu hóa hiệu suất đánh giá an toàn. Bước quan trọng trong quá trình này là lựa chọn cẩn thận các lời nhắc và phản hồi để phản ánh đa dạng các tình huống an toàn trong thế giới thực.
Bộ hướng dẫn của chúng tôi không sử dụng dữ liệu độc quyền—chỉ kết hợp dữ liệu tổng hợp (do LLM tạo ra) và dữ liệu nguồn mở, điều này cho phép chúng tôi dễ dàng mở rộng dữ liệu đào tạo và tận dụng các quy luật mở rộng—giúp mô hình LLM Roblox Guard đầu tiên này đạt được SOTA. Khi kết hợp các bộ dữ liệu nguồn mở và tổng hợp khác nhau, chúng tôi nhận thấy việc sử dụng phân loại cụ thể cho từng bộ dữ liệu là phương pháp tốt nhất để biên soạn hướng dẫn, vì sự đa dạng của nhiệm vụ giúp các mô hình LLM đào tạo trên các loại lời nhắc khác nhau. Điều này đã tạo ra một mô hình mạnh mẽ có thể được tổng quát hóa cho các hệ thống phân loại an toàn khác nhau. Chúng tôi cũng đã kết hợp các lý do theo chuỗi suy nghĩ, trong đó mô hình được khuyến khích trình bày rõ ràng quá trình suy luận của mình, vào bộ hướng dẫn. Các bước suy luận trung gian này đã giúp mô hình có cơ sở bối cảnh vững chắc hơn.
Kết quả

Chúng tôi đánh giá các mô hình của mình trên một bộ dữ liệu nguồn mở toàn diện cho cả lời nhắc và phản hồi, cũng như trên Roblox Guard-Eval. Điều này cho phép chúng tôi đánh giá mô hình của mình trên cả dữ liệu trong lĩnh vực và ngoài lĩnh vực. Chúng tôi báo cáo kết quả của mình dưới dạng điểm F-1 cho phân loại nhị phân vi phạm/không vi phạm. Trong bảng trên, chúng tôi so sánh hiệu suất của mình với một số mô hình nổi tiếng khác. Tính năng Roblox Guard đầu tiên này vượt trội hơn các mô hình khác khi tổng quát hóa trên các tập dữ liệu ngoài lĩnh vực.
Chúng tôi đang liên tục cải thiện các hệ thống an toàn của mình, bao gồm các công cụ Roblox Guard 1.0 và dự định phát hành các tính năng bổ sung trong tương lai gần. Vui lòng theo dõi các trang của chúng tôi trên HuggingFace và GitHub để cập nhật thông tin về các bản cập nhật và cải tiến trong tương lai, cũng như các bản phát hành mã nguồn mở sắp tới.


