Cách mạng hóa quá trình sáng tạo trên Roblox với Trí tuệ nhân tạo tạo sinh

Đầu năm nay, chúng tôi đã chia sẻ tầm nhìn của mình về trí tuệ nhân tạo tạo sinh (AI) trên Roblox và các công cụ mới trực quan sẽ giúp mọi người dùng trở thành nhà sáng tạo. Khi các công cụ này phát triển nhanh chóng trong toàn ngành, tôi muốn cung cấp một số thông tin cập nhật về những tiến bộ chúng tôi đã đạt được, chặng đường còn phía trước để dân chủ hóa việc sáng tạo AI tạo sinh, và lý do tại sao chúng tôi cho rằng AI tạo sinh là yếu tố quan trọng đối với hướng đi của Roblox.
Những tiến bộ trong AI tạo sinh và các mô hình ngôn ngữ lớn (LLM) mang đến cơ hội tuyệt vời để mở ra tương lai của những trải nghiệm nhập vai bằng cách cho phép sáng tạo dễ dàng hơn, nhanh hơn trong khi vẫn đảm bảo an toàn và không yêu cầu tài nguyên tính toán khổng lồ. Hơn nữa, những tiến bộ trong các mô hình AI đa phương thức—tức là được đào tạo với nhiều loại nội dung như hình ảnh, mã nguồn, văn bản, mô hình 3D và âm thanh—mở ra cánh cửa cho những đột phá mới trong công cụ sáng tạo. Những mô hình này cũng bắt đầu tạo ra đầu ra đa phương thức, chẳng hạn như một mô hình có thể tạo ra văn bản cùng với các hình ảnh bổ sung cho nội dung đó. Chúng tôi xem những đột phá về AI này là một cơ hội to lớn để đồng thời tăng hiệu quả cho những người sáng tạo giàu kinh nghiệm hơn và giúp nhiều người hơn nữa hiện thực hóa những ý tưởng tuyệt vời trên Roblox. Tại Hội nghị các nhà phát triển Roblox (RDC) năm nay, chúng tôi đã công bố một số công cụ mới sẽ đưa AI tạo ra nội dung vào Roblox Studio và hơn thế nữa để giúp bất kỳ ai trên Roblox mở rộng quy mô nhanh hơn, lặp lại nhanh hơn và nâng cao kỹ năng của họ để tạo ra nội dung còn tốt hơn nữa.
Trợ lý Roblox
Roblox luôn cung cấp cho các nhà sáng tạo các công cụ, dịch vụ và hỗ trợ cần thiết để xây dựng các trải nghiệm 3D đắm chìm. Đồng thời, chúng tôi nhận thấy các nhà sáng tạo bắt đầu sử dụng AI tạo sinh và AI đối thoại của bên thứ ba để hỗ trợ quá trình sáng tạo. Mặc dù những công cụ này hữu ích trong việc giảm bớt khối lượng công việc cho các nhà sáng tạo, nhưng các phiên bản sẵn có này không được thiết kế cho quy trình làm việc end-to-end của Roblox hoặc được đào tạo trên mã nguồn, ngôn ngữ lóng và thuật ngữ của Roblox. Điều đó có nghĩa là các nhà sáng tạo phải đối mặt với khối lượng công việc đáng kể để sử dụng những phiên bản này để tạo nội dung cho Roblox. Chúng tôi đã làm việc để đưa giá trị của những công cụ này vào Roblox Studio, và tại RDC, chúng tôi đã chia sẻ một ví dụ ban đầu về Assistant.
Assistant là hệ thống AI trò chuyện của chúng tôi, cho phép các nhà sáng tạo ở mọi trình độ dành ít thời gian hơn cho các tác vụ lặp đi lặp lại, nhàm chán trong quá trình sáng tạo và tập trung nhiều hơn vào các hoạt động có giá trị cao như cốt truyện, lối chơi và thiết kế trải nghiệm. Roblox có vị thế độc đáo để xây dựng mô hình AI trò chuyện này cho các thế giới 3D nhập vai, nhờ vào việc chúng tôi có quyền truy cập vào một bộ sưu tập lớn các mô hình 3D công khai để đào tạo, khả năng tích hợp mô hình với các API nền tảng của chúng tôi, và bộ giải pháp AI sáng tạo ngày càng phát triển của chúng tôi. Các nhà sáng tạo sẽ có thể sử dụng các lời nhắc văn bản ngôn ngữ tự nhiên để tạo cảnh, chỉnh sửa mô hình 3D và áp dụng các hành vi tương tác cho các đối tượng. Trợ lý sẽ hỗ trợ ba giai đoạn sáng tạo: học tập, lập trình và xây dựng:
- Học tập: Cho dù người sáng tạo là người mới bắt đầu phát triển trên Roblox hay là người có kinh nghiệm lâu năm, Roblox Assistant sẽ giúp trả lời các câu hỏi trên nhiều lĩnh vực khác nhau bằng ngôn ngữ tự nhiên.
- Lập trình: Assistant sẽ mở rộng công cụ Code Assist gần đây của chúng tôi. Ví dụ, các nhà phát triển có thể yêu cầu Assistant cải thiện mã nguồn, giải thích một đoạn mã hoặc giúp gỡ lỗi và đề xuất các giải pháp cho mã không hoạt động đúng cách.
- Xây dựng: Trợ lý sẽ giúp các nhà sáng tạo nhanh chóng tạo mẫu các ý tưởng mới. Ví dụ, một nhà sáng tạo mới có thể tạo ra cả một cảnh và thử nghiệm các phiên bản khác nhau chỉ bằng cách nhập một lệnh như “Thêm một số đèn đường dọc theo con đường này” hoặc “Tạo một khu rừng với các loại cây khác nhau. Bây giờ thêm một số bụi cây và hoa.”
Việc làm việc với Assistant sẽ mang tính hợp tác, tương tác và lặp đi lặp lại, cho phép các nhà sáng tạo cung cấp phản hồi và để Assistant tìm ra giải pháp phù hợp. Điều này giống như có một nhà sáng tạo chuyên nghiệp làm đối tác, người mà bạn có thể trao đổi ý tưởng và thử nghiệm các ý tưởng cho đến khi đạt được kết quả mong muốn.
Để biến Assistant trở thành đối tác tốt nhất có thể, chúng tôi đã đưa ra một thông báo khác tại RDC: Chúng tôi mời các nhà phát triển tham gia đóng góp dữ liệu kịch bản Luau ẩn danh của họ. Dữ liệu kịch bản này sẽ giúp các công cụ AI của chúng tôi, như Code Assist và Assistant, đề xuất và tạo ra mã hiệu quả hơn đáng kể, mang lại lợi ích cho các nhà phát triển Roblox sử dụng chúng. Hơn nữa, nếu các nhà phát triển chọn chia sẻ dữ liệu ngoài Roblox, dữ liệu kịch bản của họ sẽ được thêm vào bộ dữ liệu được cung cấp cho các bên thứ ba để đào tạo các công cụ trò chuyện AI của họ, giúp chúng đề xuất mã Luau tốt hơn, từ đó mang lại lợi ích cho các nhà phát triển Luau trên toàn thế giới.
Để rõ ràng, thông qua nghiên cứu người dùng toàn diện và các cuộc trò chuyện minh bạch với các nhà phát triển hàng đầu, chúng tôi đã thiết kế chương trình này theo hình thức tự nguyện tham gia và sẽ đảm bảo rằng tất cả người tham gia hiểu rõ và đồng ý với những gì chương trình bao gồm. Để cảm ơn những người chọn tham gia chia sẻ dữ liệu kịch bản với Roblox, chúng tôi sẽ cấp quyền truy cập vào các phiên bản mạnh mẽ hơn của Assistant và Code Assist, được hỗ trợ bởi mô hình được đào tạo bởi cộng đồng này. Những người chưa tham gia sẽ tiếp tục có quyền truy cập vào phiên bản hiện tại của Assistant và Code Assist.
Tạo avatar dễ dàng hơn
Cuối cùng, chúng tôi muốn mỗi người trong số 65,5 triệu người dùng hàng ngày của chúng tôi có một avatar thực sự đại diện cho họ và thể hiện con người của họ. Gần đây, chúng tôi đã ra mắt tính năng cho phép thành viên Chương trình UGC tạo và bán cả cơ thể avatar lẫn đầu avatar độc lập. Hiện tại, quy trình này yêu cầu truy cập vào Studio hoặc Chương trình UGC, mức độ kỹ năng khá cao, và nhiều ngày làm việc để thực hiện biểu cảm khuôn mặt, chuyển động cơ thể, rigging 3D, v.v. Điều này khiến việc tạo avatar tốn nhiều thời gian và cho đến nay đã hạn chế số lượng tùy chọn có sẵn. Chúng tôi muốn tiến xa hơn nữa.
Để mọi người trên Roblox đều có thể sở hữu một avatar cá nhân hóa và biểu cảm, chúng tôi cần làm cho việc tạo và tùy chỉnh avatar trở nên rất dễ dàng. Tại RDC, chúng tôi đã công bố một công cụ mới sẽ ra mắt vào năm 2024, cho phép tạo avatar tùy chỉnh từ một hình ảnh hoặc nhiều hình ảnh. Với công cụ này, bất kỳ nhà sáng tạo nào có quyền truy cập vào Studio hoặc Chương trình UGC của chúng tôi đều có thể tải lên hình ảnh, tạo avatar cho mình và sau đó tùy chỉnh theo ý muốn. Về lâu dài, chúng tôi dự định cũng sẽ cung cấp tính năng này trực tiếp trong các trải nghiệm trên Roblox.
Để thực hiện điều này, chúng tôi đang đào tạo các mô hình AI dựa trên sơ đồ avatar của Roblox và bộ mô hình avatar 3D do Roblox sở hữu. Một phương pháp tận dụng nghiên cứu về việc tạo avatar 3D phong cách hóa từ hình ảnh 2D. Chúng tôi cũng đang xem xét việc sử dụng các mô hình khuếch tán văn bản-hình ảnh đã được huấn luyện sẵn để bổ sung dữ liệu huấn luyện 3D hạn chế bằng các kỹ thuật tạo hình 2D, và sử dụng mạng tạo hình 3D dựa trên mạng đối kháng tạo sinh (GAN) cho quá trình huấn luyện. Cuối cùng, chúng tôi đang làm việc để sử dụng ControlNet để áp dụng các tư thế đã định sẵn nhằm hướng dẫn các hình ảnh đa góc nhìn của avatar.
Quy trình này tạo ra một lưới 3D cho avatar. Tiếp theo, chúng tôi tận dụng nghiên cứu phân đoạn ngữ nghĩa 3D, được huấn luyện trên các tư thế avatar 3D, để lấy lưới 3D đó và điều chỉnh nó nhằm thêm các đặc điểm khuôn mặt, khung xương, hệ thống dây cáp và kết cấu phù hợp, về cơ bản là biến lưới 3D tĩnh thành một avatar Roblox. Cuối cùng, một công cụ chỉnh sửa lưới cho phép người dùng biến đổi và điều chỉnh mô hình để làm cho nó trông giống hơn với phiên bản mà họ đang tưởng tượng. Và tất cả điều này diễn ra rất nhanh — chỉ trong vài phút — tạo ra một avatar mới có thể được nhập vào Roblox và sử dụng trong một trải nghiệm.
Điều tiết giao tiếp bằng giọng nói
Đối với chúng tôi, AI không chỉ đơn thuần là công cụ sáng tạo, mà còn là một hệ thống hiệu quả hơn nhiều để đảm bảo một cộng đồng đa dạng, an toàn và văn minh trên quy mô lớn. Khi chúng tôi bắt đầu triển khai các tính năng giọng nói mới, bao gồm trò chuyện bằng giọng nói và Roblox Connect, tính năng gọi điện dưới dạng avatar mới, cũng như các API được công bố tại RDC, chúng tôi phải đối mặt với một thách thức mới — kiểm duyệt ngôn ngữ nói trong thời gian thực. Tiêu chuẩn hiện tại của ngành cho việc này là một quy trình được gọi là Nhận dạng giọng nói tự động (ASR), về cơ bản là lấy một tệp âm thanh, chuyển nó thành văn bản, sau đó phân tích văn bản để tìm kiếm ngôn ngữ không phù hợp, từ khóa, v.v.
Phương pháp này hoạt động tốt cho các công ty áp dụng ở quy mô nhỏ, nhưng khi chúng tôi thử nghiệm sử dụng quy trình ASR này để kiểm duyệt giao tiếp giọng nói, chúng tôi nhanh chóng nhận ra rằng nó khó khăn và kém hiệu quả ở quy mô của chúng tôi. Phương pháp này cũng bỏ lỡ những thông tin vô cùng quý giá được mã hóa trong âm lượng và giọng điệu của người nói, cũng như bối cảnh rộng lớn của cuộc trò chuyện. Trong hàng triệu phút cuộc trò chuyện mà chúng tôi phải chuyển đổi thành văn bản mỗi ngày, trên nhiều ngôn ngữ khác nhau, chỉ có một tỷ lệ rất nhỏ có thể nghe giống như nội dung không phù hợp. Và khi chúng tôi tiếp tục mở rộng quy mô, hệ thống đó sẽ yêu cầu ngày càng nhiều sức mạnh tính toán để theo kịp. Vì vậy, chúng tôi đã xem xét kỹ hơn cách thực hiện điều này hiệu quả hơn bằng cách xây dựng một quy trình xử lý trực tiếp từ âm thanh trực tiếp sang gắn nhãn nội dung để xác định xem nó có vi phạm chính sách của chúng tôi hay không.
Cuối cùng, chúng tôi đã xây dựng được một hệ thống phát hiện giọng nói tùy chỉnh nội bộ bằng cách sử dụng ASR để phân loại các bộ dữ liệu giọng nói nội bộ, sau đó sử dụng dữ liệu giọng nói đã được phân loại đó để đào tạo hệ thống. Cụ thể hơn, để đào tạo hệ thống mới này, chúng tôi bắt đầu với âm thanh và tạo ra bản chép lời. Sau đó, chúng tôi chạy bản chép lời qua hệ thống lọc văn bản của Roblox để phân loại âm thanh. Hệ thống lọc văn bản này rất hiệu quả trong việc phát hiện ngôn ngữ vi phạm chính sách trên Roblox vì chúng tôi đã tối ưu hóa hệ thống lọc này trong nhiều năm cho các thuật ngữ, từ viết tắt và ngôn ngữ đặc trưng của Roblox. Sau các giai đoạn đào tạo này, chúng tôi có một mô hình có khả năng phát hiện vi phạm chính sách trực tiếp từ âm thanh theo thời gian thực.
Mặc dù hệ thống này có khả năng phát hiện các từ khóa cụ thể như ngôn ngữ thô tục, nhưng vi phạm chính sách hiếm khi chỉ là một từ duy nhất. Một từ có thể gây vấn đề trong một ngữ cảnh nhưng lại hoàn toàn bình thường trong ngữ cảnh khác. Về cơ bản, các vi phạm này liên quan đến nội dung bạn nói, cách bạn nói và ngữ cảnh mà các phát ngôn được đưa ra.
Để hiểu bối cảnh tốt hơn, chúng tôi tận dụng sức mạnh vốn có của kiến trúc dựa trên Transformer, vốn rất giỏi trong việc tóm tắt chuỗi dữ liệu. Nó có thể lấy một chuỗi dữ liệu, như luồng âm thanh, và tóm tắt nó cho bạn. Kiến trúc này cho phép chúng tôi giữ lại chuỗi âm thanh dài hơn để có thể phát hiện không chỉ từ ngữ mà còn cả bối cảnh và ngữ điệu. Khi tất cả các yếu tố này kết hợp lại, chúng tôi có một hệ thống cuối cùng trong đó đầu vào là âm thanh và đầu ra là kết quả phân loại — vi phạm chính sách hay không. Hệ thống này có thể phát hiện từ khóa và các cụm từ vi phạm chính sách, cũng như giọng điệu, cảm xúc và các yếu tố ngữ cảnh khác quan trọng để xác định ý định. Hệ thống mới này, có khả năng phát hiện lời nói vi phạm chính sách trực tiếp từ âm thanh, hiệu quả về mặt tính toán hơn đáng kể so với hệ thống ASR truyền thống, điều này sẽ giúp việc mở rộng quy mô trở nên dễ dàng hơn khi chúng tôi tiếp tục tái định hình cách mọi người kết nối với nhau.
Chúng tôi cũng cần một cách mới để cảnh báo những người sử dụng các công cụ giao tiếp bằng giọng nói của chúng tôi về những hậu quả tiềm ẩn của loại ngôn ngữ này. Với hệ thống phát hiện sáng tạo này, chúng tôi hiện đang thử nghiệm các cách để tác động đến hành vi trực tuyến nhằm duy trì một môi trường an toàn. Chúng tôi biết rằng đôi khi người dùng vi phạm chính sách của chúng tôi một cách vô tình và chúng tôi muốn tìm hiểu xem một lời nhắc nhở thỉnh thoảng có thể giúp ngăn chặn các vi phạm tiếp theo hay không. Để hỗ trợ điều này, chúng tôi đang thử nghiệm phản hồi thời gian thực cho người dùng thông qua thông báo. Nếu hệ thống phát hiện rằng bạn đã nói điều gì đó vi phạm chính sách của chúng tôi một số lần nhất định, chúng tôi sẽ hiển thị một thông báo pop-up trên màn hình của bạn, thông báo rằng ngôn ngữ của bạn vi phạm chính sách và hướng dẫn bạn đến trang chính sách để biết thêm thông tin.
Tuy nhiên, thông báo trong luồng âm thanh chỉ là một phần của hệ thống kiểm duyệt. Chúng tôi cũng xem xét các mẫu hành vi trên nền tảng, cũng như các khiếu nại từ người dùng khác trên Roblox, để đưa ra quyết định kiểm duyệt tổng thể. Tổng hợp các tín hiệu này có thể dẫn đến các hậu quả nghiêm trọng hơn, bao gồm việc thu hồi quyền truy cập vào các tính năng âm thanh, hoặc trong trường hợp vi phạm nghiêm trọng, bị cấm hoàn toàn khỏi nền tảng. Việc duy trì một cộng đồng an toàn và văn minh là vô cùng quan trọng khi các tiến bộ trong các mô hình AI đa phương thức, AI tạo sinh và các mô hình ngôn ngữ lớn (LLMs) kết hợp lại để mang đến những công cụ và khả năng mới tuyệt vời cho các nhà sáng tạo.
Chúng tôi tin rằng việc cung cấp các công cụ này cho người sáng tạo sẽ vừa giảm bớt rào cản gia nhập cho những người mới bắt đầu, vừa giải phóng những người có kinh nghiệm khỏi các tác vụ lặp đi lặp lại trong quá trình này. Điều này sẽ giúp họ dành nhiều thời gian hơn cho các khía cạnh sáng tạo trong việc tinh chỉnh và phát triển ý tưởng. Mục tiêu của chúng tôi là giúp mọi người, ở mọi nơi, hiện thực hóa ý tưởng của mình và tăng cường đa dạng hóa các avatar, vật phẩm và trải nghiệm trên Roblox. Chúng tôi cũng chia sẻ thông tin và công cụ để hỗ trợ bảo vệ các tác phẩm mới.
Chúng tôi đã hình dung ra những khả năng tuyệt vời: Ví dụ, nếu ai đó có thể tạo ra một avatar giống hệt bản thân từ một bức ảnh, họ có thể tùy chỉnh avatar đó để làm cho nó cao hơn hoặc thể hiện theo phong cách anime. Hoặc họ có thể xây dựng một trải nghiệm bằng cách yêu cầu Trợ lý thêm xe cộ, tòa nhà và cảnh quan, điều chỉnh ánh sáng hoặc điều kiện gió, hoặc thay đổi địa hình. Từ đó, họ có thể lặp lại để tinh chỉnh mọi thứ chỉ bằng cách trao đổi qua lại với Trợ lý. Chúng tôi biết rằng thực tế những gì mọi người tạo ra bằng các công cụ này, khi chúng được đưa vào sử dụng, sẽ vượt xa những gì chúng tôi có thể tưởng tượng.




