Nội dung trên trang web này đã được dịch bằng trí tuệ nhân tạo (AI) hoặc công nghệ dịch máy và có thể có lỗi.

Skip to content

Giới thiệu Roblox Cube: Hệ thống AI tạo sinh cốt lõi của chúng tôi dành cho 3D và 4D

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • Chúng tôi đang phát hành mô hình nền tảng Cube 3D dành cho trí tuệ nhân tạo tạo sinh.
  • Chúng tôi cũng đang mở mã nguồn một phiên bản của mô hình nền tảng Cube 3D.
  • Phiên bản beta của tính năng tạo lưới Cube 3D — trong Roblox Studio và dưới dạng API Lua trong trải nghiệm — sẽ có sẵn trong tuần này. 

Mùa thu năm ngoái, chúng tôi đã công bố một dự án đầy tham vọng nhằm xây dựng một mô hình nền tảng 3D mã nguồn mở để tạo ra các đối tượng và cảnh 3D trên Roblox. Tuần này, chúng tôi đang mở mã nguồn bản phát hành đầu tiên cho mô hình này để bất kỳ ai trong hoặc ngoài nền tảng Roblox đều có thể sử dụng trên cả GitHubHuggingFace. Chúng tôi đã đặt tên cho mô hình này là Cube 3D. Chúng tôi cũng đang ra mắt tính năng đầu tiên của nó thông qua phiên bản beta của API tạo lưới 3D. Cube sẽ là nền tảng cho nhiều công cụ AI mà chúng tôi sẽ phát triển trong những năm tới, bao gồm cả các công cụ tạo cảnh phức tạp. Cuối cùng, nó sẽ là một mô hình đa phương thức, được đào tạo trên văn bản, hình ảnh, video và các loại đầu vào khác — và sẽ tích hợp với các công cụ tạo nội dung AI hiện có của chúng tôi.

Cube 3D tạo ra các mô hình và môi trường 3D trực tiếp từ văn bản và, trong tương lai, từ các đầu vào hình ảnh. Hiện nay, công nghệ tạo mô hình 3D tiên tiến nhất sử dụng hình ảnh và phương pháp tái tạo để xây dựng các đối tượng 3D. Đây là một lựa chọn tốt khi không có đủ dữ liệu đào tạo 3D. Tuy nhiên, nhờ bản chất của nền tảng của chúng tôi, chúng tôi đào tạo trên dữ liệu 3D gốc. Đối tượng được tạo ra hoàn toàn tương thích với các engine game hiện nay và có thể được mở rộng để làm cho các đối tượng trở nên chức năng. 

Sự khác biệt ở đây tương tự như một bối cảnh phim trường đường đua. Trên TV, bạn có thể thấy một đường đua trông như đang hoạt động đầy đủ, với khán đài, gara và khu vực chiến thắng. Nhưng nếu bạn đi bộ quanh bối cảnh đó, bạn sẽ nhanh chóng nhận ra rằng các cấu trúc thực tế là phẳng. Xây dựng một thế giới 3D thực sự đắm chìm đòi hỏi các cấu trúc hoàn chỉnh và có chức năng, với gara mà bạn có thể lái xe vào, khán đài mà bạn có thể ngồi và khu vực chiến thắng có bục trao giải hoạt động.

Để đạt được điều này, chúng tôi đã lấy cảm hứng từ các mô hình tiên tiến được huấn luyện trên các token văn bản (hoặc tập hợp các ký tự) để chúng có thể dự đoán token tiếp theo nhằm tạo thành một câu. Sáng kiến của chúng tôi dựa trên cùng một ý tưởng cốt lõi. Chúng tôi đã phát triển khả năng phân tách các đối tượng 3D thành token và hiểu các hình dạng như các token, đồng thời huấn luyện Cube 3D để dự đoán token hình dạng tiếp theo nhằm xây dựng một đối tượng 3D hoàn chỉnh. Khi mở rộng điều này sang việc tạo cảnh hoàn chỉnh, Cube 3D sẽ dự đoán bố cục và dự đoán lặp lại hình dạng để hoàn thiện bố cục đó.

Bất kỳ ai cũng có thể tinh chỉnh, phát triển các plugin hoặc huấn luyện Cube 3D trên dữ liệu riêng của mình để phù hợp với nhu cầu. Chúng tôi tin rằng các công cụ AI nên được xây dựng trên nền tảng mở và minh bạch, đó là lý do tại sao chúng tôi là đối tác cam kết trong cộng đồng AI mã nguồn mở. Chúng tôi đã phát hành một trong những mô hình an toàn AI của mình vì chúng tôi tin rằng việc chia sẻ những tiến bộ trong an toàn AI sẽ giúp toàn ngành đẩy nhanh quá trình đổi mới và phát triển kỹ thuật. Vì lý do này, chúng tôi cũng đã góp phần thành lập ROOST, một tổ chức phi lợi nhuận mới chuyên giải quyết các vấn đề quan trọng trong an toàn kỹ thuật số bằng các công cụ an toàn mã nguồn mở. Khi mở mã nguồn Cube 3D, mục tiêu của chúng tôi là tạo điều kiện cho các nhà nghiên cứu, nhà phát triển và cộng đồng AI rộng lớn hơn học hỏi, mở rộng và phát triển công nghệ tạo hình 3D trên toàn ngành.

Cube 3D cho sáng tạo

Chúng tôi đã từng đề cập đến cách AI có thể đẩy nhanh quá trình tạo ra các tài sản 3D, phụ kiện và trải nghiệm. Cuối cùng, AI sẽ mang lại những trải nghiệm chơi game và kết nối ngày càng chân thực và cá nhân hóa hơn. Chúng tôi đầu tư vào hạ tầng để hỗ trợ AI ở mọi giai đoạn của chu trình sáng tạo – cho cả các nhà phát triển trải nghiệm này lẫn người dùng dành thời gian trong đó. Chúng tôi hình dung một tương lai nơi các nhà phát triển sẽ mang đến cho người dùng những cách thức mới để sáng tạo bằng cách tích hợp AI vào trải nghiệm của họ. Điều này đưa sức mạnh của AI vào tay hơn 85 triệu người dùng hoạt động hàng ngày như một phần của trải nghiệm chơi game.

Trong năm qua, chúng tôi đã giới thiệu nhiều tính năng mới thông qua Trợ lý AI trong Roblox Studio để cung cấp cho các nhà phát triển công cụ và khả năng cần thiết nhằm tạo ra nội dung và loại bỏ hàng giờ làm việc thủ công. Với Cube, chúng tôi mong muốn làm cho việc tạo nội dung 3D trở nên hiệu quả hơn. Nhờ tính năng tạo lưới 3D, các nhà phát triển có thể nhanh chóng khám phá các hướng sáng tạo mới và tăng năng suất bằng cách quyết định nhanh chóng hướng nào nên tiếp tục phát triển.

Hãy tưởng tượng việc xây dựng một trò chơi đua xe. Ngày nay, bạn có thể sử dụng API Tạo Mạng Lưới trong Trợ lý bằng cách nhập một lệnh nhanh, như “/generate a motorcycle” hoặc “/generate orange safety cone”. Trong vài giây, API sẽ tạo ra phiên bản mạng lưới của các đối tượng này. Sau đó, chúng có thể được hoàn thiện với texture, màu sắc, v.v. Với API này, bạn có thể mô hình hóa đạo cụ hoặc thiết kế không gian của mình nhanh hơn nhiều — không cần phải mất hàng giờ để mô hình hóa các đối tượng đơn giản. Nó cho phép bạn tập trung vào những việc thú vị, như thiết kế bố cục đường đua và tinh chỉnh khả năng điều khiển xe. API này giúp tiết kiệm hàng giờ cho mỗi đối tượng được tạo ra và trả lại cho bạn thời gian đó để thử nghiệm những ý tưởng mới mà không lo lắng về việc tốn quá nhiều thời gian hay công sức. Về lâu dài, chúng tôi dự định cho phép tạo ra các đối tượng phức tạp và chức năng hơn, thậm chí là cả các cảnh.

Công nghệ này mở rộng đến hàng chục triệu người sáng tạo đang chơi và kết nối trên Roblox mỗi ngày. Chúng tôi nhìn thấy một tương lai nơi các nhà phát triển cho phép người dùng của họ trở thành những người sáng tạo bằng cách sử dụng AI. Với API Mesh Generation được kích hoạt, người chơi có thể hiện thực hóa bất cứ điều gì họ có thể tưởng tượng. Nếu một người chơi muốn một chiếc xe hơi tương lai, họ chỉ cần gõ “chiếc xe hơi màu đỏ của tương lai với cánh bên” hoặc “áo khoác da đen kiểu mô tô” và thấy nó được tạo ra. Loại tạo nội dung AI trong trò chơi này sẽ mở ra một cấp độ sáng tạo hoàn toàn mới. Người chơi có thể cá nhân hóa trải nghiệm của mình theo những cách mà các nhà phát triển chưa từng tưởng tượng, và điều đó sẽ khiến trò chơi của họ trở nên hấp dẫn hơn bao giờ hết.

Phía sau hậu trường: Sự tương tác chéo giữa các token 3D và văn bản/hình ảnh

Thách thức kỹ thuật chính là kết nối văn bản và hình ảnh với các hình dạng 3D. Bước đột phá kỹ thuật cốt lõi của chúng tôi là phân đoạn 3D, cho phép chúng tôi biểu diễn các đối tượng 3D dưới dạng các token giống như cách văn bản được biểu diễn dưới dạng các token. Điều này giúp chúng tôi có khả năng dự đoán hình dạng tiếp theo giống như cách các mô hình ngôn ngữ dự đoán từ tiếp theo trong một câu.

Để tạo ra hình ảnh 3D, chúng tôi đã thiết kế một kiến trúc thống nhất cho việc tạo ra tự hồi quy của một đối tượng duy nhất, hoàn thiện hình dạng và tạo bố cục đa đối tượng/cảnh. Bộ chuyển đổi tự hồi quy là mạng nơ-ron sử dụng các đầu vào trước đó để dự đoán thành phần tiếp theo. Kiến trúc này cung cấp cả khả năng mở rộng và khả năng tương thích đa phương thức để khi chúng tôi mở rộng mô hình, nó sẽ hoạt động với nhiều loại đầu vào khác nhau (văn bản, hình ảnh, âm thanh và 3D). Chúng tôi đang mở mã nguồn cho mô hình này. Ở giai đoạn ban đầu, các nhà sáng tạo sẽ có thể tạo ra các đối tượng 3D dựa trên các lời nhắc văn bản. Trong tương lai, chúng tôi dự định cho phép các nhà sáng tạo tạo ra toàn bộ cảnh dựa trên các đầu vào đa phương thức.

Để huấn luyện một bộ chuyển đổi được huấn luyện sẵn (GPT) để tạo hình dạng, chúng tôi sử dụng các mã hình dạng 3D rời rạc và căn chỉnh chúng với các lời nhắc văn bản. Cách tiếp cận mới lạ này giúp chúng tôi sẵn sàng bước vào thế giới tạo cảnh 3D có thể chơi được.

Hướng đi của Cube

Ngày nay, phần lớn thế giới sử dụng AI cho văn bản, để dự đoán các từ trong một câu. Nhiều người cũng sử dụng nó cho hình ảnh, để dự đoán các pixel. Điều này trở nên phức tạp hơn nhiều khi tạo ra các cảnh, nơi tất cả các yếu tố này kết hợp với nhau và cần phải hoạt động trong bối cảnh với nhau. Ví dụ, hãy tưởng tượng một trải nghiệm với một cảnh đơn giản có thể được mô tả là “một avatar trên xe máy trước một đường đua có cây cối”. 

Rất nhiều yếu tố được sử dụng để xây dựng trải nghiệm này. Những cây cối là sự kết hợp của hai lưới 3D, chiếc xe máy là một lưới dày đặc với chi tiết và tam giác, còn các tòa nhà được tạo thành từ các bộ phận của Roblox. Avatar trên xe máy có các đặc điểm hình học phức tạp hơn cho cơ thể, chi và đầu. Cuối cùng, chúng ta cần một cách để kết nối tất cả lại với nhau thông qua bố cục. Để làm điều này, chúng ta cần các hộp giới hạn (bounding boxes), giúp xác định kích thước và vị trí của đối tượng, từ đó biết cách sắp xếp hình học này. Đây là một quá trình tốn nhiều công sức, nhưng AI có thể hỗ trợ ở từng bước. Với AI, các nhà sáng tạo có thể hoàn thành phiên bản đầu tiên nhanh hơn và có thêm thời gian để thử nghiệm ý tưởng mới hoặc tinh chỉnh cảnh của mình. 

Khi đạt được điều đó, chúng tôi muốn các đối tượng và cảnh 3D mà chúng tôi tạo ra phải hoàn toàn hoạt động được. Chúng tôi gọi đây là sáng tạo 4D, trong đó chiều thứ tư là sự tương tác giữa các đối tượng, môi trường và con người. Để đạt được điều này, không chỉ cần khả năng xây dựng các đối tượng và cảnh 3D sống động, mà còn phải hiểu được bối cảnh và mối quan hệ giữa các đối tượng đó. Đây chính là hướng đi mà chúng tôi đang theo đuổi với Cube. 

Ngoài trường hợp sử dụng đầu tiên này là tạo lưới, chúng tôi dự định mở rộng sang tạo và hiểu cảnh. Chúng tôi sẽ có thể cung cấp cho người dùng những trải nghiệm mà họ quan tâm nhất và nâng cao cảnh bằng cách thêm các đối tượng vào bối cảnh. Ví dụ, trong một trải nghiệm với cảnh rừng, một nhà phát triển có thể yêu cầu Trợ lý thay thế tất cả những chiếc lá xanh tươi trên cây bằng lá mùa thu để thể hiện sự thay đổi của mùa. Các công cụ Trợ lý AI của chúng tôi phản hồi các yêu cầu từ nhà phát triển, giúp họ nhanh chóng tạo ra, điều chỉnh và mở rộng các trải nghiệm của mình. 

Chúng tôi sẽ chia sẻ các bản cập nhật và tính năng mới khi tiếp tục cải thiện và mở rộng mô hình nền tảng của mình. Trong thời gian chờ đợi, chúng tôi hy vọng bạn sẽ thích sử dụng và phát triển dựa trên phiên bản mã nguồn mở của mô hình Cube 3D, mà bạn có thể truy cập trên GitHubHuggingFace.