Memperkenalkan Roblox Cube: Sistem AI Generatif Inti Kami untuk 3D dan 4D

- Kami merilis model dasar Cube 3D untuk kecerdasan buatan generatif.
- Kami juga merilis versi open-source dari model dasar Cube 3D.
- Versi beta dari pembuat mesh Cube 3D—di Roblox Studio dan sebagai API Lua dalam pengalaman—akan tersedia minggu ini.
Musim gugur lalu, kami mengumumkan proyek ambisius untuk membangun model dasar 3D sumber terbuka guna membuat objek dan pemandangan 3D di Roblox. Minggu ini, kami merilis versi pertama model ini sebagai sumber terbuka agar dapat digunakan oleh siapa saja di dalam maupun di luar platform Roblox, baik di GitHub maupun HuggingFace. Kami menamai model ini Cube 3D. Kami juga meluncurkan fitur pertamanya, dengan peluncuran beta API pembangkitan mesh kami. Cube akan menjadi landasan bagi banyak alat AI yang akan kami kembangkan di tahun-tahun mendatang, termasuk alat pembangkitan adegan yang sangat kompleks. Model ini pada akhirnya akan menjadi model multimodal, dilatih menggunakan teks, gambar, video, dan jenis input lainnya—serta akan terintegrasi dengan alat pembuatan AI yang sudah ada.
Cube 3D menghasilkan model dan lingkungan 3D langsung dari teks dan, di masa depan, input gambar. Saat ini, generasi 3D terkini menggunakan gambar dan pendekatan rekonstruksi untuk membangun objek 3D. Ini merupakan opsi yang baik ketika data pelatihan 3D tidak mencukupi. Namun, berkat sifat platform kami, kami melatih model menggunakan data 3D asli. Objek yang dihasilkan sepenuhnya kompatibel dengan mesin game saat ini dan dapat diperluas untuk membuat objek tersebut berfungsi.
Perbedaan di sini mirip dengan set film sirkuit balap. Di TV, Anda mungkin melihat sirkuit balap yang tampak sepenuhnya fungsional, dengan tribun, garasi, dan jalur kemenangan. Namun, jika Anda berjalan-jalan di set tersebut, Anda akan segera menyadari bahwa struktur-struktur tersebut sebenarnya datar. Membangun dunia 3D yang benar-benar imersif memerlukan struktur yang lengkap dan fungsional, dengan garasi yang dapat Anda masuki, tribun yang dapat Anda duduki, dan jalur kemenangan dengan podium yang berfungsi.
Untuk mencapai hal ini, kami terinspirasi dari model mutakhir yang dilatih menggunakan token teks (atau kumpulan karakter) sehingga dapat memprediksi token berikutnya untuk membentuk kalimat. Inovasi kami dibangun berdasarkan ide inti yang sama. Kami telah mengembangkan kemampuan untuk menokenisasi objek 3D dan memahami bentuk sebagai token, serta melatih Cube 3D untuk memprediksi token bentuk berikutnya guna membangun objek 3D yang lengkap. Saat kami memperluas ini ke pembangkitan adegan penuh, Cube 3D kemudian memprediksi tata letak dan secara rekursif memprediksi bentuk untuk melengkapi tata letak tersebut.
Siapa pun dapat menyesuaikan, mengembangkan plugin, atau melatih Cube 3D menggunakan data mereka sendiri sesuai kebutuhan. Kami percaya bahwa alat AI harus dibangun atas dasar keterbukaan dan transparansi, itulah sebabnya kami menjadi mitra yang berkomitmen dalam komunitas AI sumber terbuka. Kami merilis salah satu model keamanan AI kami karena kami sangat yakin bahwa berbagi kemajuan dalam keamanan AI membantu seluruh industri mempercepat inovasi dan kemajuan teknis. Karena alasan ini, kami juga turut mendirikan ROOST, sebuah organisasi nirlaba baru yang didedikasikan untuk menangani bidang-bidang penting dalam keamanan digital dengan alat keamanan sumber terbuka. Dengan membuka sumber Cube 3D, tujuan kami adalah memungkinkan para peneliti, pengembang, dan komunitas AI yang lebih luas untuk belajar, meningkatkan, dan memajukan generasi 3D di seluruh industri.
Cube 3D untuk Kreasi
Kami sebelumnya telah membahas bagaimana AI dapat mempercepat pembuatan aset 3D, aksesori, dan pengalaman. Pada akhirnya, AI akan memfasilitasi permainan dan koneksi yang lebih imersif dan personal. Kami berinvestasi dalam infrastruktur untuk mendukung AI di setiap tahap siklus pembuatan—baik bagi pengembang pengalaman ini maupun pengguna yang menghabiskan waktu di dalamnya. Kami membayangkan masa depan di mana pengembang akan memberikan pengguna mereka cara baru untuk berkreasi dengan mengintegrasikan AI ke dalam pengalaman mereka. Hal ini menempatkan kekuatan AI di tangan lebih dari 85 juta pengguna aktif harian sebagai bagian dari gameplay mereka.
Dalam setahun terakhir, kami telah memperkenalkan beberapa fitur baru melalui Asisten bertenaga AI di Roblox Studio untuk memberikan pengembang alat dan kemampuan yang mereka butuhkan guna menciptakan konten dan menghilangkan jam-jam kerja manual. Dengan Cube, kami berencana untuk membuat pembuatan 3D menjadi lebih efisien. Dengan pembangkitan mesh 3D, pengembang dapat dengan cepat menjelajahi arah kreatif baru dan meningkatkan produktivitas mereka dengan memutuskan dengan cepat mana yang akan dilanjutkan.
Bayangkan membangun game balap motor. Saat ini, Anda dapat menggunakan API Mesh Generation di dalam Assistant dengan mengetikkan perintah singkat, seperti “/generate a motorcycle” atau “/generate orange safety cone.” Dalam hitungan detik, API tersebut akan menghasilkan versi mesh dari objek-objek tersebut. Objek-objek tersebut kemudian dapat diperkaya dengan tekstur, warna, dan sebagainya. Dengan API ini, Anda dapat memodelkan properti atau mendesain ruang Anda jauh lebih cepat—tidak perlu menghabiskan berjam-jam untuk memodelkan objek sederhana. API ini memungkinkan Anda fokus pada hal-hal yang menyenangkan, seperti merancang tata letak lintasan dan menyempurnakan penanganan mobil. API ini menghemat waktu berjam-jam untuk setiap objek yang dibuat dan mengembalikan waktu tersebut agar Anda dapat bereksperimen dengan ide-ide baru tanpa khawatir menghabiskan terlalu banyak waktu atau tenaga. Dalam jangka panjang, kami berencana untuk memfasilitasi objek yang lebih kompleks dan fungsional, bahkan adegan.






Di Balik Layar: Interaksi Antar-Elemen antara 3D dan Token Teks/Gambar
Tantangan teknis utama adalah menghubungkan teks dan gambar dengan bentuk 3D. Terobosan teknis utama kami adalah tokenisasi 3D, yang memungkinkan kami merepresentasikan objek 3D sebagai token dengan cara yang sama seperti teks dapat direpresentasikan sebagai token. Hal ini memberi kami kemampuan untuk memprediksi bentuk berikutnya, sama seperti model bahasa memprediksi kata berikutnya dalam sebuah kalimat.

Untuk mewujudkan generasi 3D, kami merancang arsitektur terpadu untuk generasi autoregresif objek tunggal, penyelesaian bentuk, dan generasi tata letak multi-objek/adegan. Transformer autoregresif adalah jaringan saraf yang menggunakan input sebelumnya untuk memprediksi komponen berikutnya. Arsitektur ini menyediakan skalabilitas dan kompatibilitas multimodal sehingga saat kami memperluas model, model tersebut akan berfungsi dengan berbagai jenis input (teks, visual, audio, dan 3D). Kami merilis model ini sebagai open-source. Pada tahap awal ini, para kreator akan dapat menghasilkan objek 3D berdasarkan prompt teks. Di masa mendatang, kami berencana agar para kreator dapat menghasilkan adegan lengkap berdasarkan masukan multimodal.
Untuk melatih transformator pra-latih generatif (GPT) untuk pembuatan bentuk, kami menggunakan token bentuk 3D diskrit dan menyelaraskannya dengan petunjuk teks. Pendekatan baru ini mempersiapkan kami untuk dunia pembuatan adegan 3D yang dapat dimainkan.

Arah Perkembangan Cube
Saat ini, sebagian besar dunia menggunakan AI untuk teks, guna memprediksi kata-kata dalam sebuah kalimat. Banyak juga yang menggunakannya untuk gambar, guna memprediksi piksel. Hal ini menjadi jauh lebih kompleks saat membuat adegan, di mana semua elemen ini bersatu dan harus bekerja dalam konteks satu sama lain. Misalnya, bayangkan sebuah pengalaman dengan adegan sederhana yang dapat digambarkan sebagai “seorang avatar di atas sepeda motor di depan lintasan balap dengan pepohonan.”
Banyak elemen yang terlibat dalam membangun pengalaman ini. Pohon-pohon merupakan kombinasi dari dua mesh 3D, sepeda motor adalah mesh padat dengan detail dan segitiga, sedangkan bangunan-bangunan terbuat dari bagian-bagian Roblox. Avatar di atas sepeda motor memiliki fitur geometris yang lebih kompleks untuk tubuh, anggota tubuh, dan kepalanya. Akhirnya, kita memerlukan cara untuk mengintegrasikan semuanya melalui tata letak. Untuk itu, kita membutuhkan kotak batas (bounding boxes), yang menggambarkan objek untuk mendefinisikan ukurannya dan lokasinya, guna mengetahui cara mengatur geometri ini. Ini adalah proses yang rumit, tetapi AI mampu membantu di setiap langkah. Dengan AI, kreator dapat mencapai versi pertama lebih cepat dan memiliki lebih banyak waktu untuk menguji ide baru atau menyempurnakan adegan mereka.
Ketika kita sampai di sana, kita ingin objek dan adegan 3D yang kita buat berfungsi sepenuhnya. Kita menyebut ini sebagai kreasi 4D, di mana dimensi keempat adalah interaksi antara objek, lingkungan, dan manusia. Untuk mencapainya, diperlukan kemampuan tidak hanya untuk membangun objek dan adegan 3D yang imersif, tetapi juga untuk memahami konteks dan hubungan di antara objek-objek tersebut. Inilah tujuan yang ingin kita capai dengan Cube.
Selain kasus penggunaan pertama ini dalam pembangkitan mesh, kami berencana untuk memperluas ke pembangkitan dan pemahaman adegan. Kami akan dapat menyajikan pengalaman yang paling diminati pengguna dan memperkaya adegan dengan menambahkan objek sesuai konteks. Misalnya, dalam pengalaman dengan adegan hutan, seorang pengembang dapat meminta Asisten untuk mengganti semua daun hijau subur di pohon dengan dedaunan musim gugur untuk menandakan pergantian musim. Alat Asisten AI kami merespons permintaan pengembang, membantu mereka menciptakan, menyesuaikan, dan menskalakan pengalaman mereka dengan cepat.
Kami akan membagikan pembaruan dan fitur baru seiring kami terus meningkatkan dan memperluas model dasar kami. Sampai saat itu, kami harap Anda menikmati penggunaan dan pengembangan di atas versi open-source model Cube 3D kami, yang dapat diakses di GitHub dan HuggingFace.



