แนะนำ Roblox Cube: ระบบ AI สร้างสรรค์หลักของเราสำหรับ 3D และ 4D

- เรากำลังเปิดตัวโมเดลพื้นฐาน Cube 3D สำหรับ AI เชิงสร้างสรรค์
- เรายังเปิดเผยโค้ดแหล่งของรุ่นพื้นฐาน Cube 3D อีกด้วย
- เวอร์ชันเบต้าของ Cube 3D mesh generation—ใน Roblox Studio และในรูปแบบ Lua API ภายในประสบการณ์—จะพร้อมใช้งานในสัปดาห์นี้
เมื่อฤดูใบไม้ร่วงที่ผ่านมา เราได้ประกาศโครงการที่ทะเยอทะยานในการสร้างโมเดลพื้นฐาน 3 มิติแบบโอเพนซอร์สเพื่อสร้างวัตถุและฉาก 3 มิติบน Roblox สัปดาห์นี้ เราได้เปิดเผยการเปิดตัวครั้งแรกของโมเดลนี้ในรูปแบบโอเพนซอร์สเพื่อให้ทุกคนสามารถใช้ได้ทั้งบนและนอกแพลตฟอร์ม Roblox บน GitHub และ HuggingFace เราได้ตั้งชื่อโมเดลนี้ว่า Cube 3D นอกจากนี้ เรายังเปิดตัวความสามารถแรกของเรา ด้วยการเปิดตัว API สำหรับการสร้างเมชในรูปแบบเบต้า Cube จะเป็นรากฐานของเครื่องมือ AI หลายตัวที่เราจะพัฒนาในอนาคต รวมถึงเครื่องมือสร้างฉากที่มีความซับซ้อนสูง ในที่สุด Cube จะเป็นโมเดลหลายรูปแบบ (multimodal) ที่ได้รับการฝึกฝนจากข้อความ รูปภาพ วิดีโอ และข้อมูลประเภทอื่น ๆ และจะผสานรวมกับเครื่องมือสร้าง AI ที่มีอยู่ของเรา
Cube 3D สร้างโมเดล 3 มิติและสภาพแวดล้อมโดยตรงจากข้อความ และในอนาคตจะสามารถสร้างจากภาพได้ ในปัจจุบัน การสร้างแบบจำลอง 3 มิติที่ทันสมัยที่สุดใช้ภาพและวิธีการสร้างแบบจำลองขึ้นมาใหม่เพื่อสร้างวัตถุ 3 มิติ นี่เป็นตัวเลือกที่ดีเมื่อไม่มีข้อมูลการฝึกอบรม 3 มิติเพียงพอ อย่างไรก็ตาม ด้วยลักษณะของแพลตฟอร์มของเรา เราฝึกอบรมบนข้อมูล 3 มิติแบบดั้งเดิม วัตถุที่ถูกสร้างขึ้นสามารถใช้งานร่วมกับเอนจินเกมในปัจจุบันได้อย่างสมบูรณ์ และสามารถขยายให้วัตถุมีฟังก์ชันการทำงานได้
ความแตกต่างที่นี่คล้ายกับฉากถ่ายทำภาพยนตร์สนามแข่งรถ บนทีวี คุณอาจเห็นสิ่งที่ดูเหมือนสนามแข่งรถที่ใช้งานได้จริง มีอัฒจันทร์ โรงจอดรถ และเลนชัยชนะ แต่ถ้าคุณเดินไปรอบๆ ฉากนั้น คุณจะสังเกตได้อย่างรวดเร็วว่าโครงสร้างเหล่านั้นจริงๆ แล้วเป็นพื้นเรียบ การสร้างโลก 3 มิติที่สมจริงอย่างแท้จริงต้องอาศัยโครงสร้างที่สมบูรณ์และใช้งานได้จริง มีโรงจอดรถที่คุณสามารถขับเข้าไปได้ อัฒจันทร์ที่คุณสามารถนั่งได้ และเลนชัยชนะที่มีแท่นรับรางวัลที่สามารถใช้งานได้
เพื่อให้บรรลุเป้าหมายนี้ เราได้รับแรงบันดาลใจจากแบบจำลองที่ทันสมัยที่สุดซึ่งได้รับการฝึกฝนบนตัวอักษร (หรือชุดของตัวอักษร) ให้สามารถทำนายตัวอักษรต่อไปเพื่อสร้างประโยคได้ นวัตกรรมของเราได้รับการพัฒนาขึ้นบนแนวคิดหลักเดียวกัน เราได้พัฒนาความสามารถในการโทเค็นวัตถุ 3 มิติและเข้าใจรูปร่างเป็นโทเค็น และฝึกฝน Cube 3D ให้ทำนายโทเค็นรูปร่างถัดไปเพื่อสร้างวัตถุ 3 มิติที่สมบูรณ์ เมื่อเราขยายสิ่งนี้ไปสู่การสร้างฉากเต็มรูปแบบ Cube 3D จะทำนายการจัดวางและทำนายรูปร่างซ้ำเพื่อเติมเต็มการจัดวางนั้น
ใครก็ตามสามารถปรับแต่ง พัฒนาปลั๊กอิน หรือฝึกฝน Cube 3D ด้วยข้อมูลของตนเองเพื่อให้เหมาะกับความต้องการได้ เราเชื่อว่าเครื่องมือ AI ควรสร้างขึ้นบนพื้นฐานของความเปิดกว้างและความโปร่งใส ซึ่งเป็นเหตุผลที่เรามุ่งมั่นเป็นพันธมิตรในชุมชน AI แบบโอเพนซอร์ส เราได้เผยแพร่หนึ่งในแบบจำลองความปลอดภัยของปัญญาประดิษฐ์ของเรา เนื่องจากเราเชื่ออย่างแรงกล้าว่าการแบ่งปันความก้าวหน้าในด้านความปลอดภัยของปัญญาประดิษฐ์ช่วยให้ทั้งอุตสาหกรรมสามารถเร่งการนวัตกรรมและการก้าวหน้าทางเทคนิคได้ ด้วยเหตุนี้ เราจึงช่วยก่อตั้ง ROOST ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่มุ่งเน้นการแก้ไขปัญหาด้านความปลอดภัยทางดิจิทัลที่สำคัญด้วยเครื่องมือความปลอดภัยแบบโอเพนซอร์ส ในการเผยแพร่ Cube 3D แบบโอเพนซอร์ส วัตถุประสงค์ของเราคือเพื่อให้ผู้วิจัย นักพัฒนา และชุมชนปัญญาประดิษฐ์ที่กว้างขวางสามารถเรียนรู้ ปรับปรุง และก้าวหน้าในด้านการสร้างแบบจำลองสามมิติในระดับอุตสาหกรรมได้
คิวบ์ 3D สำหรับการสร้างสรรค์
เราได้พูดคุยกันมาก่อนแล้วว่า AI สามารถเร่งการสร้างสินทรัพย์ 3 มิติ อุปกรณ์เสริม และประสบการณ์ต่าง ๆ ได้อย่างไร ในที่สุด AI จะช่วยให้การเล่นและการเชื่อมต่อที่สมจริงและปรับให้เหมาะกับแต่ละบุคคลมากยิ่งขึ้น เราลงทุนในโครงสร้างพื้นฐานเพื่อสนับสนุน AI ในทุกขั้นตอนของวงจรการสร้าง—ทั้งสำหรับนักพัฒนาประสบการณ์เหล่านี้และผู้ใช้ที่ใช้เวลาในประสบการณ์เหล่านั้น เราจินตนาการถึงอนาคตที่นักพัฒนาจะมอบวิธีการใหม่ ๆ ให้ผู้ใช้ได้สร้างสรรค์ผ่านการเปิดใช้งาน AI ในประสบการณ์ของพวกเขา ซึ่งจะทำให้พลังของ AI อยู่ในมือของผู้ใช้มากกว่า 85 ล้านคนต่อวัน เป็นส่วนหนึ่งของการเล่นเกมของพวกเขา
ในปีที่ผ่านมา เราได้แนะนำคุณสมบัติใหม่หลายอย่างผ่านผู้ช่วย AI ของเราภายใน Roblox Studio เพื่อมอบเครื่องมือและความสามารถที่นักพัฒนาต้องการในการสร้างและลดเวลาการทำงานด้วยตนเองหลายชั่วโมง ด้วย Cube เราตั้งใจที่จะทำให้การสร้าง 3D มีประสิทธิภาพมากขึ้น ด้วยการสร้างตาข่าย 3D นักพัฒนาสามารถสำรวจทิศทางสร้างสรรค์ใหม่ๆ ได้อย่างรวดเร็วและเพิ่มประสิทธิภาพการทำงานโดยการตัดสินใจอย่างรวดเร็วว่าจะดำเนินการกับอะไรต่อไป
ลองนึกภาพการสร้างเกมสนามแข่งรถ วันนี้คุณสามารถใช้ Mesh Generation API ภายใน Assistant ได้โดยพิมพ์คำสั่งสั้นๆ เช่น "/generate a motorcycle" หรือ "/generate orange safety cone" ภายในไม่กี่วินาที API จะสร้างเวอร์ชันเมชของวัตถุเหล่านี้ขึ้นมา จากนั้นคุณสามารถเพิ่มรายละเอียดด้วยพื้นผิว สี ฯลฯ ด้วย API นี้ คุณสามารถสร้างโมเดลอุปกรณ์ประกอบฉากหรือออกแบบพื้นที่ของคุณได้เร็วขึ้นมาก—ไม่จำเป็นต้องใช้เวลาหลายชั่วโมงในการสร้างวัตถุง่ายๆ มันช่วยให้คุณมุ่งเน้นไปที่สิ่งสนุกๆ เช่น การออกแบบเลย์เอาต์ของสนามและการปรับแต่งการควบคุมรถให้สมบูรณ์แบบ API นี้ช่วยประหยัดเวลาหลายชั่วโมงในการสร้างแต่ละวัตถุ และคืนเวลาให้คุณได้ทดลองไอเดียใหม่ๆ โดยไม่ต้องกังวลเรื่องการใช้เวลาหรือความพยายามมากเกินไป ในระยะยาว เราวางแผนที่จะเพิ่มวัตถุที่มีความซับซ้อนและฟังก์ชันมากขึ้น รวมถึงฉากต่างๆ ด้วย






เบื้องหลังการทำงาน: การเชื่อมโยงความสนใจระหว่างโทเค็น 3 มิติและข้อความ/รูปภาพ
ความท้าทายทางเทคนิคที่สำคัญคือการเชื่อมโยงข้อความและรูปภาพกับรูปทรงสามมิติ ความก้าวหน้าทางเทคนิคหลักของเราคือการแบ่งข้อมูลเป็นโทเค็นแบบสามมิติ ซึ่งช่วยให้เราสามารถแทนวัตถุสามมิติเป็นโทเค็นได้เช่นเดียวกับที่ข้อความสามารถแทนเป็นโทเค็นได้ ซึ่งทำให้เรามีความสามารถในการทำนายรูปทรงถัดไปเช่นเดียวกับที่แบบจำลองภาษาทำนายคำถัดไปในประโยค

เพื่อให้บรรลุการสร้างแบบสามมิติ เราได้ออกแบบสถาปัตยกรรมแบบรวมสำหรับการสร้างแบบอัตโนมัติของการสร้างวัตถุเดี่ยว การเติมรูปร่าง และการจัดวางหลายวัตถุ/ฉาก ตัวแปลงอัตโนมัติเป็นโครงข่ายประสาทเทียมที่ใช้ข้อมูลนำเข้าครั้งก่อนเพื่อทำนายองค์ประกอบถัดไป สถาปัตยกรรมนี้ให้การปรับขนาดและความเข้ากันได้หลายรูปแบบ ดังนั้นเมื่อเราขยายโมเดล มันจะสามารถทำงานกับข้อมูลนำเข้าหลายประเภท (ข้อความ, ภาพ, เสียง, และสามมิติ) เราเปิดแหล่งข้อมูลของโมเดลนี้ให้ใช้ได้ทั่วไป ในระยะแรกนี้ ผู้สร้างจะสามารถสร้างวัตถุ 3 มิติได้จากคำแนะนำทางข้อความ ในอนาคต เราตั้งใจให้ผู้สร้างสามารถสร้างฉากทั้งหมดได้จากข้อมูลหลายรูปแบบ
เพื่อฝึกฝนตัวแปลงสัญญาณที่ผ่านการฝึกฝนล่วงหน้าสำหรับการสร้าง (GPT) สำหรับการสร้างรูปร่าง เราใช้โทเค็นรูปร่าง 3 มิติแบบไม่ต่อเนื่องและจัดแนวพวกมันกับข้อความที่กระตุ้น วิธีใหม่นี้ทำให้เราพร้อมสำหรับโลกของการสร้างฉาก 3 มิติที่สามารถเล่นได้

ทิศทางของ Cube
ปัจจุบัน โลกส่วนใหญ่ใช้ AI สำหรับข้อความ เพื่อทำนายคำในประโยค หลายคนยังใช้มันสำหรับภาพ เพื่อทำนายพิกเซล สิ่งนี้ซับซ้อนมากขึ้นเมื่อสร้างฉาก ที่ซึ่งองค์ประกอบทั้งหมดเหล่านี้มารวมกันและต้องทำงานร่วมกันในบริบทเดียวกัน ตัวอย่างเช่น ลองนึกถึงประสบการณ์ที่มีฉากง่าย ๆ ที่สามารถอธิบายได้ว่า "อวตารบนรถมอเตอร์ไซค์หน้าสนามแข่งที่มีต้นไม้"
องค์ประกอบหลายอย่างถูกนำมาใช้ในการสร้างประสบการณ์นี้ ต้นไม้เป็นการผสมผสานระหว่างเมช 3 มิติสองชิ้น รถจักรยานยนต์เป็นเมชที่มีความหนาแน่นสูงพร้อมรายละเอียดและรูปสามเหลี่ยม ส่วนอาคารต่าง ๆ ประกอบขึ้นจากชิ้นส่วนของ Roblox อวตารที่ขี่รถจักรยานยนต์มีลักษณะทางเรขาคณิตที่ซับซ้อนมากขึ้นสำหรับลำตัว แขนขา และศีรษะ สุดท้ายนี้ เราจำเป็นต้องมีวิธีในการเชื่อมโยงทุกอย่างเข้าด้วยกันด้วยการจัดวาง สำหรับสิ่งนี้ เราจำเป็นต้องใช้กรอบล้อมรอบ (bounding boxes) ซึ่งจะทำหน้าที่กำหนดขอบเขตของวัตถุเพื่อระบุขนาดและตำแหน่ง เพื่อให้ทราบว่าควรจัดวางรูปทรงเรขาคณิตนี้อย่างไร กระบวนการนี้ค่อนข้างละเอียดอ่อน แต่ AI สามารถช่วยในแต่ละขั้นตอนได้ ด้วย AI ผู้สร้างสรรค์สามารถสร้างเวอร์ชันแรกได้เร็วขึ้น และมีเวลามากขึ้นในการทดสอบแนวคิดใหม่ ๆ หรือปรับแต่งฉากของตนให้สมบูรณ์ยิ่งขึ้น
เมื่อเราไปถึงที่นั่น เราต้องการให้วัตถุและฉาก 3 มิติที่เราสร้างขึ้นสามารถใช้งานได้อย่างสมบูรณ์ เราเรียกสิ่งนี้ว่าการสร้างสรรค์แบบ 4 มิติ ซึ่งมิติที่สี่คือการมีปฏิสัมพันธ์ระหว่างวัตถุ สภาพแวดล้อม และผู้คน การบรรลุเป้าหมายนี้ต้องอาศัยความสามารถไม่เพียงแค่การสร้างวัตถุและฉาก 3 มิติที่สมจริงเท่านั้น แต่ยังต้องเข้าใจบริบทและความสัมพันธ์ระหว่างวัตถุเหล่านั้นด้วย นี่คือจุดมุ่งหมายของเราที่กำลังมุ่งไปพร้อมกับ Cube
นอกเหนือจากกรณีการใช้งานแรกของการสร้างตาข่ายนี้แล้ว เราวางแผนที่จะขยายไปสู่การสร้างและทำความเข้าใจฉาก เราสามารถมอบประสบการณ์ที่ผู้ใช้สนใจมากที่สุดและเสริมฉากด้วยการเพิ่มวัตถุในบริบทที่เหมาะสม ตัวอย่างเช่น ในประสบการณ์ที่มีฉากป่า นักพัฒนาสามารถขอให้ผู้ช่วยเปลี่ยนใบไม้สีเขียวสดบนต้นไม้ทั้งหมดเป็นใบไม้เปลี่ยนสีในฤดูใบไม้ร่วงเพื่อแสดงการเปลี่ยนแปลงของฤดูกาล เครื่องมือผู้ช่วย AI ของเราตอบสนองต่อคำขอจากนักพัฒนา ช่วยให้พวกเขาสร้าง ปรับเปลี่ยน และขยายประสบการณ์ได้อย่างรวดเร็ว
เราจะแบ่งปันการอัปเดตและฟังก์ชันใหม่ ๆ ขณะที่เราดำเนินการปรับปรุงและขยายโมเดลพื้นฐานของเราต่อไป จนกว่าจะถึงเวลานั้น เราหวังว่าคุณจะเพลิดเพลินกับการใช้งานและพัฒนาต่อยอดจากเวอร์ชันโอเพนซอร์สของโมเดล Cube 3D ซึ่งคุณสามารถเข้าถึงได้บน GitHub และ HuggingFace



