Roblox Cube 소개: 3D 및 4D를 위한 당사의 핵심 생성형 AI 시스템

- 생성형 AI를 위한 Cube 3D 파운데이션 모델을 공개합니다.
- 또한 Cube 3D 파운데이션 모델의 일부를 오픈소스로 공개합니다.
- Roblox Studio 내 및 인-익스피리언스 Lua API 형태의 Cube 3D 메쉬 생성 베타 버전이 이번 주에 제공될 예정입니다.
지난 가을, 저희는 Roblox에서 3D 오브젝트와 장면을 생성하기 위한 오픈소스 3D 파운데이션 모델을 구축하겠다는 야심 찬 프로젝트를 발표했습니다. 이번 주, 저희는 이 모델의 첫 번째 릴리스를 GitHub와 HuggingFace에 공개하여 Roblox 플랫폼 내외부 누구나 사용할 수 있도록 합니다. 이 모델의 이름은 'Cube 3D'입니다. 또한 메쉬 생성 API의 베타 출시와 함께 이 모델의 첫 번째 기능을 선보입니다. Cube는 향후 수년에 걸쳐 개발될 매우 복잡한 장면 생성 도구를 포함하여, 우리가 개발할 많은 AI 도구의 기반이 될 것입니다. 이 모델은 궁극적으로 텍스트, 이미지, 비디오 및 기타 유형의 입력으로 훈련된 다중 모달 모델이 될 것이며, 기존의 AI 창작 도구들과 통합될 예정입니다.
Cube 3D는 텍스트를 통해, 그리고 향후에는 이미지 입력을 통해 3D 모델과 환경을 직접 생성합니다. 현재 최첨단 3D 생성 기술은 이미지와 재구성 방식을 활용해 3D 오브젝트를 구축합니다. 이는 충분한 3D 훈련 데이터가 없을 때 유용한 방법입니다. 하지만 저희 플랫폼의 특성 덕분에, 저희는 원시 3D 데이터로 훈련을 진행합니다. 생성된 오브젝트는 현재 게임 엔진과 완벽하게 호환되며, 기능을 추가하여 오브젝트를 확장할 수도 있습니다.
이 차이는 영화 세트장의 경주 트랙과 비슷합니다. TV에서는 관중석, 차고, 우승자 통로가 있는 완전히 기능하는 경주 트랙처럼 보일 수 있습니다. 하지만 그 세트장을 직접 걸어다녀 본다면, 구조물들이 실제로는 평평하다는 사실을 금방 깨닫게 될 것입니다. 진정으로 몰입감 있는 3D 세계를 구축하려면, 차량이 진입할 수 있는 차고, 앉을 수 있는 관중석, 그리고 실제 시상대가 있는 우승자 통로와 같이 완벽하고 기능적인 구조물이 필요합니다.
이를 달성하기 위해, 우리는 문장 형성을 위해 다음 토큰을 예측할 수 있도록 텍스트 토큰(또는 문자 집합)으로 훈련된 최첨단 모델에서 영감을 얻었습니다. 우리의 혁신은 동일한 핵심 아이디어를 기반으로 합니다. 저희는 3D 객체를 토큰화하고 형태를 토큰으로 인식하는 기능을 구축했으며, Cube 3D가 완전한 3D 객체를 구성하기 위해 다음 형태 토큰을 예측하도록 훈련시켰습니다. 이를 전체 장면 생성에 확장하면, Cube 3D는 레이아웃을 예측하고 해당 레이아웃을 완성하기 위해 형태를 재귀적으로 예측합니다.
누구나 자신의 필요에 맞게 Cube 3D를 미세 조정하거나, 플러그인을 개발하거나, 자체 데이터로 훈련시킬 수 있습니다. 우리는 AI 도구가 개방성과 투명성을 바탕으로 구축되어야 한다고 믿으며, 이것이 바로 우리가 오픈소스 AI 커뮤니티의 헌신적인 파트너인 이유입니다. 저희는 AI 안전 분야의 발전을 공유하는 것이 업계 전반의 혁신과 기술 발전을 가속화하는 데 도움이 된다고 굳게 믿기 때문에, AI 안전 모델 중 하나를 공개했습니다. 이러한 이유로, 저희는 오픈소스 안전 도구를 통해 디지털 안전의 중요한 영역을 해결하는 데 전념하는 새로운 비영리 단체인 ROOST의 설립을 지원하기도 했습니다. Cube 3D를 오픈소스로 공개함으로써, 저희의 목표는 연구자, 개발자 및 더 넓은 AI 커뮤니티가 3D 생성 기술을 배우고, 확장하며, 업계 전반에 걸쳐 발전시킬 수 있도록 돕는 것입니다.
창작을 위한 Cube 3D
우리는 이전에 AI가 3D 자산, 액세서리, 경험의 제작을 어떻게 가속화할 수 있는지에 대해 이야기한 바 있습니다. 궁극적으로 AI는 더욱 몰입감 있고 개인화된 플레이와 연결을 가능하게 할 것입니다. 우리는 이러한 경험을 개발하는 개발자와 그 안에서 시간을 보내는 사용자 모두를 위해, 제작 주기의 모든 단계에서 AI를 지원할 인프라에 투자하고 있습니다. 우리는 개발자들이 자신의 경험에 AI를 접목함으로써 사용자에게 새로운 창작 방식을 제공할 미래를 그립니다. 이를 통해 8,500만 명 이상의 일일 활성 사용자가 게임 플레이의 일환으로 AI의 힘을 직접 활용할 수 있게 됩니다.
지난 1년 동안, 우리는 개발자들이 창작에 필요한 도구와 기능을 제공하고 수시간에 달하는 수작업을 줄여주기 위해, 로블록스 스튜디오(Roblox Studio) 내 AI 기반 어시스턴트(Assistant)를 통해 여러 가지 새로운 기능을 도입했습니다. '큐브(Cube)'를 통해 우리는 3D 창작의 효율성을 높일 계획입니다. 3D 메쉬 생성 기능을 통해 개발자들은 새로운 창작 방향을 신속하게 탐색하고, 어떤 방향으로 진행할지 빠르게 결정함으로써 생산성을 높일 수 있습니다.
레이싱 트랙 게임을 제작한다고 상상해 보세요. 오늘날 어시스턴트 내의 메쉬 생성 API를 사용하여 “/generate a motorcycle”이나 “/generate orange safety cone”과 같은 간단한 프롬프트를 입력할 수 있습니다. 몇 초 만에 API가 이러한 오브젝트의 메쉬 버전을 생성해 줍니다. 이후 텍스처나 색상 등을 적용하여 세부적으로 다듬을 수 있습니다. 이 API를 사용하면 소품을 모델링하거나 공간을 디자인하는 데 훨씬 더 빠른 시간을 절약할 수 있으며, 단순한 오브젝트를 모델링하는 데 몇 시간을 소비할 필요가 없습니다. 이를 통해 트랙 레이아웃을 설계하거나 차량 핸들링을 미세 조정하는 등 더 재미있는 작업에 집중할 수 있습니다. 이 API는 생성하는 각 오브젝트당 수 시간을 절약해 주며, 지나친 시간이나 노력을 들이지 않고도 새로운 아이디어를 실험할 수 있는 여유를 제공합니다. 장기적으로는 더 복잡하고 기능적인 오브젝트, 심지어 전체 장면까지 구현할 수 있도록 지원할 계획입니다.






내부 구조: 3D와 텍스트/이미지 토큰 간의 교차 어텐션
핵심 기술적 과제는 텍스트와 이미지를 3D 형상과 연결하는 것이었습니다. 우리의 핵심 기술적 돌파구는 3D 토큰화 기술로, 이를 통해 텍스트가 토큰으로 표현되는 것과 동일한 방식으로 3D 객체를 토큰으로 표현할 수 있게 되었습니다. 이를 통해 언어 모델이 문장에서 다음 단어를 예측하는 것과 마찬가지로, 다음 형상을 예측할 수 있게 되었습니다.

3D 생성을 구현하기 위해, 단일 객체 자동 회귀 생성, 형상 완성, 다중 객체/장면 레이아웃 생성을 위한 통합 아키텍처를 설계했습니다. 자동 회귀 트랜스포머는 이전 입력을 활용해 다음 구성 요소를 예측하는 신경망입니다. 이 아키텍처는 확장성과 다중 모달 호환성을 모두 제공하므로, 모델을 확장해 나갈수록 다양한 종류의 입력(텍스트, 시각, 오디오, 3D)을 처리할 수 있게 됩니다. 우리는 이 모델을 오픈소스로 공개합니다. 초기 단계에서는 창작자들이 텍스트 프롬프트를 기반으로 3D 객체를 생성할 수 있게 될 것입니다. 향후에는 창작자들이 다중 모달 입력을 기반으로 전체 장면을 생성할 수 있도록 할 계획입니다.
형상 생성을 위한 GPT(Generative Pre-trained Transformer)를 훈련하기 위해, 우리는 이산적인 3D 형상 토큰을 사용하고 이를 텍스트 프롬프트와 정렬합니다. 이 혁신적인 접근 방식은 우리가 상호작용이 가능한 3D 장면 생성의 세계로 나아갈 수 있는 기반을 마련해 줍니다.

큐브의 미래
오늘날 전 세계 많은 곳에서 문장 내 단어를 예측하기 위해 텍스트 기반 AI를 사용하고 있습니다. 또한 이미지를 분석해 픽셀을 예측하는 데도 널리 활용되고 있습니다. 하지만 이러한 요소들이 모두 결합되어 서로 맥락에 맞춰 작동해야 하는 장면을 생성할 때는 상황이 훨씬 더 복잡해집니다. 예를 들어, “나무가 있는 경주 트랙 앞의 오토바이를 탄 아바타”라고 묘사할 수 있는 단순한 장면의 경험을 상상해 보세요.
이 경험을 구축하는 데는 많은 요소가 필요합니다. 나무는 두 개의 3D 메시가 결합된 형태이고, 오토바이는 디테일과 삼각형으로 구성된 고밀도 메시이며, 건물들은 로블록스(Roblox) 부품으로 만들어집니다. 오토바이를 탄 아바타는 몸통, 팔다리, 머리 등 더 복잡한 기하학적 특징을 가지고 있습니다. 마지막으로, 이 모든 요소를 레이아웃을 통해 하나로 묶을 방법이 필요합니다. 이를 위해 우리는 객체의 크기와 위치를 정의하고 이 기하학적 구조를 어떻게 배치할지 파악하기 위해 객체의 윤곽을 그리는 바운딩 박스가 필요합니다. 이는 몹시 힘든 과정이지만, AI는 각 단계마다 도움을 줄 수 있습니다. AI를 활용하면 크리에이터는 첫 번째 버전을 더 빨리 완성할 수 있으며, 새로운 아이디어를 테스트하거나 장면을 다듬는 데 더 많은 시간을 할애할 수 있습니다.
이 단계에 이르면, 우리가 제작한 3D 오브젝트와 장면이 완벽하게 작동하기를 원합니다. 이를 우리는 '4D 창작'이라고 부르며, 여기서 네 번째 차원은 오브젝트, 환경, 그리고 사람 간의 상호작용을 의미합니다. 이를 달성하려면 몰입감 있는 3D 오브젝트와 장면을 구축할 수 있을 뿐만 아니라, 해당 오브젝트 간의 맥락과 관계를 이해할 수 있는 능력도 필요합니다. 이것이 바로 Cube가 지향하는 방향입니다.
메시 생성을 위한 이 첫 번째 활용 사례를 넘어, 향후 장면 생성 및 이해 기능으로 확장할 계획입니다. 사용자가 가장 관심 있는 경험을 제공하고, 상황에 맞는 오브젝트를 추가하여 장면을 보강할 수 있게 될 것입니다. 예를 들어, 숲이 배경인 경험에서 개발자는 어시스턴트에게 나무의 무성한 녹색 잎을 모두 가을 단풍으로 바꿔 달라고 요청하여 계절의 변화를 나타낼 수 있습니다. 저희 AI 어시스턴트 도구는 개발자의 요청에 반응하여, 개발자가 경험을 신속하게 생성하고, 조정하며, 확장할 수 있도록 돕습니다.
저희는 파운데이션 모델을 지속적으로 개선하고 확장해 나가면서 업데이트 소식과 새로운 기능을 공유할 예정입니다. 그때까지 GitHub와 HuggingFace에서 이용하실 수 있는 Cube 3D 모델의 오픈소스 버전을 활용하고 구축하는 과정을 즐기시길 바랍니다.



