O conteúdo deste site foi traduzido usando inteligência artificial (IA) ou tecnologia de tradução automática e pode conter erros.

Skip to content

Apresentando o Roblox Cube: nosso principal sistema de IA generativa para 3D e 4D

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • Estamos lançando nosso modelo base Cube 3D para IA generativa.
  • Também estamos disponibilizando uma versão do modelo básico Cube 3D como código aberto.
  • A versão beta da geração de malhas do Cube 3D — no Roblox Studio e como uma API Lua integrada à experiência — estará disponível esta semana. 

No outono passado, anunciamos um projeto ambicioso para construir um modelo básico 3D de código aberto para criar objetos e cenas 3D no Roblox. Esta semana, estamos disponibilizando a primeira versão desse modelo como código aberto para que qualquer pessoa, dentro ou fora da plataforma Roblox, possa usá-lo tanto no GitHub quanto no HuggingFace. Batizamos esse modelo de Cube 3D. Também estamos lançando a primeira de suas funcionalidades, com o lançamento beta de nossa API de geração de malha. O Cube será a base de muitas das ferramentas de IA que desenvolveremos nos próximos anos, incluindo ferramentas altamente complexas de geração de cenas. Ele será, em última instância, um modelo multimodal, treinado em texto, imagens, vídeo e outros tipos de entrada — e se integrará às nossas ferramentas de criação de IA existentes.

O Cube 3D gera modelos e ambientes 3D diretamente a partir de texto e, no futuro, de entradas de imagem. Hoje, a geração 3D de última geração usa imagens e uma abordagem de reconstrução para construir objetos 3D. Essa é uma boa opção quando não há dados de treinamento 3D suficientes. No entanto, graças à natureza da nossa plataforma, treinamos com dados 3D nativos. O objeto gerado é totalmente compatível com os motores de jogos atuais e pode ser ampliado para tornar os objetos funcionais. 

A diferença aqui é semelhante a um set de filmagem de pista de corrida. Na TV, você pode ver o que parece ser uma pista de corrida totalmente funcional, com arquibancadas, garagens e uma pista de vitória. Mas se você fosse dar uma volta nesse set, perceberia rapidamente que as estruturas eram, na verdade, planas. Construir um mundo 3D verdadeiramente imersivo requer estruturas completas e funcionais, com garagens nas quais você pode entrar de carro, arquibancadas nas quais você pode se sentar e uma pista de vitória com um pódio funcional.

Para alcançar isso, nos inspiramos em modelos de última geração treinados em tokens de texto (ou conjuntos de caracteres) para que possam prever o próximo token para formar uma frase. Nossa inovação se baseia na mesma ideia central. Desenvolvemos a capacidade de tokenizar objetos 3D e entender formas como tokens, e treinamos o Cube 3D para prever o próximo token de forma para construir um objeto 3D completo. Quando estendemos isso para a geração de cenas completas, o Cube 3D prevê o layout e, de forma recursiva, prevê a forma para completar esse layout.

Qualquer pessoa pode ajustar, desenvolver plug-ins ou treinar o Cube 3D com seus próprios dados para atender às suas necessidades. Acreditamos que as ferramentas de IA devem ser construídas com base na abertura e na transparência, e é por isso que somos um parceiro comprometido com a comunidade de IA de código aberto. Lançamos um de nossos modelos de segurança de IA porque acreditamos firmemente que compartilhar avanços em segurança de IA ajuda todo o setor a acelerar a inovação e os avanços técnicos. Por esse motivo, também ajudamos a fundar a ROOST, uma nova organização sem fins lucrativos dedicada a abordar áreas importantes da segurança digital com ferramentas de segurança de código aberto. Ao tornar o Cube 3D de código aberto, nosso objetivo é permitir que pesquisadores, desenvolvedores e a comunidade de IA em geral aprendam, aprimorem e promovam a geração 3D em todo o setor.

Cube 3D para criação

Já falamos anteriormente sobre como a IA pode acelerar a criação de ativos, acessórios e experiências 3D. Em última análise, a IA permitirá jogabilidade e conexões ainda mais imersivas e personalizadas. Investimos em infraestrutura para dar suporte à IA em todas as etapas do ciclo de criação — tanto para os desenvolvedores dessas experiências quanto para os usuários que passam tempo nelas. Nossa visão é de um futuro em que os desenvolvedores ofereçam aos usuários novas formas de criar, incorporando IA em suas experiências. Isso coloca o poder da IA nas mãos de mais de 85 milhões de usuários ativos diários como parte de sua jogabilidade.

No último ano, introduzimos vários novos recursos por meio do nosso Assistente com IA no Roblox Studio para fornecer aos desenvolvedores as ferramentas e os recursos de que precisam para criar e eliminar horas de trabalho manual. Com o Cube, pretendemos tornar a criação 3D mais eficiente. Com a geração de malhas 3D, os desenvolvedores podem explorar rapidamente novas direções criativas e aumentar sua produtividade, decidindo rapidamente com qual seguir em frente.

Imagine criar um jogo de pista de corrida. Hoje, você poderia usar a API de Geração de Malha no Assistente digitando um comando rápido, como “/gerar uma motocicleta” ou “/gerar cone de segurança laranja”. Em segundos, a API geraria uma versão em malha desses objetos. Eles poderiam então ser detalhados com textura, cor etc. Com essa API, você pode modelar adereços ou projetar seu espaço muito mais rápido — sem precisar passar horas modelando objetos simples. Isso permite que você se concentre nas partes divertidas, como projetar o traçado da pista e ajustar a dirigibilidade do carro. Essa API economiza horas em cada objeto criado e devolve esse tempo para você experimentar novas ideias sem se preocupar em gastar muito tempo ou esforço. A longo prazo, planejamos habilitar objetos mais complexos e funcionais, e até mesmo cenas.

Essa tecnologia se estende a dezenas de milhões de pessoas criativas que jogam e se conectam no Roblox todos os dias. Vemos um futuro em que os desenvolvedores permitem que seus usuários se tornem criadores usando IA. Com a API Mesh Generation ativada, os jogadores podem dar vida a qualquer coisa que imaginarem. Se um jogador quiser um carro futurista, basta digitar “carro vermelho do futuro com asas laterais” ou “jaqueta de couro preta de motociclista” para vê-lo ser gerado. Esse tipo de geração por IA dentro do jogo vai abrir um nível totalmente novo de criatividade. Os jogadores podem personalizar sua experiência de maneiras que os desenvolvedores nunca imaginaram, e isso vai tornar seus jogos ainda mais envolventes.

Por trás dos bastidores: atenção cruzada entre tokens 3D e de texto/imagem

O principal desafio técnico foi conectar texto e imagens a formas 3D. Nossa principal inovação técnica é a tokenização 3D, que nos permite representar objetos 3D como tokens da mesma forma que o texto pode ser representado como tokens. Isso nos dá a capacidade de prever a próxima forma, assim como os modelos de linguagem prevêem a próxima palavra em uma frase.

Para alcançar a geração 3D, projetamos uma arquitetura unificada para geração autorregressiva de objeto único, preenchimento de formas e geração de layout de múltiplos objetos/cenas. Transformadores autorregressivos são redes neurais que utilizam entradas anteriores para prever o próximo componente. Essa arquitetura oferece tanto escalabilidade quanto compatibilidade multimodal, de modo que, à medida que expandirmos o modelo, ele funcionará com muitos tipos diferentes de entrada (texto, visual, áudio e 3D). Estamos disponibilizando este modelo como código aberto. Nesta fase inicial, os criadores poderão gerar objetos 3D com base em prompts de texto. No futuro, pretendemos que os criadores possam gerar cenas inteiras com base em entradas multimodais.

Para treinar um transformador pré-treinado generativo (GPT) para geração de formas, usamos tokens de formas 3D discretas e os alinhamos com prompts de texto. Essa abordagem inovadora nos prepara para o mundo da geração de cenas 3D que podem ser reproduzidas.

Para onde o Cube está indo

Hoje, grande parte do mundo usa IA para texto, para prever palavras em uma frase. Muitos também a utilizam para imagens, para prever pixels. Isso se torna muito mais complexo ao criar cenas, onde todos esses elementos se unem e precisam funcionar em contexto uns com os outros. Por exemplo, imagine uma experiência com uma cena simples que pode ser descrita como “um avatar em uma motocicleta em frente a uma pista de corrida com árvores”. 

Muitos elementos são necessários para construir essa experiência. As árvores são uma combinação de duas malhas 3D, a motocicleta é uma malha densa com detalhes e triângulos, e os prédios são compostos por peças do Roblox. O avatar na motocicleta tem características geométricas mais complexas para seu corpo, membros e cabeça. Por fim, precisamos de uma maneira de unir tudo isso com um layout. Para isso, precisamos de caixas delimitadoras, que contornam um objeto para definir seu tamanho e localização, a fim de saber como organizar essa geometria. Esse é um processo meticuloso, mas a IA é capaz de ajudar em cada etapa. Com a IA, os criadores podem chegar à primeira versão mais rapidamente e ter mais tempo para testar novas ideias ou refinar sua cena. 

Quando chegarmos lá, queremos que os objetos e cenas 3D que criamos sejam totalmente funcionais. Chamamos isso de criação 4D, onde a quarta dimensão é a interação entre objetos, ambientes e pessoas. Alcançar isso requer a capacidade não apenas de construir objetos e cenas 3D imersivas, mas também de compreender os contextos e as relações entre esses objetos. É para lá que estamos indo com o Cube. 

Além desse primeiro caso de uso de geração de malha, planejamos estender para a geração e compreensão de cenas. Seremos capazes de oferecer aos usuários as experiências nas quais eles estão mais interessados e de aprimorar cenas adicionando objetos no contexto. Por exemplo, em uma experiência com uma cena de floresta, um desenvolvedor poderia pedir ao Assistente para substituir todas as folhas verdes exuberantes nas árvores por folhagem de outono para indicar a mudança de estação. Nossas ferramentas de Assistente de IA reagem às solicitações do desenvolvedor, ajudando-o a criar, adaptar e escalar rapidamente suas experiências. 

Compartilharemos atualizações e novas funcionalidades à medida que continuamos aprimorando e expandindo nosso modelo de base. Até lá, esperamos que você aproveite o uso e o desenvolvimento com base em nossa versão de código aberto do modelo 3D Cube, que pode ser acessada no GitHub e no HuggingFace.