El contenido de este sitio se ha traducido mediante inteligencia artificial (IA) o tecnología de traducción automática, y puede contener errores.

Skip to content

Presentamos Roblox Cube: nuestro sistema central de IA generativa para 3D y 4D

SEO image for Introducing Cube: Roblox’s Open-Source 3D Generative Model
  • Publicamos nuestro modelo base Cube 3D para IA generativa.
  • También vamos a publicar en código abierto una versión del modelo base Cube 3D.
  • La versión beta de la generación de mallas 3D de Cube —en Roblox Studio y como API Lua integrada en la experiencia— estará disponible esta semana. 

El otoño pasado, anunciamos un ambicioso proyecto para crear un modelo base 3D de código abierto con el que crear objetos y escenas 3D en Roblox. Esta semana, publicamos en código abierto la primera versión de este modelo para que cualquiera pueda utilizarlo, tanto dentro como fuera de la plataforma Roblox, en GitHub y HuggingFace. Hemos bautizado este modelo como Cube 3D. También estamos lanzando la primera de sus capacidades, con el lanzamiento beta de nuestra API de generación de mallas. Cube servirá de base para muchas de las herramientas de IA que desarrollaremos en los próximos años, incluidas herramientas de generación de escenas altamente complejas. En última instancia, será un modelo multimodal, entrenado con texto, imágenes, vídeo y otros tipos de entradas, y se integrará con nuestras herramientas de creación de IA existentes.

Cube 3D genera modelos y entornos 3D directamente a partir de texto y, en el futuro, de entradas de imagen. Hoy en día, la generación 3D de vanguardia utiliza imágenes y un enfoque de reconstrucción para crear objetos 3D. Esta es una buena opción cuando no hay suficientes datos de entrenamiento 3D. Sin embargo, gracias a la naturaleza de nuestra plataforma, entrenamos con datos 3D nativos. El objeto generado es totalmente compatible con los motores de juegos actuales y puede ampliarse para que los objetos sean funcionales. 

La diferencia aquí es similar a la de un plató de cine que simula un circuito de carreras. En la televisión, es posible que veas lo que parece un circuito totalmente funcional, con gradas, boxes y una recta de meta. Pero si tuvieras que pasear por ese plató, te darías cuenta rápidamente de que las estructuras eran en realidad planas. Construir un mundo 3D verdaderamente inmersivo requiere estructuras completas y funcionales, con boxes en los que puedas entrar con el coche, gradas en las que puedas sentarte y una recta de meta con un podio funcional.

Para lograrlo, nos hemos inspirado en modelos de vanguardia entrenados con tokens de texto (o conjuntos de caracteres) para que puedan predecir el siguiente token y formar una frase. Nuestra innovación se basa en la misma idea central. Hemos desarrollado la capacidad de tokenizar objetos 3D y entender las formas como tokens, y hemos entrenado a Cube 3D para predecir el siguiente token de forma con el fin de construir un objeto 3D completo. Cuando ampliamos esto a la generación de escenas completas, Cube 3D predice la disposición y, de forma recursiva, predice la forma para completar dicha disposición.

Cualquiera puede ajustar, desarrollar complementos o entrenar a Cube 3D con sus propios datos para adaptarlo a sus necesidades. Creemos que las herramientas de IA deben basarse en la apertura y la transparencia, por lo que somos un socio comprometido con la comunidad de IA de código abierto. Hemos publicado uno de nuestros modelos de seguridad de IA porque creemos firmemente que compartir los avances en seguridad de la IA ayuda a todo el sector a acelerar la innovación y los avances técnicos. Por este motivo, también hemos ayudado a fundar ROOST, una nueva organización sin ánimo de lucro dedicada a abordar áreas importantes de la seguridad digital con herramientas de seguridad de código abierto. Al convertir Cube 3D en código abierto, nuestro objetivo es permitir que los investigadores, los desarrolladores y la comunidad de IA en general aprendan, mejoren y hagan avanzar la generación 3D en todo el sector.

Cube 3D para la creación

Ya hemos hablado anteriormente de cómo la IA puede acelerar la creación de activos, accesorios y experiencias 3D. En última instancia, la IA permitirá un juego y unas conexiones aún más inmersivas y personalizadas. Invertimos en infraestructura para dar soporte a la IA en todas las etapas del ciclo de creación, tanto para los desarrolladores de estas experiencias como para los usuarios que pasan tiempo en ellas. Imaginamos un futuro en el que los desarrolladores ofrecerán a sus usuarios nuevas formas de crear al incorporar la IA en sus experiencias. Esto pone el poder de la IA en manos de más de 85 millones de usuarios activos diarios como parte de su experiencia de juego.

En el último año, hemos introducido varias funciones nuevas a través de nuestro Asistente impulsado por IA dentro de Roblox Studio para proporcionar a los desarrolladores las herramientas y capacidades que necesitan para crear y eliminar horas de trabajo manual. Con Cube, pretendemos hacer que la creación 3D sea más eficiente. Con la generación de mallas 3D, los desarrolladores pueden explorar rápidamente nuevas direcciones creativas y aumentar su productividad al decidir rápidamente con cuál seguir adelante.

Imagina que estás creando un juego de carreras. Hoy en día, podrías utilizar la API de generación de mallas dentro del Asistente escribiendo un comando rápido, como «/generate a motorcycle» o «/generate orange safety cone». En cuestión de segundos, la API generaría una versión en malla de estos objetos. A continuación, se podrían completar con texturas, colores, etc. Con esta API, puedes modelar accesorios o diseñar tu espacio mucho más rápido, sin necesidad de pasar horas modelando objetos sencillos. Te permite centrarte en lo divertido, como diseñar el trazado del circuito y ajustar el manejo del coche. Esta API te ahorra horas en cada objeto creado y te devuelve ese tiempo para experimentar con nuevas ideas sin preocuparte por dedicar demasiado tiempo o esfuerzo. A largo plazo, tenemos previsto habilitar objetos más complejos y funcionales, e incluso escenas.

Esta tecnología llega a las decenas de millones de personas creativas que juegan y se conectan a Roblox cada día. Vemos un futuro en el que los desarrolladores permiten a sus usuarios convertirse en creadores mediante la IA. Con la API Mesh Generation activada, los jugadores pueden dar vida a cualquier cosa que imaginen. Si un jugador quiere un coche futurista, solo tiene que escribir «coche rojo del futuro con alerones laterales» o «chaqueta de moto de cuero negro» y verá cómo se genera. Este tipo de generación mediante IA dentro del juego va a abrir las puertas a un nivel de creatividad totalmente nuevo. Los jugadores pueden personalizar su experiencia de formas que los desarrolladores nunca imaginaron, y eso hará que sus juegos sean aún más atractivos.

Entre bastidores: atención cruzada entre tokens 3D y de texto/imagen

El principal reto técnico consistía en conectar el texto y las imágenes con formas 3D. Nuestro principal avance técnico es la tokenización 3D, que nos permite representar objetos 3D como tokens del mismo modo que el texto puede representarse como tokens. Esto nos permite predecir la siguiente forma, del mismo modo que los modelos de lenguaje predicen la siguiente palabra en una frase.

Para lograr la generación 3D, hemos diseñado una arquitectura unificada para la generación autorregresiva de un único objeto, la finalización de formas y la generación de diseños de múltiples objetos o escenas. Los transformadores autorregresivos son redes neuronales que utilizan entradas anteriores para predecir el siguiente componente. Esta arquitectura ofrece tanto escalabilidad como compatibilidad multimodal, de modo que, a medida que ampliemos el modelo, funcionará con muchos tipos diferentes de entradas (texto, imágenes, audio y 3D). Estamos publicando este modelo como código abierto. En esta fase inicial, los creadores podrán generar objetos 3D a partir de indicaciones de texto. Más adelante, nuestra intención es que los creadores puedan generar escenas completas a partir de entradas multimodales.

Para entrenar un transformador generativo preentrenado (GPT) para la generación de formas, utilizamos tokens de formas 3D discretas y los alineamos con indicaciones de texto. Este novedoso enfoque nos prepara para el mundo de la generación de escenas 3D interactivas.

Hacia dónde se dirige Cube

Hoy en día, gran parte del mundo utiliza la IA para el texto, con el fin de predecir las palabras de una frase. Muchos también la utilizan para las imágenes, con el fin de predecir los píxeles. Esto se vuelve mucho más complejo a la hora de crear escenas, donde todos estos elementos se unen y deben funcionar en contexto entre sí. Por ejemplo, imagina una experiencia con una escena sencilla que se puede describir como «un avatar en una motocicleta frente a un circuito de carreras con árboles». 

Son muchos los elementos que intervienen en la creación de esta experiencia. Los árboles son una combinación de dos mallas 3D, la motocicleta es una malla densa con detalles y triángulos, y los edificios están formados por piezas de Roblox. El avatar en la motocicleta tiene características geométricas más complejas en su cuerpo, extremidades y cabeza. Por último, necesitamos una forma de unir todo esto con un diseño. Para ello, necesitamos cajas delimitadoras, que perfilan un objeto para definir su tamaño y ubicación, a fin de saber cómo organizar esta geometría. Se trata de un proceso laborioso, pero la IA es capaz de ayudar en cada paso. Con la IA, los creadores pueden llegar a la primera versión más rápido y disponer de más tiempo para probar nuevas ideas o perfeccionar su escena. 

Cuando lleguemos a ese punto, queremos que los objetos y escenas 3D que creemos sean totalmente funcionales. A esto lo llamamos creación 4D, donde la cuarta dimensión es la interacción entre objetos, entornos y personas. Lograrlo requiere la capacidad no solo de construir objetos y escenas 3D inmersivos, sino también de comprender los contextos y las relaciones entre esos objetos. Ahí es hacia donde nos dirigimos con Cube. 

Más allá de este primer caso de uso de la generación de mallas, tenemos previsto ampliarlo a la generación y comprensión de escenas. Podremos ofrecer a los usuarios las experiencias que más les interesan y mejorar las escenas añadiendo objetos en contexto. Por ejemplo, en una experiencia con una escena de bosque, un desarrollador podría pedirle al Asistente que sustituyera todas las frondosas hojas verdes de los árboles por follaje otoñal para indicar el cambio de estación. Nuestras herramientas de Asistente de IA reaccionan a las solicitudes del desarrollador, ayudándole a crear, adaptar y escalar rápidamente sus experiencias. 

Compartiremos actualizaciones y nuevas funcionalidades a medida que sigamos mejorando y ampliando nuestro modelo base. Hasta entonces, esperamos que disfrutes utilizando y desarrollando sobre nuestra versión de código abierto del modelo 3D Cube, a la que puedes acceder en GitHub y HuggingFace.