Presentamos la arquitectura híbrida de Roblox: democratizando los juegos multijugador fotorrealistas

Nuestra visión: Roblox Reality

De Anupam Singh, vicepresidente sénior de Ingeniería

Publicado 30 abr 2026

Hoy compartimos información técnica sobre un proyecto interno llamado Roblox Reality, cuyo objetivo es combinar los juegos multijugador a gran escala con el fotorrealismo. Creemos que se trata de un cambio fundamental en la forma en que se crearán y experimentarán los mundos inmersivos multijugador. Disponible en una versión preliminar a finales de este año o principios del próximo, Roblox Reality es una arquitectura híbrida que combina la simulación estructurada de nuestro motor de juego distribuido con modelos de mundo de vídeo basados en el borde para el supermuestreo. Esta arquitectura permitirá a creadores de todos los tamaños diseñar y mantener mundos interactivos que combinan una fidelidad visual y un movimiento sin precedentes con la persistencia y la estructura tradicionales, sin aumentar los costes de desarrollo.

Roblox Reality es una arquitectura híbrida que combina las capacidades de Roblox Cloud y el motor de juego con el fotorrealismo de los modelos de mundo en vídeo. El estado central del mundo se almacena de forma duradera y eficiente en el servidor para garantizar la coherencia entre los clientes y mantenerla a lo largo del tiempo, las sesiones y los días, utilizando un almacenamiento eficiente en cuanto a costes y espacio. El juego multijugador se soporta mediante una sólida autoridad del servidor para garantizar la equidad y la coherencia, junto con una simulación especulativa del lado del cliente para lograr una baja latencia. Para el renderizado, los sistemas de nivel de detalle (LOD) y de composición basados en la nube generan activos de alta fidelidad que se distribuyen a través de una red de distribución de contenidos (CDN). El modelo de vídeo de Roblox (Super Upsampler) aprovecha el vídeo renderizado y el contexto del modelo de datos enriquecido para producir imágenes estocásticas y un realismo impactante, operando en el borde para cada jugador con un rendimiento óptimo impulsado por una infraestructura de GPU en la nube y en el borde. El cliente enriquecido de Roblox renderizaría entonces esta señal de vídeo y, en el futuro, superpondría opcionalmente un avatar sobremuestreado renderizado localmente para mantener una latencia muy baja en las acciones en primer plano.

En las demostraciones que se muestran a continuación, presentamos cuatro vídeos de diferentes juegos, entre los que se incluyen Grow a Garden y Summon Heroes. El vídeo de la parte superior izquierda es contenido de Roblox grabado utilizando el motor de renderizado actual de Roblox; el vídeo de la parte superior derecha es una representación de los datos 3D que podemos utilizar para condicionar la generación del vídeo. El vídeo de la parte inferior izquierda muestra el modelo actual de vídeo con aumento de resolución de Roblox que se ejecuta en nuestro laboratorio, el cual aún no funciona en tiempo real, y el vídeo de la parte inferior derecha muestra una maqueta de nuestra visión del producto y lo que será posible en el futuro con esta tecnología.

Modelos de Video World: fortalezas y limitaciones

Los modelos de mundo de vídeo destacan por generar comportamientos plausibles y de alta dimensión sin necesidad de simular explícitamente cada interacción individual.

El funcionamiento de los modelos de mundo de vídeo dentro del espacio latente del vídeo se enfrenta a limitaciones técnicas específicas: el proceso es actualmente costoso, y lograr un rendimiento en tiempo real de alta fidelidad, como una resolución de 2K a 60 Hz, sigue siendo un reto de desarrollo. Fundamentalmente, dado que el estado del mundo se representa en el espacio de vídeo, estos modelos no son actualmente multijugador. Una limitación clave es la fidelidad de la simulación frente a la plausibilidad visual: el mero hecho de ver a 500 personas moviéndose en un vídeo no implica que sean agentes individualizados o «avatares con cerebro». No se prevé que la escala actual de los modelos de vídeo admita de forma inherente la simulación compleja e individualizada de agentes necesaria para una verdadera experiencia multijugador.

Esta capacidad es crucial a la hora de gestionar una multitud viva de 20 000 personas que reaccionan en tiempo real. Sin embargo, un modelo de mundo de vídeo por sí solo no puede gestionar de forma fiable las interacciones entre múltiples jugadores a lo largo de una sesión de dos horas. Un modelo de mundo tiene dificultades para aplicar reglas estrictas y mantener un estado persistente debido a la falta de memoria a largo plazo y de una lógica coherente. Los modelos de mundo de vídeo carecen de datos de control de la entrada del usuario, por lo que jugar con un modelo de mundo de vídeo no es divertido. Dado que los modelos de mundo de vídeo tienen dificultades con el estado persistente, la lógica coherente, el control de la entrada del usuario y la simulación de agentes multijugador auténtica, los modelos actuales se asemejan más a sueños guiados.

Los modelos de vídeo interactivos que vemos hoy en día son impresionantes, pero básicamente son sueños vívidos: espectaculares a la vista, pero fugaces e increíblemente solitarios. Carecen de interactividad, desafío, recompensa y persistencia: todo aquello que hace que un juego sea un juego.

Los modelos de mundo neuronal puros por sí solos no pueden cumplir la promesa de una experiencia multijugador expansiva y persistente. Aunque los modelos de mundo neuronal son impresionantes en muchos aspectos, fallan en muchas áreas críticas. Algunas de ellas incluyen la coherencia a lo largo del tiempo en una sola sesión, la memoria a largo plazo entre sesiones, la latencia y el control minucioso por parte del creador. Las carencias menos evidentes aparecen cuando se piensa en la simulación multijugador coherente, la jugabilidad competitiva exigente, los PNJ altamente inteligentes, las pruebas y el refinamiento incremental.

No deberíamos pedirle a un motor neuronal que se convierta en un motor de juegos.

Motores de juego: fortalezas y limitaciones

Roblox Cloud y el motor son altamente complementarios a los modelos de mundo de vídeo. Con precisión reproducible, estado consistente entre sesiones y persistencia a lo largo del tiempo. Tomemos, por ejemplo, a un creador que desarrolla un juego del Gran Premio de Mónaco de Fórmula 1. Está modelando sistemas de puntuación y penalizaciones exigentes, carreteras, multitudes, naturaleza y sincronización instantánea entre múltiples pilotos. Sin embargo, esta precisión tiene un coste en cuanto a implementación y tiempo de ejecución. Aumentar la fidelidad visual requiere activos pesados, iluminación compleja y simulación.

Durante la próxima década, los resultados de los motores de juego de gama alta seguirán avanzando en realismo, pero también lo harán los requisitos de sofisticación de los desarrolladores y el hardware de los consumidores.

El reto que la industria no ha podido abordar hasta la fecha es cómo ofrecer hiperrealismo a gran escala, al tiempo que se hace accesible a desarrolladores grandes y pequeños, y en hardware de consumo ampliamente disponible.

Esto se debe a que el mundo real tiene un detalle exquisito. Rodeando el núcleo del juego se encuentra todo lo demás: elementos naturalistas y no guionizados como briznas de hierba, hojas y ramas que se mecen suavemente con el viento, nubes de polvo que se arremolinan detrás de los coches, brasas incandescentes y chispas que brotan de un fuego, y gotas de lluvia que salpican silenciosamente en un charco iridiscente y aceitoso. Este contenido es muy difícil de crear y renderizar. Los motores de juego tradicionales tienen dificultades con esta complejidad visual y buscan atajos para capturar un realismo más sencillo, ya que la sobrecarga de memoria que suponen las texturas y la geometría de alta resolución agota los recursos disponibles. Los costes de simulación también se disparan hasta niveles exorbitantes con la iluminación volumétrica, el audio binaural, la física y la simulación de personajes que, en conjunto, constituyen el fotorrealismo.

Creemos que la mejor manera de que los creadores construyan, y de que los motores rendericen, esta complejidad será aprovechar una arquitectura híbrida en la que un Modelo de Mundo de Vídeo (Video World Model) entrenado a posteriori genere texturas, iluminación y dinámicas a escala fina sobre el movimiento de la cámara, la geometría y el estado contextual subyacentes del motor.

La arquitectura: sincronización de la lógica del juego y los píxeles de vídeo

Creemos que se necesita un enfoque híbrido para permitir a los creadores ofrecer una interacción multijugador de alta fidelidad con un resultado fotorrealista. A este enfoque lo llamamos Roblox Reality, que combina el motor de juego de Roblox, Roblox Cloud y un modelo de mundo de vídeo de Roblox con superupsampler.

La arquitectura híbrida de Roblox Reality divide las responsabilidades entre el motor de juego de Roblox y el modelo de mundo de vídeo de Roblox.

El motor de juego de Roblox se encarga de los aspectos estructurados y lógicos del mundo, proporcionando memoria estable a largo plazo, lógica simbólica y simulación repetible. También es responsable de operaciones físicas fundamentales como las colisiones y los comportamientos. El movimiento principal de los objetos se gestiona en el motor, por ejemplo, la ubicación y la velocidad de un coche, sus ruedas, amortiguadores y dirección. Partiendo de esto, el Modelo de Mundo de Vídeo añade componentes visuales y generativos adicionales, como las gotas de agua que resbalan por el parabrisas y el aleteo de las hojas al pasar el coche a toda velocidad, ofreciendo imágenes impresionantes. Este enfoque permite al motor de juego mantener el modelo de datos (el estado compartido y coherente) mientras que el Modelo de Mundo de Vídeo genera los píxeles (el sueño visual).

Capacidad	Motor de juego (Roblox Cloud)	Super Upsampler (modelo de vídeo de Roblox)
Función principal	Gestiona toda la sincronización de estados para mantener la coherencia del mundo (modelo de datos, el estado compartido y coherente).	Gestiona los componentes visuales y generativos (Pixels, el sueño visual).
Responsabilidades principales	Proporciona memoria estable a largo plazo, lógica simbólica y simulación repetible. Es responsable de las propiedades físicas fundamentales (materiales y ubicaciones) y de las operaciones (colisión y trazado de rayos).	Ofrece efectos visuales estocásticos y un realismo impresionante, movimiento secundario, entornos dinámicos naturales y física de fluidos. Genera texturas de mayor fidelidad, iluminación más realista y dinámica a escala fina.
Consistencia del mundo	Proporciona precisión, un estado coherente y una coherencia garantizada. Centraliza el estado en una única fuente de verdad.	Destaca en la generación de comportamientos plausibles y de alta dimensión sin simulación explícita (por ejemplo, la gestión de una multitud en movimiento). Opera en el borde para cada jugador.
Datos gestionados	Todo lo que es coherente entre todos los jugadores (jugadores, posiciones, coches, pájaros, edificios, escena 3D).	Elementos efímeros que los jugadores no necesitan ver exactamente igual (latas oxidadas, bandadas de pájaros, formas de las nubes, granos de arena, hierba).
Almacenamiento en memoria	Modelo de datos	Latentes de vídeo
Restricción independiente	Dificultades con la complejidad visual y las altas exigencias computacionales del fotorrealismo.	Dificultades con la aplicación estricta de reglas, la memoria a largo plazo, la lógica coherente y los datos de control de las entradas del usuario.
Infraestructura de tiempo de ejecución	Más de 26 centros de datos periféricos en todo el mundo, que ejecutan millones de instancias de juegos, cercanos a los usuarios para una baja latencia, con picos de más de 45 millones de usuarios simultáneos.	Super Upsampler se ejecuta en centros de datos periféricos adyacentes y ofrece un rendimiento óptimo, impulsado por GPU de clase H200/B200 (o aceleradores equivalentes).

En conjunto, esta plataforma permite la creación de contenido ilimitado con un control profundo por parte de los creadores.

Nuestros objetivos de desarrollo para Roblox Reality incluyen la creación de un modelo de vídeo de Roblox capaz de ofrecer una resolución de 2K a 60 Hz, obteniendo la fuente de información fiable del motor de juego de Roblox: tanto el vídeo renderizado como los datos espaciales 3D. Roblox Reality se optimizará para ejecutarse en una infraestructura de GPU en el borde de la nube junto con la transmisión de vídeo, mientras que, con el tiempo, se integrará con el cliente de Roblox para permitir el control y la simulación locales de avatares.

Resumen

Roblox Reality representa un paso importante en la democratización de la creación, ya que permite a cualquier creador desarrollar juegos fotorrealistas aprovechando el motor de juego y el modelo de vídeo de Roblox, lo que reduce significativamente el tiempo de desarrollo, el coste y la potencia de cálculo que tradicionalmente se requieren para gráficos de alta fidelidad. Esto hace que la creación de juegos fotorrealistas sea más rápida y más eficiente en términos de coste y potencia de cálculo para nuestros creadores. Dado el elevado coste de computación, somos conscientes de que hay retos que debemos resolver antes de poder escalar la arquitectura de Roblox Reality. Ya estamos trabajando en soluciones que nos ayuden a optimizar y aumentar la eficiencia de esta arquitectura, de modo que podamos escalarla de forma más asequible a millones de jugadores simultáneos.

Por encima de todo, ¡estamos encantados de construir una plataforma que permita a nuestros creadores desarrollar increíbles experiencias multijugador fotorrealistas!

Últimas

Más resultados

Presentamos la arquitectura híbrida de Roblox: democratizando los juegos multijugador fotorrealistas

Modelos de Video World: fortalezas y limitaciones

Motores de juego: fortalezas y limitaciones

La arquitectura: sincronización de la lógica del juego y los píxeles de vídeo

Resumen

Presentamos la arquitectura híbrida de Roblox: democratizando los juegos multijugador fotorrealistas

Modelos de Video World: fortalezas y limitaciones

Motores de juego: fortalezas y limitaciones

La arquitectura: sincronización de la lógica del juego y los píxeles de vídeo

Resumen

Ingeniería

Mejoramos nuestro clasificador de seguridad de voz con 22 nuevos idiomas y capacidades de detección más precisas

Noticias

Fundadores pioneros en IA se unen para acelerar la visión de Roblox Reality

Ingeniería

CubePart: un generador 3D de vocabulario abierto y controlable por partes