Apresentando a Arquitetura Híbrida do Roblox: Democratizando os Jogos Multijogador com Gráficos Fotorrealistas
Nossa Visão: Realidade Roblox

Hoje estamos compartilhando informações técnicas sobre um projeto interno chamado Roblox Reality, que visa combinar jogos multijogador em hiperescala com fotorrealismo. Acreditamos que essa seja uma mudança fundamental na forma como mundos imersivos multijogador serão criados e vivenciados. Disponível em uma versão inicial ainda este ano ou no início do próximo, o Roblox Reality é uma arquitetura híbrida que combina a simulação estruturada de nosso Game Engine distribuído com Video World Models baseados em edge para supersampling. Essa arquitetura capacitará criadores de todos os tamanhos a criar e manter mundos interativos que combinam fidelidade visual e movimento sem precedentes, além da persistência e estrutura tradicionais, sem aumentar os custos de desenvolvimento.
O Roblox Reality é uma arquitetura híbrida que combina os recursos da Roblox Cloud e do Game Engine com o fotorrealismo dos Video World Models. O estado central do mundo é armazenado de forma duradoura e eficiente no servidor para garantir a consistência entre os clientes e manter a consistência ao longo do tempo, das sessões e dos dias, utilizando armazenamento econômico e com baixo consumo de espaço. A jogabilidade multijogador é suportada por meio de forte autoridade do servidor para garantir justiça e consistência, juntamente com simulação especulativa no lado do cliente para alcançar baixa latência. Para renderização, sistemas de nível de detalhe (LOD) e composição baseados em nuvem geram ativos de alta fidelidade entregues por meio de uma rede de entrega de conteúdo (CDN). O Modelo de Vídeo Roblox (Super Upsampler) aproveita o vídeo renderizado e o contexto do modelo de dados rico para produzir visuais estocásticos e um realismo impressionante, operando na borda para cada jogador com desempenho ideal, impulsionado pela infraestrutura de GPU na borda da nuvem. O cliente Roblox avançado renderizaria então esse feed de vídeo e, no futuro, sobreporia opcionalmente um avatar com upscaling renderizado localmente para manter uma latência muito baixa nas ações em primeiro plano.
Nas demonstrações abaixo, mostramos quatro vídeos de jogos diferentes, incluindo Grow a Garden e Summon Heroes. O vídeo no canto superior esquerdo é conteúdo do Roblox gravado usando o mecanismo de renderização atual do Roblox; o vídeo no canto superior direito é uma representação dos dados 3D que podemos usar para condicionar a geração do vídeo. O vídeo no canto inferior esquerdo mostra o modelo atual de vídeo com upsample do Roblox em execução em nosso laboratório, que ainda não funciona em tempo real, e o vídeo no canto inferior direito mostra uma maquete da nossa visão de produto e o que será possível no futuro com essa tecnologia.
Modelos do Mundo em Vídeo: Pontos Fortes e Limitações
Os Modelos do Mundo do Vídeo se destacam na geração de comportamentos plausíveis e de alta dimensão sem a necessidade de simular explicitamente cada interação individual.
A operação de Modelos de Mundo em Vídeo dentro do espaço latente de vídeo enfrenta limitações técnicas específicas: o processo é atualmente oneroso, e alcançar desempenho em tempo real de alta fidelidade, como resolução 2K a 60 Hz, continua sendo um desafio de desenvolvimento. Fundamentalmente, com o estado do mundo representado no espaço de vídeo, esses modelos não são atualmente multijogador. Uma restrição-chave é a fidelidade da simulação versus a plausibilidade visual: o simples fato de ver 500 pessoas se movendo em um vídeo não implica que sejam agentes individualizados ou “avatares com cérebros”. Não se prevê que a escala atual do modelo de vídeo suporte inerentemente a simulação complexa e individualizada de agentes necessária para uma verdadeira experiência multijogador.
Essa capacidade é crucial ao gerenciar uma multidão viva de 20.000 pessoas reagindo em tempo real. Mas, um Modelo de Mundo em Vídeo por si só não consegue gerenciar de forma confiável as interações entre vários jogadores ao longo de uma sessão de duas horas. Um modelo de mundo enfrenta dificuldades com a aplicação rígida de regras e o estado persistente devido à falta de memória de longo prazo e lógica consistente. Os Modelos de Mundo em Vídeo carecem de dados de controle de entrada do usuário, e é por isso que jogar um Modelo de Mundo em Vídeo não é divertido. Como os Modelos de Mundo em Vídeo têm dificuldade com estado persistente, lógica consistente, controle de entrada do usuário e simulação de agentes multijogador verdadeira, os modelos atuais são mais como sonhos guiados.
Os modelos de vídeo interativos que vemos hoje são impressionantes, mas basicamente são sonhos vívidos — espetaculares de se ver, mas fugazes e incrivelmente solitários. Eles carecem de interatividade, desafio, recompensa e persistência — tudo o que faz de um jogo um jogo.
Modelos de mundo neurais puros, por si só, não conseguem cumprir a promessa de uma experiência multijogador expansiva e persistente. Embora os modelos de mundo neurais sejam impressionantes em muitos aspectos, eles falham em muitas áreas críticas. Algumas delas incluem coerência ao longo do tempo em uma única sessão, memória de longo prazo entre sessões, latência e controle refinado do criador. Lacunas menos óbvias aparecem quando se pensa em simulação multijogador consistente, jogabilidade competitiva exigente, NPCs altamente inteligentes, testes e refinamento incremental.
Não devemos pedir a um motor neural que se torne um motor de jogos.
Motores de Jogo: Pontos Fortes e Limitações
O Roblox Cloud e o Roblox Engine são fortemente complementares aos Video World Models. Com precisão reproduzível, estado consistente entre sessões e persistência ao longo do tempo. Considere, por exemplo, um criador desenvolvendo um jogo do Grande Prêmio de Mônaco de Fórmula 1. Ele está modelando sistemas rigorosos de pontuação e penalidades, pistas, multidões, natureza e sincronização instantânea entre vários pilotos. No entanto, essa precisão tem um custo de implementação e de tempo de execução. Aumentar a fidelidade visual requer recursos pesados, iluminação complexa e simulação.
Na próxima década, os resultados dos motores de jogos de ponta continuarão a avançar em realismo, mas o mesmo acontecerá com os requisitos de sofisticação dos desenvolvedores e do hardware dos consumidores.
O desafio que a indústria ainda não conseguiu resolver até hoje é como oferecer hiper-realismo em escala, tornando-o acessível a desenvolvedores de todos os tamanhos e em hardware de consumo amplamente disponível.
Isso ocorre porque o mundo real possui detalhes requintados. Ao redor do núcleo do jogo está tudo o mais — elementos naturalistas e não programados, como folhas de grama, folhas e galhos balançando suavemente ao vento, nuvens de poeira se espalhando e rodopiando atrás dos carros, brasas incandescentes e faíscas saindo de um fogo, e gotas de chuva caindo silenciosamente em uma poça oleosa e iridescente. Esse conteúdo é muito difícil de criar e renderizar. Os motores de jogo tradicionais têm dificuldade com essa complexidade visual, buscando atalhos para capturar um realismo mais simples, já que a sobrecarga de memória para texturas e geometria de alta resolução sobrecarrega os recursos disponíveis. Os custos de simulação também disparam para valores exorbitantes com a iluminação volumétrica, o áudio binaural, a física e a simulação de personagens que, juntos, constituem o fotorrealismo.
Acreditamos que a melhor maneira para os criadores construírem e para os motores renderizarem essa complexidade será aproveitar uma arquitetura híbrida na qual um Modelo de Mundo de Vídeo pós-treinado irá gerar texturas, iluminação e dinâmicas em escala fina sobre o movimento da câmera, a geometria e o estado contextual subjacentes do motor.
A arquitetura: sincronizando a lógica do jogo e os pixels de vídeo
Acreditamos que uma abordagem híbrida é necessária para permitir que os criadores ofereçam interação multijogador de alta fidelidade com resultados fotorrealistas. Chamamos essa abordagem de Roblox Reality, que combina o Roblox Game Engine, o Roblox Cloud e um Modelo de Mundo de Vídeo Roblox com Super Upsampler.
A arquitetura híbrida Roblox Reality divide as responsabilidades entre o Roblox Game Engine e o Roblox Video World Model.
O Roblox Game Engine lida com os aspectos estruturados e lógicos do mundo, fornecendo memória de longo prazo estável, lógica simbólica e simulação repetível. Ele também é responsável por operações físicas fundamentais, como colisão e comportamentos. O movimento primário dos objetos é gerenciado no engine, por exemplo, a localização e a velocidade de um carro, suas rodas, amortecedores e direção. Com base nisso, o Modelo de Mundo de Vídeo sobrepõe componentes visuais e generativos adicionais, como as gotas de água escorrendo pelo para-brisa e o balançar das folhas à medida que o carro passa em alta velocidade, proporcionando visuais de tirar o fôlego. Essa abordagem permite que o Game Engine mantenha o modelo de dados (o estado compartilhado e consistente), enquanto o Modelo de Mundo de Vídeo gera os pixels (o sonho visual).
Recursos | Motor de jogo | Super Upsampler | |
|---|---|---|---|
Função principal | Lida com toda a sincronização de estado para manter o mundo consistente (modelo de dados, o estado compartilhado e consistente). | Gerencia os componentes visuais e generativos (Pixels, o sonho visual). | |
Principais responsabilidades | Fornece memória de longo prazo estável, lógica simbólica e simulação repetível. É responsável pelas propriedades físicas fundamentais (materiais e localizações) e operações (colisão e ray tracing). | Oferece visuais estocásticos e realismo de tirar o fôlego, movimento secundário, ambientes dinâmicos naturais e física de fluidos. Gera texturas de alta fidelidade, iluminação mais realista e dinâmica em escala fina. | |
Consistência do Mundo | Oferece precisão, estado consistente e consistência garantida. Centraliza o estado em uma única fonte de verdade. | Destaca-se na geração de comportamentos plausíveis e de alta dimensão sem simulação explícita (por exemplo, gerenciamento de uma multidão em movimento). Opera na borda para cada jogador. | |
Dados processados | Tudo o que é consistente entre todos os jogadores (jogadores, posições, carros, pássaros, edifícios, cena 3D). | Coisas efémeras que os jogadores não precisam ver exatamente da mesma forma (latas enferrujadas, bandos de pássaros, formas de nuvens, grãos de areia, grama). | |
Armazenamento de Memória | Modelo de dados | Latentes de vídeo | |
Restrição autônoma | Dificuldades com a complexidade visual e as altas exigências computacionais para o fotorrealismo. | Dificuldades com a aplicação rigorosa de regras, memória de longo prazo, lógica consistente e dados de controle de entrada do usuário. | |
Infraestrutura de tempo de execução | Mais de 26 data centers de ponta em todo o mundo, executando milhões de instâncias de jogos, próximos aos usuários para baixa latência, com pico de mais de 45 milhões de usuários simultâneos. | O Super Upsampler é executado em data centers de borda adjacentes e oferece desempenho ideal, equipado com GPUs da classe H200/B200 (ou aceleradores equivalentes) |
Juntos, essa plataforma oferece suporte à criação infinita de conteúdo com controle profundo por parte dos criadores.

Nossas metas de desenvolvimento para o Roblox Reality envolvem a criação de um Modelo de Vídeo Roblox capaz de fornecer resolução 2K a 60 Hz, obtendo a fonte de verdade do Roblox Game Engine: tanto vídeo renderizado quanto dados espaciais 3D. O Roblox Reality será otimizado para rodar em infraestrutura de GPU na borda da nuvem, combinada com streaming de vídeo, enquanto, eventualmente, se integra ao cliente Roblox para oferecer suporte ao controle e simulação local de avatares.
Resumo
O Roblox Reality representa um grande passo na democratização da criação, permitindo que qualquer criador desenvolva jogos fotorrealistas ao aproveitar o Roblox Game Engine e o Modelo de Vídeo, reduzindo significativamente o tempo de desenvolvimento, o custo e a computação tradicionalmente necessários para gráficos de alta fidelidade. Isso torna a criação de jogos fotorrealistas mais rápida e mais eficiente em termos de custo e computação para nossos criadores. Dado o alto custo de computação, percebemos que há desafios que precisamos resolver antes de podermos escalar a arquitetura do Roblox Reality. Já estamos trabalhando em soluções para nos ajudar a otimizar e aumentar a eficiência dessa arquitetura, para que possamos escalá-la de forma mais acessível para milhões de jogadores simultâneos.
Acima de tudo, estamos entusiasmados em construir uma plataforma para viabilizar jogos que permitam aos nossos criadores desenvolver experiências multijogador fotorrealistas incríveis!



