Presentazione dell'architettura ibrida di Roblox: democratizzare i giochi multigiocatore fotorealistici
La nostra visione: Roblox Reality

Oggi condividiamo alcune informazioni tecniche su un progetto interno chiamato Roblox Reality, volto a combinare i giochi multiplayer su larga scala con il fotorealismo. Riteniamo che si tratti di un cambiamento fondamentale nel modo in cui i mondi immersivi multiplayer saranno creati e vissuti. Disponibile in una versione preliminare alla fine di quest'anno o all'inizio del prossimo, Roblox Reality è un'architettura ibrida che combina la simulazione strutturata del nostro motore di gioco distribuito con modelli di mondo video basati su edge per il supersampling. Questa architettura consentirà ai creatori di ogni dimensione di realizzare e mantenere mondi interattivi che uniscono una fedeltà visiva e un movimento senza precedenti alla persistenza e alla struttura tradizionali, senza aumentare i costi di sviluppo.
Roblox Reality è un'architettura ibrida che unisce le capacità del Roblox Cloud e del motore di gioco con il fotorealismo dei Video World Models. Lo stato di base del mondo viene archiviato in modo duraturo ed efficiente sul server per garantire la coerenza tra i client e supportare la coerenza nel tempo, nelle sessioni e nei giorni utilizzando uno storage efficiente in termini di costi e spazio. Il gameplay multiplayer è supportato da una forte autorità del server per garantire equità e coerenza, insieme a una simulazione speculativa lato client per ottenere una bassa latenza. Per il rendering, i sistemi di livello di dettaglio (LOD) e di compositing basati su cloud generano risorse ad alta fedeltà fornite tramite una rete di distribuzione dei contenuti (CDN). Il Roblox Video Model (Super Upsampler) sfrutta il video renderizzato e il ricco contesto del modello di dati per produrre immagini stocastiche e un realismo sorprendente, operando sull'edge per ogni giocatore con prestazioni ottimali alimentate dall'infrastruttura GPU cloud-edge. Il ricco client Roblox renderizzerebbe quindi questo feed video e, in futuro, sovrapporrebbe facoltativamente un avatar upsamplato renderizzato localmente per mantenere una latenza molto bassa sulle azioni in primo piano.
Nelle demo qui sotto, mostriamo quattro video di giochi diversi, tra cui Grow a Garden e Summon Heroes. Il video in alto a sinistra è un contenuto Roblox registrato utilizzando l'attuale motore di rendering Roblox, mentre quello in alto a destra è una rappresentazione dei dati 3D che possiamo utilizzare per condizionare la generazione del video. Il video in basso a sinistra mostra l'attuale modello video di upscaling di Roblox in esecuzione nel nostro laboratorio, che non funziona ancora in tempo reale, mentre il video in basso a destra mostra un mockup della nostra visione del prodotto e di ciò che sarà possibile realizzare in futuro con questa tecnologia.
Modelli Video World: punti di forza e limiti
I modelli Video World eccellono nel generare comportamenti plausibili e ad alta dimensione senza la necessità di simulare esplicitamente ogni singola interazione.
L'utilizzo dei modelli Video World all'interno dello spazio latente video presenta specifiche limitazioni tecniche: il processo è attualmente costoso e il raggiungimento di prestazioni in tempo reale ad alta fedeltà, come la risoluzione 2K a 60 Hz, rimane una sfida di sviluppo. Fondamentalmente, con lo stato del mondo rappresentato nello spazio video, questi modelli non sono attualmente multiplayer. Un vincolo chiave è la fedeltà della simulazione rispetto alla plausibilità visiva: il semplice fatto di vedere 500 persone muoversi in un video non implica che siano agenti individualizzati o "avatar dotati di intelligenza". Non si prevede che l'attuale scala dei modelli video supporti intrinsecamente la simulazione complessa e individualizzata degli agenti richiesta per una vera esperienza multiplayer.
Questa capacità è cruciale quando si gestisce una folla vivace di 20.000 persone che reagiscono in tempo reale. Tuttavia, un Video World Model da solo non può gestire in modo affidabile le interazioni tra più giocatori durante una sessione di due ore. Un modello di mondo fatica a garantire l'applicazione rigorosa delle regole e uno stato persistente a causa della mancanza di memoria a lungo termine e di una logica coerente. I Video World Models mancano di dati di controllo degli input dell'utente, motivo per cui giocare con un Video World Model non è divertente. Poiché i Video World Models faticano a gestire lo stato persistente, la logica coerente, il controllo degli input dell'utente e la vera simulazione di agenti multiplayer, i modelli attuali sono più simili a sogni guidati.
I modelli video interattivi che vediamo oggi sono impressionanti, ma fondamentalmente sono sogni vividi: spettacolari da guardare, ma fugaci e incredibilmente solitari. Mancano di interattività, sfida, ricompensa e persistenza: tutto ciò che rende un gioco un gioco.
I modelli di mondo neurale puri da soli non possono mantenere la promessa di un'esperienza multiplayer espansiva e persistente. Sebbene i modelli di mondo neurale siano impressionanti sotto molti aspetti, falliscono in molte aree critiche. Alcune di queste includono la coerenza nel tempo in una singola sessione, la memoria a lungo termine tra le sessioni, la latenza e il controllo dettagliato da parte del creatore. Lacune meno evidenti appaiono quando si pensa alla simulazione multiplayer coerente, al gameplay competitivo esigente, agli NPC altamente intelligenti, ai test e al perfezionamento incrementale.
Non dovremmo chiedere a un motore neurale di diventare un motore di gioco.
Motori di gioco: punti di forza e limiti
Il Roblox Cloud e il motore sono fortemente complementari ai modelli di mondo video. Con precisione riproducibile, stato coerente tra le sessioni e persistenza nel tempo. Prendiamo ad esempio un creatore che sta realizzando un gioco sul Gran Premio di Formula 1 di Monaco. Sta modellando sistemi di punteggio e penalità rigorosi, strade, folle, natura e sincronizzazione istantanea tra più piloti. Tuttavia, questa precisione ha un costo in termini di implementazione e runtime. Aumentare la fedeltà visiva richiede risorse pesanti, illuminazione complessa e simulazione.
Nel prossimo decennio, i risultati dei motori di gioco di fascia alta continueranno a migliorare in termini di realismo, ma lo stesso vale per i requisiti di sofisticazione degli sviluppatori e dell'hardware dei consumatori.
La sfida che il settore non è stato in grado di affrontare fino ad oggi è come fornire iperrealismo su larga scala, rendendolo accessibile agli sviluppatori grandi e piccoli e su hardware di consumo ampiamente disponibile.
Questo perché il mondo reale è ricco di dettagli raffinati. Intorno al gioco principale c'è tutto il resto: elementi non scriptati e naturalistici come fili d'erba, foglie e rami che ondeggiano dolcemente al vento, nuvole di polvere che si sollevano e turbinano dietro le auto, braci incandescenti e scintille che schizzano da un fuoco, e gocce di pioggia che schizzano silenziosamente in una pozza oleosa e iridescente. Questi contenuti sono molto difficili da creare e da renderizzare. I motori di gioco tradizionali faticano con questa complessità visiva, cercando scorciatoie per catturare un realismo più semplice, poiché il sovraccarico di memoria per le texture ad alta risoluzione e la geometria mette a dura prova le risorse disponibili. Anche i costi di simulazione salgono alle stelle con l'illuminazione volumetrica, l'audio binaurale, la fisica e la simulazione dei personaggi che insieme costituiscono il fotorealismo.
Riteniamo che il modo migliore per i creatori di costruire e per i motori di renderizzare questa complessità sia quello di sfruttare un'architettura ibrida in cui un Video World Model post-addestrato generi texture, illuminazione e dinamiche su scala fine oltre al movimento della telecamera, alla geometria e allo stato contestuale sottostanti del motore.
L'architettura: sincronizzazione della logica di gioco e dei pixel video
Riteniamo che sia necessario un approccio ibrido per consentire ai creatori di fornire un'interazione multiplayer ad alta fedeltà con un output fotorealistico. Chiamiamo questo approccio Roblox Reality, che combina il Roblox Game Engine, Roblox Cloud e un Super Upsampler Roblox Video World Model.
L'architettura ibrida di Roblox Reality divide le responsabilità tra il Roblox Game Engine e il Roblox Video World Model.
Il Roblox Game Engine gestisce gli aspetti strutturati e logici del mondo, fornendo una memoria a lungo termine stabile, logica simbolica e simulazione ripetibile. È inoltre responsabile delle operazioni fisiche fondamentali come le collisioni e i comportamenti. Il movimento primario degli oggetti è gestito nel motore, ad esempio la posizione e la velocità di un'auto, le sue ruote, gli ammortizzatori e lo sterzo. Partendo da questo, il Video World Model aggiunge ulteriori componenti visivi e generativi, come le gocce d'acqua che scorrono lungo il parabrezza e il fruscio delle foglie mentre l'auto sfreccia, offrendo immagini mozzafiato. Questo approccio permette al Game Engine di mantenere il modello di dati (lo stato condiviso e coerente) mentre il Video World Model genera i pixel (il sogno visivo).
Funzionalità | Motore di gioco | Super Upsampler | |
|---|---|---|---|
Funzione principale | Gestisce tutta la sincronizzazione degli stati per mantenere il mondo coerente (modello di dati, lo stato condiviso e coerente). | Gestisce i componenti visivi e generativi (Pixel, il sogno visivo). | |
Responsabilità principali | Fornisce memoria a lungo termine stabile, logica simbolica e simulazione ripetibile. È responsabile delle proprietà fisiche fondamentali (materiali e posizioni) e delle operazioni (collisione e ray tracing). | Fornisce immagini stocastiche e un realismo mozzafiato, movimenti secondari, ambienti dinamici naturali e fisica dei fluidi. Genera texture ad alta fedeltà, illuminazione più realistica e dinamiche su scala fine. | |
Coerenza del mondo | Fornisce precisione, stato coerente e coerenza garantita. Centralizza lo stato in un'unica fonte di verità. | Eccelle nella generazione di comportamenti plausibili e ad alta dimensione senza simulazione esplicita (ad esempio, la gestione di una folla in movimento). Opera all'avanguardia per ogni giocatore. | |
Dati gestiti | Tutto ciò che è coerente tra tutti i giocatori (giocatori, posizioni, auto, uccelli, edifici, scena 3D). | Elementi effimeri che i giocatori non hanno bisogno di vedere esattamente uguali (lattine arrugginite, stormi di uccelli, forme delle nuvole, granelli di sabbia, erba). | |
Archiviazione in memoria | Modello di dati | Latenti video | |
Vincolo autonomo | Difficoltà con la complessità visiva e le elevate esigenze computazionali per il fotorealismo. | Difficoltà nell'applicazione rigorosa delle regole, nella memoria a lungo termine, nella logica coerente e nei dati di controllo degli input dell'utente. | |
Infrastruttura di runtime | Oltre 26 data center edge in tutto il mondo, che eseguono milioni di istanze di gioco, vicini agli utenti per una bassa latenza, con un picco di oltre 45 milioni di utenti simultanei. | Super Upsampler viene eseguito in data center edge adiacenti e offre prestazioni ottimali, grazie a GPU di classe H200/B200 (o acceleratori equivalenti). |
Nel suo insieme, questa piattaforma supporta la creazione di contenuti illimitata con un controllo approfondito da parte dei creatori.

I nostri obiettivi di sviluppo per Roblox Reality prevedono la creazione di un modello video Roblox in grado di fornire una risoluzione 2K a 60 Hz attingendo alla fonte di verità dal motore di gioco Roblox: sia video renderizzati che dati spaziali 3D. Roblox Reality sarà ottimizzato per funzionare su un'infrastruttura GPU cloud edge abbinata allo streaming video, per poi integrarsi con il client Roblox al fine di supportare il controllo e la simulazione dell'avatar in locale.
Sintesi
Roblox Reality rappresenta un passo importante nella democratizzazione della creazione, consentendo a qualsiasi creatore di realizzare giochi fotorealistici sfruttando il motore di gioco Roblox e il modello video, riducendo significativamente i tempi di sviluppo, i costi e la potenza di calcolo tradizionalmente richiesti per una grafica ad alta fedeltà. Ciò rende la creazione di giochi fotorealistici più veloce ed efficiente in termini di costi e potenza di calcolo per i nostri creatori. Dato l'elevato costo di calcolo, ci rendiamo conto che ci sono delle sfide che dobbiamo risolvere prima di poter scalare l'architettura di Roblox Reality. Stiamo già lavorando a soluzioni che ci aiutino a ottimizzare e aumentare l'efficienza di questa architettura, in modo da poterla scalare in modo più conveniente a milioni di giocatori simultanei.
Ma soprattutto, siamo entusiasti di costruire una piattaforma che sblocchi giochi che consentano ai nostri creatori di realizzare incredibili esperienze multigiocatore fotorealistiche!



