Przedstawiamy architekturę hybrydową Roblox: demokratyzacja fotorealistycznych gier wieloosobowych
Nasza wizja: rzeczywistość Roblox

Dzisiaj dzielimy się technicznymi spostrzeżeniami na temat wewnętrznego projektu o nazwie Roblox Reality, którego celem jest połączenie gier wieloosobowych na ogromną skalę z fotorealizmem. Wierzymy, że jest to fundamentalna zmiana w sposobie tworzenia i doświadczania wciągających światów wieloosobowych. Roblox Reality, dostępny we wczesnej wersji jeszcze w tym roku lub na początku przyszłego, to architektura hybrydowa łącząca ustrukturyzowaną symulację naszego rozproszonego silnika gry z opartymi na krawędziach modelami świata wideo do supersamplingowania. Architektura ta umożliwi twórcom każdej wielkości tworzenie i utrzymywanie interaktywnych światów, które łączą w sobie niespotykaną dotąd wierność wizualną i ruch z tradycyjną trwałością i strukturą, bez zwiększania kosztów rozwoju.
Roblox Reality to architektura hybrydowa łącząca możliwości chmury Roblox i silnika gry z fotorealizmem modeli świata wideo. Stan podstawowy świata jest trwale i wydajnie przechowywany na serwerze, aby zapewnić spójność między klientami oraz wspierać spójność w czasie, sesjach i dniach przy użyciu ekonomicznej i zajmującej mało miejsca pamięci. Rozgrywka wieloosobowa jest obsługiwana przez silną kontrolę serwera, która zapewnia uczciwość i spójność, a także spekulatywną symulację po stronie klienta, aby osiągnąć niskie opóźnienia. W przypadku renderowania oparte na chmurze systemy poziomu szczegółowości (LOD) i kompozycji generują zasoby o wysokiej wierności, dostarczane za pośrednictwem sieci dostarczania treści (CDN). Model wideo Roblox (Super Upsampler) wykorzystuje renderowane wideo i bogaty kontekst modelu danych do tworzenia stochastycznych efektów wizualnych i uderzającego realizmu, działając na obrzeżach sieci dla każdego gracza z optymalną wydajnością dzięki infrastrukturze GPU w chmurze i na obrzeżach sieci. Bogaty klient Roblox renderowałby następnie ten strumień wideo, a w przyszłości opcjonalnie nakładałby lokalnie renderowaną, poddaną upsamplingowi awatarkę, aby utrzymać bardzo niskie opóźnienia w działaniach na pierwszym planie.
W poniższych demonstracjach pokazujemy cztery filmy z różnych gier, w tym Grow a Garden i Summon Heroes. Film w lewym górnym rogu to treść Roblox nagrana przy użyciu obecnego silnika renderującego Roblox, a film w prawym górnym rogu to reprezentacja danych 3D, których możemy użyć do warunkowania generowania wideo. Film w lewym dolnym rogu pokazuje aktualny model wideo z upsamplingiem Roblox działający w naszym laboratorium, który nie działa jeszcze w czasie rzeczywistym, a film w prawym dolnym rogu pokazuje makietę naszej wizji produktu i tego, co będzie możliwe w przyszłości dzięki tej technologii.
Modele świata wideo: zalety i ograniczenia
Modele świata wideo doskonale sprawdzają się w generowaniu wiarygodnych, wielowymiarowych zachowań bez konieczności wyraźnej symulacji każdej pojedynczej interakcji.
Wykorzystanie modeli świata wideo w przestrzeni ukrytej wideo wiąże się z konkretnymi ograniczeniami technicznymi: proces ten jest obecnie kosztowny, a osiągnięcie wysokiej jakości obrazu w czasie rzeczywistym, np. rozdzielczości 2K przy 60 Hz, pozostaje wyzwaniem dla programistów. Co najważniejsze, ponieważ stan świata jest reprezentowany w przestrzeni wideo, modele te nie obsługują obecnie trybu wieloosobowego. Kluczowym ograniczeniem jest wierność symulacji w porównaniu z wizualną wiarygodnością: samo widzenie 500 osób poruszających się w filmie nie oznacza, że są to zindywidualizowane agenty lub „awatary z mózgami”. Nie przewiduje się, aby obecna skala modeli wideo z natury rzeczy wspierała złożoną, zindywidualizowaną symulację agentów wymaganą do prawdziwego doświadczenia wieloosobowego.
Ta zdolność ma kluczowe znaczenie przy zarządzaniu żywym tłumem 20 000 osób reagujących w czasie rzeczywistym. Jednak sam model świata wideo nie jest w stanie niezawodnie zarządzać interakcjami między wieloma graczami podczas dwugodzinnej sesji. Model świata boryka się z problemami związanymi z egzekwowaniem ścisłych zasad i utrzymaniem stanu ze względu na brak pamięci długotrwałej i spójnej logiki. Modelom świata wideo brakuje danych dotyczących kontroli wprowadzanych przez użytkownika, dlatego granie w model świata wideo nie jest przyjemne. Ponieważ modele świata wideo mają trudności z utrzymaniem stanu, spójną logiką, kontrolą wprowadzanych przez użytkownika danych oraz prawdziwą symulacją agentów w trybie wieloosobowym, obecne modele przypominają raczej kierowane sny.
Interaktywne modele wideo, które obserwujemy dzisiaj, są imponujące, ale w gruncie rzeczy są to żywe sny — spektakularne dla oka, ale ulotne i niezwykle samotne. Brakuje im interaktywności, wyzwań, nagród i trwałości — wszystkiego, co sprawia, że gra jest grą.
Same czyste modele świata neuronowego nie są w stanie spełnić obietnicy rozbudowanego, trwałego doświadczenia w trybie wieloosobowym. Chociaż modele świata neuronowego są pod wieloma względami imponujące, zawodzą w wielu kluczowych obszarach. Należą do nich spójność w czasie w ramach jednej sesji, pamięć długotrwała między sesjami, opóźnienia oraz precyzyjna kontrola twórcy. Mniej oczywiste luki pojawiają się, gdy pomyślimy o spójnej symulacji trybu wieloosobowego, wymagającej rozgrywce konkurencyjnej, wysoce inteligentnych postaciach niezależnych, testowaniu i stopniowym udoskonalaniu.
Nie powinniśmy oczekiwać, że silnik neuronowy stanie się silnikiem gry.
Silniki gier: mocne strony i ograniczenia
Roblox Cloud i Engine doskonale uzupełniają modele świata wideo. Zapewniają precyzję powtórzeń, spójny stan między sesjami i trwałość w czasie. Weźmy na przykład twórcę budującego grę Formuły 1 Grand Prix Monako. Modeluje on wymagające systemy punktacji i kar, drogi, tłumy, przyrodę oraz natychmiastową synchronizację między wieloma kierowcami. Jednak ta precyzja wiąże się z kosztami wdrożenia i działania. Zwiększenie wierności wizualnej wymaga ciężkich zasobów, złożonego oświetlenia i symulacji.
W ciągu następnej dekady wyniki wysokiej klasy silników gier będą nadal zyskiwać na realizmie, ale wzrosną również wymagania dotyczące zaawansowania programistów i sprzętu konsumenckiego.
Wyzwaniem, z którym branża nie była dotychczas w stanie sobie poradzić, jest zapewnienie hiperrealizmu na dużą skalę, przy jednoczesnym udostępnieniu go zarówno dużym, jak i małym deweloperom oraz na powszechnie dostępnym sprzęcie konsumenckim.
Wynika to z faktu, że świat rzeczywisty charakteryzuje się niezwykłą szczegółowością. Główną rozgrywkę otacza wszystko inne — nieprzewidziane, naturalistyczne elementy, takie jak źdźbła trawy, liście i gałęzie delikatnie kołyszące się na wietrze, chmury pyłu unoszące się i wirujące za samochodami, żarzące się węgle i iskry wystrzeliwujące z ognia oraz krople deszczu cicho rozpryskujące się w oleistej, opalizującej kałuży. Treści te są bardzo trudne do stworzenia i renderowania. Tradycyjne silniki gier borykają się z tą wizualną złożonością, szukając skrótów, aby uchwycić prostszy realizm, ponieważ obciążenie pamięci związane z teksturami o wysokiej rozdzielczości i geometrią nadwyręża dostępne zasoby. Koszty symulacji również rosną do niebotycznych wysokości wraz z oświetleniem wolumetrycznym, dźwiękiem binauralnym, fizyką i symulacją postaci, które razem składają się na fotorealizm.
Uważamy, że najlepszym sposobem dla twórców na budowanie, a dla silników na renderowanie tej złożoności będzie wykorzystanie architektury hybrydowej, w której wstępnie wytrenowany model świata wideo (Video World Model) będzie generował tekstury, oświetlenie i dynamikę w drobnej skali na bazie podstawowego ruchu kamery, geometrii i stanu kontekstowego silnika.
Architektura: synchronizacja logiki gry i pikseli wideo
Uważamy, że potrzebne jest podejście hybrydowe, aby umożliwić twórcom zapewnienie wysokiej jakości interakcji wieloosobowej z fotorealistycznym wynikiem. Nazywamy to podejściem Roblox Reality, które łączy silnik gry Roblox, chmurę Roblox oraz model świata wideo Roblox z super upsamplerem.
Hybrydowa architektura Roblox Reality dzieli obowiązki między silnik gry Roblox a model świata wideo Roblox.
Silnik gry Roblox obsługuje strukturalne i logiczne aspekty świata, zapewniając stabilną pamięć długotrwałą, logikę symboliczną i powtarzalną symulację. Odpowiada również za podstawowe operacje fizyczne, takie jak kolizje i zachowania. Podstawowe ruchy obiektów są zarządzane w silniku, na przykład położenie i prędkość samochodu, jego kół, amortyzatorów i układu kierowniczego. Opierając się na tym, model świata wideo nakłada dodatkowe elementy wizualne i generatywne, takie jak krople wody spływające po przedniej szybie i powiewające liście, gdy samochód mija je z dużą prędkością, zapewniając zapierające dech w piersiach efekty wizualne. Takie podejście pozwala silnikowi gry na utrzymanie modelu danych (wspólnego i spójnego stanu), podczas gdy model świata wideo generuje piksele (wizualną fantazję).
Możliwości | Silnik gry | Super Upsampler | |
|---|---|---|---|
Główna funkcja | Obsługuje całą synchronizację stanów w celu zachowania spójności świata (model danych, stan współdzielony i spójny). | Zarządza komponentami wizualnymi i generatywnymi (piksele, wizualna strona świata). | |
Główne obowiązki | Zapewnia stabilną pamięć długotrwałą, logikę symboliczną i powtarzalną symulację. Odpowiada za podstawowe właściwości fizyczne (materiały i lokalizacje) oraz operacje (kolizje i ray tracing). | Zapewnia stochastyczną grafikę i zapierający dech w piersiach realizm, ruch drugorzędny, naturalne dynamiczne środowiska oraz płynną fizykę. Generuje tekstury o wyższej wierności, bardziej realistyczne oświetlenie oraz dynamikę w drobnej skali. | |
Spójność świata | Zapewnia precyzję, spójny stan i gwarantowaną spójność. Centralizuje stan w jednym źródle prawdy. | Wyróżnia się w generowaniu wiarygodnych, wielowymiarowych zachowań bez wyraźnej symulacji (np. zarządzanie żywym tłumem). Działa na granicy możliwości dla każdego gracza. | |
Obsługiwane dane | Wszystko, co jest spójne dla wszystkich graczy (gracze, pozycje, samochody, ptaki, budynki, scena 3D). | Rzeczy efemeryczne, które gracze nie muszą widzieć dokładnie tak samo (zardzewiałe puszki, stado ptaków, kształty chmur, ziarenka piasku, trawa). | |
Pamięć | Model danych | Latentne dane wideo | |
Ograniczenie samodzielności | Trudności z wizualną złożonością i wysokimi wymaganiami obliczeniowymi dla fotorealizmu. | Trudności z egzekwowaniem ścisłych reguł, pamięcią długotrwałą, spójną logiką oraz danymi kontroli wprowadzania użytkownika. | |
Infrastruktura środowiska uruchomieniowego | Ponad 26 centrów danych na całym świecie, obsługujących miliony instancji gier, zlokalizowanych blisko użytkowników w celu zapewnienia niskiego opóźnienia, osiągających szczytową liczbę ponad 45 milionów jednoczesnych użytkowników. | Super Upsampler działa w sąsiednich centrach danych typu edge i zapewnia optymalną wydajność dzięki procesorom graficznym klasy H200/B200 (lub równoważnym akceleratorom). |
W sumie ta platforma wspiera tworzenie nieskończonej ilości treści z głęboką kontrolą twórców.

Nasze cele rozwojowe dotyczące Roblox Reality obejmują stworzenie modelu wideo Roblox zdolnego do dostarczania obrazu w rozdzielczości 2K przy częstotliwości 60 Hz poprzez pobieranie danych źródłowych z silnika gry Roblox: zarówno renderowanego wideo, jak i danych przestrzennych 3D. Roblox Reality zostanie zoptymalizowany do działania na infrastrukturze GPU w chmurze w połączeniu ze strumieniowaniem wideo, a docelowo zostanie zintegrowany z klientem Roblox w celu obsługi lokalnego sterowania awatarami i symulacji.
Podsumowanie
Roblox Reality stanowi znaczący krok w kierunku demokratyzacji tworzenia, umożliwiając każdemu twórcy budowanie fotorealistycznych gier poprzez wykorzystanie silnika gry Roblox i modelu wideo, co znacznie skraca czas rozwoju, obniża koszty i zmniejsza obciążenie obliczeniowe tradycyjnie wymagane do uzyskania grafiki o wysokiej wierności. Dzięki temu tworzenie fotorealistycznych gier staje się dla naszych twórców szybsze oraz bardziej efektywne pod względem kosztów i mocy obliczeniowej. Biorąc pod uwagę wysokie koszty obliczeniowe, zdajemy sobie sprawę, że istnieją wyzwania, które musimy rozwiązać, zanim będziemy mogli skalować architekturę Roblox Reality. Już pracujemy nad rozwiązaniami, które pomogą nam zoptymalizować i zwiększyć wydajność tej architektury, abyśmy mogli w bardziej przystępny cenowo sposób skalować ją do milionów graczy jednocześnie.
Przede wszystkim cieszymy się, że możemy budować platformę, która umożliwi naszym twórcom tworzenie niesamowitych, fotorealistycznych gier wieloosobowych!



