Vorstellung der Roblox-Hybridarchitektur: Demokratisierung fotorealistischer Multiplayer-Spiele

Unsere Vision: Roblox Reality

Von Anupam Singh, Senior Vice President of Engineering

Veröffentlicht 30.04.2026

Heute geben wir einen technischen Einblick in ein internes Projekt namens Roblox Reality, das hyperskalierte Multiplayer-Spiele mit Fotorealismus verbindet. Wir glauben, dass dies eine grundlegende Veränderung darin darstellt, wie immersive Multiplayer-Welten erstellt und erlebt werden. Roblox Reality wird noch in diesem Jahr oder Anfang nächsten Jahres in einer frühen Version verfügbar sein und ist eine hybride Architektur, die die strukturierte Simulation unserer verteilten Game Engine mit Edge-basierten Video World Models für Supersampling kombiniert. Diese Architektur wird es Entwicklern jeder Größe ermöglichen, interaktive Welten zu erstellen und zu pflegen, die beispiellose visuelle Wiedergabetreue und Bewegung mit traditioneller Persistenz und Struktur verbinden, ohne die Entwicklungskosten zu erhöhen.

Roblox Reality ist eine hybride Architektur, die die Fähigkeiten der Roblox Cloud und der Game Engine mit dem Fotorealismus von Video-Weltmodellen verbindet. Der Kernzustand der Welt wird dauerhaft und effizient auf dem Server gespeichert, um Konsistenz zwischen den Clients zu gewährleisten und die Konsistenz über Zeit, Sitzungen und Tage hinweg mithilfe von kosten- und speicherplatzsparendem Speicher zu unterstützen. Das Multiplayer-Gameplay wird durch eine starke Serverautorität für Fairness und Konsistenz sowie durch spekulative clientseitige Simulationen zur Erzielung geringer Latenz unterstützt. Für das Rendering erzeugen cloudbasierte Level-of-Detail- (LOD) und Compositing-Systeme hochauflösende Assets, die über ein Content Delivery Network (CDN) bereitgestellt werden. Das Roblox-Videomodell (Super Upsampler) nutzt gerenderte Videos und den Kontext eines umfangreichen Datenmodells, um stochastische Grafiken und beeindruckenden Realismus zu erzeugen. Es arbeitet am Edge für jeden Spieler mit optimaler Leistung, angetrieben durch eine Cloud-Edge-GPU-Infrastruktur. Der umfangreiche Roblox-Client würde diesen Video-Feed dann rendern und in Zukunft optional einen lokal gerenderten, hochskalierten Avatar darüberlegen, um eine sehr niedrige Latenz bei Aktionen im Vordergrund aufrechtzuerhalten.

In den folgenden Demos zeigen wir vier Videos verschiedener Spiele, darunter „Grow a Garden“ und „Summon Heroes“. Das Video oben links ist Roblox-Inhalt, der heute mit der Roblox-Rendering-Engine aufgezeichnet wurde; das Video oben rechts ist eine Darstellung der 3D-Daten, die wir zur Steuerung der Videogenerierung nutzen können. Das Video unten links zeigt das aktuelle Roblox-Upsample-Videomodell, das in unserem Labor läuft und noch nicht in Echtzeit arbeitet, und das Video unten rechts zeigt ein Modell unserer Produktvision und was mit dieser Technologie in Zukunft möglich sein wird.

Video-Weltmodelle: Stärken und Grenzen

Video-Weltmodelle zeichnen sich dadurch aus, dass sie plausible, hochdimensionale Verhaltensweisen erzeugen, ohne dass jede einzelne Interaktion explizit simuliert werden muss.

Der Einsatz von Video-Weltmodellen im latenten Videoraum stößt auf spezifische technische Grenzen: Der Prozess ist derzeit kostenintensiv, und das Erreichen einer hochauflösenden Echtzeitleistung, wie beispielsweise einer 2K-Auflösung bei 60 Hz, stellt nach wie vor eine Herausforderung für die Entwicklung dar. Entscheidend ist, dass diese Modelle, da der Weltzustand im Videoraum dargestellt wird, derzeit nicht für den Mehrspielermodus geeignet sind. Eine wesentliche Einschränkung ist das Spannungsfeld zwischen Simulationsgenauigkeit und visueller Plausibilität: Die bloße Darstellung von 500 sich bewegenden Personen in einem Video bedeutet nicht, dass es sich um individualisierte Agenten oder „Avatare mit Verstand“ handelt. Es ist nicht zu erwarten, dass der derzeitige Umfang der Videomodelle von Natur aus die komplexe, individualisierte Agentensimulation unterstützt, die für ein echtes Mehrspieler-Erlebnis erforderlich ist.

Diese Fähigkeit ist entscheidend, wenn es darum geht, eine lebendige Menschenmenge von 20.000 Personen zu verwalten, die in Echtzeit reagiert. Ein Video-Weltmodell allein kann jedoch die Interaktionen zwischen mehreren Spielern über eine zweistündige Sitzung hinweg nicht zuverlässig verwalten. Ein Weltmodell hat Schwierigkeiten mit der strikten Durchsetzung von Regeln und einem persistenten Zustand, da es ihm an Langzeitgedächtnis und konsistenter Logik mangelt. Video-Weltmodellen fehlen Steuerungsdaten für Benutzereingaben, weshalb das Spielen eines Video-Weltmodells keinen Spaß macht. Da Video-Weltmodelle mit beständigen Zuständen, konsistenter Logik, der Steuerung von Benutzereingaben und einer echten Multiplayer-Agentensimulation zu kämpfen haben, gleichen aktuelle Modelle eher geführten Träumen.

Die interaktiven Videomodelle, die wir heute sehen, sind beeindruckend, aber im Grunde genommen lebhafte Träume – spektakulär anzusehen, aber flüchtig und unglaublich einsam. Ihnen fehlt es an Interaktivität, Herausforderung, Belohnung und Beständigkeit – an allem, was ein Spiel zu einem Spiel macht.

Reine neuronale Weltmodelle allein können das Versprechen eines weitläufigen, beständigen Multiplayer-Erlebnisses nicht einlösen. Zwar sind neuronale Weltmodelle in vielerlei Hinsicht beeindruckend, doch versagen sie in vielen entscheidenden Bereichen. Dazu gehören unter anderem die zeitliche Kohärenz innerhalb einer einzelnen Sitzung, das Langzeitgedächtnis über Sitzungen hinweg, Latenzzeiten und die fein abgestimmte Kontrolle durch den Entwickler. Weniger offensichtliche Lücken treten zutage, wenn man an konsistente Multiplayer-Simulationen, anspruchsvolles kompetitives Gameplay, hochintelligente NPCs, Tests und schrittweise Verfeinerung denkt.

Wir sollten von einer neuronalen Engine nicht verlangen, dass sie zu einer Spiel-Engine wird.

Spiel-Engines: Stärken und Einschränkungen

Die Roblox Cloud und Engine ergänzen Video-Weltmodelle hervorragend. Mit wiederholbarer Präzision, konsistentem Zustand über Sitzungen hinweg und Persistenz über die Zeit. Nehmen wir zum Beispiel einen Entwickler, der ein Formel-1-Spiel zum Grand Prix von Monaco erstellt. Er modelliert anspruchsvolle Punkt- und Strafsysteme, Straßen, Zuschauer, Natur und sofortige Synchronisation zwischen mehreren Fahrern. Diese Präzision hat jedoch ihren Preis in Bezug auf Implementierung und Laufzeit. Eine höhere visuelle Wiedergabetreue erfordert umfangreiche Assets, komplexe Beleuchtung und Simulation.

In den nächsten zehn Jahren werden die Ergebnisse hochwertiger Spiel-Engines in puncto Realismus weiter zunehmen, aber ebenso werden die Anforderungen an die Fachkenntnisse der Entwickler und die Hardware der Verbraucher steigen.

Die Herausforderung, die die Branche bisher nicht bewältigen konnte, besteht darin, Hyperrealismus in großem Maßstab zu liefern und ihn gleichzeitig für große und kleine Entwickler sowie auf weit verbreiteter Verbraucherhardware zugänglich zu machen.

Das liegt daran, dass die reale Welt über exquisite Details verfügt. Das eigentliche Spiel wird von allem anderen umgeben – unskripteten, naturalistischen Elementen wie Grashalmen, Blättern und Ästen, die sanft im Wind wehen, Staubwolken, die hinter den Autos aufwirbeln und wirbeln, glühende Kohlen und Funken, die aus einem Feuer schießen, und Regentropfen, die leise in einer öligen, schillernden Pfütze plätschern. Diese Inhalte sind sehr schwer zu erstellen und zu rendern. Traditionelle Spiel-Engines haben mit dieser visuellen Komplexität zu kämpfen und suchen nach Abkürzungen, um einen einfacheren Realismus zu erreichen, da der Speicherbedarf für hochauflösende Texturen und Geometrie die verfügbaren Ressourcen belastet. Auch die Simulationskosten steigen exorbitant an, bedingt durch volumetrische Beleuchtung, binaurales Audio, Physik und Charaktersimulation, die zusammen den Fotorealismus ausmachen.

Wir glauben, dass der beste Weg für Entwickler, diese Komplexität zu erstellen, und für Engines, sie zu rendern, darin besteht, eine hybride Architektur zu nutzen, in der ein nachtrainiertes Video-Weltmodell Texturen, Beleuchtung und fein abgestimmte Dynamiken auf der Grundlage der zugrunde liegenden Kamerabewegung, Geometrie und des kontextuellen Zustands der Engine generiert.

Die Architektur: Synchronisierung von Spielelogik und Videopixeln

Wir sind der Ansicht, dass ein hybrider Ansatz erforderlich ist, damit Entwickler hochauflösende Multiplayer-Interaktionen mit fotorealistischer Darstellung ermöglichen können. Wir nennen diesen Ansatz „Roblox Reality“, der die Roblox-Spiel-Engine, die Roblox-Cloud und ein Super-Upsampler-Roblox-Video-Weltmodell kombiniert.

Die hybride Architektur von Roblox Reality teilt die Aufgaben zwischen der Roblox-Spiel-Engine und dem Roblox-Video-Weltmodell auf.

Die Roblox Game Engine übernimmt die strukturierten und logischen Aspekte der Welt und bietet stabilen Langzeitspeicher, symbolische Logik und wiederholbare Simulationen. Sie ist zudem für grundlegende physikalische Vorgänge wie Kollisionen und Verhaltensweisen zuständig. Die primären Bewegungen von Objekten werden in der Engine verwaltet, beispielsweise die Position und Geschwindigkeit eines Autos, seiner Räder, Stoßdämpfer und Lenkung. Darauf aufbauend fügt das Video-Weltmodell zusätzliche visuelle und generative Komponenten hinzu, wie die Wassertropfen, die über die Windschutzscheibe laufen, und das Flattern der Blätter, wenn das Auto vorbeirauscht, und liefert so atemberaubende Bilder. Dieser Ansatz ermöglicht es der Game Engine, das Datenmodell (den gemeinsamen und konsistenten Zustand) zu verwalten, während das Video-Weltmodell die Pixel (den visuellen Traum) generiert.

Fähigkeit	Spiel-Engine (Roblox Cloud)	Super-Upsampler (Roblox-Videomodell)
Hauptfunktion	Verwaltet die gesamte Zustandssynchronisation, um die Konsistenz der Welt zu gewährleisten (Datenmodell, der gemeinsame und konsistente Zustand).	Verwaltet die visuellen und generativen Komponenten (Pixel, der visuelle Traum).
Kernaufgaben	Stellt stabiles Langzeitgedächtnis, symbolische Logik und wiederholbare Simulation bereit. Verantwortlich für grundlegende physikalische Eigenschaften (Materialien und Orte) und Operationen (Kollision und Raytracing).	Liefert stochastische Visualisierungen und atemberaubenden Realismus, sekundäre Bewegungen, natürliche dynamische Umgebungen und Flüssigkeitsphysik. Erzeugt Texturen mit höherer Wiedergabetreue, realistischere Beleuchtung und fein abgestimmte Dynamik.
Weltkonsistenz	Bietet Präzision, konsistenten Zustand und garantierte Konsistenz. Zentralisiert den Zustand in einer einzigen Quelle der Wahrheit.	Zieht seine Stärken aus der Erzeugung plausibler, hochdimensionaler Verhaltensweisen ohne explizite Simulation (z. B. die Steuerung einer lebhaften Menschenmenge). Arbeitet für jeden Spieler am Edge.
Verarbeitete Daten	Alles, was bei allen Spielern konsistent ist (Spieler, Positionen, Autos, Vögel, Gebäude, 3D-Szene).	Vergängliche Dinge, die die Spieler nicht exakt gleich sehen müssen (rostige Dosen, Vogelschwärme, Wolkenformen, Sandkörner, Gras).
Speicherkapazität	Datenmodell	Video-Latents
Eigenständige Einschränkung	Schwierigkeiten mit visueller Komplexität und hohem Rechenaufwand für Fotorealismus.	Schwierigkeiten bei der Durchsetzung strenger Regeln, beim Langzeitgedächtnis, bei der konsistenten Logik und bei den Daten zur Steuerung der Benutzereingaben.
Laufzeitinfrastruktur	Über 26 Edge-Rechenzentren weltweit, auf denen Millionen von Spielinstanzen laufen, nah am Nutzer für geringe Latenz, mit Spitzenwerten von über 45 Millionen gleichzeitigen Nutzern.	Super Upsampler läuft in benachbarten Edge-Rechenzentren und bietet optimale Leistung, angetrieben von GPUs der H200/B200-Klasse (oder gleichwertigen Beschleunigern).

Zusammen unterstützt diese Plattform die Erstellung unbegrenzter Inhalte mit umfassender Kontrolle für die Entwickler.

Unsere Entwicklungsziele für Roblox Reality umfassen die Erstellung eines Roblox-Videomodells, das eine Auflösung von 2K bei 60 Hz liefern kann, indem es die „Source of Truth“ aus der Roblox-Game-Engine bezieht: sowohl gerenderte Videos als auch räumliche 3D-Daten. Roblox Reality wird für den Betrieb auf einer Cloud-Edge-GPU-Infrastruktur in Verbindung mit Videostreaming optimiert und soll schließlich in den Roblox-Client integriert werden, um die lokale Avatarsteuerung und -simulation zu unterstützen.

Zusammenfassung

Roblox Reality stellt einen wichtigen Schritt zur Demokratisierung der Kreation dar und ermöglicht es jedem Entwickler, fotorealistische Spiele zu erstellen, indem er die Roblox-Game-Engine und das Videomodell nutzt. Dadurch werden die Entwicklungszeit, die Kosten und der Rechenaufwand, die traditionell für hochauflösende Grafiken erforderlich sind, erheblich reduziert. Dies macht die Erstellung fotorealistischer Spiele für unsere Entwickler schneller sowie kosten- und recheneffizienter. Angesichts der hohen Rechenkosten sind wir uns bewusst, dass es Herausforderungen gibt, die wir lösen müssen, bevor wir die Roblox Reality-Architektur skalieren können. Wir arbeiten bereits an Lösungen, die uns helfen, diese Architektur zu optimieren und ihre Effizienz zu steigern, damit wir sie kostengünstiger auf Millionen von gleichzeitigen Spielern skalieren können.

Vor allem freuen wir uns darauf, eine Plattform zu entwickeln, die Spiele ermöglicht, mit denen unsere Entwickler atemberaubende fotorealistische Multiplayer-Erlebnisse schaffen können!

Aktuell

Weitere Ergebnisse

Vorstellung der Roblox-Hybridarchitektur: Demokratisierung fotorealistischer Multiplayer-Spiele

Video-Weltmodelle: Stärken und Grenzen

Spiel-Engines: Stärken und Einschränkungen

Die Architektur: Synchronisierung von Spielelogik und Videopixeln

Zusammenfassung

Vorstellung der Roblox-Hybridarchitektur: Demokratisierung fotorealistischer Multiplayer-Spiele

Video-Weltmodelle: Stärken und Grenzen

Spiel-Engines: Stärken und Einschränkungen

Die Architektur: Synchronisierung von Spielelogik und Videopixeln

Zusammenfassung

Technik

Erweiterung unseres Klassifikators für Sprachsicherheit um 22 neue Sprachen und präzisere Erkennungsfunktionen

Nachrichten

Pionierhafte KI-Gründer schließen sich zusammen, um die „Roblox Reality“-Vision voranzutreiben

Technik

CubePart: Ein 3D-Generator mit offenem Vokabular und Teilsteuerung