Skip to content

介绍 Roblox 混合架构:将逼真的多人游戏民主化

我们的愿景Roblox 现实

今天,我们将分享一个名为“Roblox Reality”的内部项目的技术见解,该项目旨在将超大规模多人在线游戏与写真级画面效果相结合。 我们相信,这将彻底改变多人沉浸式世界的构建与体验方式。Roblox Reality 预计将于今年晚些时候或明年初推出早期版本,它采用了一种混合架构,将我们分布式游戏引擎的结构化模拟与基于边缘计算的视频世界模型相结合,以实现超采样。这种架构将赋能各类规模的创作者,使其能够构建并维护交互式世界,在传统持久性和结构的基础上融合前所未有的视觉保真度和动态表现,且无需增加开发成本。

Roblox Reality 是一种混合架构,融合了 Roblox 云和游戏引擎的能力,以及视频世界模型的写真级画质。核心世界状态会持久且高效地存储在服务器上,以确保客户端之间的一致性,并利用成本和空间高效的存储方案,支持跨时间、会话和日期的数据一致性。 多玩家游戏通过强大的服务器权威性保障公平性和一致性,同时配合客户端的推测性模拟以实现低延迟。在渲染方面,基于云端的细节等级(LOD)和合成系统生成高保真资产,并通过内容分发网络(CDN)进行分发。 Roblox 视频模型(超级上采样器)利用渲染视频和丰富的数据模型上下文,生成随机视觉效果和惊人的真实感,并在云端-边缘 GPU 基础设施的驱动下,为每位玩家提供最佳性能的边缘计算。随后,功能丰富的 Roblox 客户端将渲染此视频流,未来还可选择性地叠加本地渲染的上采样化身,以保持前景动作的极低延迟。

在下面的演示中,我们展示了四段来自不同游戏的视频。左上角的视频是使用当前 Roblox 渲染引擎录制的 Roblox 内容,右上角的视频则展示了我们可用于引导视频生成的 3D 数据。 左下角的视频展示了目前在实验室运行的 Roblox 视频上采样模型,该模型尚无法实时运行;右下角的视频则展示了我们对产品愿景的构想,以及这项技术未来可能实现的效果。

视频世界模型:优势与局限

视频世界模型擅长生成合乎情理的高维行为,而无需显式模拟每个单独的交互。

在视频潜空间中运行视频世界模型面临特定的技术限制:该过程目前成本高昂,且实现高保真、实时性能(例如 2K 分辨率下 60 Hz 帧率)仍是开发中的挑战。 关键在于,由于世界状态以视频空间形式呈现,这些模型目前尚不支持多人联机。一个主要制约因素在于模拟保真度与视觉合理性之间的权衡:仅仅在视频中看到500人移动,并不意味着他们是独立的智能体或“拥有思维的虚拟化身”。预计当前视频模型的规模无法天然支持真正多人联机体验所需的复杂、个性化智能体模拟。

在管理一个由20,000人组成的、实时反应的动态人群时,这一能力至关重要。然而,仅凭视频世界模型无法可靠地管理两小时游戏会话中多名玩家之间的交互。由于缺乏长期记忆和一致的逻辑,世界模型在严格执行规则和维持持久状态方面存在困难。 视频世界模型缺乏用户输入控制数据,这正是体验视频世界模型缺乏乐趣的原因。由于视频世界模型在持久状态、一致逻辑、用户输入控制以及真正的多人代理模拟方面存在困难,当前的模型更像是受引导的梦境。

如今我们所见的交互式视频模型虽令人惊叹,但本质上仍是生动的梦境——视觉效果壮观,却转瞬即逝且极其孤独。它们缺乏交互性、挑战性、奖励机制和持久性——这些正是构成游戏的核心要素。 

仅凭纯粹的神经世界模型,无法兑现那种广阔且持久的多人游戏体验的承诺。尽管神经世界模型在许多方面令人印象深刻,但在诸多关键领域却表现欠佳。其中包括单次会话中的时序连贯性、跨会话的长期记忆、延迟问题,以及创作者对细节的精细控制。若进一步考量一致的多人游戏模拟、严苛的竞技玩法、高度智能的NPC、测试流程以及渐进式优化,那些不那么显而易见的缺陷便会浮出水面。

我们不应要求神经引擎去承担游戏引擎的职责。 

游戏引擎:优势与局限

Roblox云平台与引擎与视频世界模型具有高度互补性。它们具备可回放的精准度、跨会话的一致状态以及跨时间的持久性。以一位正在制作F1摩纳哥大奖赛游戏的创作者为例。他们需要建模精确的计分和处罚系统、赛道、人群、自然环境,以及多车手之间的即时同步。然而,这种精准度需要付出实现和运行时的代价。提高视觉保真度需要庞大的资源、复杂的光照和模拟。

在未来十年里,高端游戏引擎的输出效果将在逼真度上持续进步,但对开发者技术水平和消费者硬件的要求也将随之提高。 

迄今为止,业界尚未解决的挑战在于:如何在保持大规模超写实表现的同时,让大小规模的开发者都能轻松实现,并适配广泛普及的消费级硬件。

这是因为现实世界拥有极其精妙的细节。围绕核心游戏的是其他一切——那些未预设的、自然主义的元素,例如随风轻拂的草叶与枝桠,汽车后方翻腾盘旋的尘埃,从火堆中迸射出的炽热余烬与火花,以及在油光泛着虹彩的水洼中静静溅落的雨滴。这类内容的制作和渲染难度极高。 传统游戏引擎难以应对这种视觉复杂性,往往寻求捷径来呈现简化的真实感,因为高分辨率纹理和几何体带来的内存开销会挤占可用资源。而构成写真级效果的体积光照、双耳音频、物理模拟和角色模拟,更将模拟成本推向了天价。

我们认为,创作者构建以及引擎渲染这种复杂场景的最佳方式,是利用一种混合架构:在引擎底层的摄像机运动、几何体和上下文状态之上,由经过后训练的视频世界模型生成纹理、光照和精细动态效果。

架构:同步游戏逻辑与视频像素

我们认为,需要采用混合方法才能让创作者提供具有写真级输出效果的高保真多人互动体验。我们将这种方法称为“Roblox Reality”,它结合了 Roblox 游戏引擎、Roblox 云以及一个超级上采样 Roblox 视频世界模型。

Roblox Reality 混合架构将职责划分给 Roblox 游戏引擎和 Roblox 视频世界模型。 

Roblox 游戏引擎负责处理世界的结构化和逻辑方面,提供稳定的长期内存、符号逻辑和可重复的模拟。它还负责碰撞和行为等基础物理操作。物体的主要运动由引擎管理,例如汽车的位置和速度,以及其车轮、减震器和转向。 在此基础上,视频世界模型叠加了额外的视觉和生成组件,例如沿挡风玻璃流淌的水珠,以及汽车疾驰而过时树叶的飘动,从而呈现出令人叹为观止的视觉效果。这种方法使游戏引擎能够维护数据模型(共享且一致的状态),而视频世界模型则负责生成像素(视觉奇观)。

功能

游戏引擎
(Roblox Cloud)

超级上采样器
(Roblox 视频模型)

主要功能

处理所有状态同步,以保持世界的一致性(数据模型,即共享且一致的状态)。

管理视觉和生成组件(像素,视觉呈现)。

核心职责

提供稳定的长期记忆、符号逻辑和可重复的模拟。负责基础物理属性(材质和位置)及操作(碰撞和光线追踪)。

呈现随机视觉效果与令人惊叹的真实感、次级运动、自然的动态环境以及流体物理。生成更高保真度的纹理、更逼真的光照以及精细的动态效果。

世界一致性

提供精准性、一致的状态及保证的一致性。将状态集中到单一可信数据源。

擅长在无需显式模拟的情况下生成合理的高维行为(例如管理动态人群)。为每位玩家在边缘设备上运行。

处理数据

所有在所有玩家间保持一致的数据(玩家、位置、车辆、飞鸟、建筑物、3D场景)。

玩家无需精确同步的瞬息万变之物(生锈的罐头、鸟群、云朵形状、沙粒、草丛)。

内存存储

数据模型

视频延迟

独立约束

难以应对视觉复杂性,且逼真效果的计算需求很高。

难以严格执行规则、处理长期记忆、保持逻辑一致性,以及控制用户输入数据。

运行时基础设施

全球26+个边缘数据中心,运行数百万个游戏实例,贴近用户以实现低延迟,峰值并发量超过4500万。

Super Upsampler运行于相邻的边缘数据中心,由H200/B200级GPU(或同等性能的加速器)驱动,性能表现优异 

该平台综合支持无限内容创作,并赋予创作者深度控制权。

我们为 Roblox Reality 设定的开发目标是创建一个 Roblox 视频模型,该模型能够通过从 Roblox 游戏引擎中提取权威数据源(包括渲染视频和 3D 空间数据),以 60 Hz 的帧率输出 2K 分辨率画面。Roblox Reality 将针对云边缘 GPU 基础设施进行优化,并结合视频流媒体技术运行,最终将与 Roblox 客户端集成,以支持本地化虚拟角色控制和模拟。

摘要

Roblox Reality 是创作民主化进程中的重要一步,它使任何创作者都能利用 Roblox 游戏引擎和视频模型来构建逼真的游戏,从而显著减少传统高保真图形所需的开发时间、成本和计算资源。这使得创作者能够更快、更经济、更高效地创建逼真的游戏。 鉴于高昂的计算成本,我们意识到在扩展 Roblox Reality 架构之前,还有一些挑战需要解决。我们正在致力于优化该架构并提升其效率,以便能够以更经济的方式将其扩展至支持数百万同时在线玩家。

最重要的是,我们非常期待打造一个平台,让创作者能够开发出令人惊叹的多人在线逼真游戏体验!