Skip to content

介紹 Roblox 混合架構:逼真的多人遊戲民主化

我們的願景:Roblox 現實

今天,我們將分享關於一個名為「Roblox Reality」的內部專案的技術見解,該專案旨在將超大規模多人遊戲與寫實圖像技術相結合。 我們相信,這將徹底改變多人沉浸式世界的建構與體驗方式。Roblox Reality 預計將於今年稍晚或明年初推出早期版本,其採用混合式架構,結合了我們分散式遊戲引擎的結構化模擬技術,以及用於超取樣的邊緣端視訊世界模型。此架構將賦予各規模的創作者能力,使其能在不增加開發成本的前提下,打造並維護兼具前所未見視覺保真度與動態表現,同時保留傳統持久性與結構的互動世界。

Roblox Reality 是一種混合架構,融合了 Roblox Cloud 與遊戲引擎的能力,以及視訊世界模型的寫實效果。核心世界狀態會以持久且高效的方式儲存於伺服器上,透過節省成本與空間的儲存方案,確保跨客戶端的一致性,並支援跨時間、跨會話及跨日的一致性。 多人遊戲玩法透過強大的伺服器權威機制確保公平性與一致性,並結合預測性的客戶端模擬以實現低延遲。在渲染方面,基於雲端的細節等級 (LOD) 與合成系統會生成高保真資產,並透過內容傳遞網路 (CDN) 進行傳輸。 Roblox 視訊模型(Super Upsampler)利用渲染後的視訊與豐富的資料模型脈絡,生成隨機視覺效果與驚人的真實感,並透過雲端-邊緣 GPU 基礎設施,在每位玩家的邊緣裝置上運行以實現最佳效能。隨後,功能豐富的 Roblox 客戶端將渲染此視訊串流,未來還可選擇性地疊加本地渲染的升採樣化身,以維持前景動作的極低延遲。

在以下示範中,我們展示了四段來自不同遊戲的影片。左上角的影片是使用當今 Roblox 渲染引擎錄製的 Roblox 內容,右上角的影片則呈現了可用於引導影片生成的 3D 資料。 左下方的影片展示目前在我們實驗室中運行的 Roblox 超採樣影片模型,該模型目前尚無法即時運行;右下方的影片則呈現了我們對產品願景的模擬,以及這項技術未來可能實現的成果。

視訊世界模型:優勢與限制

視訊世界模型擅長生成合理且高維度的行為,無需明確模擬每一個個別的互動。

在影片潛在空間中運行影片世界模型面臨特定的技術限制:目前該過程成本高昂,且實現高保真、即時性能(例如 2K 解析度下 60 Hz 幀率)仍是開發上的挑戰。 關鍵在於,由於世界狀態以視訊空間呈現,這些模型目前尚不支援多人連線。一項主要限制在於模擬保真度與視覺合理性之間的權衡:僅僅在影片中看到 500 人在移動,並不意味著他們是獨立的代理或「具備思維的虛擬角色」。目前視訊模型的規模,預計無法本質上支援真正多人連線體驗所需的複雜、個性化代理模擬。

當需管理 20,000 人組成的動態群眾並使其即時反應時,這項能力至關重要。然而,僅憑視訊世界模型無法可靠地管理兩小時遊戲時段內多名玩家之間的互動。由於缺乏長期記憶與一致的邏輯,世界模型在嚴格執行規則與維持持久狀態方面面臨困難。 視訊世界模型缺乏使用者輸入控制資料,這正是遊玩視訊世界模型缺乏樂趣的原因。由於視訊世界模型在持續狀態、一致邏輯、使用者輸入控制以及真正的多人代理模擬方面皆面臨挑戰,當前的模型更像是受引導的夢境。

當今我們所見的互動式影片模型固然令人驚嘆,但本質上不過是生動的夢境——視覺效果壯觀,卻轉瞬即逝且極度孤獨。它們缺乏互動性、挑戰性、回饋感與持久性——也就是構成遊戲的核心要素。 

僅憑純粹的神經世界模型,無法實現遼闊且持久的多人遊戲體驗。儘管神經世界模型在許多方面令人印象深刻,但在許多關鍵領域卻未能達標。其中包括單次會話中的時序一致性、跨會話的長期記憶、延遲問題,以及創作者對細節的精細控制。若進一步考量一致的多人遊戲模擬、嚴謹的競技玩法、高度智能的NPC、測試流程以及漸進式優化,則會發現更多不那麼顯而易見的缺口。

我們不該要求神經引擎成為遊戲引擎。 

遊戲引擎:優勢與限制

Roblox Cloud 與引擎與視訊世界模型具有高度互補性,具備可重播的精確度、跨會話的一致狀態,以及跨時間的持久性。以創作者開發一級方程式摩納哥大獎賽遊戲為例,他們需要建模精確的計分與罰則系統、道路、人群、自然景觀,以及多名車手之間的即時同步。然而,這種精確度需付出實作與執行時的代價。提升視覺保真度需要龐大的資源、複雜的光照效果與模擬運算。

在未來十年,高端遊戲引擎的輸出效果將持續提升寫實度,但對開發者專業能力及消費者硬體的要求亦將同步提高。 

業界至今仍未能解決的挑戰在於:如何在廣泛普及的消費級硬體上,以大規模方式呈現超寫實效果,同時讓大小開發者都能輕鬆運用。

這是因為現實世界充滿精緻的細節。環繞核心遊戲的,是所有其他元素——那些未經編排、自然生動的細節,例如隨風輕拂的草葉與枝椏、車輛後方翻騰盤旋的塵霧、從火堆中迸發的熾熱餘燼與火花,以及在油亮且泛著虹彩的水窪中靜靜濺落的雨滴。這類內容的製作與渲染極為困難。 傳統遊戲引擎難以應對這種視覺複雜性,往往尋求捷徑來呈現較為簡化的寫實效果,因為高解析度貼圖與幾何體的記憶體開銷會耗盡可用資源。此外,構成光影寫實效果的體積光照、雙耳音效、物理模擬及角色模擬,其運算成本也隨之飆升至難以承受的程度。

我們相信,對於創作者建構以及引擎渲染這般複雜場景的最佳方式,在於運用一種混合式架構:透過預先訓練的「影像世界模型」(Video World Model),在引擎底層的鏡頭運動、幾何結構及情境狀態之上,生成紋理、光照與細微動態。

架構:同步遊戲邏輯與影像像素

我們認為,必須採用混合式方法,才能讓創作者提供兼具高保真多人互動與寫實級輸出的體驗。我們將此方法稱為「Roblox Reality」,它結合了 Roblox 遊戲引擎、Roblox 雲端服務,以及一個具備超級上採樣能力的 Roblox 視訊世界模型。

Roblox Reality 混合架構將職責分配給 Roblox 遊戲引擎與 Roblox 視訊世界模型。 

Roblox 遊戲引擎負責處理世界的結構與邏輯層面,提供穩定的長期記憶、符號邏輯及可重複的模擬。它同時負責碰撞與行為等基礎物理運算。物體的主要移動由引擎管理,例如汽車的位置與速度、其輪胎、避震器及轉向系統。 在此基礎上,影像世界模型疊加了額外的視覺與生成式元件,例如沿著擋風玻璃流淌的水珠,以及汽車疾馳而過時飄動的樹葉,呈現出令人屏息的視覺效果。這種方法讓遊戲引擎得以維持資料模型(共享且一致的狀態),同時由影像世界模型生成像素(視覺夢境)。

功能

遊戲引擎
(Roblox Cloud)

超級上採樣器
(Roblox 視訊模型)

主要功能

處理所有狀態同步,以維持世界的一致性(資料模型,即共享且一致的狀態)。

管理視覺與生成式元件(像素,視覺夢境)。

核心職責

提供穩定的長期記憶、符號邏輯及可重複的模擬。負責基礎物理屬性(材質與位置)及運算(碰撞與光線追蹤)。

呈現隨機視覺效果與令人屏息的寫實感、次級運動、自然的動態環境,以及流體物理。生成更高精度的紋理、更逼真的光照,以及細微的動態效果。

世界一致性

提供精確性、一致的狀態及保證的一致性。將狀態集中於單一可信來源。

擅長在無需顯式模擬的情況下生成合理的高維度行為(例如管理動態人群)。針對每位玩家在邊緣裝置上運行。

處理的資料

所有在所有玩家之間保持一致的元素(玩家、位置、車輛、鳥類、建築物、3D 場景)。

玩家無需精確同步的瞬態元素(生鏽罐頭、鳥群、雲朵形狀、沙粒、草叢)。

記憶體儲存

資料模型

視訊延遲

獨立限制

難以應對視覺複雜性,且實現逼真效果需要高運算需求。

在嚴格規則執行、長期記憶、邏輯一致性以及使用者輸入控制資料方面面臨挑戰。

執行時基礎架構

全球 26 個以上的邊緣資料中心,運行數百萬個遊戲實例,貼近用戶以實現低延遲,峰值同時在線用戶超過 4,500 萬。

Super Upsampler 運行於相鄰的邊緣資料中心,並由 H200/B200 級 GPU(或同等效能的加速器)驅動,提供最佳效能 

整體而言,此平台支援無限的內容創作,並賦予創作者深度控制權。

我們針對 Roblox Reality 的開發目標,在於打造一款 Roblox 視訊模型,該模型能透過從 Roblox 遊戲引擎擷取「真實來源」——包括渲染後的視訊與 3D 空間資料——來提供 2K 解析度與 60 Hz 的輸出。Roblox Reality 將針對雲端邊緣 GPU 基礎設施進行優化,並結合視訊串流功能;最終將與 Roblox 客戶端整合,以支援本地化虛擬角色控制與模擬。

摘要

Roblox Reality 代表著創作民主化的一大步,讓任何創作者都能透過 Roblox 遊戲引擎和視訊模型來打造逼真的遊戲,大幅減少傳統高保真圖形所需的開發時間、成本和運算資源。這使得創作者能更快速、更經濟且更有效率地製作逼真的遊戲。 鑑於高昂的運算成本,我們意識到在擴展 Roblox Reality 架構之前,尚有諸多挑戰亟待解決。我們正致力於開發解決方案,以優化並提升此架構的效率,從而能以更經濟的方式將其擴展至數百萬名同時在線玩家。

最重要的是,我們非常期待打造一個平台,釋放遊戲的潛力,讓創作者能打造出令人驚嘆的多人實景級遊戲體驗!