Skip to content

Robloxハイブリッドアーキテクチャの紹介:フォトリアリスティックなマルチプレイヤーゲームの民主化

私たちのビジョンRobloxの現実

本日は、ハイパースケールなマルチプレイヤーゲームとフォトリアリズムを融合させる社内プロジェクト「Roblox Reality」に関する技術的な知見をご紹介します。 これは、マルチプレイヤー型没入型ワールドの制作および体験方法における根本的な変革になると考えています。今年後半または来年初頭に早期バージョンとして提供される予定の「Roblox Reality」は、当社の分散型ゲームエンジンによる構造化シミュレーションと、スーパーサンプリングのためのエッジベースのビデオワールドモデルを組み合わせたハイブリッドアーキテクチャです。このアーキテクチャにより、あらゆる規模のクリエイターが、開発コストを増やすことなく、従来の永続性と構造の上に、これまでにない視覚的忠実度と動きを融合させたインタラクティブなワールドを作成・維持できるようになります。

Roblox Realityは、Roblox CloudとGame Engineの機能と、Video World Modelsのフォトリアリズムを融合させたハイブリッドアーキテクチャです。コアとなるワールドの状態は、サーバー上に耐久性かつ効率的に保存され、コストと容量効率に優れたストレージを活用することで、クライアント間の一貫性を確保し、時間、セッション、日単位での一貫性をサポートします。 マルチプレイヤーゲームプレイは、公平性と一貫性を確保するための強力なサーバー主導型アーキテクチャと、低遅延を実現するためのクライアントサイドでの推定シミュレーションによってサポートされます。レンダリングにおいては、クラウドベースのLOD(詳細度)および合成システムが、コンテンツ配信ネットワーク(CDN)を介して配信される高精細なアセットを生成します。 Robloxビデオモデル(Super Upsampler)は、レンダリングされたビデオと豊富なデータモデルのコンテキストを活用して、確率的なビジュアルと圧倒的なリアリズムを生み出します。これは、クラウドエッジGPUインフラストラクチャによって駆動される最適なパフォーマンスで、すべてのプレイヤーのエッジ側で動作します。その後、機能豊富なRobloxクライアントがこのビデオフィードをレンダリングし、将来的にはオプションとしてローカルでレンダリングされたアップサンプリングされたアバターをオーバーレイすることで、前景のアクションにおける極めて低いレイテンシーを維持します。

以下のデモでは、異なるゲームの動画を4本ご紹介します。左上の動画は、現在のRobloxレンダリングエンジンを使用して記録されたRobloxコンテンツであり、右上の動画は、動画生成の条件付けに使用できる3Dデータの表現です。 左下の動画は、当研究所で稼働中の現行のRobloxアップサンプリング動画モデルを示していますが、これはまだリアルタイムで動作していません。右下の動画は、当社の製品ビジョンと、この技術によって将来実現可能なことを示したモックアップです。

ビデオ・ワールド・モデル:長所と制約

ビデオワールドモデルは、個々の相互作用を逐一明示的にシミュレートすることなく、説得力のある高次元な挙動を生成することに優れています。

ビデオ潜在空間内でビデオワールドモデルを動作させるには、特定の技術的制約がある。現在、この処理には多大なコストがかかり、2K解像度・60Hzといった高精細なリアルタイム性能を実現することは、依然として開発上の課題となっている。 決定的な点として、ワールド状態がビデオ空間で表現されているため、これらのモデルは現時点ではマルチプレイヤーに対応していません。重要な制約の一つは、シミュレーションの忠実度と視覚的な妥当性のバランスです。単にビデオの中で500人が動いているのを見るだけでは、彼らが個別のエージェントや「脳を持つアバター」であるとは限りません。現在のビデオモデルのスケールでは、真のマルチプレイヤー体験に必要な、複雑で個別化されたエージェントシミュレーションを本質的にサポートすることは期待できません。

この機能は、リアルタイムで反応する2万人の生きた群衆を管理する際に不可欠である。しかし、ビデオ・ワールド・モデルだけでは、2時間にわたるセッションにおける複数プレイヤー間の相互作用を確実に管理することはできない。ワールド・モデルは、長期記憶と一貫したロジックが欠如しているため、厳格なルール適用や永続的な状態の管理に苦戦する。 ビデオ・ワールド・モデルにはユーザー入力の制御データが欠如しており、それがビデオ・ワールド・モデルをプレイしても面白くない理由だ。ビデオ・ワールド・モデルは、持続的な状態、一貫した論理、ユーザー入力の制御、そして真のマルチプレイヤー・エージェントシミュレーションに苦戦しているため、現在のモデルはむしろ「誘導された夢」のようなものだ。

今日見られるインタラクティブ・ビデオ・モデルは印象的ですが、基本的には鮮やかな夢のようなものです。見る分には壮観ですが、儚く、信じられないほど孤独です。そこには、インタラクティブ性、挑戦、報酬、持続性――つまり、ゲームをゲームたらしめるあらゆる要素が欠けています。 

純粋なニューラル・ワールド・モデルだけでは、広大で持続的なマルチプレイヤー体験という約束を果たすことはできません。ニューラル・ワールド・モデルは多くの点で印象的ですが、多くの重要な領域で失敗しています。その一部には、単一セッション内での時間的整合性、セッションを跨ぐ長期記憶、レイテンシー、そしてクリエイターによるきめ細かな制御などが含まれます。一貫したマルチプレイヤーシミュレーション、厳密な対戦型ゲームプレイ、高度に知能化されたNPC、テスト、そして段階的な改良について考えると、より目立たないギャップが浮き彫りになります。

ニューラルエンジンにゲームエンジンになることを求めるべきではありません。 

ゲームエンジン:強みと制約

Roblox CloudとEngineは、ビデオワールドモデルと強力に補完し合います。再現可能な精度、セッション間の一貫した状態、そして時間軸を超えた永続性を備えているからです。例えば、F1モナコグランプリのゲームを制作するクリエイターを想定してみましょう。彼らは、厳密な得点・ペナルティシステム、道路、観衆、自然環境、そして複数のドライバー間の瞬時の同期をモデル化しています。しかし、この精度には実装と実行時のコストが伴います。視覚的な忠実度を高めるには、大容量のアセット、複雑なライティング、そしてシミュレーションが必要となります。

今後10年間、ハイエンドなゲームエンジンの出力はリアリズムの面で進化し続けるでしょうが、開発者の高度な技術力や消費者向けハードウェアへの要求も同様に高まっていくでしょう。 

業界がこれまで解決できていない課題は、大規模なハイパーリアリズムを実現しつつ、大小さまざまな開発者が利用可能にし、広く普及しているコンシューマー向けハードウェア上で動作させる方法である。

その理由は、現実世界が極めて精緻なディテールに満ちているからです。ゲームの本編を取り囲むように、草の葉や木々の枝が風にそよぐ様子、車の後方で渦巻く砂塵の雲、炎から飛び散る燃えさしや火花、油で光る虹色の水たまりに静かに跳ねる雨粒など、スクリプト化されていない自然主義的な要素がすべて存在します。こうしたコンテンツの作成とレンダリングは非常に困難です。 従来のゲームエンジンは、この視覚的な複雑さに苦戦し、高解像度のテクスチャやジオメトリによるメモリ負荷がリソースを圧迫するため、より単純なリアリズムを表現するための近道を探しています。また、フォトリアリズムを構成するボリュームライティング、バイノーラルオーディオ、物理演算、キャラクターシミュレーションにより、シミュレーションコストも法外な水準にまで膨れ上がっています。

クリエイターがこの複雑さを構築し、エンジンがそれをレンダリングするための最善の方法は、ポストトレーニングされた「ビデオ・ワールド・モデル」を活用するハイブリッドアーキテクチャを採用することだと我々は考えています。このモデルは、エンジンの基盤となるカメラの動き、ジオメトリ、およびコンテキスト状態の上に、テクスチャ、ライティング、そして微細なダイナミクスを生成します。

アーキテクチャ:ゲームロジックとビデオピクセルの同期

クリエイターがフォトリアリスティックな出力による高精細なマルチプレイヤーインタラクションを実現するには、ハイブリッドなアプローチが必要だと考えています。このアプローチを「Roblox Reality」と呼び、Roblox Game Engine、Roblox Cloud、そしてSuper Upsampler Roblox Video World Modelを組み合わせたものです。

Roblox Realityのハイブリッドアーキテクチャは、Roblox Game EngineとRoblox Video World Modelの間で役割を分担します。 

Roblox Game Engineは、ワールドの構造的・論理的側面を処理し、安定した長期メモリ、記号論理、再現可能なシミュレーションを提供します。また、衝突や挙動といった基本的な物理演算も担当します。オブジェクトの主要な動き(例えば、車、その車輪、ショックアブソーバー、ステアリングの位置や速度など)は、このエンジン内で管理されます。 これを基盤として、ビデオ・ワールド・モデルは、フロントガラスを伝う水滴や、車が疾走する際に揺れる葉っぱといった、追加の視覚的・生成的なコンポーネントを重ね合わせ、息をのむようなビジュアルを実現します。このアプローチにより、ゲームエンジンはデータモデル(共有され一貫性のある状態)を維持しつつ、ビデオ・ワールド・モデルがピクセル(視覚的な夢)を生成することが可能になります。

機能

ゲームエンジン
(Roblox Cloud)

スーパーアップサンプリング
(Roblox Video Model)

主な機能

ワールドの一貫性を保つために、すべての状態同期を処理します(データモデル、共有かつ一貫性のある状態)。

ビジュアルおよび生成コンポーネント(ピクセル、ビジュアルな夢)を管理します。

主な役割

安定した長期記憶、記号論理、および再現可能なシミュレーションを提供する。基本的な物理特性(マテリアルや位置)および演算(衝突判定やレイトレーシング)を担当する。

確率的なビジュアルと息をのむようなリアリズム、二次的な動き、自然な動的環境、流体物理を実現する。高精細なテクスチャ、よりリアルな照明、微細なダイナミクスを生成する。

ワールドの一貫性

精度、一貫した状態、および保証された整合性を提供する。状態を単一の「真実の源」に集約する。

明示的なシミュレーションなしに、説得力のある高次元な挙動(例:生きた群衆の管理)を生成することに優れている。各プレイヤーのエッジで動作する。

処理対象データ

すべてのプレイヤー間で一貫性のあるものすべて(プレイヤー、位置、車、鳥、建物、3Dシーン)。

プレイヤーが完全に同じものを見る必要のない一時的なもの(錆びた缶、鳥の群れ、雲の形、砂粒、草)。

メモリの保存

データモデル

ビデオラテン

スタンドアローン制約

フォトリアリズムのための視覚的な複雑さと高い計算負荷に苦労している。

厳格なルール適用、長期記憶、一貫したロジック、およびユーザー入力制御データへの対応に苦労している。

ランタイムインフラ

世界中に26カ所以上のエッジデータセンターを展開し、数百万のゲームインスタンスを実行。ユーザーに近い位置に配置することで低遅延を実現し、同時接続数は最大4,500万以上に達する。

Super Upsamplerは隣接するエッジデータセンターで稼働し、H200/B200クラスのGPU(または同等のアクセラレータ)により最適なパフォーマンスを実現します。 

これらを組み合わせることで、クリエイターが高度な制御を行える、無限のコンテンツ制作を可能にするプラットフォームを実現しています。

Roblox Realityの開発目標は、Robloxゲームエンジンから「ソース・オブ・トゥルース」(信頼できるデータ源)であるレンダリング済み動画と3D空間データの両方を取得し、2K解像度・60Hzを実現できる「Robloxビデオモデル」を構築することです。Roblox Realityは、ビデオストリーミングと連携したクラウドエッジGPUインフラ上で動作するように最適化されるほか、将来的にはRobloxクライアントと統合され、ローカルでのアバター制御やシミュレーションをサポートする予定です。

概要

Roblox Realityは、創作の民主化に向けた大きな一歩であり、あらゆるクリエイターがRoblox Game EngineとVideo Modelを活用してフォトリアリスティックなゲームを構築できるようにします。これにより、従来、高精細なグラフィックスに必要とされていた開発時間、コスト、および計算リソースを大幅に削減します。その結果、クリエイターにとって、フォトリアリスティックなゲームの作成がより迅速になり、コストと計算リソースの効率も向上します。 高い計算コストを考慮すると、Roblox Realityのアーキテクチャをスケールさせる前に解決すべき課題があることは認識しています。私たちはすでに、このアーキテクチャの最適化と効率向上に向けた解決策に取り組んでおり、これにより数百万人の同時接続プレイヤーに対して、より手頃なコストでスケールできるようにすることを目指しています。

何よりも、クリエイターが素晴らしいマルチプレイヤーのフォトリアリスティックな体験を構築できるゲームを実現するプラットフォームを構築できることに、私たちは大きな期待を寄せています!