Skip to content

로블록스 하이브리드 아키텍처를 소개합니다: 포토리얼한 멀티플레이어 게임의 대중화

우리의 비전: 로블록스 현실

오늘은 하이퍼스케일 멀티플레이어 게임과 포토리얼리즘을 결합한 내부 프로젝트인 ‘Roblox Reality’에 대한 기술적 통찰을 공유하고자 합니다. 우리는 이것이 멀티플레이어 몰입형 월드의 제작 및 경험 방식에 있어 근본적인 변화라고 믿습니다. 올해 말이나 내년 초에 초기 버전이 출시될 예정인 'Roblox Reality'는 분산형 게임 엔진의 구조화된 시뮬레이션과 슈퍼샘플링을 위한 엣지 기반 비디오 월드 모델을 결합한 하이브리드 아키텍처입니다. 이 아키텍처를 통해 모든 규모의 크리에이터는 개발 비용을 늘리지 않고도, 기존의 지속성과 구조 위에 전례 없는 수준의 시각적 충실도와 모션을 결합한 인터랙티브 월드를 제작하고 유지할 수 있게 될 것입니다.

Roblox Reality는 Roblox Cloud와 게임 엔진의 기능을 비디오 월드 모델의 포토리얼리즘과 결합한 하이브리드 아키텍처입니다. 핵심 월드 상태는 서버에 내구적이고 효율적으로 저장되어 클라이언트 간 일관성을 보장하며, 비용 및 공간 효율적인 스토리지를 통해 시간, 세션, 일 단위로 일관성을 유지합니다. 멀티플레이어 게임플레이는 공정성과 일관성을 위한 강력한 서버 권한과 함께, 낮은 지연 시간을 달성하기 위한 클라이언트 측의 추측적 시뮬레이션을 통해 지원됩니다. 렌더링의 경우, 클라우드 기반의 디테일 레벨(LOD) 및 합성 시스템이 고품질 자산을 생성하며, 이는 콘텐츠 전송 네트워크(CDN)를 통해 전달됩니다. Roblox 비디오 모델(Super Upsampler)은 렌더링된 비디오와 풍부한 데이터 모델 컨텍스트를 활용하여 확률적 비주얼과 놀라운 사실감을 구현하며, 클라우드-엣지 GPU 인프라를 기반으로 모든 플레이어에게 최적의 성능을 제공하며 엣지 환경에서 작동합니다. 이후 풍부한 Roblox 클라이언트가 이 비디오 피드를 렌더링하고, 향후 선택적으로 로컬에서 렌더링된 업샘플링된 아바타를 오버레이하여 전경 액션에 대한 매우 낮은 지연 시간을 유지할 수 있습니다.

아래 데모에서는 서로 다른 게임의 영상 4개를 보여드립니다. 왼쪽 상단의 영상은 현재 로블록스 렌더링 엔진을 사용하여 녹화한 로블록스 콘텐츠이며, 오른쪽 상단의 영상은 영상 생성을 제어하는 데 사용할 수 있는 3D 데이터를 시각화한 것입니다. 왼쪽 하단 영상은 현재 저희 연구실에서 실행 중인 로블록스 업샘플링 비디오 모델을 보여주며, 아직 실시간으로 실행되지는 않습니다. 오른쪽 하단 영상은 저희의 제품 비전과 이 기술을 통해 미래에 가능해질 모습을 보여주는 모형입니다.

비디오 월드 모델: 장점과 한계

비디오 월드 모델은 모든 개별 상호작용을 명시적으로 시뮬레이션할 필요 없이, 타당하고 고차원적인 행동을 생성하는 데 탁월합니다.

비디오 잠재 공간 내에서 비디오 월드 모델을 구동하는 데는 특정한 기술적 한계가 존재한다. 현재 이 과정은 비용이 많이 들며, 60Hz에서 2K 해상도와 같은 고품질 실시간 성능을 구현하는 것은 여전히 개발상의 과제이다. 중요한 점은, 월드 상태가 비디오 공간으로 표현되기 때문에 이러한 모델은 현재 멀티플레이어를 지원하지 않는다는 것입니다. 핵심적인 제약 조건은 시뮬레이션의 정밀도와 시각적 타당성 사이의 균형입니다. 단순히 비디오에서 500명이 움직이는 것을 본다고 해서 그들이 개별화된 에이전트이거나 "두뇌를 가진 아바타"라는 의미는 아닙니다. 현재의 비디오 모델 규모로는 진정한 멀티플레이어 경험에 필요한 복잡하고 개별화된 에이전트 시뮬레이션을 본질적으로 지원할 수 있을 것으로 예상되지 않습니다.

이 기능은 실시간으로 반응하는 2만 명의 살아있는 군중을 관리할 때 필수적이다. 그러나 비디오 월드 모델만으로는 2시간에 걸친 세션 동안 여러 플레이어 간의 상호작용을 안정적으로 관리할 수 없다. 월드 모델은 장기 기억과 일관된 논리가 부족하여 엄격한 규칙 적용과 지속적 상태 유지에 어려움을 겪는다. 비디오 월드 모델은 사용자 입력 제어 데이터가 부족하기 때문에, 이를 플레이하는 것은 재미가 없습니다. 비디오 월드 모델은 지속적 상태, 일관된 논리, 사용자 입력 제어, 그리고 진정한 멀티플레이어 에이전트 시뮬레이션에 어려움을 겪기 때문에, 현재의 모델들은 오히려 '이끌려가는 꿈'에 가깝습니다.

오늘날 우리가 목격하는 인터랙티브 비디오 모델들은 인상적이지만, 기본적으로 생생한 꿈과 같습니다. 보기에는 장관이지만, 덧없고 믿을 수 없을 만큼 외롭습니다. 이 모델들은 상호작용성, 도전, 보상, 지속성 등 게임을 게임답게 만드는 모든 요소를 결여하고 있습니다. 

순수한 신경망 월드 모델만으로는 방대하고 지속되는 멀티플레이어 경험을 약속할 수 없습니다. 신경망 월드 모델은 여러 면에서 인상적이지만, 많은 중요한 영역에서 실패합니다. 여기에는 단일 세션 내의 시간적 일관성, 세션 간 장기 기억, 지연 시간, 그리고 제작자의 세밀한 제어 등이 포함됩니다. 일관된 멀티플레이어 시뮬레이션, 정교한 경쟁적 게임플레이, 고도로 지능적인 NPC, 테스트, 점진적인 개선 등을 고려하면 덜 눈에 띄는 격차들이 드러납니다.

신경망 엔진에게 게임 엔진이 되라고 요구해서는 안 됩니다. 

게임 엔진: 강점과 한계

Roblox Cloud와 엔진은 비디오 월드 모델과 강력하게 상호 보완적입니다. 재현 가능한 정밀도, 세션 간 일관된 상태, 그리고 시간에 따른 지속성을 갖추고 있습니다. 예를 들어, 포뮬러 1 모나코 그랑프리 게임을 제작하는 크리에이터를 생각해 봅시다. 그들은 정교한 점수 및 페널티 시스템, 도로, 관중, 자연 환경, 그리고 여러 드라이버 간의 즉각적인 동기화를 모델링하고 있습니다. 그러나 이러한 정밀도는 구현 및 런타임 비용을 수반합니다. 시각적 충실도를 높이려면 대용량 자산, 복잡한 조명, 그리고 시뮬레이션이 필요합니다.

향후 10년 동안 하이엔드 게임 엔진의 결과물은 현실감 측면에서 계속 발전하겠지만, 개발자의 전문성과 소비자용 하드웨어에 대한 요구 사항도 마찬가지로 높아질 것입니다. 

업계가 지금까지 해결하지 못한 과제는 대규모로 초현실감을 구현하면서도, 규모에 상관없이 모든 개발자가 접근할 수 있게 하고, 널리 보급된 소비자용 하드웨어에서도 구동할 수 있도록 하는 방법입니다.

이는 현실 세계가 정교한 디테일로 가득 차 있기 때문입니다. 게임의 핵심을 둘러싸고 있는 것은 풀잎, 나뭇잎, 바람에 살랑거리는 나뭇가지, 자동차 뒤로 솟아오르고 소용돌이치는 먼지 구름, 불꽃에서 뿜어져 나오는 빛나는 불씨와 불꽃, 기름기가 도는 무지갯빛 웅덩이에 조용히 튀는 빗방울과 같은, 스크립트화되지 않은 자연스러운 요소들입니다. 이러한 콘텐츠를 제작하고 렌더링하는 것은 매우 어렵습니다. 기존 게임 엔진들은 이러한 시각적 복잡성에 어려움을 겪으며, 고해상도 텍스처와 지오메트리가 가용 자원을 압박함에 따라 더 단순한 리얼리즘을 구현하기 위한 지름길을 모색해 왔습니다. 또한 볼륨 라이팅, 바이노럴 오디오, 물리 시뮬레이션, 캐릭터 시뮬레이션 등 포토리얼리즘을 구성하는 요소들로 인해 시뮬레이션 비용도 천문학적으로 치솟습니다.

저희는 크리에이터가 이러한 복잡성을 구축하고 엔진이 이를 렌더링하는 최선의 방법은, 사후 학습된 비디오 월드 모델(Video World Model)이 엔진의 기본 카메라 움직임, 지오메트리, 상황적 상태 위에 텍스처, 조명, 미세한 동적 요소를 생성하는 하이브리드 아키텍처를 활용하는 것이라고 믿습니다.

아키텍처: 게임 로직과 비디오 픽셀의 동기화

저희는 크리에이터가 포토리얼리스틱한 결과물과 함께 고품질 멀티플레이어 상호작용을 제공할 수 있도록 하려면 하이브리드 접근 방식이 필요하다고 생각합니다. 저희는 이 접근 방식을 'Roblox Reality'라고 부르며, 이는 Roblox 게임 엔진, Roblox 클라우드, 그리고 슈퍼 업샘플러 Roblox 비디오 월드 모델을 결합한 것입니다.

Roblox Reality 하이브리드 아키텍처는 Roblox 게임 엔진과 Roblox 비디오 월드 모델 간에 역할을 분담합니다. 

Roblox 게임 엔진은 월드의 구조적 및 논리적 측면을 처리하여 안정적인 장기 메모리, 기호 논리, 반복 가능한 시뮬레이션을 제공합니다. 또한 충돌 및 행동과 같은 기본적인 물리 연산도 담당합니다. 물체의 주요 움직임(예: 자동차의 위치와 속도, 바퀴, 서스펜션, 조향)은 엔진에서 관리됩니다. 이를 기반으로 비디오 월드 모델은 앞유리를 따라 흘러내리는 물방울이나 자동차가 지나갈 때 나뭇잎이 펄럭이는 것과 같은 추가적인 시각적 및 생성적 구성 요소를 겹쳐 놓아 숨 막히는 비주얼을 제공합니다. 이러한 접근 방식을 통해 게임 엔진은 데이터 모델(공유되고 일관된 상태)을 유지하는 한편, 비디오 월드 모델은 픽셀(시각적 꿈)을 생성할 수 있습니다.

기능

게임 엔진
(Roblox Cloud)

슈퍼 업샘플러
(Roblox 비디오 모델)

주요 기능

월드의 일관성을 유지하기 위해 모든 상태 동기화를 처리합니다(데이터 모델, 공유되고 일관된 상태).

시각적 및 생성적 구성 요소(픽셀, 시각적 꿈)를 관리합니다.

핵심 책임

안정적인 장기 메모리, 기호 논리, 반복 가능한 시뮬레이션을 제공합니다. 기본적인 물리적 속성(재료 및 위치)과 연산(충돌 및 레이 트레이싱)을 담당합니다.

확률적 시각 효과와 숨 막힐 듯한 사실감, 2차적 움직임, 자연스러운 동적 환경, 유체 물리학을 구현합니다. 고해상도 텍스처, 더욱 사실적인 조명, 미세한 규모의 역학을 생성합니다.

월드 일관성

정밀성, 일관된 상태, 그리고 보장된 일관성을 제공합니다. 상태를 하나의 신뢰할 수 있는 정보원(single source of truth)으로 중앙 집중화합니다.

명시적인 시뮬레이션 없이도(예: 살아 움직이는 군중 관리) 타당하고 고차원적인 행동을 생성하는 데 탁월합니다. 모든 플레이어를 위해 에지에서 작동합니다.

처리되는 데이터

모든 플레이어 간에 일관성이 있는 모든 요소(플레이어, 위치, 자동차, 새, 건물, 3D 장면).

플레이어가 정확히 동일하게 볼 필요가 없는 일시적인 요소(녹슨 깡통, 새 떼, 구름 모양, 모래알, 풀).

메모리 저장

데이터 모델

비디오 라텐트

독립적 제약

사진 같은 사실감을 구현하기 위한 시각적 복잡성과 높은 계산 요구 사항으로 어려움을 겪습니다.

엄격한 규칙 적용, 장기 기억, 일관된 논리, 사용자 입력 제어 데이터 처리에서 어려움을 겪습니다.

런타임 인프라

전 세계 26개 이상의 엣지 데이터 센터에서 수백만 개의 게임 인스턴스를 실행하며, 사용자와 가까운 위치에서 낮은 지연 시간을 제공하며, 최대 4,500만 명 이상의 동시 접속자를 처리합니다.

Super Upsampler는 인접한 엣지 데이터 센터에서 실행되며, H200/B200급 GPU(또는 이에 상응하는 가속기)를 기반으로 최적의 성능을 제공합니다. 

이 플랫폼은 크리에이터의 심층적인 제어를 통해 무한한 콘텐츠 제작을 지원합니다.

Roblox Reality의 개발 목표는 Roblox 게임 엔진에서 렌더링된 영상과 3D 공간 데이터라는 ‘신뢰할 수 있는 원본 데이터’를 가져와, 2K 해상도와 60Hz를 지원하는 Roblox 비디오 모델을 구축하는 것입니다. Roblox Reality는 비디오 스트리밍과 결합된 클라우드 엣지 GPU 인프라에서 원활하게 구동되도록 최적화될 예정이며, 향후 Roblox 클라이언트와 통합되어 로컬 아바타 제어 및 시뮬레이션을 지원할 계획입니다.

요약

Roblox Reality는 창작의 민주화를 향한 중요한 진전으로, 모든 크리에이터가 Roblox 게임 엔진과 비디오 모델을 활용하여 사실적인 게임을 제작할 수 있게 함으로써, 고품질 그래픽 구현에 전통적으로 필요했던 개발 시간, 비용 및 컴퓨팅 자원을 대폭 줄여줍니다. 이를 통해 크리에이터들은 사실적인 게임을 더 빠르고, 비용 및 컴퓨팅 효율성 측면에서 더 유리하게 제작할 수 있게 됩니다. 높은 컴퓨팅 비용을 고려할 때, 로블록스 리얼리티 아키텍처를 확장하기 전에 해결해야 할 과제들이 있음을 인지하고 있습니다. 우리는 이미 이 아키텍처의 최적화와 효율성 향상을 위한 솔루션을 개발 중이며, 이를 통해 수백만 명의 동시 접속 플레이어를 더 경제적으로 지원할 수 있도록 할 계획입니다.

무엇보다, 크리에이터들이 놀라운 멀티플레이어 포토리얼리스틱 경험을 제작할 수 있도록 지원하는 플랫폼을 구축하게 되어 매우 기쁩니다!