생성형 AI로 로블록스 창작의 혁신을 이끌다

올해 초, 저희는 로블록스(Roblox)의 생성형 인공지능(AI) 비전과 모든 사용자가 크리에이터가 될 수 있도록 도와줄 직관적인 새로운 도구들을 소개한 바 있습니다. 업계 전반에서 이러한 도구들이 빠르게 발전함에 따라, 저희의 진척 상황과 생성형 AI 창작의 대중화를 위해 아직 남아 있는 과업, 그리고 왜 생성형 AI가 로블록스의 미래 방향에 있어 핵심 요소라고 생각하는지에 대한 최신 소식을 전해드리고자 합니다.
생성형 AI와 대규모 언어 모델(LLM)의 발전은 방대한 컴퓨팅 자원을 필요로 하지 않으면서도 안전성을 유지하고, 더 쉽고 빠르게 창작할 수 있게 함으로써 몰입형 경험의 미래를 열어줄 놀라운 기회를 제공합니다. 또한, 이미지, 코드, 텍스트, 3D 모델, 오디오 등 다양한 유형의 콘텐츠로 훈련된 다중 모달(multimodal) AI 모델의 발전은 창작 도구의 새로운 진화를 위한 문을 열어줍니다. 이러한 모델들은 텍스트 출력뿐만 아니라 텍스트를 보완하는 시각적 요소까지 생성하는 등 다중 모달 출력을 생성하기 시작했습니다. 우리는 이러한 AI의 획기적인 발전을, 숙련된 크리에이터들의 효율성을 높이는 동시에 더 많은 사람들이 로블록스에서 훌륭한 아이디어를 현실로 구현할 수 있도록 돕는 엄청난 기회로 보고 있습니다. 올해 로블록스 개발자 컨퍼런스(RDC)에서 우리는 로블록스 스튜디오와 그 너머에 생성형 AI를 도입하여, 로블록스의 모든 사용자가 더 빠르게 확장하고, 더 신속하게 반복 작업을 수행하며, 더 나은 콘텐츠를 제작할 수 있는 역량을 강화할 수 있도록 돕는 여러 가지 새로운 도구를 발표했습니다.
Roblox Assistant
로블록스는 항상 크리에이터들이 몰입감 넘치는 3D 경험을 구축하는 데 필요한 도구, 서비스 및 지원을 제공해 왔습니다. 동시에, 크리에이터들이 창작을 돕기 위해 타사의 생성형 및 대화형 AI를 사용하기 시작하는 모습을 지켜보았습니다. 이러한 도구는 크리에이터의 업무 부담을 줄이는 데 유용하지만, 시중에서 구할 수 있는 기존 버전들은 로블록스의 엔드투엔드 워크플로우를 위해 설계되지 않았으며 로블록스 코드, 은어, 전문 용어로 훈련되지 않았습니다. 즉, 크리에이터들은 이러한 버전을 사용하여 로블록스용 콘텐츠를 제작할 때 상당한 추가 작업에 직면하게 됩니다. 저희는 이러한 도구의 가치를 로블록스 스튜디오에 접목할 방법을 모색해 왔으며, RDC에서 어시스턴트의 초기 사례를 공유했습니다.
'어시스턴트(Assistant)'는 모든 수준의 크리에이터가 콘텐츠 제작에 수반되는 지루하고 반복적인 작업에 소요되는 시간을 대폭 줄이고, 스토리텔링, 게임 플레이, 경험 디자인과 같은 고부가가치 활동에 더 많은 시간을 할애할 수 있도록 지원하는 대화형 AI입니다. 로블록스는 훈련에 활용할 수 있는 방대한 공개 3D 모델 데이터셋, 플랫폼 API와의 모델 통합 능력, 그리고 지속적으로 확장되는 혁신적인 AI 솔루션 포트폴리오를 바탕으로 몰입형 3D 세계를 위한 이 대화형 AI 모델을 구축하는 데 있어 독보적인 입지를 갖추고 있습니다. 크리에이터는 자연어 텍스트 프롬프트를 사용하여 장면을 제작하고, 3D 모델을 편집하며, 오브젝트에 상호작용 기능을 적용할 수 있게 됩니다. 어시스턴트는 제작의 세 단계인 학습, 코딩, 구축을 지원합니다:
- 학습: 크리에이터가 로블록스 개발 초보자이든 노련한 베테랑이든, 로블록스 어시스턴트는 자연어를 사용하여 다양한 분야의 질문에 답변해 줄 것입니다.
- 코딩: 어시스턴트는 최근 출시된 코드 어시스트(Code Assist) 도구를 확장할 것입니다. 예를 들어, 개발자는 어시스턴트에게 코드 개선, 특정 코드 구간의 설명, 또는 제대로 작동하지 않는 코드의 디버깅 및 수정 제안 등을 요청할 수 있습니다.
- 구현: 어시스턴트는 크리에이터가 새로운 아이디어를 빠르게 프로토타입으로 구현할 수 있도록 돕습니다. 예를 들어, 초보 크리에이터는 "이 도로에 가로등을 몇 개 추가해 줘" 또는 "다양한 종류의 나무로 숲을 만들어 줘. 이제 덤불과 꽃도 추가해 줘"와 같은 프롬프트를 입력하는 것만으로 전체 장면을 생성하고 다양한 버전을 시험해 볼 수 있습니다.
어시스턴트와의 작업은 협업적이고 상호작용적이며 반복적인 과정을 거치게 되어, 크리에이터가 피드백을 제공하면 어시스턴트가 올바른 해결책을 제시하도록 할 수 있습니다. 이는 마치 전문 크리에이터를 파트너로 둔 것과 같아서, 아이디어를 주고받으며 원하는 결과가 나올 때까지 다양한 시도를 해볼 수 있습니다.
Assistant를 최고의 파트너로 만들기 위해, 우리는 RDC에서 또 다른 발표를 했습니다. 개발자들이 익명화된 Luau 스크립트 데이터를 기꺼이 제공해 주실 것을 요청한 것입니다. 이 스크립트 데이터는 Code Assist 및 Assistant와 같은 AI 도구가 더 효율적인 코드를 제안하고 생성하는 능력을 획기적으로 향상시키는 데 도움이 될 것이며, 이를 통해 해당 도구를 사용하는 Roblox 개발자들에게 보답하게 될 것입니다. 또한, 개발자가 Roblox 외부로 데이터를 공유하기로 선택할 경우, 해당 스크립트 데이터는 제3자가 Luau 코드 제안 기능을 향상시키기 위해 AI 채팅 도구를 훈련하는 데 활용할 수 있는 데이터 세트에 추가되어 전 세계 Luau 개발자들에게 혜택을 돌려줄 것입니다.
명확히 말씀드리자면, 포괄적인 사용자 조사와 주요 개발자들과의 투명한 대화를 통해 이 프로그램을 선택적 참여 방식으로 설계했으며, 모든 참가자가 프로그램의 내용을 이해하고 동의할 수 있도록 보장할 것입니다. Roblox와 스크립트 데이터를 공유하기로 선택한 분들께 감사의 뜻으로, 커뮤니티가 훈련시킨 모델을 기반으로 하는 더 강력한 버전의 Assistant 및 Code Assist에 대한 접근 권한을 부여할 예정입니다. 옵트인하지 않은 분들은 기존 버전의 Assistant 및 Code Assist를 계속 이용할 수 있습니다.
더 간편해진 아바타 생성
궁극적으로, 저희는 매일 6,550만 명의 사용자 모두가 자신을 진정으로 대변하고 개성을 표현할 수 있는 아바타를 갖기를 바랍니다. 최근 저희는 UGC 프로그램 회원들이 아바타 바디와 독립형 헤드 모두를 제작하고 판매할 수 있는 기능을 출시했습니다. 현재 이 과정에는 스튜디오(Studio) 또는 UGC 프로그램 이용 권한, 상당히 높은 수준의 기술력, 그리고 표정, 신체 움직임, 3D 리깅 등을 구현하기 위한 며칠간의 작업이 필요합니다. 이로 인해 아바타 제작에 많은 시간이 소요되며, 지금까지는 선택 가능한 옵션의 수가 제한적이었습니다. 저희는 한 걸음 더 나아가고자 합니다.
Roblox의 모든 사용자가 개성 넘치고 표현력 풍부한 아바타를 가질 수 있도록 하려면, 아바타를 매우 쉽게 생성하고 커스터마이징할 수 있게 해야 합니다. RDC에서 우리는 2024년에 출시할 새로운 도구를 발표했습니다. 이 도구를 사용하면 이미지 하나 또는 여러 장의 이미지를 통해 맞춤형 아바타를 쉽게 생성할 수 있습니다. 이 도구를 통해 스튜디오(Studio)나 UGC 프로그램에 접근 권한이 있는 모든 크리에이터는 이미지를 업로드하여 아바타를 생성한 후, 원하는 대로 수정할 수 있게 될 것입니다. 장기적으로는 로블록스 내 경험(experience) 내에서 직접 이 기능을 이용할 수 있도록 할 계획입니다.
이를 실현하기 위해, 저희는 로블록스의 아바타 스키마와 로블록스가 보유한 3D 아바타 모델 세트를 기반으로 AI 모델을 훈련하고 있습니다. 한 가지 접근 방식은 2D 이미지에서 3D 스타일화된 아바타를 생성하는 연구 결과를 활용하는 것입니다. 또한 사전 훈련된 텍스트-이미지 확산 모델을 활용해 2D 생성 기법으로 제한된 3D 훈련 데이터를 보완하고, 훈련을 위해 GAN(생성적 적대 신경망) 기반 3D 생성 네트워크를 사용하는 방안도 검토 중입니다. 마지막으로, ControlNet을 활용해 미리 정의된 포즈를 적용하여 아바타의 다중 뷰 이미지를 생성하는 작업을 진행 중입니다.
이 과정을 통해 아바타용 3D 메시가 생성됩니다. 다음으로, 3D 아바타 포즈로 훈련된 3D 의미적 분할 연구를 활용하여 해당 3D 메시를 조정하고 적절한 얼굴 특징, 케이징, 리깅 및 텍스처를 추가함으로써, 본질적으로 정적인 3D 메시를 로블록스 아바타로 변환합니다. 마지막으로, 메쉬 편집 도구를 통해 사용자는 모델을 변형하고 조정하여 자신이 상상하는 모습에 더 가깝게 만들 수 있습니다. 이 모든 과정은 단 몇 분 만에 빠르게 진행되며, 로블록스(Roblox)로 가져와 체험(experience)에서 사용할 수 있는 새로운 아바타가 생성됩니다.
음성 커뮤니케이션 관리
저희에게 AI는 단순히 창작을 위한 도구가 아니라, 대규모로 다양하고 안전하며 예의 바른 커뮤니티를 보장하는 훨씬 더 효율적인 시스템입니다. 음성 채팅과 아바타를 통한 통화 기능인 'Roblox Connect', 그리고 RDC에서 발표된 API 등 새로운 음성 기능을 출시함에 따라, 저희는 실시간으로 음성 언어를 관리해야 하는 새로운 과제에 직면하게 되었습니다. 이를 위한 현재 업계 표준은 자동 음성 인식(ASR)으로 알려진 프로세스입니다. 이는 기본적으로 오디오 파일을 가져와 텍스트로 변환한 다음, 해당 텍스트를 분석하여 부적절한 언어, 키워드 등을 찾아내는 방식입니다.
이 방식은 소규모로 사용하는 기업에는 효과적이지만, 저희가 음성 통신을 관리하기 위해 동일한 ASR 프로세스를 적용해 본 결과, 저희의 규모에서는 이 방법이 어렵고 비효율적이라는 사실을 금방 깨달았습니다. 또한 이 접근 방식은 화자의 목소리 크기와 톤에 담긴 매우 귀중한 정보와 대화의 전반적인 맥락을 놓치게 됩니다. 매일 다양한 언어로 이루어지는 수백만 분 분량의 대화 중, 부적절한 내용으로 들릴 가능성이 있는 것은 극히 일부에 불과합니다. 또한 규모가 계속 커짐에 따라, 해당 시스템을 유지하려면 점점 더 많은 컴퓨팅 성능이 필요하게 될 것입니다. 그래서 우리는 실시간 오디오에서 바로 정책 위반 여부를 표시하는 라벨링 단계로 이어지는 파이프라인을 구축하여, 이 작업을 더 효율적으로 수행할 방법을 면밀히 검토했습니다.
결국, ASR(음성인식)을 활용해 사내 음성 데이터 세트를 분류하고, 그 분류된 음성 데이터를 이용해 시스템을 훈련함으로써 자체 맞춤형 음성 감지 시스템을 구축할 수 있었습니다. 좀 더 구체적으로 설명하자면, 이 새로운 시스템을 훈련하기 위해 먼저 오디오를 입력하여 텍스트 대본을 생성합니다. 그런 다음 이 텍스트를 Roblox 텍스트 필터 시스템을 통해 처리하여 오디오를 분류합니다. 이 텍스트 필터 시스템은 수년간 Roblox 특유의 속어, 약어, 전문 용어에 맞춰 최적화해 온 덕분에 Roblox 내 정책 위반 언어를 탐지하는 데 탁월합니다. 이러한 여러 단계의 훈련 과정을 거친 끝에, 오디오를 실시간으로 직접 분석하여 정책 위반 여부를 탐지할 수 있는 모델을 확보하게 되었습니다.
이 시스템은 욕설과 같은 특정 키워드를 탐지할 수 있지만, 정책 위반은 거의 한 단어로만 이루어지지 않습니다. 한 단어는 어떤 맥락에서는 문제가 될 수 있지만, 다른 맥락에서는 전혀 문제가 되지 않을 수 있습니다. 본질적으로 이러한 유형의 위반은 말하는 내용, 말하는 방식, 그리고 발언이 이루어지는 맥락을 모두 포함합니다.
맥락을 더 잘 이해하기 위해, 우리는 시퀀스 요약에 매우 뛰어난 트랜스포머 기반 아키텍처의 고유한 장점을 활용합니다. 이 아키텍처는 오디오 스트림과 같은 데이터 시퀀스를 입력받아 이를 요약해 줄 수 있습니다. 이를 통해 더 긴 오디오 시퀀스를 보존할 수 있어, 단순히 단어뿐만 아니라 맥락과 억양까지 감지할 수 있습니다. 이러한 모든 요소가 결합되면, 입력은 오디오이고 출력은 정책 위반 여부 분류인 최종 시스템이 완성됩니다. 이 시스템은 키워드와 정책 위반 문구뿐만 아니라, 의도를 파악하는 데 중요한 어조, 감정 및 기타 맥락도 감지할 수 있습니다. 오디오에서 직접 정책 위반 발언을 감지하는 이 새로운 시스템은 기존의 ASR 시스템보다 연산 효율이 훨씬 뛰어나며, 이는 사람들이 소통하는 방식을 지속적으로 재구상해 나가는 과정에서 시스템 확장을 훨씬 용이하게 해줄 것입니다.
또한 음성 커뮤니케이션 도구 사용자에게 이러한 유형의 언어가 초래할 수 있는 결과에 대해 경고할 새로운 방식이 필요했습니다. 이 혁신적인 탐지 시스템을 활용하여, 안전한 환경을 유지하기 위해 온라인 행동에 영향을 미칠 수 있는 다양한 방법을 실험하고 있습니다. 사용자들이 때로는 의도치 않게 정책을 위반하기도 한다는 점을 잘 알고 있으며, 가끔씩 상기시켜 주는 것이 향후 위반을 예방하는 데 도움이 될지 파악하고자 합니다. 이를 위해 알림을 통한 실시간 사용자 피드백 방식을 실험하고 있습니다. 시스템이 사용자가 정책을 위반하는 발언을 일정 횟수 이상 했다고 감지하면, 화면에 팝업 알림을 표시하여 해당 언어가 정책을 위반한다는 사실을 알리고, 자세한 내용을 확인하기 위해 정책 페이지로 안내할 것입니다.
하지만 음성 스트림 알림은 관리 시스템의 한 요소일 뿐입니다. 저희는 전반적인 관리 결정을 내리기 위해 플랫폼 내 행동 패턴과 Roblox 내 다른 사용자들의 신고 내용도 함께 검토합니다. 이러한 신호들이 종합적으로 판단될 경우, 오디오 기능 사용 권한이 박탈되거나, 더 심각한 위반의 경우 플랫폼에서 완전히 추방되는 등 더 강력한 조치가 취해질 수 있습니다. 다중 모달 AI 모델, 생성형 AI, 대규모 언어 모델(LLM)의 발전이 결합되어 크리에이터들에게 놀라운 새로운 도구와 기능을 제공하는 만큼, 커뮤니티의 안전과 건전한 분위기를 유지하는 것은 매우 중요합니다.
저희는 크리에이터들에게 이러한 도구를 제공함으로써, 경험이 적은 크리에이터들의 진입 장벽을 낮추고, 경험이 풍부한 크리에이터들이 이 과정에서 발생하는 지루한 작업에서 해방될 수 있을 것으로 믿습니다. 이를 통해 크리에이터들은 미세 조정과 아이디어 구상 같은 창의적인 측면에 더 많은 시간을 할애할 수 있게 될 것입니다. 이 모든 노력의 목표는 전 세계 누구나 자신의 아이디어를 현실로 구현할 수 있도록 돕고, 로블록스에서 이용할 수 있는 아바타, 아이템, 경험의 다양성을 대폭 확대하는 것입니다. 또한 새로운 창작물을 보호하는 데 도움이 되는 정보와 도구도 공유하고 있습니다.
우리는 이미 놀라운 가능성들을 상상하고 있습니다. 예를 들어, 누군가가 사진 한 장으로 자신의 아바타를 똑같이 복제할 수 있다면, 키를 더 크게 하거나 애니메이션 스타일로 변형하는 등 아바타를 자유롭게 커스터마이징할 수 있을 것입니다. 또는 어시스턴트에게 자동차, 건물, 배경을 추가하거나 조명 및 바람 조건을 설정하고 지형을 변경해 달라고 요청하여 체험을 구축할 수도 있습니다. 그 후에는 어시스턴트와 대화를 주고받으며 반복적으로 수정해 나가며 완성도를 높일 수 있습니다. 이러한 도구가 제공되기 시작하면, 사람들이 이를 통해 만들어낼 결과물은 우리가 상상하는 것을 훨씬 뛰어넘을 것임을 우리는 잘 알고 있습니다.




