生成AIでRobloxの創作に革命を起こす

作：ダニエル・スターマン、Roblox最高技術責任者

公開日 2023/09/11

Revolutionizing Creation on Roblox with Generative AI

今年初め、私たちはRobloxにおける生成AI（人工知能）へのビジョンと、すべてのユーザーがクリエイターになれるようにする直感的な新ツールについてご紹介しました。業界全体でこれらのツールが急速に進化する中、これまでの進捗状況、生成AIによる創作の民主化に向けた今後の道筋、そしてなぜ生成AIがRobloxの将来にとって不可欠な要素であると考えているのかについて、最新情報をお伝えしたいと思います。

生成AIと大規模言語モデル（LLM）の進歩は、安全性を維持しつつ、膨大な計算リソースを必要とせずに、より簡単かつ迅速な制作を可能にすることで、没入型体験の未来を切り拓く素晴らしい機会をもたらしています。さらに、画像、コード、テキスト、3Dモデル、音声など、複数の種類のコンテンツを用いて学習された「マルチモーダル」なAIモデルの進歩は、制作ツールの新たな進化への扉を開きます。これらのモデルは、テキスト出力だけでなく、そのテキストを補完するビジュアルも生成するなど、マルチモーダルな出力を生み出し始めています。私たちは、こうしたAIの飛躍的進歩を、経験豊富なクリエイターの効率を向上させると同時に、より多くの人々がRoblox上で素晴らしいアイデアを実現できるようにする絶好の機会と捉えています。今年のRoblox Developers Conference（RDC）では、Roblox Studioをはじめとするプラットフォームに生成AIを導入し、Roblox上の誰もがより迅速にスケールアップし、迅速に反復開発を行い、スキルを向上させてさらに優れたコンテンツを作成できるよう支援する、いくつかの新しいツールを発表しました。

Roblox Assistant

Robloxは常に、没入感のある3D体験を構築するためにクリエイターが必要とするツール、サービス、サポートを提供してきました。一方で、クリエイターが制作を支援するために、サードパーティ製の生成AIや対話型AIを使い始めていることも確認しています。これらはクリエイターの作業負荷を軽減する上で有用ですが、これらの市販版はRobloxのエンドツーエンドのワークフロー向けに設計されたものではなく、Robloxのコードやスラング、専門用語でトレーニングされたものでもありません。つまり、クリエイターがRoblox向けのコンテンツを作成するためにこれらのツールを使用するには、多大な追加作業が必要となります。私たちは、これらのツールの価値をRoblox Studioに取り込む方法を模索してきましたが、RDCではAssistantの初期バージョンを公開しました。

Assistantは、あらゆるスキルレベルのクリエイターが、制作に伴う単調で反復的な作業に費やす時間を大幅に削減し、ストーリーテリング、ゲームプレイ、体験デザインといった付加価値の高い活動により多くの時間を割けるようにする対話型AIです。 Robloxは、トレーニング用の膨大な公開3Dモデルへのアクセス、プラットフォームAPIとのモデル統合機能、そして拡大を続ける革新的なAIソリューション群を保有していることから、没入型3Dワールド向けのこの対話型AIモデルを構築する上で、他に類を見ない強みを持っています。クリエイターは、自然言語によるテキストプロンプトを使用して、シーンの作成、3Dモデルの編集、オブジェクトへのインタラクティブな挙動の適用を行うことが可能になります。Assistantは、制作の3つのフェーズ、すなわち「学習」「コーディング」「構築」をサポートします。

学習：クリエイターがRobloxでの開発に全く初めての方であっても、ベテランであっても、Roblox Assistantは自然言語を用いて幅広い分野の質問に答えるお手伝いをします。
コーディング：Assistantは、当社の最新のCode Assistツールをさらに拡張します。例えば、開発者はAssistantにコードの改善を依頼したり、コードの一部の説明を求めたり、正常に動作しないコードのデバッグや修正案の提案を依頼したりできます。
構築：アシスタントは、クリエイターが新しいアイデアを迅速にプロトタイプ化するのを支援します。例えば、初心者のクリエイターでも、「この道路沿いに街灯をいくつか追加して」や「様々な種類の木がある森を作って。次に、低木や花も追加して」といったプロンプトを入力するだけで、シーン全体を生成し、異なるバージョンを試すことができます。

Assistantとの作業は、協働的かつ双方向的で反復的なものとなり、クリエイターがフィードバックを提供することで、Assistantが適切な解決策を導き出すようになります。まるで、アイデアをぶつけ合い、納得のいく結果が出るまで試行錯誤できる、エキスパートのクリエイターをパートナーに迎えたような体験となるでしょう。

Assistantを最高のパートナーにするため、RDCで新たな発表を行いました。開発者の皆様に対し、匿名化されたLuauスクリプトデータの提供にオプトインするよう呼びかけました。このスクリプトデータは、Code AssistやAssistantといったAIツールが、より効率的なコードの提案や作成を行う能力を大幅に向上させるのに役立ち、それらを利用するRoblox開発者の皆様に還元されます。さらに、開発者がRoblox以外の範囲での共有を選択した場合、そのスクリプトデータはデータセットに追加され、第三者がLuauコードの提案精度を高めるためにAIチャットツールをトレーニングする際に利用できるようになります。これにより、世界中のLuau開発者へ還元されます。

明確にしておきますが、包括的なユーザー調査とトップ開発者との透明性のある対話を通じて、本プログラムはオプトイン方式として設計されており、すべての参加者がプログラムの内容を理解し、同意できるよう配慮しています。 Robloxとのスクリプトデータ共有に参加してくださる方々への感謝の意を込め、このコミュニティ学習モデルを活用した、より高性能なバージョンの「Assistant」および「Code Assist」へのアクセス権を付与いたします。オプトインしなかったユーザーには、引き続き既存のバージョンの「Assistant」および「Code Assist」をご利用いただけます。

アバター作成の簡素化

最終的には、日次ユーザー数6,550万人の皆様一人ひとりが、自分自身を真に表現し、個性を反映したアバターを持てるようにしたいと考えています。最近、UGCプログラムのメンバーがアバターのボディとヘッド単体を制作・販売できる機能をリリースしました。現在、このプロセスには「Studio」またはUGCプログラムへのアクセス、相当なスキルレベル、そして表情や体の動き、3Dリギングなどを実装するために数日間の作業が必要です。そのため、アバターの作成には時間がかかり、これまで利用可能な選択肢も限られていました。私たちはさらに一歩先へ進みたいと考えています。

Robloxのすべてのユーザーが、自分らしく表現力豊かなアバターを持てるようにするためには、アバターの作成とカスタマイズを非常に簡単にする必要があります。 RDCでは、2024年にリリース予定の新しいツールを発表しました。このツールを使えば、1枚または複数の画像からカスタムアバターを簡単に作成できるようになります。このツールにより、Studioや当社のUGCプログラムにアクセスできるクリエイターなら誰でも、画像をアップロードしてアバターを作成し、その後自由に編集できるようになります。将来的には、Roblox上のエクスペリエンス内から直接この機能を利用できるようにする予定です。

これを実現するため、RobloxのアバタースキーマとRobloxが保有する一連の3Dアバターモデルを用いてAIモデルを学習させています。その一環として、2D画像から3Dのスタイライズドアバターを生成する研究を活用しています。また、事前学習済みのテキストから画像への拡散モデルを活用し、2D生成技術を用いて限られた3Dトレーニングデータを拡張すること、およびトレーニング用に生成対立ネットワーク（GAN）ベースの3D生成ネットワークを使用することも検討しています。最後に、ControlNetを使用して事前定義されたポーズを重ね合わせ、生成されたアバターのマルチビュー画像を誘導する取り組みも行っています。

このプロセスにより、アバター用の3Dメッシュが生成されます。次に、3Dアバターのポーズで学習させた3Dセマンティックセグメンテーションの研究を活用し、その3Dメッシュを調整して適切な顔の特徴、ケージング、リギング、テクスチャを追加します。つまり、静的な3DメッシュをRobloxアバターへと変換するのです。最後に、メッシュ編集ツールを使用することで、ユーザーはモデルを変形・調整し、思い描いている姿に近づけることができます。そして、これらすべての処理は数分という短時間で完了し、Robloxにインポートして体験内で使用できる新しいアバターが生成されます。

音声コミュニケーションのモデレーション

私たちにとってAIは単なる創作ツールではなく、多様性があり、安全で、礼儀正しいコミュニティを大規模に維持するための、はるかに効率的なシステムでもあります。ボイスチャットや、アバターとして通話できる新機能「Roblox Connect」、そしてRDCで発表されたAPIなど、新たな音声機能の展開を開始するにあたり、私たちは新たな課題に直面しています。それは、発話された言葉をリアルタイムでモデレートすることです。この分野における現在の業界標準は、自動音声認識（ASR）と呼ばれるプロセスです。これは基本的に、音声ファイルを取り込み、それを文字起こししてテキストに変換し、そのテキストを分析して不適切な言葉やキーワードなどを検出するものです。

小規模で運用する企業にとっては有効な手法ですが、音声コミュニケーションのモデレーションにこのASRプロセスを適用しようと検討した際、当社の規模では困難かつ非効率的であることがすぐに判明しました。また、このアプローチでは、話者の声の大きさやトーンに込められた極めて貴重な情報や、会話の全体的な文脈が失われてしまいます。毎日、多言語にわたる数百万分もの会話を文字起こしする必要がある中で、不適切な内容に聞こえる可能性のあるものはごく一部に過ぎません。また、規模を拡大し続けるにつれ、そのシステムを維持するためにはますます多くの計算能力が必要となってくるでしょう。そこで私たちは、ライブ音声から直接、ポリシー違反の有無を示すラベル付けを行うパイプラインを構築することで、より効率的にこれを実現する方法を検討しました。

最終的に、ASR（音声認識）を用いて社内の音声データセットを分類し、その分類済みデータを用いてシステムを学習させることで、独自の音声検出システムを構築することに成功しました。具体的には、この新しいシステムを学習させるために、まず音声データから文字起こしを作成します。次に、その文字起こしデータをRobloxのテキストフィルタリングシステムに通し、音声内容を分類します。このテキストフィルタリングシステムは、Roblox特有のスラング、略語、専門用語に対して長年にわたり最適化を重ねてきたため、Roblox上でのポリシー違反となる言語の検出に非常に優れています。こうした複数の学習段階を経て、音声データからリアルタイムでポリシー違反を直接検出できるモデルが完成しました。

このシステムには卑語などの特定のキーワードを検出する能力はありますが、ポリシー違反は単一の単語だけで構成されることは稀です。ある単語は、ある文脈では問題視される一方で、別の文脈では全く問題ない場合もあります。本質的に、こうした種類の違反には、何を言っているか、どのように言っているか、そしてその発言がなされた文脈が関わってきます。

文脈の理解力を高めるため、シーケンス要約に非常に優れたトランスフォーマーベースのアーキテクチャの固有の能力を活用しています。このアーキテクチャは、音声ストリームのようなデータシーケンスを受け取り、それを要約することができます。これにより、より長い音声シーケンスを保持することが可能になり、単語だけでなく文脈やイントネーションも検出できるようになります。これらすべての要素が組み合わさることで、入力が音声で、出力として「ポリシー違反か否か」という分類結果を出力する最終的なシステムが完成します。このシステムは、キーワードやポリシー違反のフレーズだけでなく、意図を判断する上で重要なトーン、感情、その他の文脈も検出できます。音声から直接ポリシー違反の発話を検出するこの新しいシステムは、従来のASR（自動音声認識）システムに比べて計算効率が大幅に向上しており、人々のつながりのあり方を再構築していく中で、システムの拡張がはるかに容易になります。

また、音声コミュニケーションツールを利用するユーザーに対し、こうした言葉遣いがもたらす可能性のある結果について警告する新たな方法も必要でした。この革新的な検出システムを活用し、安全な環境を維持するためにオンライン上の行動に影響を与える方法について現在実験を行っています。ユーザーが意図せずポリシーに違反してしまうこともあることを私たちは理解しており、時折のリマインダーが今後の違反防止に役立つかどうかを検証したいと考えています。その一環として、通知を通じたリアルタイムのユーザーフィードバックの実験を行っています。システムがポリシー違反の発言を一定回数検出した場合、画面にポップアップ通知を表示し、その発言がポリシーに違反していることを通知するとともに、詳細についてはポリシーページを参照するよう案内します。

ただし、音声ストリーム通知はモデレーションシステムの一部に過ぎません。当社は、プラットフォーム上の行動パターンや、Roblox上の他のユーザーからの苦情も考慮し、総合的なモデレーション判断を行っています。これらのシグナルが総合的に判断された場合、音声機能の利用停止といったより厳しい措置が講じられる可能性があり、より深刻な違反については、プラットフォームからの完全な利用停止となることもあります。マルチモーダルAIモデル、生成AI、LLMの進歩が相まって、クリエイターに驚くべき新しいツールや機能をもたらす中、コミュニティの安全性と健全性を維持することは極めて重要です。

クリエイターにこれらのツールを提供することで、経験の浅いクリエイターの参入障壁を下げると同時に、経験豊富なクリエイターをこのプロセスにおける煩雑な作業から解放できると考えています。これにより、クリエイターは微調整やアイデア創出といった創造的な側面により多くの時間を割けるようになります。これらすべてを通じて、私たちは世界中の誰もがアイデアを形にできるようにし、Roblox上で利用可能なアバター、アイテム、体験の多様性を飛躍的に高めることを目指しています。また、新しい創作物を保護するための情報やツールも提供しています。

すでに素晴らしい可能性を想像しています。例えば、写真から直接アバターの分身を作成できた場合、そのアバターをカスタマイズして背を高くしたり、アニメ風にしたりできるでしょう。あるいは、アシスタントに車や建物、風景の追加、照明や風の条件の設定、地形の変更を依頼して体験を構築することも可能です。そこから、アシスタントとやり取りするだけで、反復作業を通じて細部を磨き上げていくことができるのです。こうしたツールが利用可能になれば、人々が作り出すものは、私たちの想像をはるかに超えるものになるだろうと確信しています。

生成AIでRobloxの創作に革命を起こす

Roblox Assistant

アバター作成の簡素化

音声コミュニケーションのモデレーション

エンジニアリング

22の新しい言語とより精度の高い検出機能を備えた「Voice Safety」分類器のアップグレード

ニュース

先駆的なAI起業家たちが参画、Robloxの「Reality」ビジョンを加速へ

エンジニアリング

CubePart：オープンボキャブラリー対応のパーツ制御型3Dジェネレーター