「Roblox Cube」のご紹介:3Dおよび4D向けの当社のコア生成AIシステム

- 生成AI向けのCube 3D基盤モデルを公開します。
- また、Cube 3D基盤モデルのバージョンをオープンソース化します。
- Roblox Studio および体験内 Lua API として提供される Cube 3D メッシュ生成のベータ版が、今週利用可能になります。
昨秋、私たちはRoblox上で3Dオブジェクトやシーンを作成するためのオープンソース3D基盤モデルを構築するという野心的なプロジェクトを発表しました。今週、このモデルの最初のリリースをオープンソース化し、GitHubおよびHuggingFaceを通じて、Robloxプラットフォーム内外の誰もが利用できるようにします。 このモデルを「Cube 3D」と名付けました。また、メッシュ生成APIのベータ版リリースにより、その機能の第一弾を提供開始します。Cubeは、今後数年間で開発する高度に複雑なシーン生成ツールを含む、多くのAIツールの基盤となります。最終的には、テキスト、画像、動画、その他の入力データで学習されたマルチモーダルモデルとなり、既存のAI制作ツールと統合される予定です。
Cube 3Dは、テキストから直接、将来的には画像入力からも3Dモデルや環境を生成します。 現在、最先端の3D生成技術では、画像と再構築手法を用いて3Dオブジェクトを生成しています。これは、十分な3Dトレーニングデータがない場合に有効な選択肢です。しかし、当社のプラットフォームの特性により、私たちはネイティブな3Dデータを用いてトレーニングを行っています。生成されたオブジェクトは、現在のゲームエンジンと完全に互換性があり、機能を追加して実用的なオブジェクトへと拡張することも可能です。
ここでの違いは、映画のセットにあるレーストラックに例えることができます。テレビでは、スタンドやガレージ、表彰台のある、完全に機能しているように見えるレーストラックが映し出されるかもしれません。しかし、そのセットの中を実際に歩いてみると、構造物が実際には平らなものであることにすぐに気づくでしょう。真に没入感のある3D世界を構築するには、車が入れるガレージ、座れるスタンド、機能的な表彰台を備えた表彰レーンなど、完全で機能的な構造物が必要です。
これを実現するため、私たちはテキストトークン(文字の集合)を用いて訓練された最先端のモデルから着想を得ました。これらのモデルは、文を構成するために次のトークンを予測できるように設計されています。私たちの革新も、この同じ核心的なアイデアに基づいています。 私たちは、3Dオブジェクトをトークン化し、形状をトークンとして理解する機能を構築し、完全な3Dオブジェクトを構築するために次の形状トークンを予測するようCube 3Dを学習させました。これをシーン全体の生成に拡張すると、Cube 3Dはレイアウトを予測し、そのレイアウトを完成させるために再帰的に形状を予測します。
誰でも、自身のニーズに合わせてCube 3Dの微調整やプラグインの開発、あるいは独自のデータを用いたトレーニングを行うことができます。私たちは、AIツールはオープンさと透明性に基づいて構築されるべきだと考えており、それが私たちがオープンソースAIコミュニティの献身的なパートナーである理由です。 私たちは、AI安全性の進歩を共有することが業界全体のイノベーションと技術的進歩を加速させると強く確信しているため、AI安全性モデルの一つを公開しました。この理由から、オープンソースの安全ツールを用いてデジタル安全性の重要な分野に取り組むことを目的とした新しい非営利団体「ROOST」の設立にも協力しました。Cube 3Dをオープンソース化することで、研究者、開発者、そしてより広範なAIコミュニティが、業界全体で3D生成技術を学び、強化し、発展させることを可能にすることを目指しています。
創作のためのCube 3D
AIが3Dアセット、アクセサリー、体験の制作をいかに加速できるかについては、以前にもお話ししました。最終的には、AIによって、より没入感があり、パーソナライズされたプレイ体験やつながりが可能になるでしょう。私たちは、こうした体験を開発する開発者にとっても、そこで時間を過ごすユーザーにとっても、制作サイクルのあらゆる段階でAIをサポートするインフラに投資しています。 私たちは、開発者が体験内にAIを導入することで、ユーザーに新たな創作手段を提供する未来を構想しています。これにより、8,500万人を超える日次アクティブユーザーの手元に、ゲームプレイの一部としてAIの力が届けられることになります。
過去1年間、私たちはRoblox Studio内のAI搭載アシスタントを通じて、開発者が必要とするツールと機能を提供し、何時間にも及ぶ手作業を削減するために、いくつかの新機能を導入してきました。「Cube」では、3D制作の効率化を目指しています。3Dメッシュ生成機能により、開発者は新しいクリエイティブな方向性を素早く模索し、どの案を進めるかを迅速に決定することで、生産性を向上させることができます。
例えば、レースゲームを作成する場合を考えてみましょう。現在、アシスタント内のメッシュ生成APIを使用すれば、「/generate a motorcycle」や「/generate orange safety cone」といった簡単なプロンプトを入力するだけで済みます。数秒以内に、APIがこれらのオブジェクトのメッシュバージョンを生成します。その後、テクスチャや色などを適用して詳細を仕上げることができます。このAPIを使えば、小道具のモデリングや空間のデザインを大幅に高速化でき、単純なオブジェクトのモデリングに何時間も費やす必要がなくなります。 これにより、トラックのレイアウト設計や車のハンドリングの微調整といった、楽しい作業に集中できるようになります。このAPIを使えば、オブジェクト1つあたり数時間の時間を節約でき、その時間を新しいアイデアの実験に充てることができます。時間や労力をかけすぎることへの心配も不要です。将来的には、より複雑で機能的なオブジェクト、さらにはシーンの作成も可能にする予定です。






内部解説:3Dとテキスト/画像トークン間のクロスアテンション
技術的な課題の核心は、テキストや画像と3D形状を結びつけることでした。私たちの技術的な大きな進歩は「3Dトークン化」であり、これにより、テキストがトークンとして表現されるのと同じように、3Dオブジェクトをトークンとして表現できるようになりました。これにより、言語モデルが文の次の単語を予測するように、次の形状を予測することが可能になります。

3D生成を実現するため、単一オブジェクトの自己回帰生成、形状補完、および複数オブジェクト/シーンのレイアウト生成を統合したアーキテクチャを設計しました。自己回帰トランスフォーマーとは、過去の入力を用いて次の構成要素を予測するニューラルネットワークです。このアーキテクチャはスケーラビリティとマルチモーダル互換性の両方を備えており、モデルを拡張するにつれて、多種多様な入力(テキスト、画像、音声、3D)に対応できるようになります。 このモデルをオープンソース化します。初期段階では、クリエイターはテキストプロンプトに基づいて3Dオブジェクトを生成できるようになります。将来的には、マルチモーダルな入力に基づいてシーン全体を生成できるようにすることを目指しています。
形状生成のためのGenerative Pre-trained Transformer(GPT)を学習させるため、私たちは離散的な3D形状トークンを使用し、それらをテキストプロンプトと関連付けます。この斬新なアプローチにより、インタラクティブな3Dシーン生成の世界への道が開かれます。

Cubeの目指す方向
今日、世界の多くの場所で、AIはテキスト処理、つまり文中の単語を予測するために利用されています。また、画像処理、つまりピクセルを予測するためにも広く使われています。しかし、これらすべての要素が一体となり、互いの文脈の中で機能する必要があるシーンを作成するとなると、事態ははるかに複雑になります。例えば、「木々が立ち並ぶレーストラックの前に、オートバイに乗ったアバターがいる」と表現できるようなシンプルなシーンを想像してみてください。
この体験を構築するには、多くの要素が関わっています。木々は2つの3Dメッシュの組み合わせであり、バイクはディテールと三角形で構成された高密度なメッシュであり、建物はRobloxパーツで構成されています。バイクに乗ったアバターは、体、手足、頭部においてより複雑な幾何学的特徴を持っています。 最後に、これらすべてをレイアウトで結びつける方法が必要です。そのためには、オブジェクトのサイズと位置を定義する境界ボックスが必要であり、これによりジオメトリをどのように配置すべきかがわかります。これは骨の折れる作業ですが、AIは各ステップを支援することができます。AIを活用することで、クリエイターは最初のバージョンをより早く作成でき、新しいアイデアを試したり、シーンを洗練させたりする時間をより多く確保できます。
その段階に至った際、私たちが作成する3Dオブジェクトやシーンには完全な機能性が求められます。これを「4Dクリエーション」と呼び、4次元とはオブジェクト、環境、そして人との間の相互作用を指します。これを実現するには、没入感のある3Dオブジェクトやシーンを構築する能力だけでなく、それらのオブジェクト間の文脈や関係性を理解する能力も必要です。これこそが、Cubeが目指す方向性です。
メッシュ生成というこの最初のユースケースを超えて、シーンの生成と理解へと機能を拡張する計画です。 ユーザーにとって最も関心の高い体験を提供し、文脈に合わせてオブジェクトを追加することでシーンを拡張できるようになります。例えば、森のシーンを用いた体験において、開発者はアシスタントに「木々の青々とした葉をすべて紅葉に置き換えて」と指示し、季節の移り変わりを表現することができます。当社のAIアシスタントツールは開発者からのリクエストに応え、体験の迅速な作成、適応、拡張を支援します。
基盤モデルの改善と拡張を進める中で、最新情報や新機能について随時共有していきます。それまでの間、GitHubやHuggingFaceからアクセスできるオープンソース版のCube 3Dモデルを、ぜひ活用し、その上に新たな体験を構築して楽しんでいただければ幸いです。



