RobloxがAIを活用してコンテンツを大規模に管理する方法

25言語にわたる1日数十億件のコンテンツをリアルタイムで管理

作：ナレン・コネル、エンジニアリング・安全担当副社長

公開日 2025/07/09

Roblox上で公開されるコンテンツを積極的に管理するため、当社は約5年間にわたり、AIを活用したスケーラブルなシステムを構築してきました。
現在、当社のインフラストラクチャ、機械学習モデル、そして数千人の専門家が連携し、Robloxをユーザーにとってより安全で、マナーの守られた場所にするために尽力しています。
これらのシステムはすべて、高品質なデータを活用し、拡張性、スピード、そして継続的な改善を念頭に置いて開発されています。

Robloxにおけるすべての活動の根底には、安全性が存在します。当初から、ユーザー生成コンテンツを基盤とするプラットフォームにおいてモデレーションが不可欠であることを認識していたため、当社は積極的にコンテンツのモデレーションを行ってきました。Robloxの規模がまだ小さかった頃は、人間のレビュー担当者がこの作業を行っていました。創業当初は、当社の創業者兼CEOもコンテンツのモデレーションに時間を費やしていました。しかし、時間の経過とともに、プラットフォームは（規模と速度の両面で）人間のモデレーターの能力を超えるほどに成長しました。新しい製品をリリースする際、安全は常に私たちが最初に考慮する要素です。

Robloxには、1日平均9,780万人のアクティブユーザー¹が訪れ、遊び、コミュニケーションを取り、創作活動を行っています。毎日、ユーザーは28の異なる言語で、平均61億件のチャットメッセージを送信し、110万時間の音声通信を行っています。クリエイターは1日あたり数百万ものアセットをアップロードしており、アバターマーケットプレイスにはさらに数千ものアイテムが追加されています。これら数十億もの創作物やメッセージの圧倒的多数は、礼儀正しいものです。現実世界と同様、それが大多数の人々のコミュニケーションのあり方です。しかし、そうでない場合、当社のテキストフィルタリングシステムが問題のあるテキストがユーザーに届く前にブロックし、音声による違反行為はリアルタイムで判定されます。また、違法コンテンツの通報を受けた場合、対応までにかかる時間の中央値は10分です。

この膨大な量のコンテンツをミリ秒単位で一貫してモデレートすることは、たとえ何人の人間を投入したとしても、人間だけでは対応しきれない仕事です。この規模とスピードで作業を行うには、週末や休暇を除いて24時間365日体制で働く数十万人の人間によるモデレーターが必要となります。しかも、これはチャットメッセージのモデレーションに限った話です。 Roblox上の他のあらゆるコンテンツタイプを管理するには、さらに数千人のモデレーターが必要となります。Roblox上で毎日生成されるコンテンツの量は、拡張性のあるインフラ、機械学習（ML）モデル、そして専用ツールを必要としています。

機械学習（ML）なら、こうした判断をミリ秒単位で、繰り返し、一貫して、24時間体制で行うことができます。ただし、文脈に応じてより深く繊細な人間の判断が必要な、あまり一般的ではないケースに対処するために、依然として人間が必要であり、実際に活用しています。私たちは、堅牢で革新的な安全・モデレーションツールと、世界中の数千人の専門家とを組み合わせています。専門家たちは、システムに対する監督と継続的なトレーニングを行い、新しく変化し続ける課題に対処しています。Robloxのすべてのモデレーションシステムは、以下の原則に基づいています：

Robloxでは、コンテンツを積極的にモデレートしています。
ユーザーには可能な限りリアルタイムでフィードバックを提供します。多くの場合、ユーザーはルールを把握していないためです。
AIは、大規模な運用において精度と再現率の両面で人間を大幅に上回る性能を発揮する場合にのみ導入します。
私たちは、AIの継続的な改善、状況の変化、稀なケース、複雑な調査、および異議申し立てのために人間を活用します。

Roblox上で生成されるコンテンツ量の増加に効率的に対応するため、私たちは「規模」「速度」「品質」という3つの側面において常に革新を続けており、これには継続的な改善が不可欠です。

規模：1日あたり数十億件のコンテンツを管理

2024年2月から12月にかけて、ユーザーは約1兆件のコンテンツをアップロードしました。その膨大な数のテキストチャット、音声、画像のうち、当社のポリシーに違反していると検出されたのはわずか0.01%に過ぎません。また、ポリシーに違反したコンテンツのほぼすべては、ユーザーが閲覧する前に自動的に事前審査され、削除されました。この規模での運用は比較的新しいものですが、モデレーションへの取り組み自体は決して新しいものではありません。 10年以上前、私たちはルールベースのテキストフィルターを構築しました。約5年前には、当時最先端であったトランスフォーマーベースのテキストフィルターを導入しました。現在、当社のテキストフィルターは、さまざまな種類のポリシー違反に特化して構築された多数のモデルを活用し、1日平均61億件のチャットメッセージを処理しています。

そのモデルの一つが、ゲーム内およびプラットフォーム上のチャットにおける個人を特定できる情報（PII）を検知するフィルターです。他者にPIIを尋ねる行為は、より深刻な問題への第一歩となり得るため、当社は常にPIIの共有防止に対して強硬な姿勢をとってきました。送信されるすべてのチャットメッセージは、システムに対してPIIの言及の有無を審査・判定するよう求める「リクエスト」となります。このテキストフィルタリングモデルは、1秒あたりのリクエスト数（RPS）が膨大になり、既存のCPUベースのサービングスタックでは処理が困難になっていました。そこで、当社のセルラーインフラを活用し、GPU上で全く新しいサービングスタックを構築しました。この高いRPS需要に対応するため、まずトークン化と推論を分離し、さらに大規模モデルの量子化とディスティレーションによって推論を高速化しました。これらの改善により、RPSは4倍に向上しました。

新しいスタックでは、PIIフィルターはピーク時で37万RPSを処理しています。改良されたPIIフィルターにより、誤検知（false positive）が30%減少した結果、サポートされている全言語において、システムが自動的に検出したPIIの言及数が25%増加しました。現在、この改善を他の複数の言語にも展開し、他のテキストフィルターや表示画面にも同様の改善をもたらすべく取り組んでいます。これらの改善を誇りに思う一方で、PIIが共有される手法は常に進化しており、我々もこれらの変化に合わせてシステムを進化させ続けています。

当社のモデレーションシステム全体を支えているのは、様々なモダリティにわたる知識を備えた、大規模なトランスフォーマーベースのモデルです。運用および本番環境の要件に応じて、システムの高速性と効率性を維持するために、これらのモデルを蒸留および量子化しています。これらの技術は、多様なマルチモーダルモデルを稼働させる上で不可欠であり、現在、テキストフィルターを管理するモデルは75万RPS以上を効率的に処理しています。

スピード：リアルタイムのフィードバックによるユーザー行動の変化

自然でリアルタイムなコミュニケーションを維持するには、会話の流れを妨げないよう、ほぼ即時のフィルタリングが必要です。アイデアの反復や共同作業において創造性を維持するには、迅速なフィードバックが不可欠です。当社の多層防御システムには、警告通知、タイムアウト、利用停止といった予防措置が含まれています。テキストのフィルタリングにおいては、個人識別情報（PII）、卑猥な言葉、ヘイトスピーチなどのポリシー違反用語をミリ秒単位でリアルタイムにブロックし、ユーザーが不適切なコンテンツにさらされるのを防ぎます。

音声通信はテキストと同じ方法でブロックできないため、画面上の通知を通じてユーザーに注意喚起を行っています。当社の警告通知は、ユーザーの行動を効果的に変え、マナーの向上とエンゲージメントの増加の両方をもたらしました。当社の音声安全分類モデルは、8つの言語に対応し、15秒以内にチャットをモデレートします。また、安全に関するイノベーションを業界と共有するという当社の幅広い取り組みの一環として、このモデルをオープンソース化しました。

通知は、ユーザーがどのポリシーに違反しているかを理解するのに役立ち、システムの決定に対して異議申し立てを行う機会を提供します。

ユーザーが当社のポリシーに違反し続ける場合、その処分は一時的な警告からボイスチャットへのアクセス停止に至るまで、次第に厳しくなります。社内調査によると、利用停止処分はその後最大3週間にわたり効果を発揮し、再違反率やユーザーからの通報件数を減少させることが分かっています。初期の実験では、こうしたその場での介入や処分が、マナーの向上にプラスの効果をもたらすことが示されています。最新バージョンの音声分類器の再現率は初期バージョンより92%向上し、誤検知率は1%で、ピーク時には最大8,300 RPSを処理しています。私たちは、精度と再現率の両方をさらに向上させる方法を模索し続けています。

ボイスチャットでの通知機能の成功を受け、テキストチャット向けにもリアルタイムフィードバックの導入を開始しました。最近の実験では、アプリ内でのテキストチャット通知やタイムアウトの適用により、フィルタリングされるチャットメッセージが5%減少し、不正利用報告による措置も6%減少したことが確認されました。また、クリエイターが作品をアップロードする際のリアルタイムフィードバックについても、実験を開始しています。

データ品質：継続的な改善に向けたモデルのトレーニング

これらのシステムは、ポリシー違反の可能性があるものはすべて削除する方向に偏り、誤検知（false negative）を最小限に抑えるよう訓練されています。一方で、ユーザーがコンプライアンスに準拠していると信じているコンテンツが削除されることは、ユーザーにとって苛立たしいことであることも理解しています。そのため、誤検知（false positive）も最小限に抑えるよう、システムを継続的に改善しています。すべての分類器の精度を向上させるには、正しくラベル付けされたデータが不可欠です。

堅牢なトレーニングおよび評価用データセットを構築するには、十分な量の高品質な事例と、それらを正確にラベル付けする専門家の両方が必要です。稀なシナリオやエッジケースであるため、データが不足しているケースもあります。逆にデータが多すぎて、最も効果的な事例を特定しなければならない場合もあります。そして、Roblox上で実際に起きていることに合致するデータが必要です。これには、スラングやミームのような一時的な事例も含まれます。子供、ティーン、ゲーマーからなる私たちのユーザーは、常に新しいスラングやトレンド、そしてモデレーションツールを回避する新たな手法を私たちに教えてくれます。彼らは私たちを常に油断させない存在であり、だからこそ私たちはモデレーションツールとポリシーの両方を継続的にテストし、評価しているのです。

これらのデータセットを構築するために、私たちは様々なサンプリング戦略を採用しており、AIと人間の専門家の両方を活用してデータ例を生成・ラベリングしています。当社のポリシー専門家が手作業で選定した例を、私たちは「ゴールデンセット」と呼んでいます。これらは、システムに検出させたい問題に最も近い例です。私たちは、不確実性サンプリングを含む複数のサンプリング戦略を用いて、非常に大規模なデータセットからサンプリングを行います。不確実性サンプリングでは、モデルが以前判断に迷ったようなエッジケースをサンプリングします。また、人間の専門家やAI支援型レッドチーム（AARTsの詳細）からもサンプルを取得しています。彼らは、敵対的攻撃をシミュレートしてシステムの弱点を突き止めることで、システムをテストします。

また、新たな問題やスラング、ミームなどを発見するたびに、トレーニングセットを拡張・改善しています。これらの例の一部は、ユーザーが再審査をリクエストできる異議申し立てプロセスを通じて得られます。判定が覆された場合、その例はデータセットの一部となり、次回システムが正しく判断できるよう役立てられます。

その他のサンプルは、当社の堅牢な不正利用報告システムから得ています。このシステムは、これらの体験やコミュニティを気にかける数千万人のユーザーを、人間のモデレーターチームに実質的に加える役割を果たしています。最近、報告ツールを改良し、ユーザーがアバターやオブジェクトのIDを含むシーン全体をキャプチャし、報告したい部分をハイライト表示できるオプションを追加しました。この機能はユーザーに広く受け入れられており、報告対象となるケースの約15%で視覚的な注釈が提供されています。こうした追加のコンテキストにより、ユーザーから頻繁に懸念が寄せられる問題のある体験を、我々が先回りして特定できるようになります。モデルの学習には時間がかかるため、対応力を高めるべく、ユーザーからの報告に基づいてAI主導のルールを自動的に生成する仕組みも検討しています。

Antarmuka pengguna (UI) laporan dalam pengalaman kini memungkinkan pengguna menandai apa yang ingin mereka laporkan (misalnya, lingkaran hijau di sekitar avatar bebek).

これらのデータセットには、大規模言語モデル（LLM）が実世界の例を模倣した人工的なデータ例とラベルを生成する合成データを補足しています。ここでの利点は、稀なケースやエッジケースであっても、数百万もの例とラベルを生成できる点にあります。十分なラベル付きデータが揃ったら、それをトレーニング用と評価用の2つのデータセットに分割します。堅牢な評価用データセットを確保することは極めて重要です。評価セットが簡単すぎると、モデルの指標上は良好に機能しているように見えますが、本番環境では機能しなくなります。データの量よりも正確性が重要です。「ゴミを入れればゴミが出る（Garbage in, garbage out）」という原則は機械学習において現実的な懸念事項であり、モデルの性能は、その訓練および評価に使用されるデータの正確性に大きく依存するからです。

堅牢な評価データセットが揃ったら、2つの主要な指標、すなわち「整合性」と「品質」に基づいて評価を行います。整合性をテストするには、同じ事例を複数の人間へ送ってラベル付けしてもらい、そのラベルが一致（整合）するかどうかを確認します。ラベル間の整合性が80%以上であれば、モデレーターが大規模な規模でも一貫した判断を下せることを意味します。80%未満の場合は、ポリシーやトレーニングに混乱を招く要素がある可能性があり、改善を繰り返す必要があります。品質を検証するには、ゴールデンセットを人間に送り、ポリシー違反の有無を評価させ、正しい判断を下せるかを確認します。また、判断結果の一部を抽出して専門家によるレビューも行います。専門家全員が正しい判断を下せる場合、ポリシーは適切に適用できると言えます。高いアラインメントと高い品質は、ポリシーが正しく一貫して適用できることを示しています。そうでない場合は、ポリシーとトレーニングセットの両方を再評価します。

Robloxのようなプラットフォームは、ユーザーがほぼあらゆるものを自由に作成・発信できる創造的な性質を持つため、常に進化し続けています。コミュニティの安全性と健全性を維持するためには、モデレーション手法も同様に迅速に進化させなければなりません。当社のアクティブラーニングシステムは、言語の進化、ユーザーパターンの変化、現実世界の出来事に応じて、モデルを継続的に更新します。私たちは、スケーラブルで高速、かつ正確であり、私たち全員が暮らすこのダイナミックな世界に一貫して適応できるシステムを絶えず構築しています。

12025年第1四半期時点。

22024年2月17日から2024年12月31日までの報告期間を対象としています。

RobloxがAIを活用してコンテンツを大規模に管理する方法

規模：1日あたり数十億件のコンテンツを管理

スピード：リアルタイムのフィードバックによるユーザー行動の変化

データ品質：継続的な改善に向けたモデルのトレーニング

エンジニアリング

Robloxにおけるゲーム内レポートの仕組み

エンジニアリング

22の新しい言語とより精度の高い検出機能を備えた「Voice Safety」分類器のアップグレード

ニュース

先駆的なAI起業家たちが参画、Robloxの「Reality」ビジョンを加速へ