Roblox 如何運用人工智慧進行大規模內容審查

每天即時審核 25 種語言的數十億則內容

發佈者 Naren Koneru，工程與安全副總裁

發佈日期 2025年7月9日

為了主動管理 Roblox 上發布的內容，我們已運用人工智慧（AI）建構可擴展的系統約五年。
如今，我們的基礎設施、機器學習模型以及數千名人工專家通力合作，致力於讓 Roblox 成為對使用者而言更安全、更文明的環境。
我們開發所有這些系統，旨在實現規模化、高效運作，並透過高品質數據持續改進。

安全是 Roblox 所有工作的基石。從一開始，我們就積極進行內容審查，因為我們深知對於一個建立在用戶生成內容基礎上的平台而言，內容審查至關重要。當 Roblox 規模還很小的時候，這項工作是由人工審查員負責的——包括我們的創辦人兼執行長，他在初期也曾花時間審查內容。隨著時間推移，平台規模與運作速度的增長，已超出人工審核人員的能力範圍。每當推出新產品時，安全始終是我們首要考量的要素。

平均每天有 9,780 萬名活躍用戶^¹ 來到 Roblox 進行遊戲、交流與創作。每天，用戶平均發送 61 億則聊天訊息，並進行 110 萬小時的語音通訊，涵蓋 28 種不同語言。創作者每天上傳數百萬項素材，而我們的虛擬角色市集每天也會新增數千項商品。在這數十億項創作與訊息中，絕大多數都符合禮儀規範。就像在現實世界一樣——這正是大多數人彼此溝通的方式。但當出現不當內容時，我們的文字過濾系統會協助在問題文字傳達給用戶前予以阻擋，並即時評估語音內容的違規情況。若接獲非法內容通報，我們採取行動的中位數時間僅需十分鐘。

要在數毫秒內持續審查如此龐大的內容量，是人類單憑一己之力無法勝任的任務——無論我們擁有多少人力。若要達到這種規模與速度，光是審查聊天訊息，就需要數十萬名人工審查員全天候運作，且不包括週末或假期。若要審查 Roblox 上的所有其他內容類型，我們還需要數千名審查員。Roblox 每日產生的內容量，需要具備可擴展的基礎設施、機器學習 (ML) 模型以及專為此目的打造的工具。

機器學習能在毫秒內做出這些決策，且能反覆、一致地運作，全天候不間斷。我們仍然需要並僱用人類，以處理那些較不常見、需根據情境進行更深入且細膩的人為判斷的案例。我們將強大且創新的安全與審核工具，與全球數千名人類專家相結合，由他們負責監督並持續訓練我們的系統，以應對新出現且不斷演變的挑戰。Roblox 所有的審核系統皆基於以下原則：

我們會主動審查 Roblox 上的內容。
我們盡可能向使用者提供即時回饋，因為使用者往往不了解相關規則。
我們僅在 AI 的大規模運作中，其精準度與召回率均顯著優於人類時，才會部署 AI。
我們運用人工力量來持續改進 AI、處理特殊情況、複雜調查以及申訴案件。

為了有效管理 Roblox 上日益增加的內容量，我們始終在「規模」、「速度」和「品質」這三個維度上進行創新，這需要持續的改進。

規模：每日處理數十億則內容

自 2024 ^年 2 月至 12 月，用戶上傳了約 1 兆筆內容。在這數十億筆的文字聊天、音訊、語音及圖片中，僅有 0.01% 被偵測到違反我們的任何政策。而且，幾乎所有違反政策的內容，都在用戶看到之前就被自動預先篩選並移除了。雖然這種規模相對較新，但我們對內容審查的承諾卻並非如此。十多年前，我們建置了基於規則的文字過濾器。約五年前，我們部署了當時最先進的基於變壓器（Transformer）的文字過濾器。如今，我們的文字過濾器每天平均處理 61 億則聊天訊息，並由多款專為不同類型政策違規而設計的模型驅動。

其中一個模型是專門用於遊戲內及平台聊天中的個人可識別資訊（PII）過濾器。用戶向他人索取 PII 可能是導致更嚴重問題的開端，因此我們始終對防止 PII 分享採取強硬立場。每則發送的聊天訊息都是一個「請求」，要求系統進行審查並判定是否提及任何 PII。這套文字過濾模型每秒處理的請求量（RPS）過於龐大，以至於現有的基於 CPU 的服務架構已難以負荷。因此，我們利用行動網路基礎設施，在 GPU 上建構了一套全新的服務架構。為滿足這些高 RPS 的需求，我們首先將分詞處理與推論分離，接著透過大型模型的量化與蒸餾來加速推論。這些改進措施共同使我們的 RPS 提升了四倍。

在新架構上，PII 過濾器在峰值時可處理 370,000 RPS。我們改良後的 PII 過濾器將誤報率降低了 30%，這使得系統在所有支援的語言中自動偵測到的 PII 提及量增加了 25%。我們正著手將這項改進推廣至其他多種語言，並將類似的優化應用於其他文字過濾器與介面。儘管我們為這些進展感到自豪，但我們深知個人識別資訊的分享方式始終在演變，因此我們也將隨之持續優化系統。

支撐我們整個內容審核系統的，是基於變壓器架構的大型模型，具備跨多模態的知識。根據營運與生產需求，我們會對這些模型進行蒸餾與量化，以確保系統運行快速且高效。這些技術對於運行各類多模態模型至關重要，目前負責管理文字過濾器的模型，已能高效處理超過 750,000 RPS。

速度：透過即時回饋改變使用者行為

自然且即時的溝通需要近乎即時的過濾機制，以維持對話的流暢性。針對構想進行反覆推敲與協作，則需要快速的回饋機制，以維持創意的流動。我們的多層次防禦系統包含預先防範措施，例如警告通知、暫停使用及帳戶停權。在過濾文字時，我們能即時反應，在數毫秒內封鎖違反政策的詞彙，例如個人識別資訊（PII）、粗俗用語及仇恨言論，防止使用者接觸不當內容。

由於語音通訊無法以相同方式進行封鎖，因此我們透過螢幕通知來教育使用者。我們的警告通知已有效改變使用者行為，並同時提升了禮貌程度與參與度。我們的語音安全分類器能在 15 秒內對八種語言的聊天內容進行審核。我們亦已將此模型開源，作為我們致力於與業界分享安全創新成果的更廣泛承諾之一。

通知功能有助於使用者了解自己違反了哪些政策，並提供使用者機會對系統的決定提出申訴。

若使用者持續違反我們的政策，後果將日益嚴厲，從短暫警告到喪失語音聊天權限不等。內部研究顯示，停權處分的效果可持續長達三週，能降低再犯率及使用者提交的檢舉數量。早期實驗表明，這類即時干預與後果對維護文明交流具有積極影響。我們最新版本的語音分類器，其召回率較初始版本提升了 92%，誤報率僅為 1%，且在高峰時段可處理高達 8,300 RPS。我們持續探索進一步提升精準度與召回率的方案。

基於語音聊天通知的成功經驗，我們也開始在文字聊天中實施即時回饋機制。近期實驗顯示，透過聊天介面發送文字通知及實施暫停功能，使被過濾的聊天訊息減少 5%，因濫用舉報而產生的處分案例也減少 6%。此外，我們也開始測試在創作者上傳作品時，向其提供即時回饋的功能。

資料品質：訓練模型以實現持續改善

我們訓練這些系統以減少漏報（false negatives）——寧可多剔除可能涉及政策違規的內容。我們也明白，當用戶認為符合規範的內容被下架時，會感到沮喪。因此，我們持續改進系統，同時也致力於將誤報（false positives）降至最低。正確標記的數據對於提升所有分類器的準確性至關重要。

建立穩健的訓練與評估資料集，既需要充足的高品質範例，也需要人工專家進行精準標註。有時因情境罕見或屬邊界案例，導致資料不足；有時資料過多，則需篩選出最具代表性的範例。此外，我們需要能反映 Roblox 實際情境的資料，這包括俚語或網路迷因等瞬息萬變的內容。我們的使用者群體——兒童、青少年和玩家——總是不斷向我們介紹新的俚語、新趨勢，以及規避我們內容審查工具的新方法。他們讓我們時刻保持警覺，這正是我們持續測試並評估內容審查工具與政策的原因。

我們採用多種抽樣策略來整理這些資料集，並結合人工智慧與人類專家來生成並標註這些資料範例。我們的政策專家會親手精選範例，我們稱之為「黃金資料集」。這些範例最能精準對應我們希望系統偵測到的問題。我們從龐大的資料集中進行抽樣，並採用多種抽樣策略，其中包括「不確定性抽樣」——透過此方法，我們會針對模型先前曾產生混淆的邊界案例進行抽樣。我們從人工專家及人工智慧輔助紅隊（關於 AARTs 的更多資訊）獲取樣本，他們透過模擬對抗性攻擊來測試系統，以探查其弱點。

此外，當我們發現新問題、俚語或網路迷因等內容時，也會擴充並優化訓練資料集。部分範例來自我們的申訴流程——用戶可透過此流程申請額外審查。若原決定被推翻，該範例便會納入資料集，協助系統在下次做出正確判斷。

其餘資料則來自我們完善的濫用舉報系統，該系統實質上將數千萬關心使用體驗與社群的用戶，納入我們的人工審核團隊之中。我們近期已優化舉報工具，讓用戶能選擇擷取整個畫面（包含虛擬角色與物件 ID），並標示欲舉報的具體部分。我們觀察到用戶採用率相當高，約有 15% 的符合資格的檢舉提供了視覺註解。這些額外的背景資訊有助於我們主動識別用戶頻繁檢舉的問題體驗。由於模型訓練並非即時完成，我們也正在探索如何根據用戶檢舉自動建立 AI 驅動的規則，以提升我們的反應速度。

我們透過合成資料來補充這些資料集，其中大型語言模型（LLMs）會生成模擬真實世界範例的人工資料範例與標籤。此舉的優勢在於，即使面對罕見或邊緣案例，也能生成數百萬個範例與標籤。一旦取得足夠的標註資料，我們便會將其分為兩個資料集：一個用於訓練，另一個用於評估。擁有穩健的評估資料集至關重要：若評估集過於簡單，模型指標看似表現良好，但在實際運作中卻可能失效。資料的準確性比數量更為重要。「垃圾進，垃圾出」是機器學習中真實存在的隱憂，因為模型的表現高度取決於用於訓練與評估的資料準確性。

取得穩健的評估資料集後，我們會依據兩項關鍵指標進行評估：一致性與品質。為了測試一致性，我們會將相同的範例發送給多位人工審核員進行標註，並觀察他們的標籤是否一致（或對齊）。若標籤之間的一致性達到 80% 或更高，這意味著我們的審核員能夠在大規模情況下做出一致的決策。若低於 80%，則可能是政策或訓練內容令人困惑，我們需要進行迭代調整。為了測試品質，我們會將黃金資料集交由人工審核，以評估其是否違反政策，並確保他們做出正確的判斷。我們也會抽樣部分決策供專家審查。若專家們均做出正確判斷，則表示我們的政策能夠正確執行。高一致性與高品質表明我們的政策能夠正確且一致地執行。若非如此，我們便會回頭重新評估政策與訓練資料集。

像 Roblox 這樣的平台具有高度創意性，使用者幾乎可以自由創作和交流任何內容，這意味著平台始終在不斷演變。我們的內容審查方法必須同樣迅速地演進，以確保社群的安全與文明。隨著語言演變、使用者模式改變以及現實世界事件的發生，我們的主動學習系統會持續更新模型。我們不斷建構具備可擴展性、速度快、精準度高，並能持續適應我們所處的動態世界的系統。

¹截至 2025 年第一季。

²涵蓋 2024 年 2 月 17 日至 2024 年 12 月 31 日之報告期間。

Roblox 如何運用人工智慧進行大規模內容審查

規模：每日處理數十億則內容

速度：透過即時回饋改變使用者行為

資料品質：訓練模型以實現持續改善

工程

《Roblox》中的遊戲內報導如何運作

工程

透過新增 22 種語言與更精準的偵測能力，升級我們的「語音安全分類器」

新聞

人工智慧先驅創辦人聯手加速實現 Roblox 的現實願景