Roblox 如何運用人工智慧進行大規模內容審查
每天即時審核 25 種語言的數十億則內容

- 為了主動管理 Roblox 上發布的內容,我們已運用人工智慧(AI)建構可擴展的系統約五年。
- 如今,我們的基礎設施、機器學習模型以及數千名人工專家通力合作,致力於讓 Roblox 成為對使用者而言更安全、更文明的環境。
- 我們開發所有這些系統,旨在實現規模化、高效運作,並透過高品質數據持續改進。
安全是 Roblox 所有工作的基石。從一開始,我們就積極進行內容審查,因為我們深知對於一個建立在用戶生成內容基礎上的平台而言,內容審查至關重要。當 Roblox 規模還很小的時候,這項工作是由人工審查員負責的——包括我們的創辦人兼執行長,他在初期也曾花時間審查內容。 隨著時間推移,平台規模與運作速度的增長,已超出人工審核人員的能力範圍。每當推出新產品時,安全始終是我們首要考量的要素。
平均每天有 9,780 萬名活躍用戶¹ 來到 Roblox 進行遊戲、交流與創作。每天,用戶平均發送 61 億則聊天訊息,並進行 110 萬小時的語音通訊,涵蓋 28 種不同語言。創作者每天上傳數百萬項素材,而我們的虛擬角色市集每天也會新增數千項商品。 在這數十億項創作與訊息中,絕大多數都符合禮儀規範。就像在現實世界一樣——這正是大多數人彼此溝通的方式。但當出現不當內容時,我們的文字過濾系統會協助在問題文字傳達給用戶前予以阻擋,並即時評估語音內容的違規情況。若接獲非法內容通報,我們採取行動的中位數時間僅需十分鐘。
要在數毫秒內持續審查如此龐大的內容量,是人類單憑一己之力無法勝任的任務——無論我們擁有多少人力。若要達到這種規模與速度,光是審查聊天訊息,就需要數十萬名人工審查員全天候運作,且不包括週末或假期。 若要審查 Roblox 上的所有其他內容類型,我們還需要數千名審查員。Roblox 每日產生的內容量,需要具備可擴展的基礎設施、機器學習 (ML) 模型以及專為此目的打造的工具。
機器學習能在毫秒內做出這些決策,且能反覆、一致地運作,全天候不間斷。我們仍然需要並僱用人類,以處理那些較不常見、需根據情境進行更深入且細膩的人為判斷的案例。我們將強大且創新的安全與審核工具,與全球數千名人類專家相結合,由他們負責監督並持續訓練我們的系統,以應對新出現且不斷演變的挑戰。Roblox 所有的審核系統皆基於以下原則:
- 我們會主動審查 Roblox 上的內容。
- 我們盡可能向使用者提供即時回饋,因為使用者往往不了解相關規則。
- 我們僅在 AI 的大規模運作中,其精準度與召回率均顯著優於人類時,才會部署 AI。
- 我們運用人工力量來持續改進 AI、處理特殊情況、複雜調查以及申訴案件。
為了有效管理 Roblox 上日益增加的內容量,我們始終在「規模」、「速度」和「品質」這三個維度上進行創新,這需要持續的改進。
規模:每日處理數十億則內容
自 2024 年 2 月至 12 月,用戶上傳了約 1 兆筆內容。在這數十億筆的文字聊天、音訊、語音及圖片中,僅有 0.01% 被偵測到違反我們的任何政策。而且,幾乎所有違反政策的內容,都在用戶看到之前就被自動預先篩選並移除了。雖然這種規模相對較新,但我們對內容審查的承諾卻並非如此。 十多年前,我們建置了基於規則的文字過濾器。約五年前,我們部署了當時最先進的基於變壓器(Transformer)的文字過濾器。如今,我們的文字過濾器每天平均處理 61 億則聊天訊息,並由多款專為不同類型政策違規而設計的模型驅動。
其中一個模型是專門用於遊戲內及平台聊天中的個人可識別資訊(PII)過濾器。用戶向他人索取 PII 可能是導致更嚴重問題的開端,因此我們始終對防止 PII 分享採取強硬立場。每則發送的聊天訊息都是一個「請求」,要求系統進行審查並判定是否提及任何 PII。 這套文字過濾模型每秒處理的請求量(RPS)過於龐大,以至於現有的基於 CPU 的服務架構已難以負荷。因此,我們利用行動網路基礎設施,在 GPU 上建構了一套全新的服務架構。為滿足這些高 RPS 的需求,我們首先將分詞處理與推論分離,接著透過大型模型的量化與蒸餾來加速推論。這些改進措施共同使我們的 RPS 提升了四倍。
在新架構上,PII 過濾器在峰值時可處理 370,000 RPS。我們改良後的 PII 過濾器將誤報率降低了 30%,這使得系統在所有支援的語言中自動偵測到的 PII 提及量增加了 25%。 我們正著手將這項改進推廣至其他多種語言,並將類似的優化應用於其他文字過濾器與介面。儘管我們為這些進展感到自豪,但我們深知個人識別資訊的分享方式始終在演變,因此我們也將隨之持續優化系統。
支撐我們整個內容審核系統的,是基於變壓器架構的大型模型,具備跨多模態的知識。根據營運與生產需求,我們會對這些模型進行蒸餾與量化,以確保系統運行快速且高效。這些技術對於運行各類多模態模型至關重要,目前負責管理文字過濾器的模型,已能高效處理超過 750,000 RPS。

速度:透過即時回饋改變使用者行為
自然且即時的溝通需要近乎即時的過濾機制,以維持對話的流暢性。針對構想進行反覆推敲與協作,則需要快速的回饋機制,以維持創意的流動。我們的多層次防禦系統包含預先防範措施,例如警告通知、暫停使用及帳戶停權。在過濾文字時,我們能即時反應,在數毫秒內封鎖違反政策的詞彙,例如個人識別資訊(PII)、粗俗用語及仇恨言論,防止使用者接觸不當內容。
由於語音通訊無法以相同方式進行封鎖,因此我們透過螢幕通知來教育使用者。我們的警告通知已有效改變使用者行為,並同時提升了禮貌程度與參與度。我們的語音安全分類器能在 15 秒內對八種語言的聊天內容進行審核。我們亦已將此模型開源,作為我們致力於與業界分享安全創新成果的更廣泛承諾之一。

若使用者持續違反我們的政策,後果將日益嚴厲,從短暫警告到喪失語音聊天權限不等。內部研究顯示,停權處分的效果可持續長達三週,能降低再犯率及使用者提交的檢舉數量。早期實驗表明,這類即時干預與後果對維護文明交流具有積極影響。 我們最新版本的語音分類器,其召回率較初始版本提升了 92%,誤報率僅為 1%,且在高峰時段可處理高達 8,300 RPS。我們持續探索進一步提升精準度與召回率的方案。
基於語音聊天通知的成功經驗,我們也開始在文字聊天中實施即時回饋機制。近期實驗顯示,透過聊天介面發送文字通知及實施暫停功能,使被過濾的聊天訊息減少 5%,因濫用舉報而產生的處分案例也減少 6%。此外,我們也開始測試在創作者上傳作品時,向其提供即時回饋的功能。
資料品質:訓練模型以實現持續改善
我們訓練這些系統以減少漏報(false negatives)——寧可多剔除可能涉及政策違規的內容。我們也明白,當用戶認為符合規範的內容被下架時,會感到沮喪。因此,我們持續改進系統,同時也致力於將誤報(false positives)降至最低。正確標記的數據對於提升所有分類器的準確性至關重要。
建立穩健的訓練與評估資料集,既需要充足的高品質範例,也需要人工專家進行精準標註。有時因情境罕見或屬邊界案例,導致資料不足;有時資料過多,則需篩選出最具代表性的範例。此外,我們需要能反映 Roblox 實際情境的資料,這包括俚語或網路迷因等瞬息萬變的內容。 我們的使用者群體——兒童、青少年和玩家——總是不斷向我們介紹新的俚語、新趨勢,以及規避我們內容審查工具的新方法。他們讓我們時刻保持警覺,這正是我們持續測試並評估內容審查工具與政策的原因。
我們採用多種抽樣策略來整理這些資料集,並結合人工智慧與人類專家來生成並標註這些資料範例。我們的政策專家會親手精選範例,我們稱之為「黃金資料集」。這些範例最能精準對應我們希望系統偵測到的問題。我們從龐大的資料集中進行抽樣,並採用多種抽樣策略,其中包括「不確定性抽樣」——透過此方法,我們會針對模型先前曾產生混淆的邊界案例進行抽樣。 我們從人工專家及人工智慧輔助紅隊(關於 AARTs 的更多資訊)獲取樣本,他們透過模擬對抗性攻擊來測試系統,以探查其弱點。
此外,當我們發現新問題、俚語或網路迷因等內容時,也會擴充並優化訓練資料集。部分範例來自我們的申訴流程——用戶可透過此流程申請額外審查。若原決定被推翻,該範例便會納入資料集,協助系統在下次做出正確判斷。
其餘資料則來自我們完善的濫用舉報系統,該系統實質上將數千萬關心使用體驗與社群的用戶,納入我們的人工審核團隊之中。我們近期已優化舉報工具,讓用戶能選擇擷取整個畫面(包含虛擬角色與物件 ID),並標示欲舉報的具體部分。 我們觀察到用戶採用率相當高,約有 15% 的符合資格的檢舉提供了視覺註解。這些額外的背景資訊有助於我們主動識別用戶頻繁檢舉的問題體驗。由於模型訓練並非即時完成,我們也正在探索如何根據用戶檢舉自動建立 AI 驅動的規則,以提升我們的反應速度。

我們透過合成資料來補充這些資料集,其中大型語言模型(LLMs)會生成模擬真實世界範例的人工資料範例與標籤。此舉的優勢在於,即使面對罕見或邊緣案例,也能生成數百萬個範例與標籤。一旦取得足夠的標註資料,我們便會將其分為兩個資料集:一個用於訓練,另一個用於評估。 擁有穩健的評估資料集至關重要:若評估集過於簡單,模型指標看似表現良好,但在實際運作中卻可能失效。資料的準確性比數量更為重要。「垃圾進,垃圾出」是機器學習中真實存在的隱憂,因為模型的表現高度取決於用於訓練與評估的資料準確性。
取得穩健的評估資料集後,我們會依據兩項關鍵指標進行評估:一致性與品質。為了測試一致性,我們會將相同的範例發送給多位人工審核員進行標註,並觀察他們的標籤是否一致(或對齊)。若標籤之間的一致性達到 80% 或更高,這意味著我們的審核員能夠在大規模情況下做出一致的決策。若低於 80%,則可能是政策或訓練內容令人困惑,我們需要進行迭代調整。 為了測試品質,我們會將黃金資料集交由人工審核,以評估其是否違反政策,並確保他們做出正確的判斷。我們也會抽樣部分決策供專家審查。若專家們均做出正確判斷,則表示我們的政策能夠正確執行。高一致性與高品質表明我們的政策能夠正確且一致地執行。若非如此,我們便會回頭重新評估政策與訓練資料集。
像 Roblox 這樣的平台具有高度創意性,使用者幾乎可以自由創作和交流任何內容,這意味著平台始終在不斷演變。我們的內容審查方法必須同樣迅速地演進,以確保社群的安全與文明。隨著語言演變、使用者模式改變以及現實世界事件的發生,我們的主動學習系統會持續更新模型。我們不斷建構具備可擴展性、速度快、精準度高,並能持續適應我們所處的動態世界的系統。
1截至 2025 年第一季。
2涵蓋 2024 年 2 月 17 日至 2024 年 12 月 31 日之報告期間。


