運用生成式人工智慧,在 Roblox 上革新創作方式

今年稍早,我們分享了對 Roblox 上生成式人工智慧(AI)的願景,以及那些能讓每位使用者都能成為創作者的直覺式新工具。隨著這些工具在業界迅速演進,我想就我們迄今取得的進展、實現生成式 AI 創作普及化所剩的路程,以及為何我們認為生成式 AI 是 Roblox 未來發展關鍵要素這幾點,提供一些最新資訊。
生成式 AI 與大型語言模型(LLMs)的進展,為開啟沉浸式體驗的未來帶來了絕佳契機。這些技術不僅能讓創作過程更輕鬆、更快速,同時兼顧安全性,且無需耗費龐大的運算資源。 此外,多模態 AI 模型的進展——意指這些模型是透過多種內容類型(例如圖像、程式碼、文字、3D 模型和音訊)進行訓練——為創作工具的創新開闢了新契機。這些模型也開始產生多模態輸出,例如某個模型不僅能生成文字內容,還能產生與文字相輔相成的視覺元素。 我們將這些 AI 突破視為絕佳契機,既能提升資深創作者的效率,也能讓更多人透過 Roblox 將絕佳創意化為現實。在今年的 Roblox 開發者大會(RDC)上,我們宣布了多項新工具,將把生成式 AI 引入 Roblox Studio 及更廣泛的領域,協助 Roblox 上的每位使用者加速擴展、加快迭代,並提升技能以創作更優質的內容。
Roblox Assistant
Roblox 一直以來都為創作者提供打造沉浸式 3D 體驗所需的工具、服務與支援。與此同時,我們也觀察到創作者開始運用第三方生成式與對話式 AI 來輔助創作。 雖然這些現成工具有助於減輕創作者的工作負擔,但它們並非為 Roblox 的端到端工作流程所設計,也未針對 Roblox 的程式碼、俚語和術語進行訓練。這意味著創作者若要利用這些工具為 Roblox 製作內容,將面臨額外的繁重工作。我們一直致力於將這些工具的價值融入 Roblox Studio,並在 RDC 上分享了 Assistant 的早期示範。
Assistant 是我們的對話式人工智慧,能讓各級別的創作者大幅減少在創作過程中處理瑣碎、重複性任務的時間,從而將更多時間投入於敘事、遊戲玩法及體驗設計等高價值活動。 憑藉著龐大的公開 3D 模型資料庫可用於訓練、將模型與平台 API 整合的能力,以及日益豐富的創新 AI 解決方案,Roblox 具備獨特優勢來打造這款專為沉浸式 3D 世界設計的對話式 AI 模型。 創作者將能透過自然語言文字提示來建立場景、編輯 3D 模型,並為物件套用互動行為。Assistant 將支援創作的三大階段:學習、編碼與建構:
- 學習:無論創作者是初次接觸 Roblox 開發,還是經驗豐富的老手,Roblox Assistant 都能透過自然語言,協助解答各類問題。
- 編碼:Assistant 將擴展我們近期推出的 Code Assist 工具功能。例如,開發者可以要求 Assistant 優化程式碼、解釋程式碼的某個區段,或協助除錯並針對運作不當的程式碼提出修正建議。
- 建構:Assistant 將協助創作者快速將新點子轉化為原型。例如,新手創作者只需輸入提示語,如「在這條路上添加一些路燈」或「建立一座有各種樹木的森林,現在再添加一些灌木和花朵」,就能生成完整的場景並嘗試不同版本。
與 Assistant 的合作將是協作、互動且迭代的過程,創作者可提供反饋,並讓 Assistant 據此提供最佳解決方案。這就像擁有一位專家級創作者作為夥伴,您可以與其交流想法,並不斷嘗試直到找到最佳方案。
為了讓 Assistant 成為最理想的夥伴,我們在 RDC 發表了另一項公告:我們邀請開發者選擇加入,貢獻其匿名化的 Luau 腳本資料。這些腳本資料將有助於大幅提升我們的 AI 工具(例如 Code Assist 和 Assistant)在建議與生成更高效程式碼方面的能力,回饋給使用這些工具的 Roblox 開發者。 此外,若開發者選擇在 Roblox 平台外分享資料,其腳本數據將被納入供第三方使用的資料集,用以訓練他們的 AI 聊天工具,使其能更精準地建議 Luau 程式碼,從而回饋全球的 Luau 開發者。
需要明確的是,透過全面的使用者研究以及與頂尖開發者的透明對話,我們將此計畫設計為「自願參與」模式,並將確保所有參與者都理解並同意計畫的內容。 為感謝選擇與 Roblox 分享腳本資料的開發者,我們將授予您使用由此社群訓練模型驅動的「助理」與「程式碼輔助」進階版本的權限。未選擇加入的開發者則仍可繼續使用現有的「助理」與「程式碼輔助」版本。
更輕鬆的虛擬形象創作
歸根結底,我們希望 6,550 萬名每日活躍用戶都能擁有一個真正代表自己、展現真實自我的虛擬角色。 我們近期已開放 UGC 計畫成員創作並販售虛擬角色軀幹與獨立頭部模型。目前,此流程需具備 Studio 或 UGC 計畫的存取權限,並需相當高的技術門檻,且需耗費數日時間才能實現面部表情、身體動作、3D 骨骼綁定等功能。這使得虛擬角色的製作耗時費力,至今也限制了可用的選項數量。我們希望更進一步。
為了讓每位 Roblox 用戶都能擁有個人化且富於表現力的虛擬角色,我們必須讓虛擬角色的生成與自訂變得極為簡易。 在 RDC 大會上,我們宣布將於 2024 年推出一款新工具,讓使用者能輕鬆地透過單張或多張圖片生成自訂虛擬角色。透過此工具,任何擁有 Studio 或 UGC 計畫使用權限的創作者,都能上傳圖片、生成專屬虛擬角色,並隨心所欲地進行修改。長遠來看,我們也計畫將此功能直接整合至 Roblox 上的各種體驗中。
為實現此目標,我們正利用 Roblox 的虛擬角色架構及一組 Roblox 自有的 3D 虛擬角色模型來訓練 AI 模型。其中一種方法是運用從 2D 圖片生成 3D 風格化虛擬角色的研究成果。 我們同時探索運用預訓練的文字轉圖像擴散模型,透過 2D 生成技術來補充有限的 3D 訓練資料,並採用基於生成對抗網路(GAN)的 3D 生成網路進行訓練。最後,我們正致力於運用 ControlNet 疊加預定義姿勢,以引導生成虛擬角色的多視角圖像。
此流程會產生一個虛擬角色的 3D 網格。接著,我們運用基於 3D 虛擬角色姿勢訓練的 3D 語義分割研究,對該 3D 網格進行調整,以添加適當的面部特徵、骨架、綁定及紋理,本質上是將靜態的 3D 網格轉化為 Roblox 虛擬角色。 最後,透過網格編輯工具,使用者可對模型進行變形與調整,使其更貼近心中所想的樣貌。整個過程極為迅速——僅需數分鐘——即可生成一個可匯入 Roblox 並用於體驗中的新虛擬角色。
語音通訊的審核
對我們而言,AI 不僅關乎創作,更是確保社群在龐大規模下保持多元、安全與文明的更高效系統。隨著我們開始推出新語音功能——包括語音聊天、Roblox Connect、以虛擬角色進行通話的新功能,以及在 RDC 大會上公布的 API——我們面臨了一項新挑戰:即時審查口語內容。 當前業界對此的標準做法是採用「自動語音辨識」(ASR)流程,其基本原理是將音訊檔案轉錄為文字,再分析文字內容以篩查不當語言、關鍵字等。
對於小規模應用的企業而言,此方法運作良好;但當我們嘗試將相同的 ASR 流程應用於語音通訊的審核時,很快便發現這在我們的規模下既困難又低效。此外,這種方法還會遺失極其寶貴的資訊——這些資訊蘊含在說話者的音量與語調中,以及對話的整體語境裡。 在我們每天必須轉錄的數百萬分鐘跨語言對話中,可能聽起來不當的內容僅佔極小比例。而且隨著規模持續擴大,該系統將需要越來越多的運算能力才能跟上需求。因此,我們深入研究如何更有效率地處理這項任務,透過建立一條直接從即時音訊到內容標記的處理流程,以判斷內容是否違反我們的政策。
最終,我們成功建置了一套自研的語音偵測系統:先運用語音辨識(ASR)技術對內部語音資料集進行分類,再利用這些已分類的語音資料來訓練系統。具體而言,為了訓練這套新系統,我們首先從音訊開始,生成文字轉錄本。 接著,我們將文字稿送入 Roblox 文字過濾系統進行分類。這套文字過濾系統在偵測 Roblox 平台上的違規語言方面表現優異,因為我們多年來持續針對 Roblox 特有的俚語、縮寫和行話對該系統進行優化。經過這些層次的訓練後,我們最終獲得了一個模型,能夠直接從音訊中即時偵測政策違規行為。
雖然該系統確實具備偵測特定關鍵字(如粗俗用語)的能力,但政策違規行為鮮少僅由單一詞彙構成。同一個詞彙在某種語境下可能顯得問題重重,但在另一種語境下卻完全無礙。本質上,這類違規行為涉及「你說了什麼」、「如何表達」以及「陳述的語境」。
為了更精準地理解語境,我們運用了基於 Transformer 架構的內建優勢,該架構在序列摘要方面表現極佳。它能處理一串資料(例如音訊串流),並為您進行摘要。此架構使我們能夠保留更長的音訊序列,從而不僅能偵測單字,還能掌握語境與語調。 當所有這些元素整合在一起後,我們便建立了一個最終系統:輸入為音訊,輸出則是分類結果——是否違反政策。 此系統不僅能偵測關鍵字與違反政策的短語,還能辨識語氣、情緒及其他對判斷意圖至關重要的語境。這套能直接從音訊中偵測違反政策言論的新系統,其運算效率遠高於傳統的自動語音辨識(ASR)系統,這將使我們在持續重新構思人們互動方式的同時,更容易實現系統擴展。
此外,我們也需要一種新方法,來提醒使用語音通訊工具的用戶,此類言論可能帶來的後果。憑藉這套創新的偵測系統,我們目前正嘗試各種方法來引導線上行為,以維持安全的環境。 我們明白使用者有時會無意中違反政策,因此希望了解偶爾的提醒是否有助於防止後續違規。為此,我們正透過通知功能測試即時使用者回饋機制。若系統偵測到您已多次發表違反政策內容,我們將在您的螢幕上顯示彈出式通知,告知您的言論違反政策,並引導您查閱政策條文以獲取更多資訊。
然而,語音串流通知僅是內容審查系統的其中一環。我們也會分析平台上的行為模式,以及來自其他 Roblox 用戶的投訴,以此作為整體審查決策的依據。綜合這些訊號後,可能導致更嚴厲的處分,包括撤銷語音功能使用權限,或針對更嚴重的違規行為,直接將您永久封禁於平台之外。 隨著多模態 AI 模型、生成式 AI 及大型語言模型(LLMs)的技術進步,為創作者帶來了令人驚嘆的新工具與能力,在此背景下,維護社群的安全與文明至關重要。
我們相信,提供這些工具不僅能降低經驗較少創作者的入門門檻,更能讓資深創作者從繁瑣的流程中解脫,使他們能將更多時間投入到微調與構思等具創意的環節。 我們致力於讓世界各地的每個人都能將創意化為現實,並大幅增加 Roblox 上虛擬角色、物品及體驗的多樣性。同時,我們也將分享相關資訊與工具,協助保護這些新創作。
我們已經預見了令人驚嘆的可能性:假設有人能直接從照片中創建一個分身虛擬角色,他們隨後可以自訂這個虛擬角色,讓它變得更高,或將其渲染成動漫風格。或者,他們可以透過要求「助理」添加汽車、建築和風景,設定光線或風況,或改變地形來打造體驗。從那裡開始,他們只需透過與「助理」進行文字對話,就能反覆迭代以精煉細節。 我們深知,當這些工具問世後,人們實際能創造出的成果,將遠遠超越我們當前的想像。




