Udostępnij

Rewolucja w tworzeniu treści na Roblox dzięki generatywnej sztucznej inteligencji

Autor Daniel Sturman, dyrektor ds. technologii, Roblox

Opublikowano 11 wrz 2023

Revolutionizing Creation on Roblox with Generative AI

Na początku tego roku podzieliliśmy się naszą wizją generatywnej sztucznej inteligencji (AI) w Roblox oraz nowymi, intuicyjnymi narzędziami, które pozwolą każdemu użytkownikowi stać się twórcą. Ponieważ narzędzia te szybko ewoluują w całej branży, chciałem przedstawić kilka aktualnych informacji na temat postępów, jakie osiągnęliśmy, drogi, która wciąż przed nami, aby zdemokratyzować tworzenie generatywnej sztucznej inteligencji, oraz tego, dlaczego uważamy, że generatywna sztuczna inteligencja jest kluczowym elementem kierunku, w którym zmierza Roblox.

Postępy w dziedzinie generatywnej sztucznej inteligencji i dużych modeli językowych (LLM) dają niesamowitą szansę na otwarcie przyszłości wciągających doświadczeń, umożliwiając łatwiejsze i szybsze tworzenie przy zachowaniu bezpieczeństwa i bez konieczności korzystania z ogromnych zasobów obliczeniowych. Co więcej, postępy w modelach AI, które są multimodalne, co oznacza, że są trenowane na wielu rodzajach treści — takich jak obrazy, kod, tekst, modele 3D i audio — otwierają drzwi do nowych osiągnięć w narzędziach do tworzenia. Te same modele zaczynają również generować wyniki multimodalne, na przykład model, który może tworzyć tekst, a także elementy wizualne uzupełniające ten tekst. Postrzegamy te przełomowe osiągnięcia w dziedzinie sztucznej inteligencji jako ogromną szansę na jednoczesne zwiększenie wydajności bardziej doświadczonych twórców oraz umożliwienie jeszcze większej liczbie osób realizację wspaniałych pomysłów w Roblox. Podczas tegorocznej konferencji Roblox Developers Conference (RDC) ogłosiliśmy kilka nowych narzędzi, które wprowadzą generatywną sztuczną inteligencję do Roblox Studio i nie tylko, aby pomóc każdemu użytkownikowi Roblox w szybszym skalowaniu, szybszym wprowadzaniu zmian i poszerzaniu umiejętności w celu tworzenia jeszcze lepszych treści.

Asystent Roblox

Roblox zawsze zapewniał twórcom narzędzia, usługi i wsparcie potrzebne do tworzenia wciągających doświadczeń 3D. Jednocześnie zauważyliśmy, że nasi twórcy zaczynają korzystać z generatywnej i konwersacyjnej sztucznej inteligencji innych firm, aby ułatwić sobie tworzenie. Chociaż są one przydatne w zmniejszaniu obciążenia twórców, te gotowe wersje nie zostały zaprojektowane z myślą o kompleksowych procesach Roblox ani nie zostały przeszkolone w zakresie kodu, slangu i żargonu Roblox. Oznacza to, że twórcy muszą włożyć sporo dodatkowej pracy, aby wykorzystać te wersje do tworzenia treści dla Roblox. Pracowaliśmy nad sposobami przeniesienia wartości tych narzędzi do Roblox Studio, a podczas RDC zaprezentowaliśmy wczesną wersję Asystenta.

Assistant to nasza konwersacyjna sztuczna inteligencja, która pozwala twórcom na każdym poziomie umiejętności poświęcać znacznie mniej czasu na rutynowe, powtarzalne zadania związane z tworzeniem, a więcej na działania o wysokiej wartości, takie jak narracja, rozgrywka i projektowanie doświadczeń. Roblox ma wyjątkową pozycję do stworzenia tego konwersacyjnego modelu AI dla wciągających światów 3D, dzięki dostępowi do dużego zestawu publicznych modeli 3D do szkolenia, możliwości integracji modelu z interfejsami API naszej platformy oraz rosnącemu zestawowi innowacyjnych rozwiązań AI. Twórcy będą mogli używać poleceń tekstowych w języku naturalnym do tworzenia scen, edytowania modeli 3D i nadawania obiektom interaktywnych zachowań. Asystent będzie wspierał trzy etapy tworzenia: naukę, kodowanie i budowanie:

Uczenie się: Niezależnie od tego, czy twórca dopiero zaczyna przygodę z programowaniem na Roblox, czy jest doświadczonym weteranem, Roblox Assistant pomoże mu odpowiedzieć na pytania dotyczące szerokiego zakresu zagadnień, używając języka naturalnego.
Kodowanie: Asystent będzie rozszerzeniem naszego najnowszego narzędzia Code Assist. Na przykład programiści będą mogli poprosić Asystenta o poprawienie kodu, wyjaśnienie fragmentu kodu lub pomoc w debugowaniu i sugerowanie poprawek dla kodu, który nie działa prawidłowo.
Budowanie: Asystent pomoże twórcom w szybkim tworzeniu prototypów nowych pomysłów. Na przykład nowy twórca może generować całe sceny i wypróbowywać różne wersje, po prostu wpisując polecenie typu „Dodaj kilka latarni wzdłuż tej drogi” lub „Stwórz las z różnymi rodzajami drzew. Teraz dodaj krzewy i kwiaty”.

Praca z Asystentem będzie miała charakter współpracy, będzie interaktywna i iteracyjna, umożliwiając twórcom przekazywanie informacji zwrotnych, a Asystentowi – pracę nad dostarczeniem właściwego rozwiązania. Będzie to jak posiadanie eksperta-twórcy jako partnera, z którym można konsultować pomysły i wypróbowywać je, aż do uzyskania pożądanego rezultatu.

Aby Assistant stał się jak najlepszym partnerem, ogłosiliśmy podczas RDC kolejną nowość: zaprosiliśmy programistów do udostępnienia swoich anonimowych danych dotyczących skryptów Luau. Dane te pomogą znacznie ulepszyć nasze narzędzia AI, takie jak Code Assist i Assistant, w zakresie sugerowania i tworzenia bardziej wydajnego kodu, co przyniesie korzyści programistom Roblox korzystającym z tych narzędzi. Ponadto, jeśli programiści zdecydują się udostępniać dane poza platformą Roblox, ich dane dotyczące skryptów zostaną dodane do zbioru danych udostępnianego stronom trzecim w celu szkolenia ich narzędzi czatu opartych na sztucznej inteligencji, aby lepiej sugerowały kod Luau, co przyniesie korzyści programistom Luau na całym świecie.

Aby było jasne, w oparciu o kompleksowe badania użytkowników i przejrzyste rozmowy z czołowymi programistami, zaprojektowaliśmy ten program jako opcjonalny i zadbamy o to, aby wszyscy uczestnicy zrozumieli i wyrazili zgodę na to, co program obejmuje. W ramach podziękowania dla tych, którzy zdecydują się uczestniczyć w udostępnianiu danych skryptów platformie Roblox, zapewnimy dostęp do bardziej zaawansowanych wersji Assistant i Code Assist, które są oparte na modelu wyszkolonym przez społeczność. Osoby, które nie wyrażą zgody na udział w programie, będą nadal miały dostęp do obecnej wersji Assistant i Code Assist.

Łatwiejsze tworzenie awatarów

Ostatecznie chcemy, aby każdy z naszych 65,5 miliona codziennych użytkowników miał awatara, który naprawdę go reprezentuje i wyraża to, kim jest. Niedawno udostępniliśmy członkom naszego programu UGC możliwość tworzenia i sprzedaży zarówno ciał awatarów, jak i samych głów. Obecnie proces ten wymaga dostępu do Studio lub naszego programu UGC, dość wysokiego poziomu umiejętności oraz wielu dni pracy, aby umożliwić wyrażanie mimiki twarzy, ruchy ciała, rigowanie 3D itp. Sprawia to, że tworzenie awatarów jest czasochłonne i do tej pory ograniczało liczbę dostępnych opcji. Chcemy pójść jeszcze dalej.

Aby każdy użytkownik Roblox mógł mieć spersonalizowanego, wyrazistego awatara, musimy sprawić, by tworzenie i dostosowywanie awatarów było bardzo łatwe. Podczas RDC ogłosiliśmy nowe narzędzie, które wprowadzimy w 2024 roku i które umożliwi łatwe tworzenie spersonalizowanych awatarów na podstawie jednego lub kilku obrazów. Dzięki temu narzędziu każdy twórca z dostępem do Studio lub naszego programu UGC będzie mógł przesłać obraz, zlecić stworzenie awatara, a następnie modyfikować go według własnego uznania. W dłuższej perspektywie zamierzamy udostępnić tę funkcję bezpośrednio w ramach doświadczeń na Roblox.

Aby to umożliwić, szkolimy modele AI na schemacie awatarów Roblox oraz zestawie modeli awatarów 3D należących do Roblox. Jedno z podejść wykorzystuje badania dotyczące generowania stylizowanych awatarów 3D na podstawie obrazów 2D. Rozważamy również wykorzystanie wstępnie wytrenowanych modeli dyfuzji tekst-obraz w celu uzupełnienia ograniczonych danych szkoleniowych 3D technikami generatywnymi 2D oraz wykorzystanie sieci generatywnej opartej na sieciach przeciwstawnych (GAN) do generowania 3D na potrzeby szkolenia. Wreszcie pracujemy nad wykorzystaniem ControlNet do nakładania predefiniowanych póz w celu ukierunkowania wynikowych obrazów awatarów z wielu ujęć.

Proces ten pozwala uzyskać siatkę 3D awatara. Następnie wykorzystujemy badania nad semantyczną segmentacją 3D, oparte na pozach awatarów 3D, aby dostosować tę siatkę 3D i dodać odpowiednie rysy twarzy, szkielet, rigging oraz tekstury, w istocie przekształcając statyczną siatkę 3D w awatara Roblox. Na koniec narzędzie do edycji siatki pozwala użytkownikom przekształcać i dostosowywać model, aby wyglądał bardziej jak wersja, którą sobie wyobrażają. A wszystko to dzieje się szybko — w ciągu kilku minut — generując nowego awatara, którego można zaimportować do Roblox i wykorzystać w doświadczeniu.

Moderowanie komunikacji głosowej

Dla nas sztuczna inteligencja to nie tylko tworzenie, ale także znacznie wydajniejszy system zapewniający różnorodną, bezpieczną i cywilizowaną społeczność na dużą skalę. Wraz z wprowadzeniem nowych funkcji głosowych, w tym czatu głosowego i Roblox Connect, nowej funkcji dzwonienia jako awatar oraz interfejsów API ogłoszonych podczas RDC, stoimy przed nowym wyzwaniem — moderowaniem języka mówionego w czasie rzeczywistym. Obecnym standardem branżowym w tym zakresie jest proces znany jako automatyczne rozpoznawanie mowy (ASR), który zasadniczo polega na pobraniu pliku audio, transkrypcji w celu przekształcenia go w tekst, a następnie analizie tekstu w celu wyszukania nieodpowiedniego języka, słów kluczowych itp.

Działa to dobrze w przypadku firm korzystających z tego rozwiązania na mniejszą skalę, ale kiedy zaczęliśmy badać możliwość wykorzystania tego samego procesu ASR do moderowania komunikacji głosowej, szybko zdaliśmy sobie sprawę, że w naszej skali jest to trudne i nieefektywne. Takie podejście powoduje również utratę niezwykle cennych informacji zakodowanych w głośności i tonie głosu mówiącego, a także w szerszym kontekście rozmowy. Spośród milionów minut rozmów, które musielibyśmy transkrybować każdego dnia w różnych językach, tylko bardzo niewielki procent mógłby brzmieć jak coś nieodpowiedniego. A w miarę naszego dalszego rozwoju system ten wymagałby coraz większej mocy obliczeniowej, aby nadążyć. Przyjrzeliśmy się więc bliżej, jak moglibyśmy to zrobić bardziej efektywnie, tworząc proces, który przechodzi bezpośrednio od dźwięku na żywo do oznaczania treści, wskazując, czy narusza ona nasze zasady, czy nie.

Ostatecznie udało nam się zbudować własny, niestandardowy system wykrywania głosu, wykorzystując ASR do klasyfikacji naszych wewnętrznych zbiorów danych głosowych, a następnie wykorzystując te sklasyfikowane dane do szkolenia systemu. Mówiąc dokładniej, aby wyszkolić ten nowy system, zaczynamy od pliku audio i tworzymy transkrypcję. Następnie przepuszczamy transkrypcję przez nasz system filtrowania tekstu Roblox w celu sklasyfikowania audio. Ten system filtrowania tekstu świetnie radzi sobie z wykrywaniem języka naruszającego zasady na Roblox, ponieważ od lat optymalizujemy ten sam system filtrowania pod kątem slangu, skrótów i żargonu specyficznego dla Roblox. Po zakończeniu tych etapów szkolenia dysponujemy modelem, który jest w stanie wykrywać naruszenia zasad bezpośrednio z audio w czasie rzeczywistym.

Chociaż system ten ma zdolność wykrywania konkretnych słów kluczowych, takich jak wulgaryzmy, naruszenia zasad rzadko ograniczają się do jednego słowa. Jedno słowo często może wydawać się problematyczne w jednym kontekście, a w innym – zupełnie w porządku. Zasadniczo tego typu naruszenia dotyczą tego, co mówisz, jak to mówisz oraz kontekstu, w jakim wypowiedzi są formułowane.

Aby lepiej zrozumieć kontekst, wykorzystujemy natywną moc architektury opartej na transformatorach, która bardzo dobrze radzi sobie z podsumowywaniem sekwencji. Potrafi ona pobrać sekwencję danych, taką jak strumień audio, i podsumować ją dla użytkownika. Architektura ta pozwala nam zachować dłuższą sekwencję audio, dzięki czemu możemy wykrywać nie tylko słowa, ale także kontekst i intonację. Gdy wszystkie te elementy zostaną połączone, otrzymujemy ostateczny system, w którym dane wejściowe to audio, a dane wyjściowe to klasyfikacja – narusza zasady lub nie. System ten potrafi wykrywać słowa kluczowe i frazy naruszające zasady, ale także ton, nastrój i inne elementy kontekstu, które są ważne dla określenia intencji. Ten nowy system, który wykrywa wypowiedzi naruszające zasady bezpośrednio z dźwięku, jest znacznie bardziej wydajny obliczeniowo niż tradycyjny system ASR, co znacznie ułatwi jego skalowanie w miarę jak będziemy na nowo wyobrażać sobie, w jaki sposób ludzie się spotykają.

Potrzebowaliśmy również nowego sposobu ostrzegania użytkowników naszych narzędzi komunikacji głosowej o potencjalnych konsekwencjach stosowania tego typu języka. Dysponując tym innowacyjnym systemem wykrywania, eksperymentujemy obecnie z metodami wpływania na zachowania online w celu utrzymania bezpiecznego środowiska. Wiemy, że ludzie czasami naruszają nasze zasady nieumyślnie i chcemy zrozumieć, czy sporadyczne przypomnienie może pomóc w zapobieganiu dalszym naruszeniom. Aby to ułatwić, eksperymentujemy z informacją zwrotną dla użytkowników w czasie rzeczywistym za pośrednictwem powiadomień. Jeśli system wykryje, że użytkownik wypowiedział coś, co narusza nasze zasady określoną liczbę razy, wyświetlimy na ekranie wyskakujące powiadomienie informujące, że użyty język narusza nasze zasady, oraz kierujące do naszych zasad w celu uzyskania dodatkowych informacji.

Powiadomienia dotyczące strumienia głosowego to jednak tylko jeden z elementów systemu moderacji. Analizujemy również wzorce zachowań na platformie, a także skargi innych użytkowników Roblox, aby podejmować decyzje dotyczące moderacji. Łącznie te sygnały mogą skutkować poważniejszymi konsekwencjami, w tym cofnięciem dostępu do funkcji audio lub, w przypadku poważniejszych naruszeń, całkowitym zablokowaniem dostępu do platformy. Zapewnienie bezpieczeństwa i kultury naszej społeczności ma kluczowe znaczenie, ponieważ postępy w zakresie multimodalnych modeli AI, generatywnej sztucznej inteligencji i modeli LLM łączą się, umożliwiając twórcom korzystanie z niesamowitych nowych narzędzi i możliwości.

Wierzymy, że zapewnienie twórcom tych narzędzi zarówno obniży barierę wejścia dla mniej doświadczonych twórców, jak i uwolni bardziej doświadczonych twórców od bardziej żmudnych zadań związanych z tym procesem. Pozwoli im to poświęcić więcej czasu na kreatywne aspekty dopracowywania i tworzenia pomysłów. Naszym celem jest umożliwienie wszystkim, gdziekolwiek się znajdują, urzeczywistnianie swoich pomysłów oraz znaczne zwiększenie różnorodności awatarów, przedmiotów i doświadczeń dostępnych w Roblox. Udostępniamy również informacje i narzędzia, które pomogą chronić nowe dzieła.

Już teraz wyobrażamy sobie niesamowite możliwości: powiedzmy, że ktoś jest w stanie stworzyć sobowtóra awatara bezpośrednio ze zdjęcia, a następnie dostosować go, aby był wyższy lub nadać mu styl anime. Albo mógłby zbudować doświadczenie, prosząc Asystenta o dodanie samochodów, budynków i scenerii, ustawienie oświetlenia lub warunków wiatrowych albo zmianę terenu. Stamtąd mógłby wprowadzać poprawki, po prostu pisząc do Asystenta. Wiemy, że to, co ludzie stworzą za pomocą tych narzędzi, gdy tylko staną się one dostępne, znacznie wykroczy poza to, co jesteśmy w stanie sobie wyobrazić.

Najnowsze

Więcej wyników

Rewolucja w tworzeniu treści na Roblox dzięki generatywnej sztucznej inteligencji

Asystent Roblox

Łatwiejsze tworzenie awatarów

Moderowanie komunikacji głosowej

Rewolucja w tworzeniu treści na Roblox dzięki generatywnej sztucznej inteligencji

Asystent Roblox

Łatwiejsze tworzenie awatarów

Moderowanie komunikacji głosowej

Inżynieria

Jak działają relacje z gry w serwisie Roblox

Inżynieria

Ulepszamy nasz klasyfikator bezpieczeństwa głosowego o 22 nowe języki i bardziej precyzyjne funkcje wykrywania

Wiadomości

Pionierzy sztucznej inteligencji łączą siły, aby przyspieszyć realizację wizji Roblox Reality