Udostępnij

Droga Roblox do generatywnej sztucznej inteligencji 4D

Autor Morgan McGuire, główny naukowiec

Opublikowano 17 cze 2024

Roblox pracuje nad generatywną sztuczną inteligencją 4D, wykraczającą poza pojedyncze obiekty 3D w kierunku dynamicznych interakcji.
Rozwiązanie wyzwania związanego z 4D będzie wymagało wielomodalnego zrozumienia obejmującego wygląd, kształt, fizykę i skrypty.
Wczesne narzędzia, które stanowią fundament naszego systemu 4D, już teraz przyspieszają proces tworzenia na platformie.

Roblox umożliwia twórcom budowanie wciągających doświadczeń 3D, awatarów i akcesoriów, zapewniając narzędzia, usługi i wsparcie potrzebne do urzeczywistnienia ich pomysłów. To właśnie ci twórcy budują tętniącą życiem zawartość na naszej platformie, która angażuje ponad 77 milionów aktywnych użytkowników dziennie (stan na I kwartał 2024 r.). Za pośrednictwem naszej bezpłatnej aplikacji Roblox Studio udostępniliśmy pakiet narzędzi generatywnej sztucznej inteligencji, które zostały zaprojektowane specjalnie pod kątem procesów roboczych Roblox i wyszkolone na treściach specyficznych dla Roblox.

Narzędzia te sprawiają, że tworzenie treści jest łatwiejsze, wydajniejsze i przyjemniejsze zarówno dla ekspertów, jak i nowicjuszy. Asystent umożliwia edycję przestrzeni roboczej 3D, funkcja przechwytywania animacji pozwala na rejestrowanie ruchów twarzy i ciała, asystent kodowania pomaga w edycji i tworzeniu skryptów, generator materiałów umożliwia powielanie wyglądu materiałów, a generator tekstur pozwala na mapowanie tekstur dostosowanych do konkretnych zasobów. Każde z tych generatywnych narzędzi AI usprawnia jeden z etapów procesu twórczego w 3D.

Razem te narzędzia poszerzają zestaw umiejętności twórcy i skracają czas od pomysłu do realizacji. Stworzyliśmy je, wykorzystując nasze własne przełomowe osiągnięcia badawcze, a także najlepsze w swojej klasie rozwiązania z szerszego ekosystemu sztucznej inteligencji. Odnoszą się one do tworzenia poszczególnych zasobów w 1D (skrypty), 2D (powierzchnie) i 3D (przestrzenie). Niektóre wyniki z naszego laboratorium generowania i edycji geometrii 3D prezentujemy na różnych międzynarodowych konferencjach naukowych, w tym na naszej własnej konferencji Roblox Developers Conference.

W całej branży technologie 1D i 2D są najnowocześniejsze, a 3D stanowi najnowocześniejsze osiągnięcie w dziedzinie generatywnej sztucznej inteligencji. Każda z nich stanowi coraz większe wyzwanie, które nieustannie napędza ekscytujące postępy techniczne. Ponieważ żyjemy w przestrzeni 3D, może się wydawać, że jest to ostateczne wyzwanie dla generatywnej sztucznej inteligencji. Jednak w oparciu o potrzeby naszej społeczności nasza wizja tej pracy sięga jeszcze dalej.

Gdzie jesteśmy dzisiaj

Pracujemy nad generatywną sztuczną inteligencją 4D, gdzie czwartym wymiarem jest interakcja. Siłą platformy internetowej Roblox jest interakcja – między ludźmi, obiektami i środowiskami. W przeciwieństwie do tradycyjnych gier wideo online, potężny silnik uruchomieniowy Roblox wykorzystuje unikalny model programowania i symulacji skoncentrowany na interakcji. Model ten jest inspirowany koncepcją metawersum, w którym elementy spotykają się w złożony, wielokierunkowy i spontaniczny sposób, a nie w sposób z góry określony i ograniczony.

Narzędzia generatywnej sztucznej inteligencji 1D, 2D i 3D tworzą pojedyncze zasoby. Wyzwaniem, przed którym stoimy w przypadku generatywnej sztucznej inteligencji 4D, jest ożywienie tych zasobów w sposób umożliwiający nieograniczone interakcje odpowiednie dla naszej platformy. Oznacza to na przykład, że awatar to nie tylko kształt i kolor — to także szkielet, animacje oraz zdolność do chwytania narzędzi i utrzymywania równowagi. Ten awatar może nosić ubrania, które nie zostały zaprojektowane specjalnie dla niego, a które automatycznie dopasowują się, aby idealnie pasować i śledzić każdy ruch. Nasze nowe narzędzie Avatar AutoSetup jest wczesnym przykładem tego, jak generatywna sztuczna inteligencja może pomóc w automatyzacji tego typu tworzenia. Programiści mogą teraz zakończyć ten proces w ciągu kilku minut, a nie godzin czy dni.

Samochód sportowy to nie tylko elegancki kształt i lakier – to także silnik, ruchome części i fizyka, które pozwalają mu pędzić po wirtualnych ulicach z precyzją i kontrolą. W każdym przypadku obiekt jest rozszerzany z 3D, aby wchodzić w interakcję ze wszystkimi swoimi częściami poprzez fizykę oraz z użytkownikiem poprzez jego awatara.

Każdy z tych bogato interaktywnych elementów 4D można dodać do większego środowiska, w którym generatywna sztuczna inteligencja harmonizuje styl każdego elementu i wprowadza interaktywne wsparcie między obiektami oraz z otoczeniem. Teraz użytkownik, za pośrednictwem swojego awatara, może wziąć udział w wyścigu ulicznym z modyfikatorami uszkodzeń i wysokimi wynikami, a następnie zatrzymać się w markowym sklepie odzieżowym, gdzie kupi nowe ubrania, aby uczcić swoje zwycięstwo.

Obecnie tworzenie takich doświadczeń wymaga ręcznego tworzenia kodu źródłowego skryptu, struktury obszaru roboczego i modelu danych, geometrii 3D, animacji oraz materiałów. Nasze istniejące narzędzia generatywnej sztucznej inteligencji pomagają w każdej części tego procesu. Budujemy system, który połączy wszystkie te elementy i będzie je generował jednocześnie. Aby to osiągnąć, musimy wyszkolić nasz system generatywnej sztucznej inteligencji 4D w sposób multimodalny, czyli z wykorzystaniem wielu rodzajów danych jednocześnie. Zostało to już zrealizowane w przypadku obrazów i tekstu, które zasilają Material Generator. Umożliwienie interakcji i dodanie specjalnie zaprojektowanych optymalizatorów fizyki pozwoli nam osiągnąć kolejny poziom możliwości 4D.

W ciągu zaledwie ostatniego roku byliśmy świadkami ogromnych zmian w sposobie tworzenia treści w Roblox. Patrząc w przyszłość, widzimy świat, w którym każdy, gdziekolwiek się znajduje, może zrealizować swój pomysł, po prostu wpisując lub wypowiadając polecenie. Aby to osiągnąć, musimy zacząć rozwiązywać niektóre wyzwania, które napotkamy po drodze.

Wyzwania, które przed nami stoją

Eksperymenty, o których wspomnieliśmy powyżej, będą dostępne w najbliższej przyszłości. W dalszej perspektywie stoimy przed trzema wyraźnymi wyzwaniami, które musimy pokonać:

1. Funkcjonalność: Obiekty tworzone przez to przyszłe narzędzie generatywnej sztucznej inteligencji muszą być funkcjonalne. Chodzi o to, aby system patrząc na ciężarówkę lub samolot, których kształt jest trójwymiarowy, nie traktował ich jako zamkniętych, nieprzezroczystych obiektów. Bez konieczności interwencji twórcy system powinien automatycznie rozpoznawać, które części wymagają połączeń lub gdzie siatka powinna się otworzyć.

Jest to problem sztucznej inteligencji na poziomie ludzkim, który systemy te muszą rozwiązać — na przykład znaleźć właściwe położenie kół, a następnie dodać oś dla kół, tak aby działały one tak samo, jak w świecie fizycznym. Muszą również znaleźć miejsce na drzwi, a następnie wyciąć otwór i dodać zawiasy, aby drzwi mogły się otwierać i zamykać.

2. Interaktywność: Elementy stworzone za pomocą tej przyszłej generatywnej sztucznej inteligencji muszą nie tylko funkcjonować samodzielnie, ale także wchodzić w interakcje z innymi obiektami w otoczeniu. Skoro więc system stworzył dla nas samochód z otwieranymi drzwiami i obracającymi się kołami, musi zrozumieć fizykę świata, w którym samochód się znajduje. Jak pojazd porusza się po terenie? Jeśli zderzy się z głazem, gdzie i jak się zgniecie, biorąc pod uwagę rozmiar głazu i prędkość pojazdu?

To złożone wyzwanie wymaga, aby zarówno stworzony obiekt, jak i otoczenie lub obiekty, z którymi wchodzi w interakcję, rozumiały fizykę siebie nawzajem. Na szczęście Roblox ma przewagę w tym aspekcie, ponieważ platforma została zbudowana jako silnik fizyczny, co oznacza, że wszystkie obiekty w doświadczeniach mogą być fizyczne. Kiedy generatywna sztuczna inteligencja tworzy obiekt 4D, dodawane są również cechy fizyczne, takie jak materiał, masa i wytrzymałość, aby przygotować go do interakcji z innymi obiektami opartymi na fizyce w świecie.

3. Kontrolowalność: Obecnie wchodzimy w interakcję z generatywną sztuczną inteligencją za pomocą poleceń. Jest to nauka niedoskonała, podobna do poszukiwania skarbów. Ktoś, kto poprosi o obraz królika, może otrzymać ogromną różnorodność wyników: prawdziwego królika, czekoladowego zajączka wielkanocnego, królika z kreskówki, obraz przedstawiający królika lub ilustrację królika w płaszczu. Dlatego udoskonalamy polecenia, prosząc o fotorealistyczne obrazy lub obrazy „w stylu”, dostosowując wizję, którą mamy w głowach. Wymaga to czasu i wielokrotnych prób, aby zbliżyć się do tego, czego szukamy.

Wyobraź sobie, że próbujesz zastosować ten proces do obiektu 3D, który funkcjonuje i wchodzi w interakcje z innymi obiektami, takiego jak ciężarówka z naszego przykładu powyżej. Inżynieria poleceń na tym poziomie byłaby wykładniczo złożona — nie jest to coś, z czego każdy mógłby łatwo korzystać. Aby zrealizować pomysł twórcy, potrzebujemy szybszego, łatwiejszego sposobu komunikacji i dopracowywania, zasadniczo współpracując z asystentem AI, który jest bardziej partnerem, a mniej zabawą w poszukiwanie skarbów.

Jest to wyzwanie dla całej branży, a wiele firm pracuje nad zapewnieniem większej kontroli nad generatywną sztuczną inteligencją. Osiągnęliśmy pewien postęp w tym zakresie dzięki narzędziom takim jak ControlNet, które zwiększają kontrolę, umożliwiając twórcy podanie dodatkowych warunków wejściowych wykraczających poza same polecenia tekstowe. Obecnie badamy inne metody, które wydają się obiecujące dla satysfakcjonującego przepływu pracy, takie jak zatrzymywanie się sztucznej inteligencji po kluczowych krokach w celu oczekiwania na dane wejściowe od użytkownika. Jednak przed nami jeszcze długa droga do osiągnięcia płynnego doświadczenia.

Jesteśmy podekscytowani dotychczasowymi efektami i jeszcze bardziej tym, co nas czeka. W porównaniu z twórcami, którzy nie korzystają z wersji beta Material Generator, ci, którzy z niej korzystają, zwiększyli wykorzystanie wariantów materiałów opartych na renderowaniu fizycznym (PBR) o ponad 100 procent — z nieco ponad tysiąca w marcu 2023 r. do ponad dwóch tysięcy w czerwcu 2024 r. Na dzień 2 czerwca 2024 r. twórcy wykorzystali około 535 milionów znaków kodu zasugerowanych przez Code Assist.

W miarę jak zaczynamy rozwiązywać wyzwania na tej drodze do 4D, nasi twórcy będą mogli tworzyć więcej i szybciej. Spodziewamy się również większej różnorodności doświadczeń na Robloxie, ponieważ umożliwiamy większej liczbie osób zostanie twórcami. To, co tworzą i jak to robią, wskaże nam, gdzie inwestować w nowe narzędzia i algorytmy AI, aby wzmocnić pozycję tych nowych twórców, obok naszej istniejącej społeczności.

Dzięki generatywnej sztucznej inteligencji 4D Roblox otworzył nowe horyzonty w zakresie tworzenia doświadczeń i zasobów. Chociaż wyzwania są nowe, nasz proces innowacji jest dobrze dopracowany. Łączymy nasze najlepsze wewnętrzne zespoły badawczo-rozwojowe, współpracę z uniwersytetami oraz szybkie iteracje prototypów we współpracy z naszą społecznością.

Najnowsze

Więcej wyników

Droga Roblox do generatywnej sztucznej inteligencji 4D

Gdzie jesteśmy dzisiaj

Wyzwania, które przed nami stoją

Droga Roblox do generatywnej sztucznej inteligencji 4D

Gdzie jesteśmy dzisiaj

Wyzwania, które przed nami stoją

Inżynieria

Jak działają relacje z gry w serwisie Roblox

Inżynieria

Ulepszamy nasz klasyfikator bezpieczeństwa głosowego o 22 nowe języki i bardziej precyzyjne funkcje wykrywania

Wiadomości

Pionierzy sztucznej inteligencji łączą siły, aby przyspieszyć realizację wizji Roblox Reality