Roblox’ Weg zur generativen 4D-KI

Von Morgan McGuire, leitender Wissenschaftler

Veröffentlicht 17.06.2024

Roblox arbeitet an einer generativen 4D-KI, die über einzelne 3D-Objekte hinausgeht und dynamische Interaktionen ermöglicht.
Die Bewältigung der Herausforderungen von 4D erfordert ein multimodales Verständnis von Aussehen, Form, Physik und Skripten.
Frühe Tools, die die Grundlage für unser 4D-System bilden, beschleunigen bereits die Erstellung auf der Plattform.

Roblox ermöglicht es Kreativen, immersive 3D-Erlebnisse, Avatare und Accessoires zu erstellen, indem es ihnen die Tools, Dienste und Unterstützung bereitstellt, die sie benötigen, um ihre Ideen zum Leben zu erwecken. Es sind diese Kreativen, die die lebendigen Inhalte auf unserer Plattform erstellen, die täglich mehr als 77 Millionen aktive Nutzer anzieht (Stand: 1. Quartal 2024). Über unsere kostenlose Roblox Studio-App haben wir eine Reihe generativer KI-Tools veröffentlicht, die speziell für Roblox-Workflows entwickelt und auf Roblox-spezifische Inhalte trainiert wurden.

Diese Tools machen das Erstellen für Experten und Anfänger gleichermaßen einfacher, effizienter und unterhaltsamer. „Assistant“ ermöglicht die Bearbeitung des 3D-Arbeitsbereichs, „Animation Capture“ ermöglicht Gesichts- und Körperbewegungen, „Code Assist“ hilft bei der Bearbeitung und Erstellung von Skripten, „Material Generator“ ermöglicht das Kacheln von Materialoberflächen und „Texture Generator“ ermöglicht das Asset-spezifische Textur-Mapping. Jedes dieser generativen KI-Tools verbessert einen Teil des kreativen 3D-Prozesses.

Zusammen erweitern diese Tools die Fähigkeiten eines Entwicklers und verkürzen die Zeit vom Konzept bis zur Fertigstellung. Wir haben diese Tools unter Nutzung unserer eigenen innovativen Forschungsdurchbrüche sowie der besten Lösungen aus dem größeren KI-Ökosystem entwickelt. Sie befassen sich mit der Erstellung einzelner Assets in 1D (Skripte), 2D (Oberflächen) und 3D (Räume). Wir präsentieren einige der Ergebnisse aus unserem Labor für 3D-Geometrieerzeugung und -bearbeitung auf verschiedenen internationalen Forschungskonferenzen, darunter unsere eigene Roblox Developers Conference.

Branchenweit sind 1D und 2D auf dem neuesten Stand der Technik, und 3D steht an der Spitze der generativen KI. Jeder dieser Bereiche stellt eine zunehmend bedeutende Herausforderung dar, die kontinuierlich spannende technische Fortschritte vorantreibt. Da wir in einem 3D-Raum leben, mag es so aussehen, als sei dies die ultimative Herausforderung für generative KI. Basierend auf den Bedürfnissen unserer Community reicht unsere Vision für diese Arbeit jedoch noch weiter.

Wo wir heute stehen

Wir arbeiten auf eine generative 4D-KI hin, bei der die vierte Dimension die Interaktion ist. Die Stärke der Online-Plattform von Roblox liegt in der Interaktion – zwischen Menschen, Objekten und Umgebungen. Im Gegensatz zu herkömmlichen Online-Videospielen nutzt die leistungsstarke Laufzeit-Engine von Roblox ein einzigartiges Programmier- und Simulationsmodell, das auf Interaktion ausgerichtet ist. Dieses Modell ist vom Konzept eines Metaversums inspiriert, in dem Elemente auf komplexe, viele-zu-viele und spontane Weise aufeinandertreffen, anstatt auf vorgeschriebene und begrenzte Weise.

Generative KI-Tools in 1D, 2D und 3D erzeugen einzelne Assets. Die Herausforderung bei der generativen 4D-KI besteht darin, diese Assets so zum Leben zu erwecken, dass uneingeschränkte Interaktionen möglich sind, die unserer Plattform angemessen sind. Das bedeutet zum Beispiel, dass ein Avatar nicht nur aus Form und Farbe besteht – er umfasst auch ein Skelett, Animationen sowie die Fähigkeit, Werkzeuge zu greifen und das Gleichgewicht zu halten. Dieser Avatar kann Kleidung tragen, die nicht speziell für ihn entworfen wurde und die sich automatisch perfekt anpasst und alle Bewegungen nachverfolgt. Unser neues Avatar-AutoSetup-Tool ist ein frühes Beispiel dafür, wie generative KI dabei helfen kann, diese Art der Erstellung zu automatisieren. Entwickler können diesen Prozess nun in Minuten statt in Stunden oder Tagen abschließen.

Ein Sportwagen besteht nicht nur aus einer schnittigen Form und Lackierung – er umfasst auch den Motor, bewegliche Teile und ein Physik-Rig, das es ihm ermöglicht, präzise und kontrolliert durch virtuelle Straßen zu brausen. In jedem Fall wird das Objekt über 3D hinaus erweitert, um über Physik mit all seinen Teilen und über den Avatar mit dem Nutzer zu interagieren.

Jedes dieser reichhaltig interaktiven 4D-Elemente kann in eine größere Umgebung eingefügt werden, in der die generative KI den Stil jedes Elements harmonisiert und interaktive Unterstützung zwischen den Objekten und mit der Umgebung einbaut. Nun kann ein Nutzer über seinen Avatar an einem Straßenrennen mit Schadensmodifikatoren und Highscores teilnehmen und vor einem Markenmodegeschäft zum Stehen kommen, wo er neue Kleidung kauft, um seinen Sieg zu feiern.

Heute erfordert die Erstellung solcher Erlebnisse die manuelle Erstellung des Skript-Quellcodes, der Arbeitsbereichs- und Datenmodellstruktur, der 3D-Geometrie, der Animationen und der Materialien. Unsere bestehenden generativen KI-Tools unterstützen jeden Teil der Pipeline. Wir entwickeln ein System, das all diese Elemente miteinander verbindet und gleichzeitig generiert. Um dies zu erreichen, müssen wir unser generatives 4D-KI-System multimodal trainieren, d. h. über mehrere Datentypen hinweg. Dies ist bereits für Bilder und Text geschehen, die den Material Generator antreiben. Durch die Ermöglichung von Interaktion und das Hinzufügen speziell entwickelter Optimierer für die Physik werden wir die nächste Stufe der 4D-Fähigkeiten erreichen.

Allein im letzten Jahr haben wir enorme Veränderungen bei der Erstellung von Inhalten auf Roblox erlebt. Mit Blick auf die Zukunft sehen wir eine Welt, in der jeder, überall, eine Idee zum Leben erwecken kann, indem er einfach einen Befehl eintippt oder spricht. Um dorthin zu gelangen, müssen wir beginnen, einige der Herausforderungen zu bewältigen, denen wir auf diesem Weg begegnen werden.

Die Herausforderungen, die vor uns liegen

Die oben vorgestellten Experimente werden in naher Zukunft verfügbar sein. Auf längere Sicht stehen wir vor drei klaren Herausforderungen, die wir bewältigen müssen:

1. Funktionalität: Die Objekte, die mit diesem zukünftigen generativen KI-Tool erstellt werden, müssen funktionsfähig sein. Es geht darum, dass das System einen Lkw oder ein Flugzeug mit einer 3D-Form betrachtet – und es nicht als geschlossenen, undurchsichtigen Objekt behandelt. Und ohne dass der Ersteller eingreifen muss, kann es automatisch erkennen, welche Teile Gelenke benötigen oder wo sich das Netz öffnen muss.

Dies ist ein KI-Problem auf menschlichem Niveau, das diese Systeme lösen müssen – zum Beispiel die richtige Positionierung der Räder zu ermitteln und dann eine Achse für die Räder hinzuzufügen, damit sie genauso funktionieren wie in der physischen Welt. Und zu erkennen, wo sich die Tür befindet, und dann eine Öffnung zu schneiden und Scharniere hinzuzufügen, damit sich die Tür öffnen und schließen lässt.

2. Interaktiv: Mit dieser zukünftigen generativen KI erstellte Objekte müssen nicht nur eigenständig funktionieren, sondern auch mit anderen Objekten in der Umgebung interagieren können. Nachdem das System nun ein Auto mit einer Tür, die sich öffnet, und Rädern, die sich drehen, für uns erstellt hat, muss es die Physik der Welt verstehen, in die das Auto eingebettet ist. Wie bewegt sich das Fahrzeug auf dem Gelände? Wenn es gegen einen Felsbrocken prallt, wo und wie wird es dann zerknittert, basierend auf der Größe des Felsbrockens und der Geschwindigkeit des Fahrzeugs?

Diese komplexe Herausforderung erfordert, dass sowohl das erstellte Objekt als auch die Umgebung oder die Objekte, mit denen es interagiert, die Physik des jeweils anderen verstehen. Glücklicherweise hat Roblox in dieser Hinsicht einen Vorsprung, da die Plattform als Physik-Engine aufgebaut wurde, was bedeutet, dass alle Objekte in den Erlebnissen physikalisch sein können. Wenn generative KI ein 4D-Objekt erstellt, werden auch physikalische Eigenschaften wie Material, Masse und Festigkeit hinzugefügt, um es für die Interaktion mit anderen physikalisch basierten Objekten in der Welt vorzubereiten.

3. Steuerbar: Heute interagieren wir mit generativer KI mithilfe von Eingabeaufforderungen. Dies ist eine unvollkommene Wissenschaft, vergleichbar mit einer Schnitzeljagd. Jemand, der nach einem Bild eines Hasen fragt, könnte eine riesige Vielfalt an Ergebnissen erhalten: ein echtes Kaninchen, einen Schokoladen-Osterhasen, einen Cartoon-Hasen, ein Gemälde eines Kaninchens oder eine Illustration eines Kaninchens, das einen Mantel trägt. Also verfeinern wir die Eingabeaufforderungen und fragen nach fotorealistischen Bildern oder Bildern „im Stil von“, während wir die Vorstellung, die wir im Kopf haben, immer genauer formulieren. Dies erfordert Zeit und wiederholte Versuche, um dem, was wir suchen, näher zu kommen.

Stellen Sie sich vor, Sie müssten diesen Prozess für ein 3D-Objekt anwenden, das funktioniert und mit anderen Objekten interagiert, wie beispielsweise der Lkw in unserem obigen Beispiel. Prompt Engineering auf dieser Ebene wäre exponentiell komplex – nichts, was jeder einfach so nutzen könnte. Um die Idee eines Kreativen zum Leben zu erwecken, brauchen wir einen schnelleren, einfacheren Weg zur Kommunikation und Verfeinerung, im Wesentlichen eine Zusammenarbeit mit einem KI-Assistenten, der eher ein Partner ist als eine Schnitzeljagd.

Dies ist eine branchenweite Herausforderung, und viele Unternehmen arbeiten daran, generative KI besser steuerbar zu machen. Wir haben hier mit Tools wie ControlNet einige Fortschritte erzielt, das die Kontrolle erhöht, indem es dem Entwickler ermöglicht, über reine Text-Prompts hinaus zusätzliche Eingabebedingungen festzulegen. Derzeit erforschen wir weitere vielversprechende Methoden für einen zufriedenstellenden Workflow, beispielsweise dass die KI nach kritischen Schritten pausiert, um auf Benutzereingaben zu warten. Aber wir haben noch einen langen Weg vor uns, um ein nahtloses Erlebnis zu erreichen.

Wir sind begeistert von den bisherigen Ergebnissen und noch mehr von dem, was vor uns liegt. Im Vergleich zu Entwicklern, die die Beta-Version von Material Generator nicht nutzen, haben diejenigen, die sie nutzen, den Einsatz von Materialvarianten mit physikbasiertem Rendering (PBR) um mehr als 100 Prozent gesteigert – von etwas über tausend im März 2023 auf über zweitausend im Juni 2024. Bis zum 2. Juni 2024 haben Creator etwa 535 Millionen Zeichen an Code übernommen, die von Code Assist vorgeschlagen wurden.

Wenn wir beginnen, die Herausforderungen auf diesem Weg zu 4D zu meistern, werden unsere Entwickler in der Lage sein, mehr und schneller zu erschaffen. Wir erwarten zudem eine größere Vielfalt an Erlebnissen auf Roblox, da wir es mehr Menschen ermöglichen, Entwickler zu werden. Was sie erschaffen und wie sie es erschaffen, wird uns zeigen, wo wir in neue Tools und KI-Algorithmen investieren müssen, um diese neuen Entwickler neben unserer bestehenden Community zu unterstützen.

Mit generativer 4D-KI hat Roblox neue Horizonte für die Erstellung von Erlebnissen und Assets eröffnet. Auch wenn die Herausforderungen neu sind, ist unser Innovationsprozess gut ausgereift. Wir kombinieren unsere erstklassigen internen Forschungs- und Entwicklungsteams, Kooperationen mit Universitäten und schnelle Iterationen an Prototypen in Partnerschaft mit unserer Community.

Aktuell

Weitere Ergebnisse

Roblox’ Weg zur generativen 4D-KI

Wo wir heute stehen

Die Herausforderungen, die vor uns liegen

Roblox’ Weg zur generativen 4D-KI

Wo wir heute stehen

Die Herausforderungen, die vor uns liegen

Technik

So funktioniert die Berichterstattung im Spiel auf Roblox

Technik

Erweiterung unseres Klassifikators für Sprachsicherheit um 22 neue Sprachen und präzisere Erkennungsfunktionen

Nachrichten

Pionierhafte KI-Gründer schließen sich zusammen, um die „Roblox Reality“-Vision voranzutreiben