Wir stellen vor: Roblox Cube – unser zentrales generatives KI-System für 3D und 4D

- Wir veröffentlichen unser Cube 3D-Grundmodell für generative KI.
- Außerdem stellen wir eine Version des Cube 3D-Grundmodells als Open Source zur Verfügung.
- Die Beta-Version der Cube 3D-Mesh-Generierung – in Roblox Studio und als Lua-API innerhalb der Experience – wird diese Woche verfügbar sein.
Im vergangenen Herbst haben wir ein ehrgeiziges Projekt angekündigt, ein Open-Source-3D-Grundmodell zu entwickeln, um 3D-Objekte und -Szenen auf Roblox zu erstellen. Diese Woche veröffentlichen wir die erste Version dieses Modells als Open Source, damit es für jeden auf und außerhalb der Roblox-Plattform sowohl auf GitHub als auch auf HuggingFace verfügbar ist. Wir haben dieses Modell „Cube 3D“ genannt. Gleichzeitig stellen wir mit der Beta-Version unserer Mesh-Generierungs-API die erste seiner Funktionen vor. Cube wird vielen der KI-Tools zugrunde liegen, die wir in den kommenden Jahren entwickeln werden, darunter auch hochkomplexe Tools zur Szenenerstellung. Es wird letztendlich ein multimodales Modell sein, das auf Text, Bildern, Videos und anderen Arten von Eingaben trainiert wird – und sich in unsere bestehenden KI-Erstellungstools integrieren lässt.
Cube 3D generiert 3D-Modelle und -Umgebungen direkt aus Text und künftig auch aus Bilddaten. Heutzutage nutzt die modernste 3D-Generierung Bilder und einen Rekonstruktionsansatz, um 3D-Objekte zu erstellen. Dies ist eine gute Option, wenn nicht genügend 3D-Trainingsdaten vorliegen. Dank der Beschaffenheit unserer Plattform trainieren wir jedoch mit nativen 3D-Daten. Das generierte Objekt ist vollständig kompatibel mit heutigen Spiel-Engines und kann erweitert werden, um Objekte funktionsfähig zu machen.
Der Unterschied ist vergleichbar mit dem Set einer Rennstrecke in einem Film. Im Fernsehen sieht man vielleicht eine scheinbar voll funktionsfähige Rennstrecke mit Tribünen, Boxen und einer Siegerkurve. Würde man jedoch auf diesem Set herumlaufen, würde man schnell feststellen, dass die Strukturen in Wirklichkeit flach sind. Der Aufbau einer wirklich immersiven 3D-Welt erfordert vollständige, funktionsfähige Strukturen mit Boxen, in die man hineinfahren kann, Tribünen, auf denen man sitzen kann, und einer Siegerkurve mit einem funktionsfähigen Podium.
Um dies zu erreichen, haben wir uns von modernsten Modellen inspirieren lassen, die auf Text-Tokens (oder Zeichenfolgen) trainiert wurden, damit sie das nächste Token vorhersagen können, um einen Satz zu bilden. Unsere Innovation baut auf derselben Kernidee auf. Wir haben die Fähigkeit entwickelt, 3D-Objekte zu tokenisieren und Formen als Token zu verstehen, und haben Cube 3D darauf trainiert, das nächste Form-Token vorherzusagen, um ein vollständiges 3D-Objekt zu erstellen. Wenn wir dies auf die Generierung kompletter Szenen ausweiten, sagt Cube 3D das Layout voraus und prognostiziert rekursiv die Form, um dieses Layout zu vervollständigen.
Jeder kann Cube 3D an seine Bedürfnisse anpassen, Plug-ins dafür entwickeln oder es mit seinen eigenen Daten trainieren. Wir sind der Überzeugung, dass KI-Tools auf Offenheit und Transparenz basieren sollten, weshalb wir ein engagierter Partner in der Open-Source-KI-Community sind. Wir haben eines unserer KI-Sicherheitsmodelle veröffentlicht, da wir fest davon überzeugt sind, dass der Austausch von Fortschritten im Bereich der KI-Sicherheit der gesamten Branche hilft, Innovationen und technische Weiterentwicklungen zu beschleunigen. Aus diesem Grund haben wir auch bei der Gründung von ROOST mitgewirkt, einer neuen gemeinnützigen Organisation, die sich der Bewältigung wichtiger Bereiche der digitalen Sicherheit mit Open-Source-Sicherheitstools widmet. Mit der Open-Source-Veröffentlichung von Cube 3D wollen wir Forschern, Entwicklern und der breiteren KI-Community ermöglichen, die 3D-Generierung branchenweit zu erlernen, zu erweitern und voranzutreiben.
Cube 3D für die Kreation
Wir haben bereits darüber gesprochen, wie KI die Erstellung von 3D-Assets, Accessoires und Erlebnissen beschleunigen kann. Letztendlich wird KI noch immersivere und personalisiertere Spielmöglichkeiten und Verbindungen ermöglichen. Wir investieren in Infrastruktur, um KI in jeder Phase des Erstellungszyklus zu unterstützen – sowohl für die Entwickler dieser Erlebnisse als auch für die Nutzer, die Zeit in ihnen verbringen. Wir stellen uns eine Zukunft vor, in der Entwickler ihren Nutzern neue Möglichkeiten zum Erstellen bieten, indem sie KI in ihren Erlebnissen aktivieren. Dadurch wird die Leistungsfähigkeit der KI als Teil des Spielablaufs in die Hände von mehr als 85 Millionen täglich aktiven Nutzern gelegt.
Im vergangenen Jahr haben wir über unseren KI-gestützten Assistant in Roblox Studio mehrere neue Funktionen eingeführt, um Entwicklern die Tools und Möglichkeiten zur Verfügung zu stellen, die sie benötigen, um zu kreieren und stundenlange manuelle Arbeit zu vermeiden. Mit Cube wollen wir die 3D-Erstellung effizienter gestalten. Durch die 3D-Mesh-Generierung können Entwickler schnell neue kreative Richtungen erkunden und ihre Produktivität steigern, indem sie rasch entscheiden, welche sie weiterverfolgen möchten.
Stellen Sie sich vor, Sie entwickeln ein Rennspiel. Heute könnten Sie die Mesh-Generierungs-API im Assistant nutzen, indem Sie einen kurzen Befehl eingeben, wie „/generate a motorcycle“ oder „/generate orange safety cone“. Innerhalb von Sekunden würde die API eine Mesh-Version dieser Objekte generieren. Diese könnten dann mit Texturen, Farben usw. ausgearbeitet werden. Mit dieser API können Sie Requisiten modellieren oder Ihren Raum viel schneller gestalten – ohne stundenlang einfache Objekte modellieren zu müssen. So können Sie sich auf die spannenden Dinge konzentrieren, wie das Entwerfen des Streckenlayouts und die Feinabstimmung des Fahrverhaltens. Diese API spart Ihnen bei jedem erstellten Objekt Stunden an Arbeit und gibt Ihnen diese Zeit zurück, um mit neuen Ideen zu experimentieren, ohne sich Gedanken darüber machen zu müssen, zu viel Zeit oder Mühe zu investieren. Langfristig planen wir, komplexere und funktionalere Objekte und sogar ganze Szenen zu ermöglichen.






Hinter den Kulissen: Wechselwirkung zwischen 3D- und Text-/Bild-Token
Die zentrale technische Herausforderung bestand darin, Text und Bilder mit 3D-Formen zu verknüpfen. Unser zentraler technischer Durchbruch ist die 3D-Tokenisierung, die es uns ermöglicht, 3D-Objekte als Token darzustellen, genauso wie Text als Token dargestellt werden kann. Dies gibt uns die Möglichkeit, die nächste Form vorherzusagen, genauso wie Sprachmodelle das nächste Wort in einem Satz vorhersagen.

Um die 3D-Generierung zu realisieren, haben wir eine einheitliche Architektur für die autoregressive Generierung einzelner Objekte, die Vervollständigung von Formen und die Generierung von Layouts mit mehreren Objekten oder Szenen entworfen. Autoregressive Transformer sind neuronale Netze, die vorherige Eingaben nutzen, um die nächste Komponente vorherzusagen. Diese Architektur bietet sowohl Skalierbarkeit als auch multimodale Kompatibilität, sodass das Modell bei seiner Erweiterung mit vielen verschiedenen Arten von Eingaben (Text, Bild, Audio und 3D) funktionieren wird. Wir stellen dieses Modell als Open Source zur Verfügung. In dieser Anfangsphase können Kreative 3D-Objekte auf der Grundlage von Text-Prompts generieren. Später soll es Kreativen möglich sein, ganze Szenen auf der Grundlage multimodaler Eingaben zu generieren.
Um einen generativen vortrainierten Transformer (GPT) für die Formgenerierung zu trainieren, verwenden wir diskrete 3D-Form-Token und ordnen diese den Textvorgaben zu. Dieser neuartige Ansatz ebnet uns den Weg in die Welt der spielbaren 3D-Szenengenerierung.

Wohin sich Cube entwickelt
Heutzutage nutzt ein Großteil der Welt KI für Text, um Wörter in einem Satz vorherzusagen. Viele nutzen sie auch für Bilder, um Pixel vorherzusagen. Dies wird wesentlich komplexer, wenn Szenen erstellt werden, in denen all diese Elemente zusammenkommen und im Kontext miteinander funktionieren müssen. Stellen Sie sich zum Beispiel ein Erlebnis mit einer einfachen Szene vor, die als „ein Avatar auf einem Motorrad vor einer Rennstrecke mit Bäumen“ beschrieben werden kann.
Viele Elemente fließen in die Erstellung dieses Erlebnisses ein. Die Bäume sind eine Kombination aus zwei 3D-Meshes, das Motorrad ist ein dichtes Mesh mit Details und Dreiecken, und die Gebäude bestehen aus Roblox-Teilen. Der Avatar auf dem Motorrad weist komplexere geometrische Merkmale für Körper, Gliedmaßen und Kopf auf. Schließlich brauchen wir eine Möglichkeit, alles mit einem Layout zu verknüpfen. Dazu benötigen wir Begrenzungsrahmen, die ein Objekt umreißen, um dessen Größe und Position zu definieren, damit wir wissen, wie diese Geometrie angeordnet werden muss. Dies ist ein mühsamer Prozess, aber KI kann bei jedem Schritt helfen. Mit KI können Entwickler schneller zur ersten Version gelangen und haben mehr Zeit, neue Ideen zu testen oder ihre Szene zu verfeinern.
Wenn wir dieses Ziel erreichen, sollen die von uns erstellten 3D-Objekte und Szenen voll funktionsfähig sein. Wir nennen dies 4D-Erstellung, wobei die vierte Dimension die Interaktion zwischen Objekten, Umgebungen und Menschen ist. Um dies zu erreichen, muss man nicht nur immersive 3D-Objekte und Szenen erstellen können, sondern auch die Zusammenhänge und Beziehungen zwischen diesen Objekten verstehen. Genau darauf arbeiten wir mit Cube hin.
Über diesen ersten Anwendungsfall der Mesh-Generierung hinaus planen wir, auf die Szenenerstellung und das Szenenverständnis auszuweiten. Wir werden in der Lage sein, Nutzern die Erlebnisse zu bieten, an denen sie am meisten interessiert sind, und Szenen durch das Hinzufügen von Objekten im Kontext zu erweitern. In einem Erlebnis mit einer Waldszene könnte ein Entwickler beispielsweise den Assistant bitten, alle üppig grünen Blätter an den Bäumen durch Herbstlaub zu ersetzen, um den Wechsel der Jahreszeiten anzuzeigen. Unsere AI-Assistant-Tools reagieren auf Anfragen des Entwicklers und helfen ihm dabei, seine Erlebnisse schnell zu erstellen, anzupassen und zu skalieren.
Wir werden euch über Updates und neue Funktionen auf dem Laufenden halten, während wir unser Basismodell weiter verbessern und ausbauen. Bis dahin hoffen wir, dass ihr Spaß daran habt, unsere Open-Source-Version des Cube-3D-Modells zu nutzen und darauf aufzubauen, auf die ihr über GitHub und HuggingFace zugreifen könnt.



