Revolutionierung der Kreation auf Roblox mit generativer KI

Anfang dieses Jahres haben wir unsere Vision für generative künstliche Intelligenz (KI) auf Roblox vorgestellt und die intuitiven neuen Tools, die es jedem Nutzer ermöglichen werden, selbst zum Schöpfer zu werden. Da sich diese Tools branchenweit rasant weiterentwickeln, möchte ich euch über den aktuellen Stand unserer Fortschritte informieren, den Weg aufzeigen, der noch vor uns liegt, um die Erstellung generativer KI zu demokratisieren, und erklären, warum wir generative KI als entscheidendes Element für die Zukunft von Roblox betrachten.
Fortschritte bei generativer KI und großen Sprachmodellen (LLMs) bieten eine unglaubliche Chance, die Zukunft immersiver Erlebnisse zu erschließen, indem sie eine einfachere und schnellere Erstellung ermöglichen – bei gleichzeitiger Gewährleistung der Sicherheit und ohne den Bedarf an massiven Rechenressourcen. Darüber hinaus eröffnen Fortschritte bei multimodalen KI-Modellen – also Modellen, die mit verschiedenen Arten von Inhalten wie Bildern, Code, Text, 3D-Modellen und Audio trainiert werden – neue Möglichkeiten für die Weiterentwicklung von Kreativtools. Diese Modelle beginnen nun auch, multimodale Ergebnisse zu liefern, beispielsweise ein Modell, das sowohl einen Text als auch begleitende visuelle Elemente erstellen kann. Wir sehen diese KI-Durchbrüche als enorme Chance, gleichzeitig die Effizienz für erfahrenere Entwickler zu steigern und noch mehr Menschen die Möglichkeit zu geben, großartige Ideen auf Roblox zum Leben zu erwecken. Auf der diesjährigen Roblox Developers Conference (RDC) haben wir mehrere neue Tools angekündigt, die generative KI in Roblox Studio und darüber hinaus einführen werden, um jedem auf Roblox zu helfen, schneller zu skalieren, schneller zu iterieren und seine Fähigkeiten zu erweitern, um noch bessere Inhalte zu erstellen.
Roblox Assistant
Roblox hat Entwicklern schon immer die Tools, Dienste und den Support zur Verfügung gestellt, die sie benötigen, um immersive 3D-Erlebnisse zu erstellen. Gleichzeitig haben wir beobachtet, dass unsere Entwickler zunehmend generative und dialogorientierte KI von Drittanbietern nutzen, um ihre Arbeit zu unterstützen. Zwar sind diese nützlich, um die Arbeitsbelastung der Entwickler zu verringern, doch wurden diese Standardversionen nicht für durchgängige Roblox-Workflows entwickelt oder auf Roblox-Code, Slang und Fachjargon trainiert. Das bedeutet, dass Entwickler mit erheblichem Mehraufwand konfrontiert sind, wenn sie diese Versionen zur Erstellung von Inhalten für Roblox nutzen. Wir haben an Möglichkeiten gearbeitet, den Nutzen dieser Tools in Roblox Studio zu integrieren, und auf der RDC haben wir ein frühes Beispiel für den Assistant vorgestellt.
Assistant ist unsere dialogorientierte KI, die es Entwicklern aller Erfahrungsstufen ermöglicht, deutlich weniger Zeit mit den alltäglichen, sich wiederholenden Aufgaben der Entwicklung zu verbringen und mehr Zeit für hochwertige Aktivitäten wie Storytelling, Gameplay und Erlebnisgestaltung zu nutzen. Roblox ist dank unseres Zugangs zu einer großen Sammlung öffentlicher 3D-Modelle für das Training, unserer Fähigkeit, ein Modell in unsere Plattform-APIs zu integrieren, und unserer wachsenden Palette innovativer KI-Lösungen einzigartig positioniert, um dieses dialogorientierte KI-Modell für immersive 3D-Welten zu entwickeln. Entwickler können mithilfe von Textbefehlen in natürlicher Sprache Szenen erstellen, 3D-Modelle bearbeiten und interaktive Verhaltensweisen auf Objekte anwenden. Der Assistent unterstützt die drei Phasen der Entwicklung: Lernen, Programmieren und Erstellen:
- Lernen: Ganz gleich, ob ein Entwickler noch ganz neu bei der Entwicklung auf Roblox ist oder bereits ein erfahrener Veteran – Roblox Assistant hilft dabei, Fragen zu einer Vielzahl von Themen mithilfe natürlicher Sprache zu beantworten.
- Programmieren: Assistant wird unser aktuelles Code-Assist-Tool erweitern. Entwickler könnten Assistant beispielsweise bitten, ihren Code zu verbessern, einen Codeabschnitt zu erklären oder bei der Fehlersuche zu helfen und Korrekturen für Code vorzuschlagen, der nicht richtig funktioniert.
- Erstellen: Der Assistant hilft Entwicklern dabei, neue Ideen schnell zu prototypisieren. Ein neuer Entwickler könnte beispielsweise ganze Szenen generieren und verschiedene Versionen ausprobieren, indem er einfach eine Eingabe wie „Füge einige Straßenlaternen entlang dieser Straße hinzu“ oder „Erstelle einen Wald mit verschiedenen Baumarten. Füge nun einige Büsche und Blumen hinzu“ eingibt.
Die Zusammenarbeit mit dem Assistenten wird kollaborativ, interaktiv und iterativ sein, sodass Entwickler Feedback geben können und der Assistent daran arbeitet, die richtige Lösung zu finden. Es wird so sein, als hätte man einen erfahrenen Entwickler als Partner, mit dem man Ideen austauschen und ausprobieren kann, bis das Ergebnis stimmt.
Um Assistant zum bestmöglichen Partner zu machen, haben wir auf der RDC eine weitere Ankündigung gemacht: Wir haben Entwickler dazu eingeladen, sich freiwillig zur Bereitstellung ihrer anonymisierten Luau-Skriptdaten zu melden. Diese Skriptdaten werden dazu beitragen, unsere KI-Tools wie Code Assist und Assistant deutlich zu verbessern, sodass sie effizienteren Code vorschlagen und erstellen können – ein Gewinn für die Roblox-Entwickler, die sie nutzen. Wenn Entwickler sich darüber hinaus dafür entscheiden, ihre Daten über Roblox hinaus zu teilen, werden ihre Skriptdaten einem Datensatz hinzugefügt, der Dritten zur Verfügung gestellt wird, um deren KI-Chat-Tools so zu trainieren, dass sie Luau-Code besser vorschlagen können – ein Gewinn für Luau-Entwickler überall.
Um es klar zu sagen: Durch umfassende Nutzerforschung und transparente Gespräche mit Top-Entwicklern haben wir dies als Opt-in-Modell konzipiert und werden sicherstellen, dass alle Teilnehmer verstehen und zustimmen, was das Programm beinhaltet. Als Dankeschön an diejenigen, die sich dafür entscheiden, Skriptdaten mit Roblox zu teilen, gewähren wir Zugang zu den leistungsstärkeren Versionen von Assistant und Code Assist, die auf diesem von der Community trainierten Modell basieren. Diejenigen, die sich nicht dafür entschieden haben, haben weiterhin Zugang zu unserer bestehenden Version von Assistant und Code Assist.
Einfachere Avatar-Erstellung
Letztendlich möchten wir, dass jeder unserer 65,5 Millionen täglichen Nutzer einen Avatar hat, der ihn wirklich repräsentiert und ausdrückt, wer er ist. Wir haben kürzlich die Möglichkeit für Mitglieder unseres UGC-Programms eingeführt, sowohl Avatar-Körper als auch einzelne Köpfe zu erstellen und zu verkaufen. Derzeit erfordert dieser Prozess den Zugriff auf Studio oder unser UGC-Programm, ein relativ hohes Maß an Fachwissen sowie mehrere Tage Arbeit, um Gesichtsausdrücke, Körperbewegungen, 3D-Rigging usw. zu ermöglichen. Dies macht die Erstellung von Avataren zeitaufwändig und hat bisher die Anzahl der verfügbaren Optionen eingeschränkt. Wir wollen noch einen Schritt weiter gehen.
Damit jeder auf Roblox einen personalisierten, ausdrucksstarken Avatar haben kann, müssen wir die Erstellung und Anpassung von Avataren sehr einfach gestalten. Auf der RDC haben wir ein neues Tool angekündigt, das wir 2024 veröffentlichen werden und das die einfache Erstellung eines benutzerdefinierten Avatars aus einem oder mehreren Bildern ermöglicht. Mit diesem Tool kann jeder Creator mit Zugang zu Studio oder unserem UGC-Programm ein Bild hochladen, einen Avatar erstellen lassen und diesen dann nach Belieben anpassen. Langfristig beabsichtigen wir, dies auch direkt innerhalb von Erlebnissen auf Roblox verfügbar zu machen.
Um dies zu ermöglichen, trainieren wir KI-Modelle auf der Grundlage des Avatar-Schemas von Roblox und einer Reihe von Roblox-eigenen 3D-Avatar-Modellen. Ein Ansatz nutzt Forschungsergebnisse zur Erzeugung stilisierter 3D-Avatare aus 2D-Bildern. Wir prüfen zudem den Einsatz vortrainierter Text-zu-Bild-Diffusionsmodelle, um begrenzte 3D-Trainingsdaten mit 2D-Generierungstechniken zu ergänzen, sowie die Verwendung eines auf generativen gegnerischen Netzwerken (GAN) basierenden 3D-Generierungsnetzwerks für das Training. Schließlich arbeiten wir daran, ControlNet zu nutzen, um vordefinierte Posen einzubinden und so die resultierenden Multi-View-Bilder der Avatare zu steuern.
Dieser Prozess erzeugt ein 3D-Netz für den Avatar. Als Nächstes nutzen wir Forschungsergebnisse zur 3D-semantischen Segmentierung, die auf 3D-Avatar-Posen trainiert wurden, um dieses 3D-Netz anzupassen und geeignete Gesichtsmerkmale, Caging, Rigging und Texturen hinzuzufügen – im Wesentlichen verwandeln wir so das statische 3D-Netz in einen Roblox-Avatar. Schließlich ermöglicht ein Mesh-Bearbeitungstool den Nutzern, das Modell zu morphen und anzupassen, damit es der Version ähnlicher sieht, die sie sich vorstellen. Und all dies geschieht schnell – innerhalb von Minuten – und erzeugt einen neuen Avatar, der in Roblox importiert und in einer Erfahrung verwendet werden kann.
Moderation der Sprachkommunikation
Bei KI geht es für uns nicht nur um die Erstellung von Inhalten, sondern auch um ein wesentlich effizienteres System, um eine vielfältige, sichere und zivilisierte Community in großem Maßstab zu gewährleisten. Mit der Einführung neuer Sprachfunktionen, darunter Voice-Chat und Roblox Connect, der neuen Funktion „Anrufen als Avatar“ sowie der auf der RDC angekündigten APIs, stehen wir vor einer neuen Herausforderung: der Moderation gesprochener Sprache in Echtzeit. Der aktuelle Industriestandard hierfür ist ein Verfahren namens Automatic Speech Recognition (ASR), bei dem im Wesentlichen eine Audiodatei transkribiert, also in Text umgewandelt, und dieser Text anschließend auf unangemessene Sprache, Schlüsselwörter usw. analysiert wird.
Dies funktioniert gut für Unternehmen, die es in kleinerem Maßstab einsetzen, aber als wir untersuchten, diesen gleichen ASR-Prozess zur Moderation der Sprachkommunikation zu nutzen, wurde uns schnell klar, dass dies in unserem Maßstab schwierig und ineffizient ist. Dieser Ansatz lässt zudem unglaublich wertvolle Informationen verloren gehen, die in der Lautstärke und dem Tonfall eines Sprechers sowie im breiteren Kontext des Gesprächs kodiert sind. Von den Millionen Minuten an Gesprächen, die wir täglich in verschiedenen Sprachen transkribieren müssten, würde nur ein sehr kleiner Prozentsatz überhaupt nach etwas Unangemessenem klingen. Und während wir weiter wachsen, würde dieses System immer mehr Rechenleistung benötigen, um Schritt zu halten. Also haben wir uns genauer angesehen, wie wir dies effizienter gestalten könnten, indem wir eine Pipeline entwickelten, die direkt vom Live-Audio zur Kennzeichnung von Inhalten führt, um anzuzeigen, ob diese gegen unsere Richtlinien verstoßen oder nicht.
Letztendlich konnten wir ein internes, maßgeschneidertes Spracherkennungssystem entwickeln, indem wir ASR nutzten, um unsere internen Sprachdatensätze zu klassifizieren, und diese klassifizierten Sprachdaten dann zum Trainieren des Systems verwendeten. Genauer gesagt beginnen wir zum Trainieren dieses neuen Systems mit dem Audio und erstellen eine Transkription. Anschließend lassen wir das Transkript durch unser Roblox-Textfiltersystem laufen, um das Audio zu klassifizieren. Dieses Textfiltersystem eignet sich hervorragend zur Erkennung von richtlinienwidriger Sprache auf Roblox, da wir genau dieses Filtersystem seit Jahren auf Roblox-spezifische Slangausdrücke, Abkürzungen und Fachjargon optimiert haben. Am Ende dieser Trainingsschritte verfügen wir über ein Modell, das in der Lage ist, Richtlinienverstöße direkt aus dem Audio in Echtzeit zu erkennen.
Zwar ist dieses System in der Lage, bestimmte Schlüsselwörter wie Schimpfwörter zu erkennen, doch bestehen Verstöße gegen die Richtlinien selten nur aus einem einzigen Wort. Ein Wort kann in einem Kontext oft problematisch erscheinen, in einem anderen Kontext jedoch völlig in Ordnung sein. Im Wesentlichen hängen diese Arten von Verstößen davon ab, was man sagt, wie man es sagt und in welchem Kontext die Äußerungen gemacht werden.
Um den Kontext besser zu verstehen, nutzen wir die nativen Fähigkeiten einer Transformer-basierten Architektur, die sich sehr gut für die Sequenzzusammenfassung eignet. Sie kann eine Datenfolge, wie beispielsweise einen Audiostream, aufnehmen und für Sie zusammenfassen. Diese Architektur ermöglicht es uns, eine längere Audiosequenz zu erhalten, sodass wir nicht nur Wörter, sondern auch Kontext und Intonationen erkennen können. Sobald all diese Elemente zusammenkommen, haben wir ein fertiges System, bei dem die Eingabe Audio ist und die Ausgabe eine Klassifizierung – verstößt gegen die Richtlinien oder nicht. Dieses System kann Schlüsselwörter und richtlinienwidrige Ausdrücke erkennen, aber auch Tonfall, Stimmung und andere kontextuelle Aspekte, die für die Bestimmung der Absicht wichtig sind. Dieses neue System, das richtlinienwidrige Äußerungen direkt aus dem Audio erkennt, ist deutlich recheneffizienter als ein herkömmliches ASR-System, was die Skalierung erheblich vereinfacht, während wir weiterhin neu überdenken, wie Menschen zusammenkommen.
Wir brauchten außerdem eine neue Möglichkeit, die Nutzer unserer Sprachkommunikationstools vor den möglichen Konsequenzen solcher Äußerungen zu warnen. Mit diesem innovativen Erkennungssystem experimentieren wir nun mit Möglichkeiten, das Online-Verhalten so zu beeinflussen, dass eine sichere Umgebung gewährleistet bleibt. Wir wissen, dass Nutzer unsere Richtlinien manchmal unbeabsichtigt verletzen, und wir möchten herausfinden, ob eine gelegentliche Erinnerung dazu beitragen könnte, weitere Verstöße zu verhindern. Um dies zu unterstützen, experimentieren wir mit Echtzeit-Feedback für Nutzer durch Benachrichtigungen. Wenn das System feststellt, dass du mehrmals etwas gesagt hast, das gegen unsere Richtlinien verstößt, zeigen wir eine Popup-Benachrichtigung auf deinem Bildschirm an, die dich darüber informiert, dass deine Sprache gegen unsere Richtlinien verstößt, und dich zu unseren Richtlinien weiterleitet, um weitere Informationen zu erhalten.
Benachrichtigungen im Sprachstream sind jedoch nur ein Element des Moderationssystems. Wir betrachten auch Verhaltensmuster auf der Plattform sowie Beschwerden von anderen Nutzern auf Roblox, um unsere allgemeinen Moderationsentscheidungen zu treffen. Die Gesamtheit dieser Signale kann zu strengeren Konsequenzen führen, einschließlich des Entzugs des Zugriffs auf Audiofunktionen oder, bei schwerwiegenderen Verstößen, eines vollständigen Ausschlusses von der Plattform. Die Sicherheit und ein höflicher Umgangston in unserer Community sind von entscheidender Bedeutung, da diese Fortschritte bei multimodalen KI-Modellen, generativer KI und LLMs zusammenkommen, um unglaubliche neue Tools und Möglichkeiten für Creator zu ermöglichen.
Wir glauben, dass die Bereitstellung dieser Tools für Creator sowohl die Einstiegshürden für weniger erfahrene Creator senkt als auch erfahrenere Creator von den mühsameren Aufgaben dieses Prozesses befreit. So können sie mehr Zeit für die kreativen Aspekte der Feinabstimmung und Ideenfindung aufwenden. Unser Ziel bei all dem ist es, jedem überall die Möglichkeit zu geben, seine Ideen zum Leben zu erwecken, und die Vielfalt der auf Roblox verfügbaren Avatare, Gegenstände und Erlebnisse erheblich zu steigern. Wir stellen außerdem Informationen und Tools zur Verfügung, die zum Schutz neuer Kreationen beitragen.
Wir stellen uns bereits erstaunliche Möglichkeiten vor: Angenommen, jemand kann direkt aus einem Foto einen Avatar-Doppelgänger erstellen, dann könnte er seinen Avatar anpassen, um ihn größer zu machen oder im Anime-Stil darzustellen. Oder er könnte eine Erfahrung gestalten, indem er den Assistenten bittet, Autos, Gebäude und Landschaften hinzuzufügen, die Licht- oder Windverhältnisse einzustellen oder das Gelände zu verändern. Von dort aus könnte er durch einfaches Hin- und Her-Tippen mit dem Assistenten iterieren, um die Dinge zu verfeinern. Wir wissen, dass das, was Menschen mit diesen Tools erschaffen, sobald sie verfügbar sind, weit über das hinausgehen wird, was wir uns überhaupt vorstellen können.




