Skip to content

Der Weg von Roblox zur generativen 4D-KI

  • Roblox ist auf dem Weg zur generativen 4D-KI, die über einzelne 3D-Objekte hinausgeht und dynamische Interaktionen ermöglicht.

  • Um die Herausforderung von 4D zu lösen, ist ein multimodales Verständnis von Aussehen, Form, Physik und Skripten erforderlich.

  • Erste Tools, die die Grundlage für unser 4D-System bilden, beschleunigen bereits die Erstellung auf der Plattform.

Roblox ermöglicht es Creator:innen, immersive 3D-Erlebnisse, Avatare und Accessoires zu erstellen, indem es ihnen die Tools, Dienste und Unterstützung bietet, die sie brauchen, um ihre Ideen zum Leben zu erwecken. Es sind diese Creator:innen, die die lebendigen Inhalte auf unserer Plattform erstellen, die mehr als 77 Millionen täglich aktive Benutzer:innen anspricht (Stand: Q1 2024). Durch unsere kostenlose Roblox Studio-App haben wir eine Reihe von generativen KI-Tools veröffentlicht, die speziell für Roblox-Arbeitsabläufe entwickelt und auf Roblox-spezifische Inhalte trainiert wurden.

Diese Tools machen die Erstellung einfacher, effizienter und bringen sowohl Expert:innen als auch Anfänger:innen mehr Spaß. Der Assistent ermöglicht die Bearbeitung des 3D-Arbeitsbereichs, die Animationserfassung ermöglicht die Bewegung von Gesichtern und Körpern, Code Assist hilft bei der Bearbeitung und Erstellung von Skripten, der Material Generator ermöglicht die Darstellung von Materialien in Kacheln und der Texturgenerator ermöglicht das Objekt-spezifische Textur-Mapping. Jedes dieser generativen KI-Tools verbessert einen Teil des kreativen 3D-Prozesses.

Zusammen erweitern diese Tools die Fähigkeiten von Creator:innen und verkürzen die Zeit vom Konzept bis zur Fertigstellung. Bei der Entwicklung dieser Tools haben wir sowohl unsere eigenen innovativen Forschungsergebnisse als auch die besten Lösungen aus dem gesamten KI-Ökosystem genutzt. Sie befassen sich mit der Erstellung einzelner Objekte in 1D (Skripte), 2D (Oberflächen) und 3D (Räume). Einige der Ergebnisse aus unserem Labor für 3D-Geometrieerstellung und -bearbeitung stellen wir auf verschiedenen internationalen Forschungskonferenzen vor, darunter auch auf unserer eigenen Roblox Developers Conference.

In der gesamten Branche sind 1D und 2D auf dem neuesten Stand der Technik, und 3D steht an der Spitze der generativen KI. Jedes dieser Gebiete stellt eine immer größere Herausforderung dar, die immer wieder zu spannenden technischen Fortschritten führt. Da wir im 3D-Raum leben, könnte man meinen, dass dies die ultimative Herausforderung für die generative KI ist. Doch basierend auf den Bedürfnissen unserer Community reicht unsere Vision für diese Arbeit noch weiter.

Wo wir heute stehen

Wir arbeiten an der generativen KI in 4D, wobei die vierte Dimension die Interaktion ist. Die Stärke der Online-Plattform von Roblox ist die Interaktion – zwischen Menschen, Objekten und Umgebungen. Im Gegensatz zu herkömmlichen Online-Videospielen nutzt die leistungsstarke Laufzeit-Engine von Roblox ein einzigartiges Programmier- und Simulationsmodell, das sich auf Interaktion konzentriert. Dieses Modell ist vom Konzept des Metaverse inspiriert, in dem unzählige Elemente auf komplexe, vielfältige und spontane Art und Weise aufeinandertreffen, anstatt auf vorgeschriebene und begrenzte Weise.

1D-, 2D- und 3D-Tools für generative KI erzeugen individuelle Objekte. Die Herausforderung bei der generativen 4D-KI besteht darin, diese Objekte auf eine Weise zum Leben zu erwecken, die passende uneingeschränkte Interaktionen auf unserer Plattform ermöglicht. Das bedeutet zum Beispiel, dass ein Avatar nicht nur aus Form und Farbe besteht, sondern auch aus einem Skelett, Animationen und der Fähigkeit, Werkzeuge zu greifen und zu balancieren. Dieser Avatar kann Kleidung tragen, die nicht speziell für ihn entworfen wurde und die sich automatisch anpasst, um sich perfekt einzufügen und alle Bewegungen mitzumachen. Unser neues Tool zur automatischen Avatar-Erstellung ist ein erstes Beispiel dafür, wie generative KI dabei helfen kann, diese Art der Erstellung zu automatisieren. Entwickler:innen können diesen Prozess jetzt in Minuten statt in Stunden oder Tagen abschließen.

Ein Sportwagen besteht nicht nur aus einer windschnittigen Form und einer glänzenden Lackierung, sondern auch aus dem Motor, den beweglichen Teilen und den physikalischen Eigenschaften, die es ihm ermöglichen, mit Präzision und Kontrolle über die virtuellen Straßen zu brausen. In jedem Fall wird das Objekt aus 3D erweitert und interagiert mit all seinen Teilen durch Physik und mit Benutzer:innen durch den Avatar.

Jedes dieser reichhaltig interaktiven 4D-Elemente kann in eine größere Umgebung eingefügt werden, in der die generative KI den Stil jedes Elements harmonisiert und interaktive Unterstützung zwischen den Objekten und mit der Umgebung einbringt. Jetzt können Benutzer:innen mit ihrem Avatar an einem Straßenrennen mit Schadensmodifikatoren und Highscores teilnehmen und an einem Markenmodegeschäft anhalten und neue Kleidung kaufen, um den Sieg zu feiern.

Um solche Erlebnisse zu schaffen, müssen heute der Skript-Quellcode, die Struktur des Arbeitsbereichs und des Datenmodells, die 3D-Geometrie, Animationen und Materialien manuell erstellt werden. Unsere bestehenden generativen KI-Tools helfen auf jedem Stück der Pipeline. Wir bauen ein System auf, das all diese Elemente miteinander verbindet und sie gleichzeitig generiert. Dazu müssen wir unser generatives 4D-KI-System multimodal trainieren, d. h. für mehrere Datentypen gleichzeitig. Dies geschieht bereits für Bilder und Texte, die den Material Generator antreiben. Die nächste Stufe der 4D-Fähigkeit werden wir erreichen, indem wir Interaktion ermöglichen und speziell entwickelte Optimierer für die Physik hinzufügen.

Allein im letzten Jahr haben wir enorme Veränderungen bei der Erstellung von Inhalten auf Roblox erlebt. Wir sehen eine Zukunft vor uns, in der alle überall eine Idee zum Leben erwecken können, indem einfach ein Befehl getippt oder gesprochen wird. Um dieses Ziel zu erreichen, müssen wir damit beginnen, einige der Herausforderungen zu meistern, denen wir auf dem Weg dorthin begegnen werden.

Die Herausforderungen, die vor uns liegen

Die oben beschriebenen Experimente werden in naher Zukunft verfügbar sein. Danach stehen wir vor drei klaren Herausforderungen, die wir bewältigen müssen:

1. Funktional: Die Objekte, die von diesem zukünftigen generativen KI-Tool erzeugt werden, müssen funktional sein. Es geht darum, dass das System einen Lastwagen oder ein Flugzeug mit einer 3D-Form betrachtet und nicht als versiegeltes, undurchsichtiges Objekt behandelt. Und ohne dass Creator:innen eingreifen müssen, kann es automatisch erkennen, dass dies die Teile sind, die Gelenke haben müssen, oder dass sich das Mesh an dieser Stelle öffnen muss.

Das ist ein KI-Problem auf menschlicher Ebene, das diese Systeme lösen müssen – z.B. die richtige Platzierung der Räder und das Hinzufügen einer Achse für die Räder, damit sie genauso funktionieren wie in der realen Welt. Und sie müssen herausfinden, wo die Tür ist, und dann eine Öffnung ausschneiden und Scharniere anbringen, damit sich die Tür öffnen und schließen lässt.

2. Interaktiv: Artikel, die mit dieser zukünftigen generativen KI erstellt werden, müssen nicht nur eigenständig funktionieren, sondern auch mit anderen Objekten in der Umgebung interagieren können. Nachdem das System also ein Auto mit einer Tür, die sich öffnen lässt, und Rädern, die sich drehen, erschaffen hat, muss es auch die physikalischen Gegebenheiten der Welt verstehen, in der das Auto steht. Wie bewegt sich das Fahrzeug auf dem Gelände? Wenn es auf einen Felsbrocken aufprallt, wo und wie zerbricht es dann, abhängig von der Größe des Felsens und der Geschwindigkeit des Fahrzeugs?

Diese komplexe Aufgabe erfordert, dass sowohl das erstellte Objekt als auch die Umgebung oder die Objekte, mit denen es interagiert, die Physik des jeweils anderen verstehen. Glücklicherweise hat Roblox in dieser Hinsicht einen Vorsprung, denn die Plattform wurde als Physik-Engine entwickelt, was bedeutet, dass alle Objekte in den Erlebnissen physikalische Eigenschaften haben können. Wenn die generative KI ein 4D-Objekt erstellt, werden auch physikalische Eigenschaften wie Material, Masse und Stärke hinzugefügt, damit es mit anderen physikalischen Objekten in der Welt interagieren kann.

3. Steuerbar: Heute interagieren wir mit generativer KI durch Eingabeaufforderungen. Das ist eine unvollkommene Wissenschaft, vergleichbar mit einer Schnitzeljagd. Jemand, der nach dem Bild eines Hasen fragt, könnte eine Vielzahl von Ergebnissen erhalten: einen echten Hasen, einen Schokoladenosterhasen, einen Zeichentrickhasen, ein Gemälde von einem Hasen oder eine Illustration von einem Hasen, der einen Mantel trägt. Also verfeinern wir die Eingabeaufforderungen, indem wir nach fotorealistischen Bildern oder Bildern “im Stil von” fragen, um unsere Vorstellungen zu präzisieren. Das braucht Zeit und wiederholte Versuche, um dem Gesuchten näher zu kommen.

Stell dir vor, du versuchst, diesen Prozess für ein 3D-Objekt durchzuführen, das funktioniert und mit anderen Objekten interagiert, wie der LKW in unserem vorherigen Beispiel. Die Entwicklung von Eingabeaufforderungen auf dieser Ebene wäre exponentiell komplex – nichts, was von allen leicht anzuwenden wäre. Um die Idee von Creator:innen zum Leben zu erwecken, brauchen wir einen schnelleren und einfacheren Weg, um zu kommunizieren und sie zu verfeinern, d.h. mit einem KI-Assistenten zusammenzuarbeiten, der mehr einen Partner und weniger eine Schnitzeljagd darstellt.

Dies ist eine branchenweite Herausforderung, und viele Unternehmen arbeiten daran, die generative KI besser steuerbar zu machen. Mit Tools wie ControlNet haben wir bereits einige Fortschritte gemacht, denn es ermöglicht Creator:innen zusätzliche Eingaben, die über Textaufforderungen hinausgehen, um die Steuerbarkeit zu erhöhen. Zurzeit erforschen wir andere Methoden, die einen zufriedenstellenden Arbeitsablauf versprechen, wie das Anhalten der KI nach kritischen Schritten, um auf Benutzereingaben zu warten. Aber wir haben noch einen langen Weg vor uns, um ein nahtloses Erlebnis zu erreichen.

Wir sind begeistert von der Wirkung, die wir bisher gesehen haben, und noch mehr von dem, was vor uns liegt. Im Vergleich zu den Creator:innen, die die Beta-Version des Material Generator nicht verwenden, haben diejenigen, die ihn verwenden, ihre Nutzung von PBR-Materialvariationen um mehr als 100 Prozent gesteigert – von knapp über tausend im März 2023 auf über zweitausend im Juni 2024. Bis zum 2. Juni 2024 haben die Creator:innen etwa 535 Millionen Zeichen des von Code Assist vorgeschlagenen Codes übernommen.

Während wir anfangen, die Herausforderungen auf dem Weg zu 4D zu meistern, werden unsere Creator:innen mehr und schneller erschaffen können. Wir erwarten auch eine größere Vielfalt an Erlebnissen auf Roblox, da wir es mehr Menschen ermöglichen, Creator:innen zu werden. Was sie bauen und wie sie es tun, wird uns zeigen, wo wir in neue Tools und KI-Algorithmen investieren müssen, um diese neuen Creator:innen neben unserer bestehenden Community zu unterstützen.

Mit der generativen 4D-KI hat Roblox eine neue Grenze für die Erstellung von Erlebnissen und Objekten geöffnet. Auch wenn die Herausforderungen völlig neu sind, ist unser Innovationsprozess sehr ausgefeilt. Wir kombinieren unsere erstklassigen internen Forschungs- und Entwicklungsteams, Hochschulkooperationen und die schnelle Entwicklung von Prototypen in Zusammenarbeit mit unserer Community.