Wir stellen vor: Roblox Cube. Unser zentrales generatives KI-System für 3D- und 4D-Erlebnisse

  • Wir veröffentlichen unser Cube 3D-Grundlagenmodell für generative KI.
  • Wir veröffentlichen auch eine Open-Source-Version des Cube 3D-Grundlagenmodells.
  • Die Beta-Version der Cube 3D-Mesh-Generierung – in Roblox Studio und als Lua-API innerhalb von Erlebnissen bekannt – wird ab dieser Woche verfügbar sein.

Im vergangenen Herbst haben wir ein ehrgeiziges Projekt angekündigt: den Aufbau eines Open-Source-3D-Grundlagenmodells zur Erstellung von 3D-Objekten und -Szenen auf Roblox. Diese Woche veröffentlichen wir die erste Open-Source-Version dieses Modells, damit es sowohl auf als auch außerhalb der Roblox-Plattform für alle nutzbar ist. Wir haben dieses Modell Cube 3D genannt. Gleichzeitig geht die erste Funktion des Modells an den Start – mit der neuen Beta-Version unserer Mesh-Generierungs-API. Cube wird die Grundlage für viele KI-Tools bilden, die wir in den kommenden Jahren entwickeln, darunter auch fortschrittliche Tools zur Szenengenerierung. Letztendlich wird es ein multimodales Modell sein, das auf Text, Bildern, Videos und anderen Eingaben trainiert wird – und sich nahtlos in unsere bestehenden KI-gestützten Kreations-Tools integrieren lässt.

Cube 3D erstellt 3D-Modelle und Umgebungen direkt aus Texteingaben und in Zukunft auch aus Bild-Eingaben. Heute verwendet die hochmoderne 3D-Generierung Bilder und einen Rekonstruktionsansatz, um 3D-Objekte zu erstellen. Dies ist eine gute Option, wenn nicht genügend 3D-Trainingsdaten vorhanden sind. Dank der Struktur unserer Plattform basiert unser Training jedoch auf nativen 3D-Daten. Das generierte Objekt ist bereits vollständig mit aktuellen Game-Engines kompatibel und kann erweitert werden, damit Objekte auch Funktionen erhalten.

Der Unterschied lässt sich mit einem Filmset für eine Rennstrecke vergleichen. Im Fernsehen sieht es vielleicht aus wie eine voll funktionsfähige Rennstrecke mit Tribünen, Garagen und einer Siegerehrung. Wenn man jedoch auf diesem Set herumlaufen würde, würde man schnell feststellen, dass die Strukturen in Wirklichkeit flach sind. Um eine wirklich immersive 3D-Welt zu erschaffen, braucht es vollständige, funktionale Strukturen – Garagen, in die man hineinfahren kann, Tribünen, auf denen man sitzen kann, und eine Siegerehrung mit einem nutzbaren Podium.

Um dies zu erreichen, haben wir uns von modernen Modellen inspirieren lassen, die auf Text-Tokens (oder Zeichenfolgen) trainiert sind und das nächste Token vorhersagen, um einen Satz zu bilden. Unsere Innovation baut auf der gleichen Grundidee auf. Wir haben die Fähigkeit entwickelt, 3D-Objekte zu tokenisieren und Formen als Tokens zu verstehen. Cube 3D wurde darauf trainiert, das nächste Form-Token vorherzusagen, um ein vollständiges 3D-Objekt abzubilden. Wenn wir dies auf die vollständige Szenengenerierung ausweiten, sagt Cube 3D zunächst das Layout voraus und erstellt dann schrittweise die passenden Formen, um es zu vervollständigen.

Jeder kann Cube 3D anpassen, eigene Plug-ins entwickeln oder das Modell mit eigenen Daten trainieren, um es an individuelle Anforderungen anzupassen. Wir sind überzeugt, dass KI-Tools auf Offenheit und Transparenz basieren sollten, weshalb wir uns als verlässlicher Partner in der Open-Source-KI-Community engagieren möchten. Wir haben eines unserer KI-Sicherheitsmodelle veröffentlicht, weil wir glauben, dass der Austausch von Fortschritten in der KI-Sicherheit der gesamten Branche hilft, Innovationen und technische Optimierung zu beschleunigen. Deswegen haben wir auch bei der Gründung von ROOST mitgewirkt, einer neuen gemeinnützigen Organisation, die wichtige Bereiche der digitalen Sicherheit mit Open-Source-Sicherheitstools erforscht. Mit der Bereitstellung von Cube 3D als Open-Source-Modell möchten wir Forschern, Entwicklern und der gesamten KI-Community ermöglichen, die 3D-Generierung branchenweit zu erlernen, zu erweitern und voranzutreiben.

Cube 3D für die Kreation

Wir haben bereits erwähnt, wie KI die Erstellung von 3D-Objekten, Accessoires und Erlebnissen beschleunigen kann. In der Zukunft wird KI noch immersivere und individuellere Spielerlebnisse und Verbindungen ermöglichen. Wir investieren in Infrastruktur, um KI in jeder Phase des kreativen Prozesses einzubinden und zu unterstützen – sowohl für die Entwickler dieser Erlebnisse als auch für die Spieler, die darin eintauchen. Wir sehen eine Zukunft, in der Entwickler ihren Benutzern mit KI völlig neue kreative Möglichkeiten in ihren Erlebnissen bieten. Damit liegt die Kraft der KI direkt in den Händen von über 85 Millionen täglich aktiven Benutzern und wird ein natürlicher Teil ihres Spielerlebnisses.

Im vergangenen Jahr haben wir mehrere neue Funktionen über unseren KI-gestützten Assistenten in Roblox Studio eingeführt, um Entwicklern die Tools und Möglichkeiten zu geben, die sie brauchen, um ihnen stundenlange manuelle Entwicklungsarbeit zu ersparen. Mit Cube wollen wir die 3D-Kreation effizienter gestalten. Mit der 3D-Mesh-Generierung können Entwickler schnell neue kreative Ideen ausprobieren und ihre Produktivität steigern, indem sie rasch entscheiden, welche davon sie weiterverfolgen wollen.

Stell dir vor, du baust ein Rennspiel. Heute kannst du die Mesh Generation API im Assistenten nutzen, indem du einfach einen kurzen Befehl wie "/generate a motorcycle" oder "/generate orange safety cone" eingibst. Innerhalb von Sekunden würde die API eine Mesh-Version dieser Objekte generieren. Diese könnten dann mit Texturen, Farbe usw. ausgestaltet werden. Mit der API kannst du Requisiten modellieren oder deinen Raum viel schneller gestalten und musst keine Stunden mehr mit der Modellierung einfacher Objekte verbringen. So kannst du dich auf den spaßigen Teil konzentrieren – wie dem Design des Streckenlayouts und dem Fein­tu­ning der Fahrzeugsteuerung. Die API erspart dir Stunden bei der Erstellung jedes Objekts und du hast mehr Zeit, neue Ideen auszuprobieren, ohne dir Gedanken über den Aufwand oder die erforderliche Zeit zu machen. Langfristig planen wir, noch komplexere und funktionalere Objekte und sogar ganze Szenen zu ermöglichen.

Mit Cube erzeugte 3D-Objekte

Ein roter Buggy mit Stollenreifen
Eine grüne Vintage-Couch mit schlichten Formen und Samtbezug
Ein grünes Kristall-Fantasy-Schwert mit goldenen Akzenten
Eine braune Motorrad-Lederjacke
Ein Einhorn mit Regenbogenmähne und -schwanz
Ein Cartoon-Wal

Diese Technologie erstreckt sich auf die zehn Millionen kreativen Menschen, die täglich auf Roblox spielen und sich vernetzen. Wir sehen eine Zukunft, in der Entwickler ihre Benutzer mithilfe von KI zu Creators machen. Wenn die Mesh Generation API aktiviert ist, können die Spieler alles Mögliche zum Leben erwecken. Wenn ein Spieler ein futuristisches Auto möchte, kann er einfach "rotes futuristisches Auto mit Seitenflügeln" oder "schwarze Leder-Motorradjacke" eingeben und die Inhalte werden generiert. Diese Art der KI-Generierung im Spiel wird ein ganz neues Kreativitätsniveau freisetzen. Die Spieler können ihr Spielerlebnis auf eine Art und Weise personalisieren, die sich die Entwickler nie hätten vorstellen können – und das wird ihre Spiele noch fesselnder machen.

Hinter den Kulissen: Cross Attention zwischen 3D- und Text-/Bild-Tokens

Die wichtigste technische Herausforderung bestand darin, Text und Bilder mit 3D-Formen zu verbinden. Unser entscheidender technischer Durchbruch ist die 3D-Tokenisierung, die es uns ermöglicht, 3D-Objekte als Tokens darzustellen, genauso wie auch Text als Token umgesetzt werden kann. Dies gibt uns die Möglichkeit, die nächste Form vorherzusagen, so wie Sprachmodelle das nächste Wort in einem Satz vorhersagen können.

Um die 3D-Generierung zu ermöglichen, haben wir eine einheitliche Architektur für die autoregressive Generierung einzelner Objekte, die Formvervollständigung und die Erstellung von Multiobjekt-/Szenenlayouts entwickelt. Autoregressive Transformer sind neuronale Netzwerke, die vorherige Eingaben nutzen, um die nächste Komponente vorherzusagen. Diese Architektur bietet sowohl Skalierbarkeit als auch multimodale Kompatibilität, sodass das Modell mit verschiedenen Eingabetypen wie Text, Bild, Audio und 3D erweitert werden kann. Wir stellen dieses Modell als Open Source zur Verfügung. In dieser ersten Phase können Creators 3D-Objekte basierend auf Texteingaben generieren. Zukünftig sollen Creators ganze Szenen auf Basis multimodaler Eingaben generieren können.

Um einen generativen vortrainierten Transformer (GPT) für die Formgenerierung zu trainieren, verwenden wir diskrete 3D-Form-Tokens und ordnen sie Texteingaben zu. Dieser neuartige Ansatz ebnet den Weg für die Erstellung spielbarer 3D-Szenen.

Die Zukunft von Cube

Heute wird KI weltweit für Texte verwendet, um Wörter in einem Satz vorherzusagen. Viele verwenden KI auch für Bilder, um Pixel vorherzusagen. Das wird deutlich komplexer, wenn ganze Szenen erstellt werden, in denen all diese Elemente zusammenkommen und im richtigen Kontext miteinander funktionieren müssen. Stell dir eine Szene in einem Erlebnis vor: "Ein Avatar sitzt auf einem Motorrad vor einer Rennstrecke, umgeben von Bäumen."

Um dieses Erlebnis zu erschaffen sind viele Elemente nötig. Die Bäume bestehen aus zwei 3D-Meshes, das Motorrad ist ein dichtes Mesh mit Details und Dreiecken, und die Gebäude setzen sich aus Roblox-Assets zusammen. Der Avatar auf dem Motorrad besitzt komplexere geometrische Strukturen für Körper, Gliedmaßen und Kopf. Schließlich brauchen wir noch eine Möglichkeit, alles in einem Layout zusammenzuführen. Dafür benötigen wir Begrenzungsboxen, die ein Objekt umreißen, um seine Größe und Position zu bestimmen und die Geometrie entsprechend anzuordnen. Dieser Prozess ist sehr aufwändig, doch KI kann bei jedem Schritt unterstützen. Mit KI können Creators schneller eine erste Version erstellen und haben mehr Zeit, neue Ideen zu testen oder ihre Szene zu verfeinern. 

Unser Ziel ist es, dass die erstellten 3D-Objekte und Szenen nahtlos funktionieren. Wir nennen das 4D-Erstellung, wobei die vierte Dimension die Interaktion zwischen Objekten, Umgebungen und Menschen repräsentiert. Um dies zu erreichen, braucht es nicht nur die Fähigkeit, beeindruckende 3D-Objekte und Szenen zu erstellen, sondern auch ein Verständnis für deren Kontext und Beziehungen zueinander. Genau das wollen wir mit Cube erreichen.

Über die erste Anwendung der Mesh-Generierung hinaus planen wir, auch die Erstellung von und das Verständnis für ganze Szenen weiterzuentwickeln. Wir werden Benutzern die Erlebnisse bieten, die sie am meisten interessieren, und Szenen gezielt durch kontextgerechte Objekte erweitern. Zum Beispiel könnte ein Entwickler in einer Waldszene den Assistenten bitten, alle üppig grünen Blätter der Bäume durch Herbstlaub zu ersetzen, um den Wechsel der Jahreszeit darzustellen. Unsere KI-Assistenten-Tools reagieren auf die Anfragen der Entwickler und unterstützen sie dabei, ihre Erlebnisse schnell zu erstellen, anzupassen und zu skalieren.

Über Neuerungen und Verbesserungen unseres grundlegenden Modells werden wir dich auf dem Laufenden halten. Bis dahin wünschen wir dir viel Spaß beim Nutzen und Weiterentwickeln der Open-Source-Version des Cube-3D-Modells, die später in dieser Woche öffentlich verfügbar sein wird.