Introduzione del Cube Roblox: Il nostro sistema IA generativo di base per 3D e 4D

  • Stiamo rilasciando il nostro Cube 3D modello fondazionale per l'IA generativa.
  • Siamo anche open-sourcing una versione del Cube 3D modello fondamentale.
  • La versione beta di Cube 3D mesh generazione—in Roblox Studio e come in-experience Lua API—sarà disponibile questa settimana.

Lo scorso autunno, ha annunciato un ambizioso progetto per costruire un modello basazionale 3D open-source per creare oggetti 3D e scene 3D su Roblox. Questa settimana, siamo open-sourcing la prima release per questo modello a renderlo disponibile per l'uso da parte di chiunque su o fuori dalla piattaforma Roblox. Noi’ve ha nominato questo modello Cube 3D. Stiamo anche lanciando la prima delle sue capacità, con il lancio beta della nostra API di generazione mesh . Cube sarà alla base di molti degli strumenti AI che’ll sviluppare negli anni a venire, tra cui strumenti altamente complessi di scena-generazione. Sarà infine un modello multimodale, formato su testo, immagini, video, e altri tipi di input—e si integreranno con i nostri strumenti di creazione di IA esistenti.

Cubo 3D genera modelli 3D e ambienti direttamente dal testo e, in futuro, gli input delle immagini. Oggi la generazione 3D all'avanguardia utilizza immagini e un approccio di ricostruzione per costruire oggetti 3D. Questa è una buona opzione quando c'è’t dati di allenamento 3D sufficienti. Tuttavia, grazie alla natura della nostra piattaforma, ci alleniamo sui dati nativi 3D. L'oggetto generato è pienamente compatibile con i motori di gioco oggi e può essere esteso per rendere gli oggetti funzionali.

La differenza qui è simile a un set di film da corse. In televisione, si potrebbe vedere che cosa sembra una pista completamente funzionale, con stand, garage, e un vicolo della vittoria. Ma se dovessi camminare su quel set,’ti renderebbe subito conto che le strutture erano in realtà piatte. Costruire un mondo 3D veramente immersivo richiede strutture complete e funzionali, con garage si può guidare in, stand si può sedere, e una corsia di vittoria con un podio funzionale.

Per raggiungere questo obiettivo,’ve ha preso ispirazione da modelli all'avanguardia formati su token di testo (o set di caratteri) in modo che possano prevedere il prossimo token per formare una frase. La nostra innovazione si basa sulla stessa idea fondamentale. Noi’abbiamo costruito la capacità di tokenize oggetti 3D e capire le forme come gettoni e addestrato Cube 3D per prevedere il prossimo token di forma per costruire un oggetto 3D completo. Quando estendiamo questo alla generazione di scena completa, Cube 3D prevede il layout e prevede ricorsivamente la forma per completare il layout.

Chiunque può perfezionare, sviluppare plug-in per, o addestrare Cube 3D sui propri dati per soddisfare le proprie esigenze. Crediamo che gli strumenti AI debbano essere basati sull'apertura e la trasparenza, motivo per cui siamo un partner impegnato nella comunità di AI open-source. Abbiamo rilasciato uno dei nostri modelli di sicurezza AI perché riteniamo fortemente che la condivisione dei progressi nella sicurezza dell'IA aiuti l'intero settore ad accelerare l'innovazione e i progressi tecnici. Per questo motivo, abbiamo anche aiutato a trovare ROOST, una nuova attività senza scopo di lucro dedicata ad affrontare importanti settori della sicurezza digitale con strumenti di sicurezza open-source. In open-sourcing Cube 3D, il nostro obiettivo è quello di consentire ai ricercatori, agli sviluppatori e alla più ampia comunità di AI di imparare, aumentare e far progredire la generazione 3D in tutto il settore.

Cube 3D per la creazione

Abbiamo già parlato in precedenza di come l'intelligenza artificiale possa accelerare la creazione di risorse, accessori ed esperienze 3D. In ultima analisi, AI permetterà ancora più immersivo e personalizzato il gioco e le connessioni. Investiamo nell'infrastruttura per supportare l'IA in ogni fase del ciclo di creazione—sia per gli sviluppatori di queste esperienze sia per gli utenti che passano del tempo in loro. Immaginiamo un futuro in cui gli sviluppatori daranno ai loro utenti nuovi modi per creare abilitando AI nelle loro esperienze. Questo mette il potere dell'IA nelle mani di oltre 85 milioni di utenti attivi giornalieri come parte del loro gameplay.

Nell'ultimo anno,’ve ha introdotto diverse nuove funzionalità attraverso il nostro Assistant ad all'interno di Roblox Studio per fornire agli sviluppatori gli strumenti e le capacità di cui hanno bisogno per creare ed eliminare ore di lavoro manuale. Con Cube, intendiamo rendere la creazione 3D più efficiente. Con la generazione di mesh 3D, gli sviluppatori possono esplorare rapidamente nuove direzioni creative e aumentare la loro produttività decidendo rapidamente con cui andare avanti.

Immaginate di costruire un gioco di pista. Oggi, è possibile utilizzare l'API di generazione Mesh all'interno di Assistant digitando in un rapido prompt, come “/generano una moto” o “/generano cono di sicurezza arancione.” In pochi secondi, l'API genererebbe una versione mesh di questi oggetti. Con questa API, è possibile modellare puntelli o progettare il vostro spazio molto più veloce—non c'è bisogno di trascorrere ore modellando oggetti semplici. Ti permette di concentrarsi sulla roba divertente, come la progettazione del layout della pista e la messa a punto della maneggevolezza. Questa API risparmia ore su ogni oggetto creato e ti restituisce quel tempo per sperimentare nuove idee senza preoccuparti di spendere troppo tempo o sforzo. Più a lungo termine, progettiamo di consentire oggetti più complessi e funzionali, anche scene.

Oggetti 3D generati con Cube

A red buggy with knobby tires
A vintage green couch with clean lines and velvet material
A green crystal fantasy sword with gold accents
A brown moto leather jacket
A unicorn with a rainbow mane and tail
A cartoon whale

This technology extends to the tens of millions of creative people who play and connect on Roblox every day. We see a future where developers enable their users to become creators using AI. With the Mesh Generation API enabled, players can bring to life anything they can imagine. If a player wants a futuristic car, they can just type “red car of the future with side wings” or “black leather motorcycle jacket” and see it generated. This kind of in-game AI generation is going to unlock a whole new level of creativity. Players can personalize their experience in ways developers never imagined, and that’s going to make their games even more engaging.

Under the Hood: Cross Attention Between 3D and Text/Image Tokens

The key technical challenge was to connect text and images with 3D shapes. Our core technical breakthrough is 3D tokenization, which allows us to represent 3D objects as tokens in the same way that text can be represented as tokens. This gives us the ability to predict the next shape just as language models predict the next word in a sentence.

To achieve 3D generation, we designed a unified architecture for autoregressive generation of single object, shape completion, and multiobject/scene layout generation. Autoregressive transformers are neural networks that use previous inputs to predict the next component. This architecture provides both scalability and multimodal compatibility so that as we expand the model, it will work with many different kinds of input (text, visual, audio, and 3D). We are open-sourcing this model. In this initial stage, creators will be able to generate 3D objects based on text prompts. Down the road, we intend for creators to be able to generate entire scenes based on multimodal inputs.

To train a generative pretrained transformer (GPT) for shape generation, we use discrete 3D shape tokens and align them with text prompts. This novel approach sets us up for the world of 3D scene generation that’s playable.

Where Cube Is Heading

Today, much of the world uses AI for text, to predict words in a sentence. Many also use it for images, to predict pixels. This gets much more complex when creating scenes, where all of these elements come together and need to work in context with one another. For example, imagine an experience with a simple scene that can be described as “an avatar on a motorcycle in front of a racetrack with trees.”

Many elements go into building this experience. The trees are a combination of two 3D meshes, the motorcycle is a dense mesh with details and triangles, and the buildings are made up of Roblox parts. The avatar on the motorbike has more complex geometric features for its body, limbs, and head. Finally, we need a way to tie it all together with a layout. For that, we need bounding boxes, which outline an object to define its size and location, to know how to arrange this geometry. This is a painstaking process, but AI is capable of helping with each step. With AI, creators can get to the first version faster and have more time to test new ideas or refine their scene.

When we get there, we want the 3D objects and scenes we create to be fully functional. We call this 4D creation, where the fourth dimension is interaction between objects, environments, and people. Achieving this requires the ability not only to build immersive 3D objects and scenes, but also to understand the contexts and relationships between those objects. This is where we are heading with Cube.

Beyond this first use case of mesh generation, we plan to extend to scene generation and understanding. We’ll be able to serve users the experiences they’re most interested in and to augment scenes by adding objects in context. For example, in an experience with a forest scene, a developer could ask Assistant to replace all the lush green leaves on the trees with fall foliage to indicate the change of season. Our AI Assistant tools react to requests from the developer, helping them rapidly create, adapt, and scale their experiences.

’condividiamo aggiornamenti e nuove funzionalità mentre continuiamo a migliorare ed espandere il nostro modello fondamentale. Fino ad allora, speriamo che ti piaccia usare e costruire sulla nostra versione open source del modello 3D Cube, che sarà disponibile verso la fine di questa settimana.