Présentation du cube Roblox : notre système IA générative de base pour 3D et 4D
- Nous publions notre modèle de base Cube 3D pour l'IA générative.
- Nous mettons également en open source une version du modèle de base Cube 3D.
- La version bêta de la génération de maillage Cube 3D, dans Roblox Studio et en tant qu'API Lua intégrée, sera disponible cette semaine.
L’automne dernier, nous avons annoncé un projet ambitieux visant à créer un modèle de base 3D open-source pour créer des objets et des scènes 3D sur Roblox. Cette semaine, nous mettons en open source la première version de ce modèle afin de le rendre accessible à tous, sur la plateforme Roblox ou en dehors. Nous avons baptisé ce modèle Cube 3D. Nous lançons également la première de ses fonctionnalités, avec le lancement bêta de notre API de génération de maillage. Cube servira de base à de nombreux outils d'IA que nous développerons dans les années à venir, y compris des outils de génération de scènes très complexes. Il s'agira en fin de compte d'un modèle multimodal, entraîné sur du texte, des images, des vidéos et d'autres types d'entrées, et qui s'intégrera à nos outils de création IA existants.
Le Cube 3D génère des modèles et des environnements 3D directement à partir du texte et, à l'avenir, des entrées d'image. Aujourd'hui, la génération 3D de pointe utilise des images et une approche de reconstruction pour construire des objets 3D. C'est une bonne option lorsqu'il n'y a pas suffisamment de données de formation 3D. Cependant, grâce à la nature de notre plateforme, nous nous formons sur des données 3D natives. L'objet généré est entièrement compatible avec les moteurs de jeu actuels et peut être étendu pour rendre les objets fonctionnels.
La différence ici est similaire à un décor de cinéma de course automobile. À la télévision, on peut voir ce qui ressemble à une piste de course entièrement fonctionnelle, avec des stands, des garages et une voie de victoire. Mais si tu te promenais sur ce plateau, tu te rendrais vite compte que les structures étaient en fait plates. La construction d'un monde 3D réellement immersif nécessite des structures complètes et fonctionnelles, avec des garages où vous pouvez conduire, des stands vous pouvez vous asseoir et une voie pour la victoire avec un podium fonctionnel.
Pour y parvenir, nous nous sommes inspirés des modèles de pointe entraînés sur des jetons de texte (ou ensembles de caractères) afin qu'ils puissent prédire le jeton suivant pour former une phrase. Notre innovation repose sur la même idée fondamentale. Nous avons développé la capacité de symboliser des objets 3D et de comprendre les formes en tant que symboles, et nous avons entraîné Cube 3D à prédire le prochain symbole de forme pour construire un objet 3D complet. Lorsque nous étendons cela à la génération complète de scènes, Cube 3D prédit alors la mise en page et prédit de manière récursive la forme pour compléter cette mise en page.
Tout le monde peut affiner, développer des plug-ins ou former Cube 3D sur ses propres données pour répondre à ses besoins. Nous pensons que les outils AI devraient être basés sur l'ouverture et la transparence, raison pour laquelle nous sommes un partenaire engagé dans la communauté des IA open-source. Nous avons lancé l’un de nos modèles de sécurité Modèles de sécurité de l'IA car nous sommes convaincus que le partage des avancées en matière de sécurité de l’IA aide l’ensemble de l’industrie à accélérer l’innovation et les avancées techniques. Pour cette raison, nous avons également aidé à trouver ROOST, uune nouvelle organisation à but non lucratif dédiée à la lutte contre les menaces de sécurité numérique à l'aide d'outils de sécurité open source. Avec le Cube 3D en open source, notre objectif est de permettre aux chercheurs, aux développeurs et à la communauté de l'IA au sens large d'apprendre, d'améliorer et de faire progresser la génération 3D dans l'ensemble du secteur.
Cube 3D pour la création
Nous avons déjà parlé de la façon dont l’IA peut accélérer la création de ressources, d’accessoires et d’expériences 3D. À terme, l'IA permettra des jeux et des connexions encore plus immersifs et personnalisés. Nous investissons dans une infrastructure tpour prendre en charge l’IA à chaque étape du cycle de création, tant pour les développeurs de ces expériences que pour les utilisateurs qui y passent du temps. Nous envisageons un avenir où les développeurs offriront à leurs utilisateurs de nouvelles façons de créer en intégrant l'IA dans leurs expériences. Cela met la puissance de l'IA entre les mains de plus de 85 millions d'utilisateurs actifs quotidiens dans le cadre de leur jeu.
Au cours de l'année dernière, nous’avons introduit plusieurs nouvelles fonctionnalités grâce à notre Assistant propulsé par l'AI dans Roblox Studio pour fournir aux développeurs les outils et les capacités dont ils ont besoin pour créer et éliminer les heures de travail manuel. Avec Cube, nous avons l'intention de rendre la création 3D plus efficace. Grâce à la génération de maillages 3D, les développeurs peuvent rapidement explorer de nouvelles directions créatives et augmenter leur productivité en décidant rapidement de celles qu'ils souhaitent développer.
Imaginez construire un jeu de piste de course. Aujourd'hui, tu peux utiliser l'API de génération de maillage dans Assistant en tapant une invite rapide, comme « /générer une moto » ou « /générer un cône de sécurité orange ». En quelques secondes, l'API génère une version maillée de ces objets. Grâce à cette API, tu peux modéliser des accessoires ou concevoir ton espace beaucoup plus rapidement, sans avoir à passer des heures à modéliser des objets simples. Il te permet de te concentrer sur les choses amusantes, comme concevoir le tracé de la piste et peaufiner la maniabilité de la voiture. Cette API permet d'économiser des heures sur chaque objet créé et vous donne le temps d'expérimenter de nouvelles idées sans vous soucier de passer trop de temps ou d'effort. À plus long terme, nous prévoyons de permettre la création d'objets plus complexes et fonctionnels, voire de scènes.
Objets 3D générés avec Cube
Cette technologie s'étend aux dizaines de millions de personnes créatives qui jouent et se connectent chaque jour sur Roblox. Nous voyons un avenir où les développeurs permettront à leurs utilisateurs de devenir des créateurs grâce à l'IA. Avec l'API Mesh Generation activée, les joueurs peuvent donner vie à tout ce qu'ils peuvent imaginer. Si un joueur veut une voiture futuriste, il lui suffit de taper « voiture rouge du futur avec ailes latérales » ou « veste de moto en cuir noir » pour la voir générée. Ce type de génération d'IA en jeu va permettre d'atteindre un tout nouveau niveau de créativité. Les joueurs peuvent personnaliser leur expérience d'une manière que les développeurs n'auraient jamais imaginée, et cela rendra leurs jeux encore plus attrayants.
Sous le capot : attention croisée entre les tokens 3D et les tokens texte/image
Le défi technique clé était de relier les textes et les images à des formes 3D. Notre principale avancée technique est la tokenisation 3D, qui nous permet de représenter des objets 3D sous forme de tokens, de la même manière que le texte peut être représenté sous forme de tokens. Cela nous donne la possibilité de prédire la forme suivante, tout comme les modèles linguistiques prédisent le mot suivant dans une phrase.
Pour obtenir la génération 3D, nous avons conçu une architecture unifiée pour la génération autorégressive d'un seul objet, la complétion de forme et la génération de mise en page multi-objets/scènes. Les transformateurs autorégressifs sont des réseaux de neurones qui utilisent des entrées précédentes pour prédire le composant suivant. Cette architecture fournit à la fois évolutivité et compatibilité multimodale de sorte que lorsque nous élargissons le modèle, il fonctionnera avec de nombreux types d'entrées (texte, visuel, audio, et 3D). Nous mettons ce modèle en open source. Dans cette étape initiale, les créateurs seront en mesure de générer des objets 3D en fonction des invites de texte. À terme, nous avons l'intention de permettre aux créateurs de générer des scènes entières à partir d'entrées multimodales.
Pour entraîner un transformateur génératif pré-entraîné (GPT) à la génération de formes, nous utilisons des jetons de formes 3D discrets et les alignons avec des invites textuelles. Cette approche novatrice nous ouvre les portes du monde de la génération de scènes 3D jouables.
Où le Cube se dirige
Aujourd'hui, une grande partie du monde utilise l'IA pour le texte, pour prédire les mots dans une phrase. Beaucoup l'utilisent aussi pour les images, pour prédire les pixels. Cela devient beaucoup plus complexe lors de la création de scènes, où tous ces éléments se réunissent et doivent travailler en contexte les uns avec les autres. Par exemple, imagine une expérience avec une scène simple qui peut être décrite comme « un avatar sur une moto devant un circuit avec des arbres ».
De nombreux éléments entrent dans la construction de cette expérience. Les arbres sont une combinaison de deux maillages 3D, la moto est un maillage dense avec des détails et des triangles, et les bâtiments sont constitués de pièces Roblox. L'avatar sur la moto a des caractéristiques géométriques plus complexes pour son corps, ses membres et sa tête. Enfin, nous avons besoin d'un moyen de tout lier avec une mise en page. Pour cela, nous avons besoin de rectangles englobants, qui délimitent un objet pour définir sa taille et son emplacement, afin de savoir comment organiser cette géométrie. C'est un processus laborieux, mais l'IA est capable de vous aider à chaque étape. Avec AI, les créateurs peuvent accéder à la première version plus rapidement et avoir plus de temps pour tester de nouvelles idées ou affiner leur scène.
Lorsque nous y arrivons, nous voulons que les objets et les scènes 3D que nous créons soient pleinement fonctionnels. Nous appelons cette création 4D, où la quatrième dimension est l'interaction entre les objets, les environnements et les personnes. Pour y parvenir, il faut être capable non seulement de construire des objets et des scènes 3D immersives, mais aussi de comprendre les contextes et les relations entre ces objets. C'est la direction que nous prenons avec Cube.
Au-delà de ce premier cas d'utilisation de la génération de maillage, nous prévoyons d'étendre la génération et la compréhension de scènes. Nous serons en mesure d'offrir aux utilisateurs les expériences qui les intéressent le plus et d'enrichir les scènes en ajoutant des objets en contexte. Par exemple, dans une expérience avec une scène forestière, un développeur pourrait demander à l'Assistant de remplacer toutes les feuilles vertes luxuriantes sur les arbres par un feuillage d'automne pour indiquer le changement de saison. Nos outils AI Assistant réagissent aux demandes du développeur, les aidant à créer, adapter et mettre à jour leurs expériences.
Nous’partagerons les mises à jour et les nouvelles fonctionnalités au fur et à mesure que nous continuons à améliorer et à étendre notre modèle de base. D'ici là, nous espérons que vous apprécierez l'utilisation et la construction sur notre version open-source du modèle Cube 3D, qui sera disponible dans le courant de la semaine.