Presentamos Roblox Cube, nuestro sistema central de IA generativa para 3D y 4D
- Lanzaremos nuestro modelo fundacional Cube 3D para IA generativa.
- También lanzaremos una versión de código abierto de nuestro modelo fundacional Cube 3D.
- La versión beta de la generación de mallas Cube 3D, en Roblox Studio y en la API Lua en experiencias, estará disponible esta semana.
Hace unos meses anunciamos un proyecto ambicioso para crear un modelo fundacional 3D de código abierto para crear objetos y escenas 3D en Roblox. Esta semana vamos a abrir la primera versión de este modelo para que cualquiera pueda utilizarlo dentro o fuera de la plataforma Roblox. Llamamos a este modelo Cube 3D. También pondremos en marcha la primera de sus capacidades con el lanzamiento beta de nuestra API de generación de mallas. Cube sustentará muchas de las herramientas de IA que desarrollaremos en los próximos años, incluidas las de generación de escenas de gran complejidad. En última instancia, será un modelo multimodal entrenado en texto, imágenes, video y otros tipos de entrada, y se integrará con nuestras herramientas actuales de creación de IA.
Cube 3D genera modelos y entornos 3D directamente a partir de entradas de texto y, en el futuro, de imágenes. Hoy en día, la generación 3D más avanzada utiliza imágenes y un enfoque de reconstrucción para construir objetos 3D. Esta es una buena opción cuando no existen los suficientes datos de entrenamiento en 3D. Sin embargo, gracias a la naturaleza de nuestra plataforma, nos entrenamos con datos nativos en 3D. El objeto generado es totalmente compatible con los motores de juego actuales y puede ampliarse para que los objetos sean funcionales.
La diferencia aquí es similar a un set de rodaje de una película de carreras. En la televisión se puede ver lo que parece una pista de carreras en pleno funcionamiento, con gradas, garajes y una línea de meta. Pero si uno se paseara por ese set, se daría cuenta rápidamente de que las estructuras en realidad eran planas. Construir un mundo 3D realmente inmersivo requiere de estructuras completas y funcionales, con garajes en los que puedas conducir, gradas en las que te puedas sentar y una línea de meta con un podio funcional.
Para lograrlo, nos inspiramos en los modelos más avanzados, entrenados en tokens de texto (o conjuntos de caracteres) para que puedan predecir el siguiente token que formará una frase. Nuestra innovación se basa en la misma idea central. Desarrollamos la capacidad de convertir objetos 3D en tokens y entender las formas como tokens, y entrenamos a Cube 3D para predecir el siguiente token de forma para construir un objeto 3D completo. Cuando ampliamos esto a la generación de escenas completas, Cube 3D predice el diseño y predice la forma de manera recursiva para completar ese diseño.
Cualquiera puede ajustar, desarrollar complementos o entrenar a Cube 3D con sus propios datos para adaptarlo a sus necesidades. Creemos que las herramientas de IA deben basarse en la apertura y la transparencia, y por eso somos un socio comprometido de la comunidad de IA de código abierto. Lanzamos uno de nuestros modelos de seguridad de IA porque estamos convencidos de que compartir los avances en seguridad de la IA ayuda a todo el sector a acelerar la innovación y los avances técnicos. Por esta razón, ayudamos a fundar ROOST, una nueva organización sin fines de lucro dedicada a abordar áreas importantes de la seguridad digital con herramientas de seguridad de código abierto. Al abrir Cube 3D, nuestro objetivo es permitir que los investigadores, desarrolladores y la comunidad de IA en general aprendan, aumenten y avancen en la generación 3D en todo el sector.
Cube 3D para creación
Ya hablamos anteriormente de cómo la IA puede acelerar la creación de activos, accesorios y experiencias en 3D. En última instancia, la IA permitirá un juego y unas conexiones aún más envolventes y personalizadas. Invertimos en infraestructura para darle soporte a la IA en cada etapa del ciclo de creación, tanto para los desarrolladores de esas experiencias como para los usuarios que pasarán tiempo en ellas. Imaginamos un futuro en el que los desarrolladores ofrecerán a sus usuarios nuevas formas de crear incorporando la IA a sus experiencias. Esto pone el poder de la IA en manos de más de 85 millones de usuarios activos diarios como parte de su juego.
En el último año, presentamos varias funciones nuevas a través de nuestro Asistente, un sistema basado en IA dentro de Roblox Studio para proporcionarles a los desarrolladores las herramientas y las capacidades que necesitan para crear y eliminar horas de trabajo manual. Con Cube, nuestra intención es hacer la creación 3D más eficiente. Con la generación de mallas 3D, los desarrolladores pueden explorar rápidamente nuevas direcciones creativas y aumentar su productividad al decidir rápidamente con cuál seguir adelante.
Imagina construir un juego de carreras. En la actualidad, se puede utilizar la API de generación de mallas dentro de Assistant si escribes un prompt rápido, como “/generar una motocicleta“ o “/generar un cono de seguridad naranja“. En cuestión de segundos, la API generará una versión en malla de estos objetos. A continuación, se les puede añadir textura, color, etc. Con esta API, puedes modelar props o diseñar tu espacio mucho más rápido. No necesitas pasar horas modelando objetos simples. Te permite enfocarte en la parte divertida, como diseñar el trazo de la pista y afinar el manejo del coche. Esta API ahorra horas en cada objeto creado y te devuelve ese tiempo para experimentar con ideas nuevas sin preocuparte por gastar demasiado tiempo o esfuerzo. A largo plazo planeamos habilitar objetos más complejos y funcionales, y hasta escenas.
Objetos 3D generados con Cube
Esta tecnología se extiende a las decenas de millones de personas creativas que juegan y se conectan en Roblox cada día. Vemos un futuro en el que los desarrolladores les permitirán a sus usuarios convertirse en creadores utilizando la IA. Con la API de generación de malla activada, los jugadores pueden darle vida a cualquier cosa que imaginen. Si un jugador quiere un coche futurista, solo tiene que escribir “coche rojo del futuro con alas laterales“ o “chamarra de cuero negro para moto“ y lo verá generado. Este tipo de generación de IA en el juego va a desbloquear un nuevo nivel de creatividad. Los jugadores pueden personalizar su experiencia de formas que los desarrolladores jamás imaginaron, y eso va a hacer que sus juegos sean aún más atractivos.
Detrás de la escena: atención cruzada entre tokens 3D y de texto/imagen
El principal reto técnico era conectar texto e imágenes con formas 3D. Nuestro avance técnico principal es la conversión 3D a token, que nos permite representar objetos 3D como tokens del mismo modo que el texto puede representarse como tokens. Esto nos permite predecir la siguiente forma del mismo modo que los modelos lingüísticos predicen la siguiente palabra de una frase.
Para lograr la generación 3D, diseñamos una arquitectura unificada para la generación autorregresiva de un solo objeto, la finalización de formas y la generación de diseños multiobjeto/escena. Los transformadores autorregresivos son redes neuronales que utilizan las entradas anteriores para predecir el siguiente componente. Esta arquitectura ofrece escalabilidad y compatibilidad multimodal, de modo que, a medida que ampliemos el modelo, funcionará con diferentes tipos de entrada (texto, visual, audio y 3D). Haremos este modelo de código abierto. En su etapa inicial, los creadores podrán generar objetos 3D basados en prompts de texto. Más adelante, pretendemos que los creadores puedan generar escenas enteras a partir de entradas multimodales.
Para entrenar un transformador preentrenado generativo (GPT, por sus siglas en inglés) para la generación de formas, utilizamos tokens discretos de formas 3D y los alineamos con prompts de texto. Este enfoque novedoso nos adentra en el mundo de la generación de escenas 3D jugables.
Hacia dónde se dirige Cube
Hoy en día, gran parte del mundo utiliza la IA para el texto, para predecir las palabras de una frase. Muchos también lo utilizan para imágenes, para predecir píxeles. Esto se complica mucho más a la hora de crear escenas, donde todos estos elementos confluyen y deben funcionar en contexto unos con otros. Por ejemplo, imagina una experiencia con una escena sencilla que puede describirse como “un avatar en una moto frente a una pista de carreras con árboles”.
Los elementos que intervienen en la construcción de esta experiencia son bastantes. Los árboles son una combinación de dos mallas 3D, la moto es una malla densa con detalles y triángulos, y los edificios están formados por piezas de Roblox. El avatar de la moto tiene rasgos geométricos más complejos para el cuerpo, las extremidades y la cabeza. Por último, necesitamos una forma de unirlo todo con un diseño. Para ello, necesitamos cajas delimitadoras, que generan el contorno de un objeto para definir su tamaño y ubicación, para saber cómo disponer esta geometría. Se trata de un proceso laborioso, pero la IA es capaz de ayudar en cada paso. Con la IA, los creadores pueden llegar antes a la primera versión y disponer de más tiempo para probar ideas nuevas o perfeccionar su escena.
Cuando lleguemos allí, queremos que los objetos y escenas 3D que creemos sean totalmente funcionales. A esto lo llamamos creación en 4D, donde la cuarta dimensión es la interacción entre objetos, entornos y personas. Para lograrlo, no solo hay que ser capaces de construir objetos y escenas 3D inmersivas, sino también de comprender los contextos y las relaciones entre esos objetos. A esto nos dirigimos con Cube.
Más allá de este primer caso de uso de generación de mallas, tenemos previsto ampliarlo a la generación y comprensión de escenas. Podremos ofrecerles a los usuarios las experiencias que más les interesen y aumentar las escenas al añadir objetos en contexto. Por ejemplo, en una experiencia con una escena de bosque, un desarrollador podría pedirle al Asistente que sustituya todas las frondosas hojas verdes de los árboles por follaje otoñal para indicar el cambio de estación. Nuestras herramientas de Asistente de IA reaccionan a las peticiones de los desarrolladores, ayudándoles a crear, adaptar y escalar sus experiencias rápidamente.
Compartiremos actualizaciones y nuevas funciones a medida que sigamos mejorando y ampliando nuestro modelo fundacional. Hasta entonces, esperamos que disfrutes utilizando y construyendo sobre nuestra versión de código abierto del modelo Cube 3D, que estará disponible a finales de esta semana.