El camino de Roblox hacia la IA generativa en 4D
-
Roblox avanza hacia la IA generativa en 4D, que va más allá de los objetos 3D individuales para crear interacciones dinámicas.
-
Resolver el reto de la 4D exigirá una comprensión multimodal de la apariencia, la forma, la física y los scripts.
-
Las primeras herramientas base para nuestro sistema en 4D ya están acelerando la creación en la plataforma.
Roblox permite a los creadores construir experiencias, avatares y accesorios inmersivos en 3D al proporcionarles las herramientas servicios y el soporte que necesitan para darles vida a sus ideas. Son estos creadores los que construyen el contenido vibrante de nuestra plataforma, que atrae a más de 77 millones de usuarios activos diarios (en el primer trimestre de 2024). A través de nuestra aplicación gratuita Roblox Studio, lanzamos un conjunto de herramientas de IA generativa diseñado exclusivamente para los flujos de trabajo de Roblox y entrenado en contenidos específicos de Roblox.
Estas herramientas hacen que la creación sea más fácil, eficaz y divertida tanto para expertos como para principiantes. El Asistente permite editar el espacio de trabajo en 3D, Capturar animación permite el movimiento de caras y cuerpos, el Asistente de código ayuda a editar y crear scripts, el Generador de materiales permite la apariencia del material de mosaicos y el Generador de texturas permite el mapeo de texturas específico para cada activo. Cada una de estas herramientas de IA generativa mejora una parte del proceso creativo en 3D.
Juntas, estas herramientas aumentan las habilidades del creador y reducen el tiempo desde la concepción hasta la finalización. Las creamos utilizando nuestros propios avances en investigación innovadora, así como las mejores soluciones del ecosistema de IA en general. Abordan la creación de activos individuales en 1D (scripts), 2D (superficies) y 3D (espacios). Presentamos algunos de los resultados de nuestro laboratorio de generación y edición de geometría en 3D en varias conferencias internacionales de investigación, incluida nuestra propia Conferencia de desarrolladores de Roblox.
En todo el sector, las tecnologías 1D y 2D son punteras, y la 3D está a la vanguardia de la IA generativa. Cada una de estas tecnologías es un reto cada vez más importante que impulsa avances técnicos apasionantes de forma continua. Como vivimos en el espacio 3D, puede parecer que ese es el reto definitivo de la IA generativa. Sin embargo, basándonos en las necesidades de nuestra comunidad, nuestra visión de este trabajo va más allá.
Dónde estamos hoy
Estamos trabajando hacia una IA generativa en 4D, donde la cuarta dimensión es la interacción. El poder de la plataforma en línea Roblox reside en la interacción entre personas, objetos y entornos. A diferencia de los videojuegos en línea tradicionales, el potente motor de ejecución de Roblox aprovecha un modelo único de programación y simulación centrado en la interacción. Este modelo se inspira en el concepto de un metaverso, donde los elementos se reúnen de forma compleja, múltiple y espontánea, en lugar de hacerlo de forma proscrita y limitada.
Las herramientas de IA generativa en 1D, 2D y 3D producen activos individuales. El reto al que nos enfrentamos con la IA generativa en 4D es dar vida a esos activos de forma que permitan interacciones sin restricciones adecuadas para nuestra plataforma. Esto significa, por ejemplo, que un avatar no es solo forma y color, sino también esqueleto, animaciones y la capacidad de agarrar herramientas y tener equilibrio. Ese avatar puede llevar ropa que no se diseñó específicamente para él y que se ajusta automáticamente para que le quede perfecta y rastrea todos los movimientos. Nuestra nueva herramienta de configuración automática de avatares es un ejemplo temprano de cómo la IA generativa puede ayudar a automatizar este tipo de creación. Los desarrolladores ahora pueden completar este proceso en minutos en lugar de en horas o días.
Un coche deportivo no es solo una forma elegante y una superficie pintada, sino que también es el motor, las piezas móviles y el equipo de física que le permiten rugir por las calles virtuales con precisión y control. En cada caso, el objeto se extiende desde el 3D para interactuar con todas sus partes a través de la física y con un usuario a través de su avatar.
Cada uno de estos elementos 4D bastante interactivos puede añadirse a un entorno mayor en el que la IA generativa armoniza el estilo de cada elemento e introduce soporte interactivo entre los objetos y con el entorno. Ahora un usuario, a través de su avatar, puede conducir en una carrera callejera con modificadores de daños y puntuaciones altas, y derrapar hasta detenerse en una tienda de moda de marca, donde compra ropa nueva para celebrar su victoria.
En la actualidad, la creación de este tipo de experiencias requiere la creación manual del código fuente del script, el espacio de trabajo y la estructura del modelo de datos, la geometría 3D, las animaciones y los materiales. Nuestras herramientas de IA generativa ayudan en cada parte del proceso. Estamos construyendo un sistema que conectará todos estos elementos y los generará de forma simultánea. Para lograrlo, debemos entrenar nuestro sistema de IA generativa en 4D de forma multimodal; es decir, a través de múltiples tipos de datos juntos. Esto ya se hace para las imágenes y el texto, que potencian al Generador de materiales. Alcanzaremos el siguiente nivel de capacidad en 4D al habilitar la interacción y añadir optimizadores específicos para la física.
Tan solo en el último año, observamos enormes cambios en la forma de crear contenidos en Roblox. Vemos un futuro en el que cualquiera, en cualquier lugar, puede dar vida a una idea con solo teclear o pronunciar una orden. Para conseguirlo, tenemos que empezar a resolver algunos de los retos que nos encontraremos en el camino.
Los retos que nos esperan
Los experimentos que compartimos anteriormente estarán disponibles en un futuro próximo. Más allá de eso, nos enfrentamos a tres retos claros que tendremos que desbloquear:
1. Funcional: Los objetos creados por esta futura herramienta de IA generativa deben ser funcionales. Se trata de que el sistema vea un camión o un avión con forma tridimensional y no lo trate como un objeto opaco y sellado. Y sin que el creador tenga que intervenir, puede reconocer de forma automática que son las partes que necesita tener juntas o que aquí es donde la malla necesita abrirse.
Se trata de un problema de IA de nivel humano que estos sistemas tienen que resolver: buscar la ubicación correcta de las ruedas, por ejemplo, y añadirles un eje para que funcionen del mismo modo que lo harían en el mundo físico. Y buscar dónde está la puerta y luego cortar una abertura y añadir bisagras para que la puerta pueda abrirse y cerrarse.
2. Interactivo: Los objetos creados con esta futura IA generativa no solo deben ser capaces de funcionar de forma independiente, sino también de interactuar con otros objetos del entorno. Así que ahora que el sistema creó un coche para nosotros con una puerta que se abre y ruedas que giran, necesita comprender la física del mundo en el que se encuentra el coche. ¿Cómo se desplaza el vehículo sobre el terreno? Si choca contra una roca, ¿dónde y cómo se daña en función del tamaño de la roca y de la velocidad del vehículo?
Este reto complejo requiere que tanto el objeto creado como el entorno o los objetos con los que interactúa comprendan la física del otro. Por suerte, Roblox tiene una ventaja en este aspecto, ya que la plataforma se construyó como un motor de física, lo que significa que todos los objetos de las experiencias pueden ser físicos. Cuando la IA generativa crea un objeto 4D, también se le añaden cualidades físicas como el material, la masa y la fuerza para prepararlo para interactuar con otros objetos del mundo basados en la física.
3. Controlable: Hoy en día, interactuamos con la IA generativa mediante instrucciones. Se trata de una ciencia imperfecta, parecida a una búsqueda del tesoro. Si alguien pide la imagen de un conejo, puede recibir resultados muy variados: un conejo de verdad, un conejo de Pascua de chocolate, un conejo de dibujos animados, un cuadro de un conejo o una ilustración de un conejo con abrigo. Así que afinamos las instrucciones y pedimos imágenes fotorrealistas o imágenes “del estilo de” mientras nos centramos en la visión que tenemos en la cabeza. Esto lleva tiempo y varios intentos para acercarse a lo que buscamos.
Imagina que intentas seguir este proceso para un objeto 3D que funciona e interactúa con otros objetos, como el camión de nuestro ejemplo anterior. La ingeniería de instrucciones a este nivel sería exponencialmente compleja, no sería algo que cualquiera pudiera utilizar fácilmente. Para darle vida a la idea de un creador, necesitamos una forma más rápida y sencilla de comunicarnos y perfeccionarla; es decir, colaborar con un asistente de IA que sea más como un compañero y menos como una búsqueda del tesoro.
Se trata de un reto que afecta a toda la industria, y muchas empresas están trabajando para introducir una mayor capacidad de control en la IA generativa. Hicimos algunos progresos con herramientas como ControlNet, que aumenta el control al permitir que el creador proporcione condiciones de entrada adicionales más allá de las simples instrucciones de texto. Actualmente estamos explorando otros métodos prometedores para conseguir un flujo de trabajo satisfactorio, como hacer que la IA se detenga después de los pasos críticos para esperar la intervención del usuario. Pero nos queda mucho camino por recorrer para lograr una experiencia sin interrupciones.
Estamos entusiasmados con el impacto que vimos hasta ahora y nos emociona aún más con lo que nos espera. Los creadores que utilizan la versión beta del Generador de materiales han aumentado el uso de variaciones de materiales basadas en la física (PBR) en más de un 100 %, en comparación con los que no la utilizan, pasando de poco más de mil en marzo de 2023 a más de dos mil en junio de 2024. Al 2 de junio de 2024, los creadores habrán adoptado aproximadamente 535 millones de caracteres de código sugeridos por el Asistente de código.
A medida que empecemos a resolver los retos de este camino hacia la 4D, nuestros creadores podrán crear más y más rápido. También esperamos ver una mayor diversidad de experiencias en Roblox a medida que hagamos posible que más personas se conviertan en creadores. Lo que construyan y cómo lo construyan nos mostrará dónde invertir en nuevas herramientas y algoritmos de IA para empoderar a estos nuevos creadores, junto con nuestra comunidad actual.
Con la IA generativa en 4D, Roblox ha abierto una nueva frontera para la creación de experiencias y activos. Aunque los retos son nuevos, nuestro proceso de innovación está bien perfeccionado. Combinamos nuestros excelentes equipos internos de investigación y desarrollo, las colaboraciones universitarias y una rápida iteración de prototipos en asociación con nuestra comunidad.