Il percorso di Roblox verso l'IA generativa 4D
-
Roblox sta avanzando verso l'intelligenza artificiale generativa 4D, che va oltre i singoli oggetti 3D per arrivare alle interazioni dinamiche.
-
Risolvere la sfida del 4D richiederà una comprensione multimodale dell'aspetto, della forma, della fisica e degli script.
-
I primi strumenti che sono alla base del nostro sistema 4D stanno già accelerando la creazione sulla piattaforma.
Roblox consente ai creatori di creare esperienze, avatar e accessori 3D coinvolgenti, fornendo loro gli strumenti, i servizi e il supporto necessari per dare vita alle loro idee. Sono questi creatori a realizzare i contenuti più vivaci della nostra piattaforma, che coinvolgono più di 77 milioni di utenti attivi giornalmente (al primo trimestre del 2024). Tramite la nostra app gratuita Roblox Studio, abbiamo rilasciato una serie di strumenti di intelligenza artificiale generativa progettati esclusivamente per i flussi di lavoro di Roblox e addestrati su contenuti specifici di Roblox.
Questi strumenti rendono la creazione più facile, più efficiente e più divertente, sia per gli esperti che per i principianti. Assistente consente di modificare l'area di lavoro 3D, Cattura animazione rende possibile il movimento di volti e corpi, Code Assist facilita la modifica e la creazione di script, Material Generator dà la possibilità di creare materiali di rivestimento e Texture Generator rende possibile la mappatura di texture specifiche per le risorse. Ciascuno di questi strumenti di intelligenza artificiale generativa ottimizza una parte del processo creativo 3D.
Insieme, questi strumenti ampliano le competenze dei creatori e riducono i tempi necessari, dalla fase di ideazione a quella di realizzazione. Li abbiamo costruiti avvalendoci delle nostre innovative scoperte di ricerca e delle migliori soluzioni del più ampio ecosistema dell'IA. Questi strumenti si occupano della creazione di risorse individuali in 1D (script), 2D (superfici) e 3D (spazi). Abbiamo presentato in anteprima alcuni dei risultati del nostro laboratorio di generazione e modifica della geometria 3D in varie conferenze di ricerca internazionali, tra cui la nostra stessa conferenza, la Roblox Developers Conference.
In tutto il settore, l'1D e il 2D rappresentano lo stato dell'arte, mentre il 3D è l'avanguardia dell'intelligenza artificiale generativa. Ognuno di essi rappresenta una sfida sempre più importante, che porta a continui ed entusiasmanti progressi tecnologici. Poiché viviamo nello spazio 3D, potrebbe sembrare che questa sia la sfida più grande per l'intelligenza artificiale generativa. Tuttavia, in base alle esigenze della nostra community, il nostro obiettivo per questo progetto si spinge ben oltre.
A che punto siamo oggi
Stiamo avanzando verso un'intelligenza artificiale generativa 4D, dove la quarta dimensione è l'interazione. Il potere della piattaforma online di Roblox è l'interazione tra persone, oggetti e ambienti. A differenza dei videogiochi online tradizionali, il potente motore di runtime di Roblox si avvale di un modello esclusivo di programmazione e simulazione incentrato sull'interazione. Questo modello si ispira al concetto del metaverso, dove gli elementi s'incontrano in modi complessi e spontanei, piuttosto che in modi proscritti e limitati.
Gli strumenti di intelligenza artificiale generativa 1D, 2D e 3D producono risorse individuali. La sfida che dobbiamo affrontare con l'intelligenza artificiale generativa 4D è quella di dare vita a queste risorse in modo da consentire interazioni senza limiti, adatte alla nostra piattaforma. Ciò significa, ad esempio, che un avatar non è soltanto forma e colore: è anche uno scheletro, animazioni e la capacità di comprendere gli strumenti e di saperli equilibrare. L'avatar può indossare abiti che non sono stati progettati appositamente e che si possono adattare automaticamente in modo da calzare alla perfezione, seguendo tutti i movimenti. Il nostro nuovo strumento Impostazione automatica dell'avatar è un primo esempio di come l'intelligenza artificiale generativa possa aiutare ad automatizzare questo tipo di creazione. Ora gli sviluppatori possono completare questa procedura in pochi minuti anziché in ore o giorni.
Un'auto sportiva non è solo una forma slanciata ricoperta di vernice: è anche il motore, le parti mobili e il rigging della fisica che le consentono di sfrecciare sulle strade virtuali con precisione e controllo. In ogni caso, l'oggetto è esteso dall'ambiente 3D per interagire con tutte le sue parti attraverso la fisica e con l'utente attraverso il suo avatar.
Ognuno di questi elementi altamente interattivi in 4D può essere integrato in un ambiente più ampio, dove l'intelligenza artificiale generativa armonizza lo stile di ogni elemento e fornisce un supporto interattivo tra gli oggetti e con l'ambiente. Ora un utente, attraverso il suo avatar, può guidare in una corsa su strada con modificatori di danni e punteggi elevati, e sbandare fino a fermarsi in un negozio di moda di marca, dove può acquistare nuovi capi di abbigliamento per celebrare la sua vittoria.
Oggi la realizzazione di esperienze di questo tipo richiede la creazione manuale del codice sorgente dello script, della struttura dell'area di lavoro e del modello di dati, della geometria 3D, delle animazioni e dei materiali. I nostri strumenti di intelligenza artificiale generativa esistenti ci aiutano in ogni fase della pipeline. Stiamo realizzando un sistema che connetterà tutti questi elementi e li genererà simultaneamente. Per raggiungere questo obiettivo, dobbiamo addestrare il nostro sistema di intelligenza artificiale generativa 4D in modo multimodale, ossia attraverso più tipi di dati insieme. Questo viene già realizzato per le immagini e il testo, che sono alla base di Material Generator. L'abilitazione dell'interazione e l'aggiunta di ottimizzatori progettati appositamente per la fisica è il modo in cui raggiungeremo un livello superiore di potenzialità 4D.
Solo nell'ultimo anno, abbiamo assistito a enormi cambiamenti nelle modalità di creazione dei contenuti su Roblox. In prospettiva, vediamo un futuro in cui chiunque potrà dare vita a un'idea semplicemente digitando o pronunciando un comando, ovunque si trovi. Per riuscirci, dobbiamo iniziare a risolvere alcune delle sfide che incontreremo lungo la strada.
Le sfide che ci attendono
Gli esperimenti che abbiamo condiviso in precedenza saranno disponibili nel prossimo futuro. Più avanti, dovremo affrontare tre precise sfide:
1. Funzionalità: gli oggetti creati da questo futuro strumento di intelligenza artificiale generativa devono essere funzionali. Il sistema deve vedere un camion o un aereo lì dove c'è la forma 3D e non trattarlo come un oggetto oscuro e stagno. E dev'essere in grado di riconoscere automaticamente quali sono le parti che necessitano di articolazioni o dove deve aprirsi la mesh, senza aver bisogno dell'intervento del creatore.
Si tratta di un problema di livello umano che questi sistemi devono risolvere: ad esempio, cercare il corretto posizionamento delle ruote, poi aggiungere un asse per le ruote in modo che funzionino nello stesso modo in cui funzionerebbero nel mondo reale. E cercare il punto in cui si trova lo sportello per poi creare un'apertura e aggiungere i cardini in modo che lo sportello possa aprirsi e chiudersi.
2. Interattività: gli oggetti creati con questa futura intelligenza artificiale generativa devono essere in grado non solo di funzionare in modo indipendente, ma anche di interagire con altri oggetti nell'ambiente. Quindi, ora che il sistema ha creato un'auto con una portiera che si apre e con delle ruote che girano, deve comprendere la fisica del mondo in cui l'auto è inserita. Come fa il veicolo a muoversi sul terreno? Se si schianta contro un masso, in che punto e come si schiaccia, in base alle dimensioni del masso e alla velocità del veicolo?
Questa sfida complessa richiede che l'oggetto creato e l'ambiente o gli oggetti con cui interagisce comprendano reciprocamente la propria fisica. Fortunatamente, Roblox ha una marcia in più sotto questo aspetto, in quanto la piattaforma è stata costruita come motore fisico, il che significa che tutti gli oggetti nelle esperienze possono essere fisici. Quando l'intelligenza artificiale generativa crea un oggetto 4D, vengono aggiunte anche qualità fisiche come il materiale, la massa e la forza, per renderlo in grado di interagire con altri oggetti fisici nel mondo.
3. Controllabilità: attualmente, interagiamo con l'intelligenza artificiale generativa tramite prompt. Si tratta di una scienza imperfetta, simile a una caccia al tesoro. Se qualcuno chiedesse l'immagine di un coniglio, potrebbe ricevere un'enorme varietà di risultati: un coniglio vero, un coniglio pasquale di cioccolato, un coniglio dei cartoni animati, un dipinto di un coniglio o un'illustrazione di un coniglio che indossa un cappotto. Per questo motivo, perfezioniamo i prompt, chiedendo immagini fotorealistiche o immagini "sullo stile di", man mano che definiamo l'idea che abbiamo in testa. Ciò richiede tempo e continui tentativi per avvicinarci a ciò che vogliamo raggiungere.
Immagina di provare a seguire questo processo per un oggetto 3D che funziona e interagisce con altri oggetti, come il camion dell'esempio precedente. L'ingegneria dei prompt a questo livello sarebbe esponenzialmente complessa e non di facile utilizzo per chiunque. Per dare vita all'idea di un creatore, abbiamo bisogno di un modo più rapido e semplice per comunicare e perfezionare, collaborando sostanzialmente con un assistente IA che è più un partner che non una caccia al tesoro.
Si tratta di una sfida che coinvolge tutto il settore, e molte aziende si stanno impegnando per rendere più controllabile l'intelligenza artificiale generativa. In questo campo abbiamo fatto dei passi avanti grazie a strumenti come ControlNet, che aumenta il controllo consentendo al creatore di fornire condizioni di input aggiuntive rispetto ai semplici prompt di testo. Attualmente stiamo esplorando altri metodi che sembrano promettenti nel garantire un flusso di lavoro soddisfacente, come la pausa dell'IA dopo i passaggi critici in attesa dell'input dell'utente. Ma la strada da percorrere per ottenere un'esperienza fluida è ancora lunga.
Siamo entusiasti dell'impatto che abbiamo avuto finora e ancora di più di quello che ci attende. Rispetto ai creatori che non utilizzano la versione beta di Material Generator, quelli che la utilizzano hanno aumentato di oltre il 100 percento l'uso di varianti di materiali di rendering fisico (PBR), passando da poco più di mille a marzo 2023 a oltre duemila a giugno 2024. Alla data del 2 giugno 2024, i creatori hanno scelto circa 535 milioni di caratteri di codice suggeriti da Code Assist.
Man mano che iniziamo a risolvere le sfide di questo percorso verso il 4D, i nostri creatori potranno realizzare più creazioni e più velocemente. Prevediamo inoltre una maggiore varietà di esperienze su Roblox, in quanto daremo la possibilità a più persone di diventare creatori. Ciò che creano e come lo creano ci mostrerà come investire in nuovi strumenti e algoritmi di IA per potenziare questi nuovi creatori, oltre alla community esistente.
Con l'intelligenza artificiale generativa 4D, Roblox ha aperto nuove strade per la creazione di esperienze e risorse. Anche se dobbiamo affrontare nuove sfide, il nostro processo di innovazione è ben affinato. Combiniamo i nostri team interni di ricerca e sviluppo di alto livello, le collaborazioni con le università e la rapida iterazione dei prototipi in collaborazione con la nostra community.