Roblox 發展 4D 生成式 AI 的歷程
-
Roblox 正致力於發展 4D 生成式 AI,從單一 3D 物件進一步邁向動態互動。
-
要解決 4D 的挑戰,必須對外觀、形狀、物理和指令碼方面有多層面的了解。
-
我們 4D 系統中基礎的早期工具已在平台上提供,幫助使用者提升創作效率。
Roblox 提供符合創作者需求的各種工具、服務和支援,讓創作者能夠盡情實現創意,打造沉浸式 3D 體驗、虛擬人偶和飾品。 這些創作者在我們的平台上發布了豐富的內容,根據 2024 年第 1 季的統計,每日吸引了 7,700 萬名活躍使用者。 我們在免費的 Roblox Studio App 推出了一組生成式 AI 工具,專為 Roblox 的工作流程設計,並以 Roblox 的專門內容進行訓練。
無論是專業人士或新手,這組工具都能有效提升創作的便利性、效率和樂趣。 這包括能幫助您進行 3D 工作區編輯的 Assisstant、建立臉部表情和身體動作的動畫擷取、可協助指令碼編輯和建立作業的程式碼助手、用於建置材質外觀的材質產生器,以及可對指定素材進行紋理貼圖的紋理產生工具。 上述生成式 AI 工具都能在 3D 創作流程的不同階段提升作業效率。
綜合運用這些工具便能強化創作者的技術,並且縮短將概念化為成品的製作時間。 我們運用自家在創新研究上的重大突破以及來自大型 AI 生態系統的最佳解決方案,打造出這些工具, 可對應 1D(指令碼)、2D(平面)和 3D(空間)的個別素材創作。 我們在各個國際研討會中(包括我們自己的 Roblox 開發者會議),提供自家 3D 幾何生成和編輯實驗室的部分成果預覽。
在整個業界,1D 和 2D 都是生成式 AI 的最新發展階段,而 3D 則是發展的前沿。 每一項的重要性都與日俱增,也是不斷促進技術進步的重大挑戰。 我們生活在 3D 空間中,因此乍看之下會覺得 3D 就是生成式 AI 的最終挑戰。 但根據社群的需求,我們必須放遠目光,朝更進一步的目標邁進。
目前的發展
我們正致力於發展 4D 生成式 AI,加入第四個維度「互動」。 Roblox 的線上平台優勢即為互動:使用者、物件與環境之間的互動。 不同於傳統線上電玩遊戲,Roblox 強大的執行階段引擎具有著重於互動的獨特程式與模擬模型。 這個模型的設計概念源於元宇宙:在元宇宙中,元素會以複雜、多對多且自發性的方式互動,而非以預先規定的有限方式。
1D、2D 和 3D 生成式 AI 工具可製作個別的素材。 我們在 4D 生成式 AI 遇上的問題是,如何讓這些素材實現適合我們平台且不受限制的互動。 這表示,舉例來說,虛擬人偶不只是外形和顏色的組合,還結合了骨架、動畫,以及能順利握住工具和維持平衡的動作。 虛擬人偶穿上的服裝不需要量身打造,可自動調整讓服裝合身,並完美追蹤所有動作。 我們新推出的虛擬人偶自動設定工具,即是如何運用生成式 AI 將這類創作活動自動化的初期範例。 開發者現在不需花費數小時或數天,只要幾分鐘就能完成這個創作流程。
跑車不只是流線外觀和表面塗裝的組合,還結合了引擎、可動零件、物理骨架,讓使用者能精準操控車輛在虛擬街道上呼嘯奔馳。 這兩個例子都是將 3D 物件進一步發展,使其能透過物理與其所有零件互動,以及透過虛擬人偶與使用者互動。
上述具有豐富互動的 4D 元素皆可加入更大的環境中,以生成式 AI 調和各項元素的樣式,並在物件和物件、以及物件和環境之間導入互動式支援。 使用者現在可透過虛擬人偶進行街頭賽車,加上傷害倍率設定跟高分系統,然後甩尾到名牌商店前停車,購買新服裝慶祝勝利。
目前要創造這類體驗,需要手動編寫原始指令碼、建立工作區和資料模型結構、3D 幾何結構、動畫和素材。 我們現有的生成式 AI 工具可在流程各階段提供協助。 我們正致力打造一套可連結所有這類元素、且能同時生成元素的系統。 為達成這個目標,我們必須使用多模態方式(同時處理多種資料類型)訓練 4D 生成式 AI 系統。 我們已能同時處理圖像和文字,並應用於材質產生器。 實現互動,並專為物理打造最佳化工具,就是我們邁向 4D 功能新境界的方式。
過去短短一年間,我們在 Roblox 上看到了創造內容方式的巨大轉變。 我們預期未來任何人都可以在任意地點,透過文字或語音輸入輕鬆將想法化為創作。 為了達成這個目標,我們必須開始解決即將面臨的一些挑戰。
未來的挑戰
上述實驗性功能會在近期推出。 在這之後,我們會面臨三項需要解決的明確挑戰:
1. 功能性:未來推出的這項生成式 AI 工具所生成的物件必須具有功能性。 重點在於系統看見已有 3D 外形的一台卡車或飛機時,不能將其視為鎖死的不透明物件, 且不需創作者介入即能自動進行辨識,判定哪些是需要建立活動關節的零件,哪些部分必須分開網格。
系統必須解決這樣的人類等級 AI 問題,舉例來說,就像找出正確的輪子裝設方式,然後為其加上輪軸,讓輪子能以和現實世界相同的方式運作。 此外還要找出車門的位置,然後裁切開口並加上鉸鏈,讓門可以順利開關。
2. 互動性:未來推出的這項生成式 AI 所生成的物品除了必須能獨立運作,還需要能在環境中與其他物件互動。 系統現在生成了一輛車,有可開啟的車門和可轉動的輪子,接著需要了解車輛運行的物理環境。 車輛如何在地形上移動? 如果撞上石頭,根據石頭大小和車速,車輛哪些地方會受損、會如何受損?
這是個複雜的挑戰,需要生成的物件和其互動的環境或物件了解彼此的物理狀況。 幸運的是,Roblox 的平台原本就是打造成物理引擎,這代表體驗中的所有物件都可進行物理運算,因此在這個層面得天獨厚。 生成式 AI 生成 4D 物件時,也會加入材質、質量、強度等物理性質,使其準備好與世界中其他具物理性質的物件互動。
3. 可控性:我們目前使用提示與生成式 AI 互動。 這是一門不完美的學問,和尋寶遊戲相似。 如果有人要求生成兔子的圖片,可能會得到差異極大的結果:寫實的兔子、復活節巧克力兔、卡通兔子、兔子的繪畫,或是穿著大衣的兔子插圖。 因此我們會將提示微調得更明確,指定要求生成照相寫實的圖像,或是根據腦中的想像指定「某某風格」的圖像。 這需要時間和反覆嘗試,才能逼近我們想要的成果。
想像嘗試按照這個流程建立具功能性且能夠與其他物件互動的 3D 物件,例如上述例子中的卡車。 現階段的提示工程複雜度會爆炸性增加,無法讓所有人輕鬆使用。 要將創作者的想法化為實際作品,就需要採用更迅速簡便的方式來溝通和微調,實質上這就等於與一個夥伴性質的 AI 助理合作,而減少尋寶的做法。
這是業界共同面對的挑戰,很多公司正致力提升生成式 AI 的可控性。 我們目前已有些許成果,例如研發出 ControlNet 工具,可讓創作者在文字提示外提供額外輸入條件,增加可控性。 我們目前正在探索其他可望讓工作流程順心遂意的方法,例如讓 AI 在執行重要步驟後暫停,等待使用者輸入資訊。 但要實現順暢的體驗,還需要長遠的發展。
我們很高興見到目前帶來的影響,對未來的發展更是期待。 比起未使用材質產生器 Beta 測試版的創作者,有使用的創作者採用物理成像(PBR)材質種類的人數成長超過 100%:2023 年 3 月只有一千多名使用者,至 2024 年 6 月已增長至超過兩千名使用者。 至 2024 年 6 月 2 日為止,創作者採用程式碼助手建議的程式碼字元數約有 5.35 億。
隨著我們開始研發解決 4D 挑戰的方法,創作者也將能更便捷地創作更多作品。 我們讓更多人能夠成為創作者之後,也期待在 Roblox 中看到更多元的體驗。 大家的創作成品和創作方式,能讓我們了解新工具和 AI 演算法的研發方向,來為新加入的創作者以及目前的社群成員提供助力。
Roblox 透過 4D 生成式 AI,開啟了體驗和素材創作的新世界。 眼前的挑戰雖然前所未有,但我們的創新流程累積了豐富的經驗。 我們結合頂尖的內部研發團隊,和大學協力合作,也和社群合作快速反覆改良原型。