隆重介紹 Roblox Cube:我們用於 3D 和 4D 的核心生成式 AI 系統

  • 我們發佈了用於生成式 AI 的 Cube 3D 基礎模型。
  • 我們也將打造 Cube 3D 基礎模型的開源版本。
  • Cube 3D 網格生成的 Beta 測試版本(在 Roblox Studio 中以及作為體驗內的 Lua API)將於本週推出。

去年秋天,我們宣布了一個具有野心的專案,期望建造一個開源 3D 基礎模型,以便在 Roblox 上建立 3D 物件和場景。 本週,我們將首度推出此模型的開源版本,讓任何人都可以在 Roblox 平台內外使用。 隨著網格生成 API 的 Beta 測試版推出,我們也將推出 Cube 3D 的首批功能。 Cube 將為我們未來幾年要開發的許多 AI 工具打下基礎,包括高度複雜的場景生成工具。 這最終將成為一個多模式模型,經過文字、圖像、影片和其他類型的輸入訓練,並將與現有的 AI 創作工具整合。

Cube 3D 能直接從文字中生成 3D 模型和環境,未來還能藉由圖像輸入生成。 如今,最先進的 3D 生成技術使用圖像和重建方法來建立 3D 物件。 當卻乏足夠的 3D 訓練數據時,這會是一個很好的選擇。 然而,由於 Roblox 平台的性質,我們會在原生 3D 數據上訓練。 該模型產生的物件與目前的遊戲引擎完全相容,而且可以擴展,讓物件能運行。

這種差異就像是電影拍攝片廠的賽道。 在電視上,你可能會看到看似功能齊全的賽道,包括看台、車庫和勝利車道。 但如果在該片廠走一圈,很快就會發現這些物件的結構實際上是平的。 建立一個真正的沉浸式 3D 世界需要完整、正常運作的結構,包括可以將車開進去的車庫、可以坐進去的看台,以及有實際頒獎台的勝利車道。

為了達成此目標,我們從經過文字代幣(或一組字元)訓練的最先進模型中汲取靈感,預測下一個代幣以形成句子。 我們的創新建立在相同的核心思想上。 我們已經建立了將 3D 物件代幣化,以及將形狀理解為代幣的能力,並訓練 Cube 3D 預測下一個形狀代幣以構建完整的 3D 物件。 當我們將此擴展到完整場景生成時,Cube 3D 就會預測布局,並重複預測形狀直到該布局被完整預測為止。

任何人都可以微調、開發外掛程式,或以自己的數據為基礎來訓練 Cube 3D,滿足自身需求。 Roblox 認為,AI 工具應該建立在公開透明的基礎上,這就是我們致力成為開源 AI 社群中一個忠實夥伴的原因。 我們發佈了一個 AI 安全模型,因為我們堅信,分享 AI 安全的相關進展,有助於整個產業加速創新並推動技術演進。 基於此原因,我們也協助創立了 ROOST;這是一個新的非營利組織,致力於使用開源安全工具來應對數位安全重要領域的議題。 在開源 Cube 3D 中,我們的目標是讓研究者、開發者和更廣泛的 AI 社群,能學習、增強和推動整個產業的 3D 生成發展。

用於創作的 Cube 3D

我們之前已談到 AI 如何加速 3D 素材、飾品和體驗的創作。 最終,AI 將能夠帶來更沉浸式且個人化的遊戲和交流。 我們投資了基礎設施,以在創作週期中的每個階段支援 AI,無論是體驗開發者,還是花時間遊玩的使用者都能受惠。 Roblox 所展望的未來是,開發者將在體驗中啟用 AI,為使用者提供新的創作方式。 如此一來,AI 的力量就會落到超過 8,500 萬名每日活躍使用者手中,成為他們遊戲遊玩的一部分。

過去一年中,我們透過 Roblox Studio 中由 AI 提供技術支援的 Assistant,引進了幾項新功能,為開發者提供創作所需的工具和功能,並消除了數小時的手動工作。 我們希望藉著 Cube 提高 3D 創作的效率。 透過 3D 網格生成,開發者可以快速探索新的創意發想,並迅速決定要繼續前進的方向,從而提高生產力。

想像一下製作一款賽道遊戲的過程。 如今,你可以在 Assistant 中使用網格生成 API,只需輸入快速提示,如「/generate a motorcycle」或「/generate orange safety cone」等,短短幾秒內,API 就會生成這些物件的網格版本。 接著,你可以運用不同材質、顏色等元素,來完整呈現物件的細節。 有了這個 API,你就能更快地將道具建模或設計空間,無需花費數小時為簡單的物件建立模型, 你就能專注在有趣的事情,例如設計賽道布局和微調汽車的操控方式。 這個 API 可節省每個物件創建的時間,讓你有時間嘗試新的想法,且不必擔心花費太多時間或精力。 長遠來看,我們計劃打造更複雜且更具實用性的物件,甚至是場景。

用 Cube 生成的 3D 物件

一台配有多節輪胎的紅色越野車
一張線條分明、採用天鵝絨材料的復古綠沙發
一把有金色裝飾的綠色水晶奇幻寶劍
棕色機車皮夾克
一頭留著彩虹鬃毛和尾巴的獨角獸
卡通鯨魚

這項技術將觸及每天在 Roblox 上遊玩和交流的數千萬名創作者。 Roblox 所展望的未來是,開發者讓使用者得以透過 AI 成為創作者。 啟用網格生成 API 後,玩家可以將想像中的任何東西化作實體。 如果玩家想要一台未來風的汽車,只要輸入「未來風紅色汽車,側面有機翼」或「黑色機車皮夾克」,接著就會看到物件被生成出來。 這種遊戲內的 AI 生成技術,將可解鎖全新層次的創造力。 玩家可以用開發者前所未見的方式將自身體驗個人化,這將使得其所創造出的遊戲更加引人入勝。

揭開面紗:3D 與文字/圖像代幣之間的交叉注意力

關鍵技術挑戰在於如何將文字和圖像與 3D 形狀結合起來。 3D 代幣化是我們的核心技術突破,使我們能將 3D 物件以代幣呈現,就像文字可以用代幣呈現一樣。 如此一來,我們就能預測下一個形狀,如同語言模型會預測句子中的下一個字詞一般。

為了實現 3D 生成技術,我們設計了一個統一架構,用於單個物件的自動迴歸生成、形狀完成以及多物件/場景布局生成。 自動迴歸轉換器是使用之前輸入的內容來預測下一個組件的神經網絡。 這種架構提供了可擴展性和多模式相容性。因此,隨著模型的擴展,此架構就能處理許多不同類型的輸入內容(文字、影像、音訊和 3D)。 我們正在打造此模型的開源版本。 在此初始階段,創作者將能根據文字提示生成 3D 物件。 未來,我們希望創作者能根據多模式輸入內容生成整個場景。

為了訓練用於形狀生成的生成式預先訓練轉換器 (GPT),我們使用單獨的 3D 形狀代幣,並將這些代幣與文字提示對齊。 這種新穎的方法,使我們能為 3D 場景生成的可遊玩世界作好準備。

Cube 的發展方向

如今,世界上多數地區都使用 AI 來處理文字,以預測句子中的字詞, 也有許多人將其用於圖像,以預測像素。 不過在建立場景時,情況就複雜多了,因為所有元素都會匯聚在一起,而且要在彼此的環境中相輔相成地運作。 例如,想像一下一項簡單場景的體驗,如下所述:「一個在賽道前摩托車上的虛擬人偶,賽道上有棵樹」。

打造這種體驗需要許多元素。 樹木是由兩個 3D 網格組合而成,摩托車是由有細節和三角形的密集網格組成,建築物則是由 Roblox 零件組成。 騎在摩托車上的虛擬人偶,其身體、四肢和頭部的幾何特徵更為複雜。 最後,我們需要用一種布局方式,將所有元素連結在一起。 為此,我們需要有邊的方塊來劃定物件的大小和位置,就能得知如何排列這種幾何形狀。 這個過程會相當辛苦,但 AI 能夠協助我們完成每個步驟。 有了 AI,創作者可以更快地取得第一個版本,並有更多時間來測試新想法或微調場景。

達成目標時,我們都希望自己創造的 3D 物件和場景能實際運作順暢。 我們將此環節稱為 4D 創作,其中第四維度是物件、環境和人之間的互動。 為了達成這個目標,我們不僅需要具備建立沉浸式 3D 物件和場景的能力,還要了解這些物件之間的環境和關係。 這就是我們希望 Cube 能達到的目標。

除了網格生成的第一個使用案例外,我們打算擴展到場景生成和理解。 我們將能為使用者提供他們最感興趣的體驗,並透過在環境中新增物件來增強場景。 例如,在樹林場景的體驗中,開發者可以要求 Assistant 將樹上所有蓊鬱的綠葉替換成秋天的落葉,以表示季節的變化。 我們的 AI Assistant 工具會響應開發者的要求,協助他們快速建立、調整和擴展體驗。

在繼續改進和擴展基礎模型的同時,我們將分享其他更新和新功能。 在此之前,我們希望你熱愛使用,並在我們的開源版本 Cube 3D 模型上構建模型;該版本將於本週稍晚時推出。