隆重介绍 Roblox Cube:我们用于 3D 和 4D 的核心生成式 AI 系统

  • 我们发布了用于生成式 AI 的 Cube 3D 基础模型。
  • 我们还将开源 Cube 3D 基础模型的一个版本。
  • 本周,Cube 3D 网格生成的 Beta 测试版将在 Roblox Studio 和体验内的 Lua API 中可用。

去年秋天,我们宣布了一个雄心勃勃的项目,期望构建一个开源的 3D 基础模型,以在 Roblox 平台上创建 3D 对象和场景。 T本周,我们将开源该模型的第一个版本,使任何人都可以在 Roblox 平台内外使用。 我们将此模型命名为 Cube 3D。 同时,我们也推出其首个功能:网格生成 API 的 Beta 测试版。 Cube 3D 将成为我们未来几年开发的许多 AI 工具的基础,包括高度复杂的场景生成工具。 最终,它将成为一个多模态模型,能够处理文本、图像、视频和其他类型的输入,并与我们现有的 AI 创作工具集成。

Cube 3D 直接从文本输入生成 3D 模型和环境,未来还能通过图像输入生成。 目前,最先进的 3D 生成技术主要依赖于图像和重建方法来创建 3D 对象。 这在 3D 训练数据不足时是一种可行方案。 然而,得益于 Roblox 平台的特性,我们可以直接使用原生 3D 数据进行训练。 生成的对象与现有的游戏引擎完全兼容,并可以进一步扩展以实现功能性。

这种方法的不同之处类似于电影片场中的赛车场。 在电视上,你可能看到一个看似真实的赛车场,包括看台、车库和胜利车道。 但如果你走进片场,你会发现这些建筑其实是平面的。 要构建一个真正沉浸式的 3D 世界,必须具备完整、可交互的结构,例如可进入的车库、可供观众坐下的看台,以及一个带有真实领奖台的胜利广场。

为实现这一目标,我们借鉴了最先进的文本生成模型,它们通过预测下一个文本标记(token)来构建句子。 我们的创新基于相同的核心理念。 我们构建了一个能够对 3D 对象进行标记化的系统,使其能够将形状视为标记,并训练 Cube 3D 预测下一个形状标记,以构建完整的 3D 对象。 当我们扩展到完整的场景生成时,Cube 3D 将预测布局,并递归地预测形状以完成该布局。

任何人都可以微调 Cube 3D、开发插件或使用自己的数据进行训练,以满足其特定需求。 我们相信 AI 工具应该建立在开放性和透明性的基础上,因此我们坚定地支持开源 AI 社区。 我们已经开源了一款 AI 安全模型,因为我们认为,共享 AI 安全方面的进展有助于整个行业加速创新和技术进步。 因此,我们也帮助成立了 ROOST,一个致力于使用开源安全工具解决数字安全问题的新非营利组织。 通过开源 Cube 3D,我们希望研究人员、开发者和更广泛的 AI 社区能够共同学习、增强和推动 3D 生成技术的行业发展。

Cube 3D 在创作中的应用

我们曾谈到 AI 如何加速 3D 资产、配件和体验的创作。 最终,AI 将促进更加沉浸式和个性化的游戏和互动。 我们在 AI 基础设施上的投资覆盖创作周期的每个阶段, 既支持开发者构建体验,也为玩家提供更加丰富的互动方式。 如此一来,AI 的力量就会落到超过 8,500 万名的日活跃用户受众,成为他们游戏游玩的一部分。

过去一年里,我们在 Roblox Studio 中推出了由 AI 提供技术支持的 “助手”,引进了几项新功能,以帮助开发者更高效地创作,并减少大量手动工作量。 Cube 3D 旨在让 3D 创作变得更加高效。 通过 3D 网格生成,开发者可以快速探索新的创意方向,并更快决定哪些方案值得深入发展。

想象一下制作一款赛车游戏的过程。如今,你可以在“助手”中使用网格生成 API,输入简单的指令,如“/generate a motorcycle”或“/generate orange safety cone”等。短短几秒内,API 就会生成这些对象的网格版本。 你还可以进一步添加纹理、颜色等细节。 该 API 可以大幅减少建模时间, 你可以专注在有趣的事情上,例如设计赛道布局和微调汽车的操控方式。 这个 API 可节省每个物件创建的时间,让你有时间尝试新的想法,且不必担心花费太多时间或精力。 长期来看,我们计划打造更复杂且更具实用性的物件,甚至是场景。

用 Cube 生成的 3D 对象

一台配有多节轮胎的红色越野车
一张线条分明、使用天鹅绒材料的复古绿沙发
一把有着金色装饰的绿色水晶奇幻宝剑
棕色机车皮夹克
一头留着彩虹鬃毛和尾巴的独角兽
卡通鲸鱼

这项技术正在惠及每天在 Roblox 上游玩和交流的数千万创意玩家。 我们的展望未来是,开发者让用户得以通过 AI 成为创作者。 启用 Mesh Generation API 后,玩家可以将他们的想象变为现实。 例如,如果玩家想要一辆未来风格的汽车,只需输入“带侧翼的红色未来汽车”或“黑色皮革机车夹克”,系统就会自动生成相应的物品。 这种游戏内的 AI 生成技术将解锁全新的创意层次。 玩家可以以开发者从未想象过的方式个性化他们的游戏体验,从而让游戏变得更加引人入胜。

揭开面纱:3D 与文字/图像代币之间的交叉注意力

关键的技术挑战是将文本和图像与 3D 形状结合起来。 我们的核心技术突破是 3D 标记化,它使我们能够像文本可以被表示为标记一样,将 3D 对象表示为标记。 这使我们能够预测下一个形状,就像语言模型预测句子中的下一个词一样。

为了实现 3D 生成技术,我们设计了一个统一的架构,用于单一物体的自回归生成、形状完成和多对象/场景布局生成。 自回归变换器是利用先前输入来预测下一个组成部分的神经网络。 这种架构提供了可扩展性和多模态兼容性,因此随着模型的扩展,它将能够处理多种不同的输入(文本、视觉、音频和 3D)。 我们在打造此模型的开源版本。 在这一初始阶段,创作者将能够根据文本提示生成 3D 对象。 未来,我们希望创作者能够根据多模态输入生成完整的场景。

为了训练生成预训练变换器(GPT)进行形状生成,我们使用离散的 3D 形状标记,并将其与文本提示对齐。 这种新颖的方法,使我们能为 3D 场景生成的可游玩世界奠定了基础。

Cube 3D 的未来发展方向

目前,世界上大多数地区都是用 AI 来处理文字,以预测句子中的字词。 也有许多人将其用于图像,以预测像素。 不过在创建场景时情况就复杂多了。因为这些元素都会汇聚在一起,且需要在环境中相互作用。 例如,想象一下一项简单场景的体验:“一个在赛道钱摩托车上的虚拟形象,赛道上有棵树”。

打造这种体验需要多种元素。 包括树木(由两个 3D 网格组成)、摩托车(包含详细网格和三角面片)、建筑(由 Roblox 部件组成)等。 此外,骑在摩托车上的虚拟形象具有更复杂的几何特征,例如身体、四肢和头部。 最后,我们还需要用一种布局方式,将所有元素结合在一起。 为此,我们还需要布局框架(bounding box)来定义各对象的位置和大小,就能得知如何排列这种几何形状。 这一过程极其繁琐,而 AI 可以自动化其中的许多步骤。 随着人工智能的发展,创作者能够更快地获得第一个版本,并有更多时间测试新想法或优化场景。

当我们实现这一目标时,我们希望所创建的 3D 对象和场景能够完全功能化。 我们称之为“4D 创作”,其中第四维是对象、环境和人之间的互动。 实现这一点不仅需要能够构建沉浸式的 3D 对象和场景,还需要理解这些对象之间的背景和关系。 这就是我们通过 Cube 所追求的方向。

除了网格生成的初步应用外,我们计划扩展到场景生成和理解。 我们将能够为用户提供他们最感兴趣的体验,并通过在上下文中添加对象来增强场景。 例如,在一个森林场景中,开发者可以请求助手将所有树上的郁郁葱葱的绿叶替换为秋天的叶子,以表示季节的变化。 我们的 AI 助手工具会响应开发者的请求,帮助他们快速创建、调整和扩展他们的体验。

随着我们不断改进和扩展我们的基础模型,我们将分享更新和新功能。 在那之前,我们希望你可以热爱使用,并在我们 Cube 3D 模型的开源版本中进行构建;该版本将于本周稍晚时推出。