Roblox 的 4D 生成式 AI 之路

  • Roblox 正在构建 4D 生成式 AI,超越单一 3D 对象,实现动态交互。

  • 要解决 4D 挑战,就需要对外观、形状、物理和脚本进行多模态理解。

  • 我们 4D 系统基础的早期工具已经在加速平台上的创作。

Roblox 通过提供所需的工具服务支持,帮助创作者打造沉浸式的 3D 体验、虚拟形象和配件,使他们的创意得以实现。 正是这些创作者在我们的平台上打造了充满活力的内容,每天吸引了超过 7700 万活跃用户(截至 2024 年第一季度)。 通过我们的免费 Roblox Studio 应用程序,我们发布了一套针对 Roblox 工作流程专门设计并针对 Roblox 特定内容进行训练的生成式 AI 工具

这些工具使创作变得更加简单、高效且充满乐趣,无论是专家还是初学者都可以使用。 助手 支持 3D 工作区的编辑,动画捕捉实现面部和身体的动态捕捉,代码辅助帮助编辑和创建脚本,材质生成器可实现平铺材质外观,纹理生成器实现资产特定的纹理映射。 这些生成式 AI 工具分别增强了 3D 创作过程的不同环节。

这些工具协同作用,可以增强创作者的技能,并缩短从概念到完成的时间。 我们开发这些工具不仅依靠自身的创新研究突破,还结合了 AI 生态系统中的最佳解决方案。 这些工具支持对 1D(脚本)、2D(表面)和 3D(空间)的单个素材进行创作。 我们在各种国际研究会议上(包括我们自己的 Roblox 开发者大会)展示了我们的 3D 几何图形生成和编辑实验室的成果。

在整个行业中,1D 和 2D 生成技术已达到了当前最先进的技术水平,而 3D 正处于生成式 AI 的最前沿。 每个领域都充满挑战,且不断推动着令人振奋的技术进步。 由于我们生活在三维空间中,3D 似乎是生成式 AI 的终极挑战。 然而,基于社区的需求,我们对这一工作的愿景还远不止于此。

我们的现状

我们正在向 4D 生成式 AI 迈进,其中的第四维是交互。 Roblox 在线平台的核心优势在于交互——人与人、人与物,以及人与环境之间的互动。 与传统的在线电子游戏不同,Roblox 功能强大的运行引擎利用了一个独特的编程和模拟模型,专注于交互。 该模型的灵感来源于元宇宙的概念,其中各种元素以复杂、多对多且自发的方式,而非以预先设定的、受限的方式进行结合。

1D、2D 和 3D 生成 AI 工具负责创建单独的素材, 而我们在 4D 生成式 AI 方面面临的挑战是使这些素材在平台上实现无限制的交互。 例如,一个虚拟形象不仅仅具有形状和颜色,它还需要有骨骼结构、动画,以及抓握工具和保持平衡的能力。 该虚拟形象可以穿戴非专为其设计的衣服,并且服装会自动调整以完美贴合其身体并跟踪所有动作。 我们的新工具虚拟形象自动设置就是生成式 AI 在此类自动化创作中的早期应用案例。 开发者现在可以在几分钟内完成这一过程,而过去则需要数小时甚至数天。

一辆跑车不仅具有流线型的外观和喷漆表面,它还需要有引擎、可移动部件,以及支持其精确控制和行驶于虚拟街道上的物理装备。 在每种情况下,对象都从 3D 扩展到通过物理机制与其各个部分进行交互,并通过用户的虚拟形象与用户进行交互。

这些具有丰富交互功能的 4D 元素都可以添加到更大的环境中,其中生成式 AI 会协调每个元素的风格,并在对象之间以及与环境之间注入交互支持。 现在,用户可以通过虚拟形象参与街头竞速比赛,并获得伤害修正与高分计数,然后停止一家品牌时装店,在那里购买新服装来庆祝胜利。

目前,要创造此类体验,需要手动编写脚本源码、工作区和数据模型结构、3D 几何形状、动画以及材质。 我们现有的生成式 AI 工具可帮助完成这个流水线的每个部分的工作。 我们正在构建一个系统,将所有这些元素连接起来并同时生成它们。 为实现这一目标,我们必须以多模态方式训练我们的 4D 生成式 AI 系统,这意味着要将多种类型的数据一起处理。 这已经在图像和文本生成中得到了应用,例如用于材质生成器。 通过增加支持交互的功能和专门优化的物理模块,我们将达到 4D 能力的新高度。

仅在过去一年里,我们就看到 Roblox 上的内容创作方式发生了巨大的变化。 展望未来,我们看到这样一个场景,任何人在任何地方,仅需输入或说出一条指令,就能将想法变为现实。 为实现这一目标,我们需要着手解决在这一过程中将面临的一些挑战。

我们面临的挑战

上述我们分享的实验成果将在不久的将来面世。 然而,在更远的未来,我们将需要解决以下三个明确的挑战:

1. 功能性:未来生成式 AI 工具所创建的对象需要具备功能性。 这意味着系统需要能够识别一个卡车或飞机的 3D 形状,并不是将其视为一个密闭的、不透明的对象, 而是无需创作者介入,自动识别需要关节的部位,或是需要开口的地方。

这是一个需要解决的人类级别的 AI 问题——例如,系统需要找到车轮的正确位置,然后添加一个轴,以使车轮能像现实世界中那样运作。 同时,它需要能够识别门的位置,然后切开一个开口并添加铰链,使门能够打开和关闭。

2. 交互性:未来生成式 AI 创建的物体不仅需要能独立运作,还需要能够与环境中的其他对象交互。 例如,当系统为我们创建了一辆带有可开关车门和可转动车轮的汽车后,它还需要理解汽车所处世界的物理规则。 这辆汽车如何在不同地形上移动? 如果它撞上了一块巨石,根据巨石的大小和汽车的速度,汽车的哪个部位会变形,变形程度如何?

这一复杂挑战要求所创建的对象与其交互的环境或其他对象相互理解彼此的物理属性。 幸运的是,Roblox 在这一方面具有优势,因为平台本身是基于物理引擎构建的,这意味着体验中的所有对象都可以具有物理属性。 当生成式 AI 创建一个 4D 对象时,对象的物理特性(如材质、质量和强度)也将被加入,以使其能够与世界中其他基于物理的对象进行交互。

3. 可控性:目前,我们通过提示与生成式 AI 进行交互。 这种方式并不完美,有点类似于寻宝游戏。 例如,有人要求生成一张兔子的图片,可能会得到各种结果:一只真实兔子、一只巧克力复活节兔、一只卡通兔子、一幅兔子的绘画,或者一只穿着外套的兔子插画。 因此,我们会调整提示,例如要求生成“写实风格的图片”或“某种风格的图片”,以逐步接近我们脑海中的构想。 这一过程需要反复尝试,耗费大量时间。

想象一下,如果试图用这种方式创建一个 3D 对象,并让其具备功能且能与其他对象交互(如上述汽车的例子), 提示的复杂性将呈指数级增长,这不是任何人都能轻松实现的。 为了让创作者的想法变成现实,我们需要一种更快速、简便的沟通和改进方法,本质上是与一个 AI 助手合作,使其更像是我们的合作伙伴,而不是寻宝游戏。

这是整个行业面临的挑战,许多公司正在努力让生成式 AI 具有更高的可控性。 在这方面,我们已经通过一些工具取得了进展,例如 ControlNet,它允许创作者提供除了文本提示之外的其他输入条件,从而增加了控制能力。 我们目前也在探索其他有望实现令人满意的工作流程的方法,例如让 AI 在关键步骤之后暂停,以等待用户的输入。 然而,要实现无缝体验,我们还有很长的路要走。

到目前为止,我们对取得的影响感到兴奋,对未来更是充满期待。 与未使用材质生成器测试版的创作者相比,使用材质生成器的创作者对基于物理的渲染 (PBR) 材质变化的使用量增加了 100% 以上——从 2023 年 3 月的略高于一千次增加到 2024 年 6 月的超过两千次。 截至 2024 年 6 月 2 日,创作者已采纳了代码辅助建议的约 5.35 亿个字符的代码。

在我们逐步解决通往 4D 的道路上所面临的挑战之后,我们的创作者将能够更快地创造更多内容。 我们还预计,随着更多人能够成为创作者,Roblox 上的体验类型将更加多样化。 他们的创作及其创作方式将为我们指明方向,以便投资开发新的工具和 AI 算法,从而为这些新创作者及现有社区提供支持。

借助 4D 生成式 AI,Roblox 为体验和素材的创作开辟了一个新领域。 尽管面临新的挑战,但我们的创新流程已经得到充分磨练。 我们将内部顶尖的研发团队、与大学的合作研究以及与社区合作快速迭代的原型开发紧密结合。