3D数字人生成来了!南洋理工提出StructLDM:高质量可控3D生成并支持编辑

三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。 传统三维数字人制作往往费时耗力,近年来研究者提出基于三维生成对抗网络(3D GAN)从 2D 图像中学习三维数字人,极大提高了数字人制作效率。 这些方法往往在一维隐向量空间建模数字人,而一维隐向量无法表征人体的几何结构和语义信息,因此限制了其生成质量和编辑能力。

三维数字人生成和编辑在数字孪生、元宇宙、游戏、全息通讯等领域有广泛应用。传统三维数字人制作往往费时耗力,近年来研究者提出基于三维生成对抗网络(3D GAN)从 2D 图像中学习三维数字人,极大提高了数字人制作效率。这些方法往往在一维隐向量空间建模数字人,而一维隐向量无法表征人体的几何结构和语义信息,因此限制了其生成质量和编辑能力。

针对此问题,南洋理工大学提出了结构化隐空间扩散模型(Structured Latent Diffusion Model)的三维数字人生成新范式 StructLDM, 这是一种从 2D 图像集合中生成 3D 人体的新范式(与现有的 3D GAN 相比),具有 3 个关键设计:

  • 结构化 2D 潜在空间;
  • 结构化自动解码器;
  • 结构化潜在扩散模型。

图片StructLDM 生成多样化的视图一致的人类,并支持不同级别的可控生成和编辑,例如通过混合从 a) 中选择的五个部分进行合成生成,以及部分感知编辑,例如身份交换、局部服装编辑、3D 虚拟试穿等。请注意,生成和编辑与服装无关,无需服装类型或面具。

相关链接

论文地址:https://arxiv.org/pdf/2404.01241

项目主页:https://taohuumd.github.io/projects/StructLDM

实验室主页:https://www.ntu.edu.sg/s-lab

论文阅读

图片StructLDM:用于 3D 人体生成的结构化潜在扩散

摘要

近期,3D 人体生成模型通过从 2D 图像中学习 3D 感知 GAN 取得了显著进展。然而,现有的 3D 人体生成方法在紧凑的一维潜在空间中对人体进行建模,忽略了人体拓扑的清晰结构和语义。在本文中,我们探索了用于 3D 人体建模的更具表现力和更高维度的潜在空间,并提出了 StructLDM,这是一种基于扩散的无条件 3D 人体生成模型,该模型是从 2D 图像中学习的。StructLDM 通过三个关键设计解决了由于潜在空间高维增长而带来的挑战:

  1. 在统计人体模板的稠密表面流形上定义的语义结构化潜在空间。
  2. 一种结构化的 3D 感知自动解码器,将全局潜在空间分解为几个语义身体部位,由一组锚定到身体模板的条件结构化局部 NeRF 参数化,它嵌入从 2D 训练数据中学习到的属性,可以解码以呈现不同姿势和服装风格下的视图一致的人类。
  3. 一种用于生成人体外观采样的结构化潜在扩散模型。

大量实验验证了 StructLDM 最先进的生成性能,并说明了结构化潜在空间相对于广为采用的 1D 潜在空间的表现力。值得注意的是,StructLDM 支持不同级别的可控 3D 人体生成和编辑,包括姿势/视图/形状控制,以及高级任务,包括构图生成、部分感知服装编辑、3D 虚拟试穿等。

方法

图片两阶段框架。 在第 1 阶段,给定一个包含各种人体主体图像的训练数据集,其中包含估计的 SMPL 和相机参数分布,学习自动解码器以优化每个训练主体的结构化潜在 z ∈ Z。结构化体积渲染器 G1 和全局风格混合器 (GM) G2 可以将每个潜在渲染成与姿势和视图相关的图像。

在第 2 阶段,冻结自动解码器参数,然后使用学习到的结构化潜在 Z 来训练潜在扩散模型。在推理时,潜在被随机采样并由 G2 ◦ G1 解码以进行人体渲染。

图片StructLDM 支持合成 3D 人体生成和部位感知编辑。从 a) 中选取六个身体部位,可以在 b) 中实现连贯的合成和混合结果。使用 Diff-Render 程序,部位感知编辑可以在 c) 中实现大量下游任务。

效果

在UBCFashion上的不同生成结果

图片

渲染人的不同生成结果

图片

创作生成

图片

UBCFashion上的新颖视角合成

图片

更多结果

图片图片图片图片

结论

我们提出了一种从 2D 图像集合生成 3D 人体的新范例。 关键是结构化的 2D 潜在空间,它可以实现更好的人体建模和 编辑。结构化自动解码器和潜在扩散模型用于 嵌入和采样结构化潜在空间。在三个人体数据集上的实验展示了最先进的性能,定性生成和编辑结果进一步证明了结构化潜在空间的优势。

局限性。

  1. 我们从头开始训练模型,就像 EVA3D/AG3D/PrimDiff 一样。缺乏具有准确配准的多样化自然人体数据集是该领域的一个常见问题。由于规模有限和数据集偏差,多样性无法与 2D 扩散模型相比。然而,在多样性方面的表现优于基线 EVA3D 和 AG3D。
  2. 受自动解码器训练的限制,从单视图 2D 图像集合中学习具有挑战性。然而,结构化潜在表示使得从 DeepFashion 上的单幅图像中自动解码3D人体成为可能,生成具有合理几何重建的逼真人体图像。

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

CVPR 2024 | 面部+肢体动画,一个框架搞定从音频生成数字人表情与动作

AI 数字人面部与肢体的驱动算法作为数字人研发的重要环节,可以大幅度降低 VR Chat、虚拟直播和游戏 NPC 等领域中的驱动成本。近年来,基于语音生成面部、肢体和手部的动作的各类独立基线模型已经逐渐成熟。然而,直接将不同模型的动画结果混合会导致最终全身整体的动画不协调。研究者逐渐考虑使用统一的框架来同时生成面部表情和肢体动作。然而,尽管研究社区在面部的表情和肢体的动作上分别存在统一的数据标准,已有的基线模型仅在独立的数据格式上进行训练和评估,比如 FLAME (面部) 和 AMASS (肢体)。社区仍然缺少面向

D-ID !数字人视频制作神器,只需5分钟让照片开口说话

大家好,这是和你们聊设计的花生~ 大家最近在 B 站、抖音等各大视频平台上有没有看到一种新的视频类型——数字人视频,即视频中为出镜大家介绍内容的并不是真人,而是由 AI 生成的虚拟人物,人物说的话也是由 AI 配音的。这种视频用 AI 代替了真人出镜,省去了读稿、录制等多个步骤,能有效提升我们制作视频的效率。 今天为大家推荐的 D-ID 就是一款能帮助我们迅速制作出数字人视频的神器,只需在里面上传你的人物照片,输入视频介绍文本,就能在几分钟内让图像开口说话,并且人物口型与音频能精准排匹配,真实感极强。 D-ID 官