ICLR 2024 | 单图三维重修数字虚拟人,浙大&字节提出Real3D-Portrait算法

近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中,看到了 AIGC 让单张照片开口措辞的能力?尽管已经能够拥有清晰的画质和准确的口型,但现有的单图启动虚拟人似乎还差了一点:呈现的结果中措辞人往往采用和原图中措辞人接近的头部姿势,无法像真人一样在画面中自由地疏通。这是因为目前采用的技巧无法对图片中措辞人在 3D 世界中从事建模,因此在大姿势启动的情况下会出现效果急剧下降的问题。单图 3D 措辞人视频分解 (One-shot 3D Talking Face Generation) 可以被视作解决这

近期虚拟人方面的应用如同雨后春笋一般涌现出来。你是否在很多 App 中,看到了 AIGC 让单张照片开口措辞的能力?尽管已经能够拥有清晰的画质和准确的口型,但现有的单图启动虚拟人似乎还差了一点:呈现的结果中措辞人往往采用和原图中措辞人接近的头部姿势,无法像真人一样在画面中自由地疏通。这是因为目前采用的技巧无法对图片中措辞人在 3D 世界中从事建模,因此在大姿势启动的情况下会出现效果急剧下降的问题。

单图 3D 措辞人视频分解 (One-shot 3D Talking Face Generation) 可以被视作解决这一难题的下一代虚拟人技巧。它旨在从单张图片中重修出目标人的三维化身 (3D Avatar),随后根据一段输出的语音或动作表征来控制三维化身,进而分解支持大姿势启动的真实措辞人视频。然而,要实现这个目标,学界面临两个主要挑战:(1)无法实现准确的三维化身重修以及稳定的动态人脸控制;(2)现有工作主要关注人脸部门的分解,但忽视了如何生成自然的躯干和背景部门。

为实现高质量、逼真的单图 3D 措辞人视频分解,浙江大学与字节跳动提出了 Real3D-Portrait 算法,被人工智能顶级会议 ICLR 2024 录用为 Spotlight。目前已开放源代码和预训练权重。

ICLR 2024 | 单图三维重修数字虚拟人,浙大&字节提出Real3D-Portrait算法

论文标题:Real3D-Portrait: One-shot Realistic 3D Talking Portrait Synthesis

论文链接:https://arxiv.org/pdf/2401.08503.pdf

项目主页:https://real3dportrait.github.io/

代码链接:https://github.com/yerfor/Real3DPortrait

话不多说直接看效果,仅需输出单张照片也可以得到如真人一般自由疏通的虚拟人视频。ICLR 2024 | 单图三维重修数字虚拟人,浙大&字节提出Real3D-Portrait算法

模型内在技巧原理

深悉 Real3D-Portrait 模型的内在原理,还要回到开头提到的两个问题:(1)如何准确地为输出图片中的人物从事三维化身重修和稳定地动态人脸控制;(2)如何合理地建模自然的躯干疏通和背景画面。

对于第一个问题,团队从网络结构和训练过程两个角度从事了创新。在网络结构层面,设计了一个 Image-to-Plane 模型和一个 Motion Adapter 模型。具体来说,Image-to-Plane 模型的任务是在网络推理的过程中完成目标人物的三维重修,将输出图象转换为 Tri-plane(一种通用的 3D 表征);而 Motion Adapter 的任务是预测完成目标表情所需要对三维化身所做的最小几何修改,以达到控制 3D avatar 表情的目的。由于这两个模块承担了大量跨坐标系变换的工作(比如将图片中的人物映射到本征的三维空间),研究者大量使用了视觉 Transformer 结构。在训练过程层面,为了保证三维化身重修的精确度和鲁棒性,研究团队设计了预训练和微调两阶段过程。

「我们发现 3D 人脸生成模型可以生成海量的高质量、多视角静态人脸数据,于是首先让模型从其中蒸馏学习三维化身重修的几何知识,随后再在视频数据集上微调学习控制其面部表情」,研究团队表示。

ICLR 2024 | 单图三维重修数字虚拟人,浙大&字节提出Real3D-Portrait算法

图 1. 利用 3D 人脸生成模型对 Image-to-Plane 模型从事预训练以学习三维重修知识

ICLR 2024 | 单图三维重修数字虚拟人,浙大&字节提出Real3D-Portrait算法

图 2. 在视频数据集上对模型从事微调以学习控制三维化身的表情

在完成动态 3D 人脸建模后,团队提出了 Head-Torso-Background Super-Resolution (HTB-SR)Model, 以完成对躯干部门和背景画面的合理建模,并最终生成 512×512 分辨率的高清图象。HTB-SR 模型的设计采取了分而治之的思想,即针对不同部门的疏通特性,采用不同的技巧从事建模,并最终通过 alpha-blending 技巧将各个部门融分解为完整的图象。具体来说,措辞人的头部往往存在偏转、横滚等需要三维空间感知的疏通,因此使用前文所述的 Image-to-Plane 模型对其从事建模。与头部的复杂疏通相比,躯干部位的疏通基本可以用简单的二维画面内的平移、拉伸实现,因此使用目前单图启动虚拟人领域常用的图象扭曲场(Warping Field)对躯干部门从事建模。

此外,为了保证输出的措辞人图象能够和背景无缝地贴合,团队额外设计了一个基于简单卷积网络的 Background Branch 对输出图象的背景部门从事建模。为了支持语音启动的虚拟人分解任务,团队还基于 GeneFace 的语音启动模块设计了适用于任意措辞人的通用语音转动作(Audio-to-Motion)生成模型。最终,Real3D-Portrait 模型的推理框架图如下图所示,仅需单张图片,即可实现逼真的措辞人视频分解,同时支持语音和视频作为启动条件。

ICLR 2024 | 单图三维重修数字虚拟人,浙大&字节提出Real3D-Portrait算法

图 3. Real3D-Portrait 模型的整体推理过程

模型的应用前景

总体来看,Real3D-Portrait 模型首次实现了利用先进的单图三维重修技巧支持大幅度姿势疏通的单图启动虚拟人视频分解。可以预见的是,随着技巧的不断迭代、普及,在智能助手、虚拟现实、视频会议等多个应用场景中都将会出现虚拟人的身影。而借助 Real3D-Portrait,单图启动的虚拟人算法有望使措辞人在 2D/3D 的画面中更真实地「动起来」。

从技巧的角度看,随着以 Vision Pro 为代表的空间计算平台的兴起,能够分解三维化身的虚拟人算法或将成为大势所趋,而 Real3D-Portrait 模型则为后续基于三维化身的单图启动虚拟人算法研究提供了参考。但现阶段 Real3D-Portrait 也并不是完美无缺的,可能是由于数据量较小和样本质量问题,对于在输出图象中被遮挡的区域(如牙齿、侧脸等),模型有时难以产生清晰准确的结果。

总而言之,过去几年,随着单图启动虚拟人技巧的不断进步,口型精度、图象质量已然不断提高;而 Real3D-Portrait 模型的提出,进一步解锁了单图启动虚拟人的疏通自由度,其重修三维化身的特性也赋予了其应用在空间视觉产品的可能性。让我们一同期待虚拟人技巧的加速发展,用户也将获得更加极致的视觉体验和生活便利。

给TA打赏
共{{data.count}}人
人已打赏
应用

googleGemini Ultra 大会员:每个月19.99美圆

2024-2-15 15:49:00

应用

7万亿美元:OpenAI超大芯片规划曝光,要重塑寰球半导体行业

2024-2-15 16:03:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索