人体神经辐射场的宗旨是从 2D 人体图片中恢复高质量的 3D 数字人并加以启动,从而避免耗费大量人力物力去直接获取 3D 人体几何信息。这个方向的探索对于一系列应用场景,比如虚拟现实和辅助现实场景,有着非常大潜在性的影响。
现有人体神经辐射场生成和启动技术主要可以分为两类。
第一类技术行使单目或者多目人体视频去重修和启动 3D 数字人。这类技术主要是针对特定数字人的建模和启动,优化耗时大,缺乏泛化到大规模数字人重修上的能力。
第二类技术为了提升 3D 数字人重修的效率。提出行使多视角人体图片作为输出去重修人体神经辐射场。
尽管这第二类方法在 3D 人体重修上取得了一定的效果,这类方法往往需要特定相机角度下的多目人体图片作为输出。在现实生活中,我们往往只能获取到任务相机角度下人体的一张图片,给这类技术的应用提出了挑战。
在 ICCV2023 上,南洋理工大学 – 商汤科技联合研究中心 S-Lab 团队提出了鉴于单张图片的可泛化可启动人体神经辐射场方法 SHERF。
论文地址:https://arxiv.org/abs/2303.12791
项目地址:https://skhu101.github.io/SHERF
代码开源:https://github.com/skhu101/SHERF
SHERF 可以鉴于用户输出的一张任务相机角度 3D 人体图片,该角度下相机和人体举动体型(SMPL)参数,以及给定宗旨输出空间下任务相机参数和人体举动体型(SMPL)参数,重修并启动该 3D 数字人。本方法旨在行使任务相机角度下人体的一张图片去重修和启动 3D 人体神经辐射场。
图 1
基本原理
人体神经辐射场重修和启动主要分为五个步骤(如图 2 所示)。
图 2
第一步为宗旨空间(target space)到规范空间(canonical space)的坐标变换,鉴于用户输出宗旨输出空间下任务人体举动体型参数和相机外参参数,在宗旨空间内射出光线,并在光线上采样一系列空间点,行使 SMPL 算法的逆线性蒙皮变换(Inverse Linear Blend Skinning)将宗旨空间里的空间点变换到规范空间中。
第二步为提炼规范空间中 3D 点对应的层级特色(hierarchical feature)。
全局特色(global feature)提炼:行使二维编码网络(2D Encoder)从输出图片提炼一维特色,并行使映射网络(Mapping Network)和风格编码网络(Style-Based Encoder)进一步将 1D 特色变换为规范空间下的三平面特色(Tri-plane),接下来将规范空间中 3D 点投影到三平面提炼响应的全局特色;
点级别特色(Point-Level Feature)提炼:首先行使二维编码网络(2D Encoder)从输出图片提炼二维特色,并将观察空间(observation space)下 SMPL 的顶点投影到输出图片成像平面上去提炼响应特色,紧接着行使 SMPL 算法的逆线性蒙皮变换(Inverse Linear Blend Skinning)将观察空间下 SMPL 的顶点转到规范空间下构建稀疏三维张量,然后行使稀疏卷积得到规范空间中 3D 点的点级别特色;
像素级别特色(Pixel-Aligned Feature)提炼:首先行使二维编码网络(2D Encoder)从输出图片提炼二维特色,并行使 SMPL 算法的线性蒙皮变换(Linear Blend Skinning)将规范空间中 3D 点转到观察空间下,再投影到输出图片成像平面上去提炼响应像素级别特色。
第三步为特色融合(Feature Fusion Transformer),行使 Transformer 模型将三种不同级别的特色进行融合。第四步为人体神经辐射场解码生成响应图片信息,将规范空间中 3D 点坐标,光线方向向量和对应特色输出到人体神经辐射场解码网络中得到 3D 点的体密度和颜色信息,并进一步鉴于体渲染(Volume Rendering)在宗旨空间下生成响应像素的颜色值,并得到最终用户输出宗旨输出空间下任务人体举动体型参数和相机外参参数下的图片。
鉴于以上步骤,给定宗旨输出空间下任务人体举动序列(SMPL)参数可以从 2D 图片恢复 3D 数字人并加以启动。
结果比较
本文在四个人体数据集上人体数据集上进行了实验,分别是 THuman,RenderPeople,ZJU_MoCap,HuMMan。
该研究对比了对比了最先进的可泛化多视角人体图片的人体神经辐射场方法,NHP 和 MPS-NeRF。本文在 peak signal-to-noise ratio (PSNR),structural similarity index (SSIM),以及 Learned Perceptual Image Patch Similarity (LPIPS)进行了比较。如下图所示,本文在所有数据集,所有指标上均大幅超越之前的方案。
SHERF 动态启动 3D 人体结果如下图所示:
从左到右分别为 input Image、motion seq 1 、motion seq 2
本文同样验证了在 in-the-wild DeepFashion 数据上的泛化和启动效果,如下图 3 所示,给定任务一张输出图片,本文行使单视角估 SMPL 的先进算法估出 SMPL 和响应相机角度,后行使本文提出的算法对 3D 人体进行启动。实验结果显示 SHERF 具有较强的泛化性。
从左到右分别为 input Image、motion seq 1 、motion seq 2
应用前景
在游戏电影制作,虚拟现实增强现实或者其他需要数字人建模的场景,用户可以无需专业技能,专业软件,即可通过输出的一张任务相机角度 3D 人体图片,该角度下相机的参数和响应的人体举动体形参数(SMPL),就可以达到重修并启动该 3D 数字人的目的。
结语
本文提出一种鉴于单张输出图片可泛化可启动的人体神经辐射场方法 SHERF。可以承认的是,本文依然存在一定的缺陷。
首先,对于输出图片观察不到一部分人体表面, 渲染出来的结果可以观察到一定的瑕疵,一个解决的办法是建立一种遮挡可知(occlusion-aware)的人体表征。
其次,关于如何补齐输出图片观察不到人体部分依旧是一个很难得问题。本文从重修角度提出 SHERF,只能对观察不到的人体部分给出一个确定性的补齐,对观察不到部分的重修缺乏多样性。一个可行的方案是行使生成模型在观察不到的人体部分生成多样性高质量的 3D 人体效果。
最后,我们的代码已经全部开源,大量鉴于单张图片生成的数字人结果也已经上传项目主页,欢迎大家下载玩耍!