一张图，就能「接着舞」，SHERF可泛化可启动人体神经辐射场的新方法

输出的一张任务相机角度 3D 人体图片，Ta 就能动啦！

人体神经辐射场的宗旨是从 2D 人体图片中恢复高质量的 3D 数字人并加以启动，从而避免耗费大量人力物力去直接获取 3D 人体几何信息。这个方向的探索对于一系列应用场景，比如虚拟现实和辅助现实场景，有着非常大潜在性的影响。

现有人体神经辐射场生成和启动技术主要可以分为两类。

第一类技术行使单目或者多目人体视频去重修和启动 3D 数字人。这类技术主要是针对特定数字人的建模和启动，优化耗时大，缺乏泛化到大规模数字人重修上的能力。

第二类技术为了提升 3D 数字人重修的效率。提出行使多视角人体图片作为输出去重修人体神经辐射场。

尽管这第二类方法在 3D 人体重修上取得了一定的效果，这类方法往往需要特定相机角度下的多目人体图片作为输出。在现实生活中，我们往往只能获取到任务相机角度下人体的一张图片，给这类技术的应用提出了挑战。

在 ICCV2023 上，南洋理工大学 – 商汤科技联合研究中心 S-Lab 团队提出了鉴于单张图片的可泛化可启动人体神经辐射场方法 SHERF。

一张图，就能「接着舞」，SHERF可泛化可启动人体神经辐射场的新方法

论文地址：https://arxiv.org/abs/2303.12791

项目地址：https://skhu101.github.io/SHERF

代码开源：https://github.com/skhu101/SHERF

SHERF 可以鉴于用户输出的一张任务相机角度 3D 人体图片，该角度下相机和人体举动体型（SMPL）参数，以及给定宗旨输出空间下任务相机参数和人体举动体型（SMPL）参数，重修并启动该 3D 数字人。本方法旨在行使任务相机角度下人体的一张图片去重修和启动 3D 人体神经辐射场。

一张图，就能「接着舞」，SHERF可泛化可启动人体神经辐射场的新方法图 1

基本原理

人体神经辐射场重修和启动主要分为五个步骤（如图 2 所示）。

一张图，就能「接着舞」，SHERF可泛化可启动人体神经辐射场的新方法图 2

第一步为宗旨空间（target space）到规范空间（canonical space）的坐标变换，鉴于用户输出宗旨输出空间下任务人体举动体型参数和相机外参参数，在宗旨空间内射出光线，并在光线上采样一系列空间点，行使 SMPL 算法的逆线性蒙皮变换（Inverse Linear Blend Skinning）将宗旨空间里的空间点变换到规范空间中。

第二步为提炼规范空间中 3D 点对应的层级特色（hierarchical feature）。

全局特色（global feature）提炼：行使二维编码网络（2D Encoder）从输出图片提炼一维特色，并行使映射网络（Mapping Network）和风格编码网络（Style-Based Encoder）进一步将 1D 特色变换为规范空间下的三平面特色（Tri-plane），接下来将规范空间中 3D 点投影到三平面提炼响应的全局特色；

点级别特色（Point-Level Feature）提炼：首先行使二维编码网络（2D Encoder）从输出图片提炼二维特色，并将观察空间（observation space）下 SMPL 的顶点投影到输出图片成像平面上去提炼响应特色，紧接着行使 SMPL 算法的逆线性蒙皮变换（Inverse Linear Blend Skinning）将观察空间下 SMPL 的顶点转到规范空间下构建稀疏三维张量，然后行使稀疏卷积得到规范空间中 3D 点的点级别特色；

像素级别特色（Pixel-Aligned Feature）提炼：首先行使二维编码网络（2D Encoder）从输出图片提炼二维特色，并行使 SMPL 算法的线性蒙皮变换（Linear Blend Skinning）将规范空间中 3D 点转到观察空间下，再投影到输出图片成像平面上去提炼响应像素级别特色。

第三步为特色融合（Feature Fusion Transformer），行使 Transformer 模型将三种不同级别的特色进行融合。第四步为人体神经辐射场解码生成响应图片信息，将规范空间中 3D 点坐标，光线方向向量和对应特色输出到人体神经辐射场解码网络中得到 3D 点的体密度和颜色信息，并进一步鉴于体渲染（Volume Rendering）在宗旨空间下生成响应像素的颜色值，并得到最终用户输出宗旨输出空间下任务人体举动体型参数和相机外参参数下的图片。

鉴于以上步骤，给定宗旨输出空间下任务人体举动序列（SMPL）参数可以从 2D 图片恢复 3D 数字人并加以启动。

结果比较

本文在四个人体数据集上人体数据集上进行了实验，分别是 THuman，RenderPeople，ZJU_MoCap，HuMMan。

该研究对比了对比了最先进的可泛化多视角人体图片的人体神经辐射场方法，NHP 和 MPS-NeRF。本文在 peak signal-to-noise ratio （PSNR），structural similarity index （SSIM），以及 Learned Perceptual Image Patch Similarity （LPIPS）进行了比较。如下图所示，本文在所有数据集，所有指标上均大幅超越之前的方案。

一张图，就能「接着舞」，SHERF可泛化可启动人体神经辐射场的新方法