CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。在日常活动中，人的静止经常引起衣服的从属静止 (secondary motion of clothes) 并因此产生不同的衣服褶皱，而这需要对人体及衣服的几何、静止（人体姿势及速率动力学

在日常活动中，人的静止经常引起衣服的从属静止 (secondary motion of clothes) 并因此产生不同的衣服褶皱，而这需要对人体及衣服的几何、静止（人体姿势及速率动力学等）及理论同时进行静态建模。由于此过程涉及复杂的人与衣服的非刚体物理交互，导致传统三维表征往往难以应对。

近年从视频序列中学习静态数字人衬着已取得了极大的进展，现有方法往往把衬着视为从人体姿势到图象的神经映射，采用「静止编码器—静止特色—理论解码器」的范式。而该范式基于图象损失做监督，过于关注每一帧图象重修而缺少对静止连续性的建模，因此对复杂静止如「人体静止及衣服从属静止」难以有效建模。

为解决这一问题，来自新加坡南洋理工大学 S-Lab 团队提出静止—理论联合学习的静态人体重修新范式，并提出了基于人体理论的三平面静止表征 (surface-based triplane)，把静止物理建模和理论建模统一在一个框架中，为提升静态人体衬着质量开辟了新的思路。该新范式可有效对衣服从属静止建模，并可用于从快速静止的视频（如跳舞）中学习静态人体重修，以及衬着静止有关的暗影。在衬着效率上比三维体素衬着方法快 9 倍，LPIPS 图象质量提高约 19 个百分点。

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

论文标题：SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering

论文地址：https://arxiv.org/pdf/2404.01225.pdf

项目主页：https://taohuumd.github.io/projects/SurMo

Github 链接：https://github.com/TaoHuUMD/SurMo

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

方法概览

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

针对已有范式「静止编码器—静止特色—理论解码器」只关注于理论重修而忽略静止连续性建模的缺点，提出了新范式 SurMo ：「①静止编码器—静止特色——②静止解码器、③理论解码器」。如上图所示，该范式分为三个阶段：

区别于已有方法在稀疏三维空间对静止建模，SurMo 提出基于人体理论流形场（或紧凑的二维纹理 UV 空间）的四维（XYZ-T）静止建模，并通过定义在人体理论的三平面（surface-based triplane）来表征静止。

提出静止物理解码器去根据当前静止特色（如三维姿势、速率、静止轨迹等）预测下一帧静止状态，如静止的空间偏导—理论法向量和时间偏导—速率，以此对静止特色做连续性建模。

四维理论解码，对静止特色在时序上解码以此衬着三维自由视点视频，主要通过混合体素—纹理神经衬着方式实现 (Hybrid Volumetric-Textural Rendering, HVTR [Hu et al. 2022]).

SurMo 可基于重修损失和对抗损失端到端训练，从视频中学习静态人体衬着。

实验结果

该研究在 3 个数据集，共 9 个静态人体视频序列上进行了实验评估: ZJU-MoCap [Peng et al. 2021], AIST++ [Li, Yang et al. 2021] MPII-RRDC [Habermann et al. 2021] .

新视点时序衬着

该研究在 ZJU-MoCap 数据集上探究在新视点下对一段时序的静态衬着效果 (time-varying appearances)，特别研究了 2 段序列，如下图所示。每段序列包含相似的姿势但出现在不同的静止轨迹中，如①②，③④，⑤⑥。SurMo 可对静止轨迹建模，因此生成随时间变化的静态效果，而有关的方法生成的结果只取决于姿势，在不同轨迹下衣服的褶皱几乎一样。

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

衬着静止有关的暗影及衣服从属静止

SurMo 在 MPII-RRDC 数据集上探究了静止有关的暗影及衣服从属静止，如下图所示。该序列在室内摄影棚拍摄，在灯光条件下，由于自遮挡问题，表演者身上会出现与静止有关的暗影。

SurMo 在新视点衬着下，可恢复这些暗影，如①②，③④，⑦⑧。而对比方法 HumanNeRF [Weng et al.] 则无法恢复与静止有关的暗影。此外，SurMo 可重修随静止轨迹变化的衣服从属静止，如跳跃静止中不同的褶皱 ⑤⑥，而 HumanNeRF 无法重修该静态效果。

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

衬着快速静止的人体

SurMo 也从快速静止的视频中衬着人体，并恢复与静止有关的衣服褶皱细节，而对比方法则无法衬着出这些静态细节。

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

消融实验

（1）人体理论静止建模

该研究对比了两种不同的静止建模方式：目前常用的在体素空间 (Volumetric space) 的静止建模，以及 SurMo 提出的在人体理论流形场的静止建模 (Surface manifold) ，具体比较了 Volumetric triplane 与 Surface-based triplane，如下图所示。

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式

可以发现，Volumetric triplane 是一种稀疏表达，仅有大约 21-35% 的特色用于衬着，而 Surface-based triplane 特色利用率可达 85%，因此在处理自遮挡方面更有优势，如（d）所示。同时 Surface-based triplane 可通过体素衬着中过滤部分远离理论的点实现更快的衬着，如图（c）所示。

CVPR 2024 | 跳舞时飞扬的裙摆，AI也能高度还原了，南洋理工提出静态人体衬着新范式