AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
在日常活动中,人的静止经常引起衣服的从属静止 (secondary motion of clothes) 并因此产生不同的衣服褶皱,而这需要对人体及衣服的几何、静止(人体姿势及速率动力学等)及理论同时进行静态建模。由于此过程涉及复杂的人与衣服的非刚体物理交互,导致传统三维表征往往难以应对。
近年从视频序列中学习静态数字人衬着已取得了极大的进展,现有方法往往把衬着视为从人体姿势到图象的神经映射,采用 「静止编码器—静止特色—理论解码器」的范式。而该范式基于图象损失做监督,过于关注每一帧图象重修而缺少对静止连续性的建模,因此对复杂静止如 「人体静止及衣服从属静止」难以有效建模。
为解决这一问题,来自新加坡南洋理工大学 S-Lab 团队提出静止—理论联合学习的静态人体重修新范式,并提出了基于人体理论的三平面静止表征 (surface-based triplane),把静止物理建模和理论建模统一在一个框架中,为提升静态人体衬着质量开辟了新的思路。该新范式可有效对衣服从属静止建模,并可用于从快速静止的视频(如跳舞)中学习静态人体重修,以及衬着静止有关的暗影。在衬着效率上比三维体素衬着方法快 9 倍,LPIPS 图象质量提高约 19 个百分点。
论文标题:SurMo: Surface-based 4D Motion Modeling for Dynamic Human Rendering
论文地址:https://arxiv.org/pdf/2404.01225.pdf
项目主页:https://taohuumd.github.io/projects/SurMo
Github 链接:https://github.com/TaoHuUMD/SurMo
方法概览
针对已有范式「静止编码器—静止特色—理论解码器」只关注于理论重修而忽略静止连续性建模的缺点,提出了新范式 SurMo :「①静止编码器—静止特色——②静止解码器、③理论解码器」。如上图所示,该范式分为三个阶段:
区别于已有方法在稀疏三维空间对静止建模,SurMo 提出基于人体理论流形场(或紧凑的二维纹理 UV 空间)的四维(XYZ-T)静止建模,并通过定义在人体理论的三平面(surface-based triplane)来表征静止。
提出静止物理解码器去根据当前静止特色(如三维姿势、速率、静止轨迹等)预测下一帧静止状态,如静止的空间偏导—理论法向量和时间偏导—速率,以此对静止特色做连续性建模。
四维理论解码,对静止特色在时序上解码以此衬着三维自由视点视频,主要通过混合体素—纹理神经衬着方式实现 (Hybrid Volumetric-Textural Rendering, HVTR [Hu et al. 2022]).
SurMo 可基于重修损失和对抗损失端到端训练,从视频中学习静态人体衬着。
实验结果
该研究在 3 个数据集,共 9 个静态人体视频序列上进行了实验评估: ZJU-MoCap [Peng et al. 2021], AIST++ [Li, Yang et al. 2021] MPII-RRDC [Habermann et al. 2021] .
新视点时序衬着
该研究在 ZJU-MoCap 数据集上探究在新视点下对一段时序的静态衬着效果 (time-varying appearances),特别研究了 2 段序列,如下图所示。每段序列包含相似的姿势但出现在不同的静止轨迹中,如①②,③④,⑤⑥。SurMo 可对静止轨迹建模,因此生成随时间变化的静态效果,而有关的方法生成的结果只取决于姿势,在不同轨迹下衣服的褶皱几乎一样。
衬着静止有关的暗影及衣服从属静止
SurMo 在 MPII-RRDC 数据集上探究了静止有关的暗影及衣服从属静止,如下图所示。该序列在室内摄影棚拍摄,在灯光条件下,由于自遮挡问题,表演者身上会出现与静止有关的暗影。
SurMo 在新视点衬着下,可恢复这些暗影,如①②,③④,⑦⑧。而对比方法 HumanNeRF [Weng et al.] 则无法恢复与静止有关的暗影。此外,SurMo 可重修随静止轨迹变化的衣服从属静止,如跳跃静止中不同的褶皱 ⑤⑥,而 HumanNeRF 无法重修该静态效果。
衬着快速静止的人体
SurMo 也从快速静止的视频中衬着人体,并恢复与静止有关的衣服褶皱细节,而对比方法则无法衬着出这些静态细节。
消融实验
(1)人体理论静止建模
该研究对比了两种不同的静止建模方式:目前常用的在体素空间 (Volumetric space) 的静止建模,以及 SurMo 提出的在人体理论流形场的静止建模 (Surface manifold) ,具体比较了 Volumetric triplane 与 Surface-based triplane,如下图所示。
可以发现,Volumetric triplane 是一种稀疏表达,仅有大约 21-35% 的特色用于衬着,而 Surface-based triplane 特色利用率可达 85%,因此在处理自遮挡方面更有优势,如(d)所示。同时 Surface-based triplane 可通过体素衬着中过滤部分远离理论的点实现更快的衬着,如图(c)所示。
同时,该研究论证 Surface-based triplane 可比 Volumetric triplane 在训练过程收敛更快,在衣服褶皱细节、自遮挡上均有明显优势,如上图所示。
(2)动力学学习
SurMo 通过消融实验研究了静止建模的效果,如下图所示。结果显示,SurMo 可解耦静止的静态特性(如某一帧下固定姿势)及静态特性(如速率)。例如当改变速率的时候,贴身衣服褶皱不变,如①,而宽松衣服褶皱则受速率影响较大,如②,这与日常人们的观测相一致。