论文链接:https://arxiv.org/abs/2006.12075
项目主页:https://rubbly.cn/publications/motioNet
01 背景介绍
人体活动是现实世界中最常见的视觉内容之一,随着图像视频获取设备的大规模普及,对理解人类行为这一机器视觉任务的智能化解决变得日益重要。然而真正场景下的人体活动重建一直是一个具有挑战性的问题,人体高自由度的枢纽所构成的姿势难以用简单的模板进行匹配,真正场景下的复杂光照、背景也增大了这个问题的难度。
随着深度学习的发展,大量的研究工作致力于从视频序列中,通过有监督的要领展望人体三维枢纽坐标来表示人体活动[2]。在获得二维关键点或者图形深层特征后,通过在展望的坐标地位和真正坐标地位之间计算损失函数,将这个问题转变为回归问题。
然而,在展望过程中人体结构并未完全考虑。搜集分歧的枢纽点的展望结果来源于独立的维度,每一个枢纽点的展望都会在全部空间中进行搜索,没有相互之间的约束;在同一个视频的展望中,前后帧展望的骨架也会形成不一致,这不仅导致了不平滑的结果,近大远小的投影规则也导致了在深度展望上的二义性。
图1. 同一段展望在分歧时刻的骨架相对大小 [Pavllo et al., CVPR 2019]
同时,如果想在角色动画中使用这样的数据时,首先需要利用反向活动学(Inverse Kinematics)将枢纽坐标点转换为对应的转动。然而,枢纽地位只能描述在特定坐标维度上的信息,无法描述自身的转动,因此这样不完整的活动信息很难直接活动于角色动画的驱动。
图2. 枢纽坐标地位表示要领中的二义性:同样的枢纽坐标可以代表分歧的转动
为了解决这些问题,本文设计了一种使用骨骼地位+动态枢纽转动的办法表示人体举措的双通路搜集结构,提供了以转动为主要表达办法的人体活动重建解决方案,同时利用脚步打仗信号等办法,提高了结果的可视效果。
02 要领简介
要领的核心为正向活动学,给定父枢纽初始地位,通过应用分歧的变换办法获得子枢纽地位。人体的任何一个举措,都有正向活动学的参与。该过程的基本数据结构为转动,通过分歧枢纽之间的转动组合,可以实现分歧的人体姿势。本文通过神经搜集的办法,实现了正向活动学的过程。
图3. 将转动运用到T-pose上的正向活动学过程
搜集由双分支的编码器组成,其中,第一个分支负责展望枢纽转动、地面打仗信号、全部坐标等信息,而另一个分支负责展望以骨骼长度为基本元素组合而成的初始姿势(T-pose),然后枢纽转动与 T-pose 输出到正向活动学(FK)层,获得组合而成的三维举措序列。
图4. 搜集结构示意图
对于 T 帧的输出,第一个分支会形成 T 帧的输出,而第二个分支会通过池化的办法进行信息的压缩,只形成 1 帧输出,作为时序统一的骨架信息。在我们的解决方案中,将展望出的骨骼长度应用到固定的骨骼拓扑结构上,形成 T-pose。然后第一个分支所形成的每一帧的转动,通过 FK 应用到时序统一的 T-pose 上,便获得了这个骨架在分歧帧下的人体姿势。展望的序列通过与真正三维举措进行坐标上的误差比对,进行搜集的收敛。
搜集的输出是由其他要领形成的二维活动序列,在训练过程中,本文使用数据集中的真正三维活动数据,然后通过投影的办法获得所对应的二维数据。但为了适应在真正视频中因为快速活动、遮挡等因素所形成的噪音,本文在训练数据中模拟噪音的分布,将代表枢纽展望置信度作为搜集输出的另一个维度。
为了提高生成效果的质量,除了最后枢纽坐标的损失函数,本文还使用了以下要领提高结果的质量:
脚步打仗信号
正向活动学中骨骼链的存在,使得父枢纽所形成的展望误差会不断在末端枢纽中累积,导致了脚步滑动、末端枢纽抖动的问题。因此在训练过程中,我们同时展望脚步与地面的打仗信号,当脚枢纽打仗地面时,其枢纽活动应该相对稳定,因此展望获得的枢纽角速度应该接近0。
生成结果的对抗训练
本文使用转举措为活动的表达形式,因此可以很灵活的在转动上应用各种操纵器,满足角色动画的要求。例如本文所使用了对抗学习的要领,使得展望出的枢纽转动的相对变化,尽可能接近真正的转动。在做抬手的举措时,判别器会倾向于手部不应该出现奇怪的自转动,从而让搜集输出这样认为是“真正”的结果。
03 结果展示
在分歧视频上展示的结果可以看出,本文所提出的要领具有能够从复杂背景、活动中提取出合理的三维活动的能力。
图5. 分歧视频下的搜集输出
与其他要领进行了定性比较可以发现,其他算法在枢纽地位的正确性、转动的合理性上都存在较大的问题。尤其是在快速活动或存在遮挡的情况下,这些要领往往会出现错误的展望。
图6. 对比结果, Kanazawa [2018], Pavllo [2019], Mehta [2017]
同时,由于展望的骨架在视频前后的一致性,本文形成的结果不会在深度上形成二义性,因此相比起其他要领,本文能获得更精准的全部坐标。
图7. 全部地位展望对比结果
参考文献
[1] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2018. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. arXiv preprint arXiv:1812.08008 (2018).
[2] Pavllo, D., Feichtenhofer, C., Grangier, D., & Auli, M. (2019). 3d human pose estimation in video with temporal convolutions and semi-supervised training. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7753-7762).
图文 | 史明镒
Visual Computing and Learning (VCL)