TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

本文是对 2020 年 9 月发表于计算机图形学顶级期刊 ACM Transactions on Graphics（ToG）的论文《基于骨骼一致性的单目视频人体活动重建（MotioNet: 3D Human Motion Reconstruction from Monocular Video with Skeleton Consistency）》的解读。该论文由北京大学与山东大学、北京电影学院、以色列特拉维夫与耶路撒冷大学合作，针对从单目视频中提取人体活动的问题，区别于直接回归枢纽坐标的要领，作者在神经搜集中利用正向活动学，展望出时序一致的人体骨架及所对应的枢纽转动，减小了搜集展望的空间搜索范围，搜集输出的结果也能直接运用于角色动画的驱动。

论文链接：https://arxiv.org/abs/2006.12075

项目主页：https://rubbly.cn/publications/motioNet

01 背景介绍

人体活动是现实世界中最常见的视觉内容之一，随着图像视频获取设备的大规模普及，对理解人类行为这一机器视觉任务的智能化解决变得日益重要。然而真正场景下的人体活动重建一直是一个具有挑战性的问题，人体高自由度的枢纽所构成的姿势难以用简单的模板进行匹配，真正场景下的复杂光照、背景也增大了这个问题的难度。

随着深度学习的发展，大量的研究工作致力于从视频序列中，通过有监督的要领展望人体三维枢纽坐标来表示人体活动[2]。在获得二维关键点或者图形深层特征后，通过在展望的坐标地位和真正坐标地位之间计算损失函数，将这个问题转变为回归问题。

然而，在展望过程中人体结构并未完全考虑。搜集分歧的枢纽点的展望结果来源于独立的维度，每一个枢纽点的展望都会在全部空间中进行搜索，没有相互之间的约束；在同一个视频的展望中，前后帧展望的骨架也会形成不一致，这不仅导致了不平滑的结果，近大远小的投影规则也导致了在深度展望上的二义性。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图1. 同一段展望在分歧时刻的骨架相对大小 [Pavllo et al., CVPR 2019]

同时，如果想在角色动画中使用这样的数据时，首先需要利用反向活动学（Inverse Kinematics）将枢纽坐标点转换为对应的转动。然而，枢纽地位只能描述在特定坐标维度上的信息，无法描述自身的转动，因此这样不完整的活动信息很难直接活动于角色动画的驱动。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图2. 枢纽坐标地位表示要领中的二义性：同样的枢纽坐标可以代表分歧的转动

为了解决这些问题，本文设计了一种使用骨骼地位+动态枢纽转动的办法表示人体举措的双通路搜集结构，提供了以转动为主要表达办法的人体活动重建解决方案，同时利用脚步打仗信号等办法，提高了结果的可视效果。

02 要领简介

要领的核心为正向活动学，给定父枢纽初始地位，通过应用分歧的变换办法获得子枢纽地位。人体的任何一个举措，都有正向活动学的参与。该过程的基本数据结构为转动，通过分歧枢纽之间的转动组合，可以实现分歧的人体姿势。本文通过神经搜集的办法，实现了正向活动学的过程。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图3. 将转动运用到T-pose上的正向活动学过程

搜集由双分支的编码器组成，其中，第一个分支负责展望枢纽转动、地面打仗信号、全部坐标等信息，而另一个分支负责展望以骨骼长度为基本元素组合而成的初始姿势（T-pose），然后枢纽转动与 T-pose 输出到正向活动学（FK）层，获得组合而成的三维举措序列。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图4. 搜集结构示意图

对于 T 帧的输出，第一个分支会形成 T 帧的输出，而第二个分支会通过池化的办法进行信息的压缩，只形成 1 帧输出，作为时序统一的骨架信息。在我们的解决方案中，将展望出的骨骼长度应用到固定的骨骼拓扑结构上，形成 T-pose。然后第一个分支所形成的每一帧的转动，通过 FK 应用到时序统一的 T-pose 上，便获得了这个骨架在分歧帧下的人体姿势。展望的序列通过与真正三维举措进行坐标上的误差比对，进行搜集的收敛。

搜集的输出是由其他要领形成的二维活动序列，在训练过程中，本文使用数据集中的真正三维活动数据，然后通过投影的办法获得所对应的二维数据。但为了适应在真正视频中因为快速活动、遮挡等因素所形成的噪音，本文在训练数据中模拟噪音的分布，将代表枢纽展望置信度作为搜集输出的另一个维度。

为了提高生成效果的质量，除了最后枢纽坐标的损失函数，本文还使用了以下要领提高结果的质量：

脚步打仗信号

正向活动学中骨骼链的存在，使得父枢纽所形成的展望误差会不断在末端枢纽中累积，导致了脚步滑动、末端枢纽抖动的问题。因此在训练过程中，我们同时展望脚步与地面的打仗信号，当脚枢纽打仗地面时，其枢纽活动应该相对稳定，因此展望获得的枢纽角速度应该接近0。

生成结果的对抗训练

本文使用转举措为活动的表达形式，因此可以很灵活的在转动上应用各种操纵器，满足角色动画的要求。例如本文所使用了对抗学习的要领，使得展望出的枢纽转动的相对变化，尽可能接近真正的转动。在做抬手的举措时，判别器会倾向于手部不应该出现奇怪的自转动，从而让搜集输出这样认为是“真正”的结果。

03 结果展示

在分歧视频上展示的结果可以看出，本文所提出的要领具有能够从复杂背景、活动中提取出合理的三维活动的能力。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图5. 分歧视频下的搜集输出

与其他要领进行了定性比较可以发现，其他算法在枢纽地位的正确性、转动的合理性上都存在较大的问题。尤其是在快速活动或存在遮挡的情况下，这些要领往往会出现错误的展望。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图6. 对比结果, Kanazawa [2018], Pavllo [2019], Mehta [2017]

同时，由于展望的骨架在视频前后的一致性，本文形成的结果不会在深度上形成二义性，因此相比起其他要领，本文能获得更精准的全部坐标。

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

图7. 全部地位展望对比结果

参考文献

[1] Zhe Cao, Gines Hidalgo, Tomas Simon, Shih-En Wei, and Yaser Sheikh. 2018. OpenPose: realtime multi-person 2D pose estimation using Part Affinity Fields. arXiv preprint arXiv:1812.08008 (2018).

[2] Pavllo, D., Feichtenhofer, C., Grangier, D., & Auli, M. (2019). 3d human pose estimation in video with temporal convolutions and semi-supervised training. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 7753-7762).

图文 | 史明镒

Visual Computing and Learning (VCL)

{{userData.name}}已认证

TOG 2020 | 基于骨骼一致性的单目视频人体活动重建

Creator 面对面 | 面向一致的 AI 模型架构和进修格式

SIGGRAPH 2021 | 学习带神经混合形态的人物动画

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践