CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型

近日，计算机视觉顶会CVPR 2022公布了会议录取结果，美图影像研究院（MT Lab）与北京航空航天大学可乐实验室（CoLab）联合发表的论文被接收。该论文突破性地提出疏散感知式单阶段模型，用于解决极具挑战性的多人3D人体姿势推断课题。该法子通过一次网络前向推理同时获取3D空间中人体位子信息以及相对应的关键点信息，从而简化了预计流程，提高了效率。此外，该法子有效地进修了人体关键点的真正疏散，进而提升了鉴于返回框架的精度。多人3D人体姿势推断是当前的一个热点研究课题，也具有广泛的应用潜力。在计算机视觉中，鉴于单张R

近日，计算机视觉顶会CVPR 2022公布了会议录取结果，美图影像研究院（MT Lab）与北京航空航天大学可乐实验室（CoLab）联合发表的论文被接收。

该论文突破性地提出疏散感知式单阶段模型，用于解决极具挑战性的多人3D人体姿势推断课题。该法子通过一次网络前向推理同时获取3D空间中人体位子信息以及相对应的关键点信息，从而简化了预计流程，提高了效率。此外，该法子有效地进修了人体关键点的真正疏散，进而提升了鉴于返回框架的精度。

多人3D人体姿势推断是当前的一个热点研究课题，也具有广泛的应用潜力。在计算机视觉中，鉴于单张RGB图片的多人3D人体姿势推断课题通常通过自顶向下或是自底向上的两阶段法子来解决，然而两阶段的法子需忍受大量的冗余计算以及复杂的后处理，其低效率深受诟病。此外，已有法子缺少对人体姿势数据疏散的认知，从而无法准确地求解从2D图片到3D位子这一病态课题，以上两点限制了已有法子在实际场景中的应用。

美图影像研究院（MT Lab）与北京航空航天大学可乐实验室（CoLab）在CVPR 2022发表的论文，提出一种疏散感知式单阶段模型，并利用这一模型从单张RGB图片中推断多个人在3D相机空间中的人体姿势。该法子将3D人体姿势表示为2.5D人体中心点和3D关键点偏移量，以适配图片空间的深度推断，同时这一表示将人体位子信息和对应的关键点信息从事了统一，从而使得单阶段多人3D姿势推断成为可能。

此外，该法子在模型优化历程中对人体关键点的疏散从事了进修，这为关键点位子的返回预计提供了重要的指导信息，进而提升了鉴于返回框架的精度。这一疏散进修模块可以与姿势推断模块在训练历程中通过最大似然推断一起进修，在测试历程中该模块被移除，不会带来模型推理计算量的增加。为了降低人体关键点疏散进修的难度，该法子创新性地提出了一种迭代更新的策略以逐渐逼近目标疏散。

该模型以全卷积的方式来实现，可以从事端到端的训练和测试。通过这样一种方式，该算法可以有效且精准地解决多人3D人体姿势推断课题，在取得和两阶段法子接近的精度的同时，也大大提升了速度。

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型

论文链接：https://arxiv.org/abs/2203.07697

背景

多人3D人体姿势推断是计算机视觉中的经典课题，它被广泛地应用于AR/VR、游戏、运动分析、虚拟试衣等，近年来随着元宇宙概念的兴起，更是让这一技术备受关注。目前，通常采用两阶段法子来解决该课题：自顶向下法子，即先检测图片多个人体的位子，之后对检测到的每个人使用单人3D姿势推断模型来分别预计其姿势；自底向上法子，即先检测图片中所有人的3D关键点，之后通过相关性将这些关键点分配给对应的人体。

尽管两阶段法子取得了良好的精度，但是需要通过冗余的计算和复杂的后处理来顺序性地获取人体位子信息和关键点位子信息，这使得速率通常难以满足实际场景的部署需求，因此多人3D姿势推断算法流程亟需简化。另一方面，在缺少数据疏散先验知识的情况下，从单张RGB图片中推断3D关键点位子，特别是深度信息，是一个病态课题。这使得传统的应用于2D场景的单阶段模型无法直接向3D场景从事扩展，因此进修并获取3D关键点的数据疏散是从事高精度多人3D人体姿势推断的关键所在。

为了克服以上课题，该论文提出了一种疏散感知式单阶段模型（Distribution-Aware Single-stage model, DAS）用于解决鉴于单张图片的多人3D人体姿势推断这一病态课题。DAS模型将3D人体姿势表示为2.5D人体中心点和3D人体关键点偏移，这一表示有效地适配了鉴于RGB图片域的深度信息预计。

同时，它也将人体位子信息和关键点位子信息从事了统一，从而使得鉴于单目图片的单阶段多人3D姿势推断法子成为可能。另外，DAS模型在优化历程中对3D关键点的疏散从事进修，这为3D关键点的返回提供了极具价值的指导性信息，从而有效地提升了预计精度。

此外，为了缓解关键点疏散推断的难度，DAS模型采用了一种迭代更新策略以逐步逼近真正疏散目标，通过这样一种方式，DAS模型可以高效且精准地从单目RGB图片中一次性获取多个人的3D人体姿势推断结果。

单阶段多人3D姿势推断模型

在实现上，DAS模型鉴于返回预计框架来构建，对于给定图片，DAS模型通过一次前向预计输出图片中所包含人物的3D人体姿势。DAS模型将人体中心点表示为中心点置信度图和中心点坐标图两部分，如图1 (a) 和 (b) 所示，其中，DAS模型使用中心点置信度图来定位2D图片坐标系中人体投影中心点的位子，而使用中心点坐标图来预计3D相机坐标系内人体中心点的绝对位子。DAS模型将人体关键点建模为关键点偏移图，如图1 (c) 所示。DAS模型将中心点置信度图建模为二值图，图中每个像素点表示人体中心点是否在该位子出现，如果出现则为1，否则为0。

DAS模型将中心点坐标图以稠密图的方式从事建模，图中每个像素点编码了出现在该位子的人物中心在x、y和z方向的坐标。关键点偏移图和中心点坐标图建模方式类似，图中每个像素点编码了出现在该位子的人体关键点相对于人体中心点在x、y、z方向的偏移量。DAS模型可以在网络前向历程中以并行的方式输出以上三种信息图，从而避免了冗余计算。

此外，DAS模型可以使用这三种信息图简单地重建出多个人的3D姿势，也避免了复杂的后处理历程，与两阶段法子相比，这样一种紧凑、简单的单阶段模型可以取得更优的效率。

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型图1 用于多人3D人体姿势推断的疏散感知式单阶段模型流程图

疏散感知进修模型

对于返回预计框架的优化，已有工作多采用传统的L1或者L2损失函数，但研究发现这类监督训练实际上是在假设人体关键点的数据疏散满足拉普拉斯疏散或者高斯疏散的前提下从事的模型优化[12]。然而在实际场景中，人体关键点的真正疏散极为复杂，以上简单的假设与真正疏散相距甚远。与现有法子不同，DAS模型在优化历程中进修3D人体关键点疏散的真正疏散，指导关键点返回预计的历程。

考虑到真正疏散不可追踪的课题，DAS模型利用标准化流（Normalizing Flow）来达到对于模型预计结果概率推断的目标，以生成适合模型输出的疏散，如图2所示。该疏散感知模块可以同关键点预计模块一起在训练历程中通过最大似然推断的法子从事进修，完成进修之后，该疏散感知模块会在预计历程中从事移除，这样一种疏散感知式算法可以在不增加额外计算量的同时提升返回预计模型的精度。

此外，用于人体关键点预计的特征提取于人体中心点处，这一特征对于远离中心点的人体关键点来说表示能力较弱，和目标在空间上的不一致课题会引起预计的较大误差。为了缓和这一课题，该算法提出了迭代更新策略，该策略利用历史更新结果为出发点，并整合中间结果附近预计值以逐步逼近最终目标，如图3所示。

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型图 2 标准化流

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型图 3 迭代优化策略

该算法模型通过全卷积网络（Fully Convolutional Networks, FCNs）实现，训练和测试历程都可以以端到端的方式从事，如图4所示。根据实验结果，如图5所示，单阶段算法和已有state-of-the-art两阶段法子相比，可以取得接近甚至更优的精度，同时可以大幅提升速度，证明了其在解决多人3D人体姿势推断这一课题上的优越性，详细实验结果可参考表1和表2。根据单阶段算法的可视化结果，如图6所示，该算法能够适应不同的场景，例如姿势变化、人体截断以及杂乱背景等来产生精确的预计结果，这进一步说明了该算法的健壮性。

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型图 4疏散感知式单阶段多人3D人体姿势推断网络结构

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型图 5 与现有state-of-the-art两阶段算法对比结果

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型表 1 CMU Panoptic Studio数据集结果比较

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型表 2 MuPoTS-3D数据集结果比较

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型图 6 可视化结果

总结

在本论文中，来自美图和北航的研究者们创新性地提出了一种疏散感知式单阶段模型，用于解决极具挑战性的多人3D人体姿势推断课题。与已有的自顶向下和自底向上这种两阶段模型相比，该模型可以通过一次网络前向推理同时获取人体位子信息以及所对应的人体关键点位子信息，从而有效地简化预计流程，同时克服了已有法子在高计算成本和高模型复杂度方面的弊端。

另外，该法子成功将标准化流引进到多人3D人体姿势推断任务中以在训练历程中进修人体关键点疏散，并提出迭代返回策略以缓解疏散进修难度来达到逐步逼近目标的目的。通过这样一种方式，该算法可以获取数据的真正疏散以有效地提升模型的返回预计精度。

研究团队
本论文由美图影像研究院（MT Lab）和北京航空航天大学可乐实验室（CoLab）研究者们共同提出。美图影像研究院（MT Lab）是美图公司致力于计算机视觉、机器进修、增强现实、云计算等领域的算法研究、工程开发和产品化落地的团队，为美图现有和未来的产品提供核心算法支持，并通过前沿技术推动美图产品发展，被称为「美图技术中枢」，曾先后多次参与CVPR、ICCV、ECCV等计算机视觉国际顶级会议，并斩获冠亚军十余项。

引用文献：

[1] JP Agnelli, M Cadeiras, Esteban G Tabak, Cristina Vilma Turner, and Eric Vanden-Eijnden. Clustering and classifica- tion through normalizing flows in feature space. Multiscale Modeling & Simulation, 2010.

[12] Jiefeng Li, Siyuan Bian, Ailing Zeng, Can Wang, Bo Pang, Wentao Liu, and Cewu Lu. Human pose regression with residual log-likelihood estimation. In ICCV, 2021.

[15] Jiahao Lin and Gim Hee Lee. Hdnet: Human depth estima- tion for multi-person camera-space localization. In ECCV, 2020.

[47] Jianan Zhen, Qi Fang, Jiaming Sun, Wentao Liu, Wei Jiang, Hujun Bao, and Xiaowei Zhou. Smap: Single-shot multi- person absolute 3d pose estimation. In ECCV, 2020.

[48] Xingyi Zhou, Dequan Wang, and Philipp Kra ̈henbu ̈hl. Ob- jects as points. arXiv preprint arXiv:1904.07850, 2019.

{{userData.name}}已认证

CVPR 2022 ｜精准高效推断多人3D姿势，美图&北航联合提出疏散感知式单阶段模型

美图印象节宣布7款印象生产力对象，推出懂美学的视觉大模型

北京大学研发鉴于机械进修的多能干细胞分解系统，高效、稳定制备功能性细胞

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）