跳过人脸检测和关键点定位,Facebook等提出实时3D人脸姿态估计新方法

来自 Facebook AI 和美国圣母大学的研究者提出了一种 6 自由度的实时 3D 人脸姿态估计技术,可以不依赖人脸检测和人脸关键点定位独立运行。

人脸检测是给照片中的每个人脸指定一个边界框,人脸关键点检测则需要定位特殊的人脸特征,如眼睛中心、鼻尖等。基于二者的两步走方法是很多人脸推理任务的关键所在,如 3D 重建。

这种方法的处理过程通常可以表述为:首先执行人脸检测,然后在每个检测到的人脸边界框中执行关键点检测。接下来,将检测到的关键点与参考 2D 图像或 3D 模型上对应的理想位置进行匹配,然后使用标准方法求解对齐变换。因此,「人脸对齐」和「关键点检测」这两个术语有时可以互换使用。

这种方法应用起来非常成功,但计算成本很高,尤其是那些 SOTA 模型。而且,关键点检测器通常针对由特定人脸检测器生成的边界框特性进行优化,因此一旦人脸检测器更新,关键点检测器就需要重新进行优化。最后,在下图 1 所示的密集人脸图像场景中,准确定位标准的 68 个人脸关键点会变得非常困难,进而加大了估计其姿态和人脸对齐的难度。

跳过人脸检测和关键点定位,Facebook等提出实时3D人脸姿态估计新方法

为了解决这些问题,来自 Facebook AI 和圣母大学的研究者提出了以下重要观察结果:

首先,估计人脸的 6 自由度(6DoF)刚性变换比人脸关键点检测要简单。6DoF 指的是在人体在 3D 空间里的活动情况,在 3 自由度(上下俯仰、左右摇摆和滚动)的基础上增加了前 / 后、上 / 下、左 / 右三种移动方式。这一观察结果启发了很多研究者,促使他们提出「跳过关键点检测,直接进行姿态估计」的想法,但这些方法还是要为检测到的人脸估计姿态。相比之下,Facebook AI 和圣母大学的研究者的目标是在不假设人脸已经被检测到的情况下估计姿态。

其次,6DoF 姿态标签捕获的不仅仅是边界框位置信息。与一些研究者提出的 3DoF 姿态估计不同,6DoF 姿态可以转换为一个 3D-to-2D 的投影矩阵。假设有一个已知的内在相机,姿态可以使 3D 人脸与它在照片中的位置一致。因此,姿态已经捕捉了照片中人脸的位置。然而,虽然增加了两个额外的标量(6D 姿态 vs. 每个框的四个值),6DoF 姿态还可以提供人脸的 3D 位置和方向信息。最近,有些研究用上了这一观察结果,通过提出边界框和人脸关键点的多任务学习来提高检测准确率。而本文的研究者则将两者结合在单个目标中——直接 regress 6DoF 人脸姿态。

他们提出了一个易于训练的新型实时 6DoF 3D 人脸姿态估计解决方案,可以跳过人脸检测步骤,即使在非常拥挤的图片中也不例外(如图 1)。该方法在一个基于 Faster R-CNN 的框架中 regress 6DoF 姿态。

这项研究的创新之处在于,它真正摆脱了人脸对齐和关键点检测。「我们观察到,估计人脸的 6DoF 刚性变换比人脸目标点检测要简单。此外,6DoF 提供的信息要比人脸边界框标签丰富,」研究者解释道。

新方法的 pipeline 可以描述为:给定一张包含多张人脸的图像,首先估计每张人脸的 6DoF 姿态。由于 6DoF 人脸姿态可以转换为一个外在相机矩阵,进而将 3D 人脸映射到 2D 图像平面,因此预测得到的 3D 人脸姿态也可用于获取准确的 2D 人脸边界框。因此,人脸检测将成为这个过程的副产品,计算开销达到最小。

跳过人脸检测和关键点定位,Facebook等提出实时3D人脸姿态估计新方法

利用 6DoF 姿态估计替代人脸边界框检测之后,输入图像中所有的 3D 人脸形状都可以得到对齐。而且,由于该姿态将具有已知几何形状的 3D 形状与图像中的面部区域对齐,因此我们可以根据大小和形状调整生成的面部边界框,匹配特定的研究需求。

研究者使用小而快的 ResNet-18 骨干网络构建 img2pose 模型,并在 WIDER FACE 训练集上进行训练(该数据集包含弱监督标签和人工标注的真值姿态标签)。他们在两个领先的基准数据集( AFLW2000-3D 和 BIWI )上测试了 img2pose 的实时推断能力,发现该模型在实时运行时性能超越当前最优的人脸姿态估计器,还在关键点检测方面超越了具备类似复杂度的模型,尽管新模型并没有在边界框标签上进行优化。

以下是论文中的一些实验结果:

跳过人脸检测和关键点定位,Facebook等提出实时3D人脸姿态估计新方法

跳过人脸检测和关键点定位,Facebook等提出实时3D人脸姿态估计新方法

论文链接:https://arxiv.org/pdf/2012.07791.pdf

项目链接:https://github.com/vitoralbiero/img2pos

相关资讯

国内金融领域虚假人脸检测标准“零的突破”,《虚假数字人脸检测金融应用技术规范》发布

感谢据 21 财经今天傍晚报道,为提升金融信息系统的安全性,9 月 6 日北京国家金融科技认证中心联合 10 多家金融机构发布的《虚假数字人脸检测金融应用技术规范》(AI在线注:下称《应用规范》)正式施行。《应用规范》规定了面向金融领域应用的虚假数字人脸检测服务的技术框架、功能要求、性能要求等,并提出对应的测试评估方法,专门针对通过生成式 AI、Deepfake(深度伪造)等技术制作的虚假人脸内容进行检测。其为金融机构防御虚假数字人脸攻击提供了重要参考,这是国内首个面向 Deepfake 进行安全检测的标准。《应用

第一!科大讯飞再度刷新Cityscapes世界纪录

近日,科大讯飞凭借在道路目标检测领域多年的技术探索,刷新了Cityscapes 3D目标检测任务的全球最好成绩,得到检测分数(DS)42.9,取得了该项评测的第一名。此次也是科大讯飞继2017年、2018年参与测评之后,再一次刷新Cityscapes的世界纪录。此次评测,科大讯飞借鉴了已在城市交通出行场景下应用的Anchor-Free车辆检测技术,将2D目标检测技术升级至3D,并结合3D到2D重投影的特殊先验信息进行算法迁移。通过结合语义、上下文信息、位置先验信息以及目标形状先验信息等,提取精确的3D目标检测框,构

北大王选最新OpenAD!助力自动驾驶迈向开放3D世界

写在前面 & 笔者的个人理解开放世界自动驾驶包括域泛化和开放词汇。 领域泛化是指自动驾驶系统在不同场景和传感器参数配置下的能力。 开放词汇是指识别训练中没有遇到的各种语义类别的能力。