理解各种交通参与者的活动对于主动驾驭汽车在动态环境中安全运行至关重要。活动信息对于各种车载模块非常关键,涉及检测、跟踪、猜测、规划等多个任务。主动驾驭汽车通常配有多个传感器,其中最常用的是激光雷达(LiDAR)。因此,如何从点云中表征和提取活动信息是主动驾驭钻研中一个基础的问题。
总体来看,这一钻研方向存在如下挑战:
存在多个交通参与者的种别,每一个种别都表现出特定的活动行为;
点云的稀疏性导致两次 LiDAR 扫描之间缺乏精确的对应关系;
计算过程需要满足严格的时间限制和有限的车载计算。
传统的主动驾驭系统通常通过识别场景中其它交通参与者,并根据所观测的历史信息来猜测交通场景会如何变化,从而实现活动信息预计。但是,大多数识别模型都是为检测若干已知种别的物体而训练的。对于实际情况而言,这种封闭式场景(closed-set)显然不足以让模型识别那些在训练数据中未出现的物体种别。
物体活动信息作为一种与语义信息相比层次较低的信息,应该在开放环境(open-set)中被预计,而与物体是否属于已知种别无关。一种猜测种别无关(class-agnostic)活动的办法是通过预计每一个点的 3D 活动从点云中预计场景流(scene flow),但是这种密集活动场的猜测目前在计算上还无法高效处理一次完整的 LiDAR 扫描,从而无法在需要实时大规模点云处理的主动驾驭中从事实际应用。
表征并预计点云活动信息的另一种方式是基于 BEV(bird’s eye view)的方式。在这种方式中,点云被离散化为网格单元,每一个网格单元被称为体柱,点云的活动信息可以通过所有体柱的位移向量来描述,该位移向量描述了每一个体柱在地面上的移动大小和方向。这种表征办法成功简化了场景活动,因为地面上物体的活动是主动驾驭中主要考虑的因素,而垂直方向上的活动则没有那么重要。
此外,以这种形式表征点云非常有效。因为所有的关键操作都可以通过 2D 卷积从事,而 2D 卷积在 GPU 上的计算速度非常快。最近的一些钻研表明:这种表征可以很容易地推广到种别无关的点云活动预计中。但是,这需要依靠大量带有标注的点云数据,例如将目标检测和跟踪作为间接的活动监视信息,但是点云数据的标注成本高昂。
另外统计发现,一辆主动驾驭汽车每天会产生超过 1TB 的数据,但仅有不到 5% 的数据被最终利用。因此,为了充分利用海量未标注的数据,在没有手工标注的数据上从事进修就显得尤为重要。虽然近年来人们对语言和视觉方面自监视进修的关注越来越大,但点云方面的自监视进修仍然相对比较落后。这一现状激发了轻舟智航和约翰霍普金斯大学学者的钻研兴趣。
论文链接:https://arxiv.org/pdf/2104.08683.pdf
在这篇论文中,来自轻舟智航、约翰霍普金斯大学的钻研者提出了一个自监视进修框架,利用激光雷达和相机的自监视进修从事点云活动预计。
用于主动驾驭的自监视「点云活动进修」
如图 1 所示,为了充分利用 BEV 中活动表征的优点,该钻研将点云组织成体柱(pillar),并将与每一个体柱相关的速度称为体柱活动(pillar motion)。该钻研引入了一种基于点云的自监视进修办法,假设连续两次扫描之间的体柱或物体的结构形状是不变的。
图 1:该钻研提出的自监视柱活动进修概览。
然而,这在大多数情况下是不成立的,因为 LiDAR 的稀疏扫描,连续两个点云之间缺乏精确的点与点的对应。该钻研的解决方案是利用从相机图象中提取的光流来提供跨传感器的自监视和正则化。如图 2 所示,这种设计形成了一个统一的进修框架,包括 LiDAR 和配对相机之间的交互:(1)点云有助于将自车活动(ego-motion)导致的图象活动从光流中分解出来;(2)光流为点云中的体柱活动进修提供了辅助正则化;(3)反投影(back-projected)光流形成的概率活动掩膜(probabilistic motion masking)提升了点云结构的一致性。
注意,与相机相关的模块仅用于训练,在推理阶段不会被使用,因此,在运行时不会对相机相关的模块引入额外的计算。
据了解,这项工作是首个能够在完全自监视框架下从事点云体住活动猜测的进修范式。该钻研提出了新的自监视以及跨传感器(cross-sensory)监视信号,通过紧密整合 LiDAR 点云和配对相机图象来实现所需的自监视。试验表明,与现有的监视办法相比,该办法具有良好的性能。
图 2:用于点云体柱活动预计的自监视进修框架。
如图 2 所示,该钻研提出的活动进修办法将点云的结构一致性自监视与跨传感器的活动正则化紧密耦合。正则化包括从光流中分解出自我活动,并在传感器之间执行活动一致性(motion agreement)。该钻研还引入了一种基于反投影(back-projected)光流的概率活动掩膜(probabilistic motion masking)来增强点云的结构相似性匹配。
图 3:概率活动掩膜说明,左:投影点在前向相机图象上的光流(已将自我活动分解)。右:点云的一部分,颜色表示非空体柱的静态概率。
试验
钻研人员首先从事了各种组合试验,以评估设计中每一个单独组件的贡献。如表 1 所示:
表 1:每一个单独组件的贡献,结果包括均值和中位误差。
该钻研将所提办法与表 3 中的各种监视算法从事了比较。试验首先将提出的自监视模型与 FlowNet3D 、 HPLFlowNet 从事了比较,这些模型都在 FlyingThings3D 以及 KITTI Scene Flow 从事了预训练。在表 3 中,该钻研提出的模型在很大程度上优于这两种有监视的预训练模型。
值得注意的是,该钻研提出的自监视模型甚至优于或接近一些在基准数据集上全监视训练的办法,如 FlowNet3D、HPLFlowNet、PointRCNN。试验结果表明该钻研提出的自监视设计的优越性,以及自监视训练在目标领域的重要性。
当使用真值标签进一步微调该钻研提出的自监视模型时,该模型实现 SOTA 性能。如表 3 所示,对于快速活动的目标,微调模型明显优于 MotionNet。这表明,该钻研提出的自监视模型为有效的监视训练提供了更好的基础,并且自监视进修的增益不会随着复杂的监视训练而减少。
表 3:与 SOTA 结果对比。试验分为三个速度组,表中记录了平均误差和中位误差。
最后,试验展示了利用不同的自监视组合从事体柱活动预计的定性结果。如图 5 所示,这些示例呈现了不同的交通场景。与该钻研的完整模型相比,仅使用结构一致性损失的基本模型倾向于在背景区域(第 1 列和第 5 列)和静态前景目标(第 2 列和第 3 列)中生成假阳性活动猜测。与基本模型相比,完整模型还能够在移动目标上产生更平滑的体柱活动(第 5 列和第 6 列)。此外,如第 4 列所示,基本模型中缺少场景右上角的移动卡车,但可以通过完整模型从事合理的预计。这再次验证了从相机图象中提取的活动信息的有效性。
图 5:点云体柱活动猜测对比。第一行显示真值活动场,第二行显示的是该钻研全模型的评估结果,而只使用结构一致性的基础模型的猜测结果在第三行。每一列都演示了一个场景。
本篇论文中的一作和二作都是来自轻舟智航的学者。轻舟智航是一家近期备受关注的主动驾驭公司,作为一支始创于硅谷的全华人团队,轻舟智航不仅是国内唯一一家 Waymo 系的主动驾驭公司,还是国内首个启动 5G 无人公交常态化运营的公司。
目前,轻舟智航在苏州、深圳、武汉、北京等地都部署有无人小巴,供普通市民通勤及体验。之所以能在不到两年就面向公众开放体验,跟其核心团队的构成息息相关。这支团队的创始团队都是硅谷的主动驾驭老兵,清一色都是技术大拿及海归博士。其他核心团队成员则是来自特斯拉、Uber ATG、福特、英伟达、Facebook 等等。
本篇论文的作者:
罗晨旭实习于轻舟智航,是约翰霍普金斯大学(Johns Hopkins University)计算机科学系的博士钻研生;杨晓东目前担任轻舟智航 Principal Scientist and Director of Research,曾任英伟达(NVIDIA Research)高级科学家;Alan Yuille 是约翰霍普金斯大学计算机科学系的 Bloomberg Distinguished Professor。