随着主动驾驭技能在不同场景下的持续落地,方针检测作为其中的一项核心模块,对检测算法的精度和稳定性要求越来越高。近日,在国际机器人技能与主动化会议(ICRA 2021)举办的第四届nuScenes三维方针检测挑战赛中,来自baidu研究院的机器人与主动驾驭实验室(RAL)团队在三维物体检测任务的多项评价方针中荣获第一,并将关键方针nuScenes Detection Score (NDS)从上一届的71.4%晋升至74.9%,刷新了三维方针检测比赛成绩。
ICRA2021 nuScenes三维物体检测挑战赛官方排行榜
榜单地址:https://www.nuscenes.org/object-detection?externalData=all&mapData=all&modalities=Any
第四届nuScenes方针检测挑战赛吸引了来自全球各地的多支参赛队伍,不仅有baidu、华为、滴滴等知名企业,还涵盖了德克萨斯大学奥斯汀分校、上海交通大学、中国科技大学、哈尔滨工程大学等国内外重点高校。
本届挑战赛使用的nuScenes[1]数据集是主动驾驭方针检测领域中最流行的公开数据集之一,集成了多种传感器(如相机,LiDAR, Radar等),提供了包含二维、三维物体标注、点云宰割、高精地图等丰富的标注信息。数据集整体共包含1000个场景、140万帧图象、39万帧激光雷达点云数据、23个物体种别、140万个三维标注框,数据规模和难度远超之前的主动驾驭数据集KITTI。
baidu研究院的机器人与主动驾驭实验室(RAL)团队在比赛中提出了一种多模态和多任务的信息融会框架FusionPainting[3] ,并且结合多模型融会等技能,推出了CenterPoint-Fusion的技能方案,将评价的关键方针NDS从上一届冠军的71.4%晋升至74.9%,全类平均正确率(mean Average Precision)从上一届冠军的67.1%晋升至72.4%。凭借本次挑战赛中多个评测方针第一的优异成绩,baidu在主动驾驭领域的技能实力再次彰显。
CenterPoint-Fusion算法优势何在?
激光雷达(LiDAR)可以直接以三维点云的形式提供周围场景的深度信息,因此广泛的应用于主动驾驭的感知模块中。但是相比于图象数据,激光点云具有密度稀疏,纹理信息不丰富的缺点,因此在检测任务中对于物体的种别分辨往往不准确。
利用相机和Lidar之间的标定参数,PointPainting[2]将图象的语义信息附加到点云上,再利用融会的点云信息进行物体检测,能有效的晋升检测的精度。但是由于图象宰割器的特征图尺寸大小的限制,宰割结果在物体的边境上有模糊效应,再反投影到3D点云上时会造成物体边境的点云种别信息不准确,从而影响最终检测的效果。
基于多模态自适应融会的FusionPainting流程图
相比于二维图象宰割有物体边境模糊的缺点,直接在三维点云上进行宰割却能得到清晰的物体边境。为了有效的解决这种边境模糊的问题,baidu提出了融会二维图象宰割与三维点云宰割结果的FusionPainting框架[3]。对于每一个三维点,既通过二维图象宰割获得语义信息,又通过三维点云宰割获得语义信息,最终通过一个自适应的注意力模块来对两种信息进行有效的融会。融会后的点云可以作为任何三维物体检测器的输入,从而最终得到三维物体检测结果。
在此框架的基础上,baidu进一步添加了多模型融会、半监督学习、测试阶段数据增强等技能,充分发挥多模态和多模型的作用,进一步晋升了方针检测的效果。
nuScene数据集三维物体检测检测效果示例,其中不同的颜色代表不同种别的物体
本次在nuScenes三维方针检测挑战赛中夺冠的baidu研究院机器人与主动驾驭实验室,在主动驾驭感知和机器人领域有着丰富的技能积累和成果输出,研究成果发表在CVPR、ICCV、ECCV、NeurIPS、AAAI、ICRA 与IROS等顶级国际学术会议和《Science Robotics》,《IEEE T-PAMI》、《IEEE T-IP》、《IEEE T-ITS》、《SAGE IJRR》等顶级期刊上。
baidu布局主动驾驭以来,不仅在主动驾驭技能和智能驾驭领域市场占据了先发优势,并通过持续深耕,在技能创新和应用落地上也取得了令人瞩目的成就。在主动驾驭这场改变人类轨迹的长跑中,baidu还将继续技能创新,做这条道路上坚定的领跑者。
参考文献:
Caesar, Holger and Bankiti, Varun and Lang, Alex H and Vora, Sourabh and Liong, Venice Erin and Xu, Qiang and Krishnan, Anush and Pan, Yu and Baldan, Giancarlo and Beijbom, Oscar. nuscenes: A multimodal dataset for autonomous driving. Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2020: 11621-11631.Vora, Sourabh and Lang, Alex H and Helou, Bassam and Beijbom, Oscar. Pointpainting: Sequential fusion for 3d object detection. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 4604-4612.Shaoqing Xu , Dingfu Zhou, Jin Fang, Junbo Yin, Bin Zhou and Liangjun Zhang. FusionPainting: Multimodal Fusion with Adaptive Attention for 3D Object Detection. Accepted by IEEE International Conference on Intelligent Transportation Systems (ITSC), 2021.