论文地址:
https://fqnchina.github.io/QingnanFan_files/cvpr_2022_mapping.pdf
01 研究背景
建立室内场景的二维或三维舆图是计算机视觉和机械人领域中的一项重要任务。机械人导航、增强现实等前沿应用都离不开场景舆图的建立。在这个问题上,最原始的方式是派出技术人员,使用手持或车载传感器设备对场景进行人工扫描,随后将收集的数据合成成为场景舆图。然而这样的方式严重依赖于技术人员的操作,很快被机械人自动建图的方式所取代。
主动建图(Active Mapping),即机械人在未知场景中主动地移动和收集数据从而自动化地建立场景舆图的过程。该任务的难点在于如何高效地探究未知环境并建立残缺的场景舆图。传统算法大多鉴于贪心策略,因此服从有限;近几年鉴于机械学习的算法注重服从,然而无法保证舆图的残缺性。因此,我们将传统算法和机械学习相结合,同时吸取了传统算法舆图残缺度高和机械学习方式全部服从高的优点,提出了 NeuralCoMapping 算法。
02 本文方式
NeuralCoMapping 算法由四个模块组成:建图模块(Mapping Module),全部计划器(Global Planner),全部计划器(Local Planner)和举动控制器(Action Controller)。
图1. 算法流程
首先,各个机械人的传感器收集当前时间步的深度图(Image)和位姿数据(Pose),建图模块(Mapping Module)根据这些数据更新障碍物舆图(Occupancy Map)。随后,障碍物舆图被传入到全部计划器中。一同传入全部计划器的还有每个机械人的宗旨位子(Global Positions),这些宗旨位子由全部计划器(Global Planner)每隔一定时间进行全部计划得到。全部计划器根据每个机械人的当前位子和宗旨位子,在舆图上计算出移动路线(Moving Trajectories),然后举动控制器(Action Controller)根据移动路线计算出当前时间步机械人应该采取怎样的举动(前进、左转或右转)。最终机械人采取举动控制器给出的举动,并等待下一个时间步的数据收集。
全部计划器的计划算法在主动建图中起到决定性作用,也是我们算法设计的核心部分。这一部分算法根据当前舆图和机械人位子,决定每个机械人在下一次全部计划之前需要前往的宗旨位子,从而逐步探究场景并更新舆图。
图2. 全部计划算法
具体地,我们首先从舆图中提取两类节点,机械人位子(robots)和前沿点位子(frontiers)。前沿点也叫做边境点,指舆图中位于已探究无障碍物区域和未探究区域的分界线上的点。鉴于这两类节点,我们将全部计划抽象成二分图立室问题:为每一个机械人分配一个前沿点作为宗旨位子。以前沿点作为宗旨,机械人总是会向未知区域前进。当舆图中不再有前沿点时,我们就得到了残缺的场景舆图。
为了实现全部计划之间的连续性,我们额外加入了两类辅助节点,历史机械人位子(history robots)和历史宗旨位子(history goals)。通过多路图神经网络(Multiplex Graph Neural Network),我们提取机械人和前沿点之间的距离代价,作为二分图立室的关联矩阵(Affinity Matrix)。鉴于关联矩阵,我们使用线性分配层(Linear Assignment Layer)进行可微匈牙利算法(Differentiable Hungarian Algorithm),从而得到二分图立室,即每个机械人分配一个前沿点作为宗旨位子。
03 尝试结论
图3. 时间服从尝试结果
我们在 iGibson 模拟器使用 Gibson 和 Matterport3D 数据集进行尝试。具体地,我们在 Gibson 数据集随机选取9个场景进行训练,把剩余场景和 Matterport3D 数据集的场景用作测试。结果表明,与其他多机协同算法相比,我们提出的 NeuralCoMapping 在全部时间服从上具有显著优势。测试场景面积越大,NeuralCoMapping 表现出来的优势越明显。在 Matterport3D 场景中的测试结果也表明 NeuralCoMapping 对不同类型场景有很好的泛化性。
图4. 泛化性能尝试结果
此外,NeuralCoMapping 在不同机械人数量上也表现出很好的泛化性。在三个机械人之上训练的模型,仍然能够直接应用在二或四个机械人之上(附加材料包含了多至九个机械人的泛化性尝试),这归功于我们算法的层次设计:我们将复杂的全部计划问题抽象为对机械人数量不敏感的二分图立室问题,从而能够利用多路图神经网络,使算法运行在任意数量的机械人上。
综上,我们将传统算法与机械学习相结合,提出了一种高效的多机协同算法 NeuralCoMapping,实现了对未知室内场景的自动化探究和残缺舆图建立。该方式对于多种未知场景和不同数量机械人具有卓越的泛化能力。
图文 | 叶开
Visual Computing and Learning (VCL)