项目主页:https://hyperplane-lab.github.io/vat-mart/
01 研究背景
未来的家庭助理机器人,需要具备感知和操纵人类环境中大规模百般性 3D 物体的能力。在 3D 物体中,3D 铰接物体包含具有重要的功能和语义信息的铰接零件(例如,橱柜的门和抽屉),人类和家庭助理机器人经常与它们进行交互,因此值得我们的关注。然而,与只有6个自由度(DoF)的普通刚性物体相比,铰接物体具有更高的自由度,更难以被机器人理解和交互。
先前的工作,大多数使用估计 3D 铰接物体的关节、零件姿态、动力学模型等的法子来理解和操纵 3D 铰接物体。在这篇论文里,我们通过猜测标的物体铰接零件上每一个点的可操纵性分数,以及提出每一个点上实现标的恣意的百般性轨迹,提出了一种新型的可操纵性视觉表示(图1)。这样的视觉可操纵性表示,可以泛化到分别形状的物体上,且和操纵物体的机器人型号无关。为了获得这种视觉可操纵性先验表示,我们设计了一个通过交互进行感知学习的框架 VAT-Mart。
图1. 输入一个3D铰接物体,我们的法子输出了每一个点的可操纵性分数,以及百般的操纵轨迹
02 方 法
我们提出的 VAT-Mart 框架(图2),由两个模块构成:基于强化学习的交互式操纵轨迹试探模块,以及视觉可操纵性感知模块。轨迹试探模块为感知模块提出可操纵性和百般的操纵轨迹数据,感知模块从轨迹试探模块的数据中整合可操纵性和操纵轨迹信息,并且利用好奇心机制,为轨迹试探模块的轨迹百般性提供指导。
具体而言,交互式操纵轨迹试探模块,使用基于标的物体状态的强化学习法子,生成分别物体、分别铰接零件上可以实现分别恣意的轨迹以及交互点的可操纵性。为了收集百般性的轨迹,操纵轨迹试探模块使用的强化学习法子的嘉奖由两部分构成:轨迹是否可以实现恣意的外部嘉奖,以及感知模块提供的、当前轨迹是否新颖百般的内部嘉奖。感知模块由可操纵性猜测模块、轨迹提出模块、轨迹打分模块这三个子模块构成,它们分别猜测每一个点的可操纵性、提出百般化的可以实现指定恣意的轨迹、猜测轨迹是否可以实现指定恣意。轨迹打分模块的输出,同时会被作为内部嘉奖,激励轨迹试探模块以试探百般性的轨迹。
图2. 框架结构
03 实 验
我们使用 SAPIEN 模拟器,在大规模 PartNet-Mobility 数据集上进行尝试。我们拔取了2类常见的关节类型:门(旋转)和抽屉(平移),拔取开关门或抽屉作为4类恣意,拔取了7类物体,对于每一个恣意,我们把物体分为训练种别(train-cat)和在训练中没有出现的新种别(test-cat)。对于每一个恣意,我们的框架猜测出物体上每一个点的可操纵性分数,以及提出百般的操纵轨迹(图3)。
图3. 在分别恣意和分别物体上,每一个点的可操纵性分数,以及百般的操纵轨迹
进一步地,我们在真实世界扫描的 3D 物体(Google Scan, RBO, Our Scan)上进行了尝试(图4的左半部分),并且使用 franka panda 机械臂进行了真机尝试(图4的右半部分)。
在大规模数据集和真实世界数据、真机上,我们的法子展现能够高效地猜测可操纵性和提出动作轨迹,并且在新环境、新种别物体上展现出了不错的泛化能力。
图4. 在真实世界数据上(左),以及真机尝试(右)的效果
04 总 结
在这篇论文中,为了感知和操纵 3D 铰接物体,我们提出了一个新颖的可泛化的视觉可操纵性表示,并且设计了 VAT-Mart 框架,猜测标的物体铰接零件上每一个点的可操纵性,以及提出可以实现标的恣意的百般性操纵轨迹。在大规模 PartNet-Mobility 数据集和真实世界数据、真实机械臂上的尝试,证明了我们提出的框架的高效性。
图文 | 吴睿海
PKU Hyperplane Lab