NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

种别级 6D 物体位姿推断是一个基础且重要的题目,在机器人、虚拟现实和增强现实等领域利用广泛。本文中,来自北京大学的研究者提出了一种种别级 6D 物体位姿推断新范式,取得了新的 SOTA 结果,论文已被机器学习领域顶会 NeurIPS 2023 接收。6D 物体位姿推断作为计算机视觉领域的一个重要任务,在机器人、虚拟现实和增强现实等领域有众多利用。尽管实例级别的物体位姿推断已经取得了显著进展,但它需要事先了解物体的特性,因此无法轻松适用于新的物体,这限制了其实际利用。为了解决这一题目,近年来,越来越多的研究工作集中

种别级 6D 物体位姿推断是一个基础且重要的题目,在机器人、虚拟现实和增强现实等领域利用广泛。本文中,来自北京大学的研究者提出了一种种别级 6D 物体位姿推断新范式,取得了新的 SOTA 结果,论文已被机器学习领域顶会 NeurIPS 2023 接收。

6D 物体位姿推断作为计算机视觉领域的一个重要任务,在机器人、虚拟现实和增强现实等领域有众多利用。尽管实例级别的物体位姿推断已经取得了显著进展,但它需要事先了解物体的特性,因此无法轻松适用于新的物体,这限制了其实际利用。为了解决这一题目,近年来,越来越多的研究工作集中在种别级别的物体位姿推断上。种别级别的位姿推断要求算法不依赖于物体的 CAD 模型,能够直接利用到与训练数据中相同种别的新物体。

目前,主流的种别级别 6D 物体位姿推断格式可以分为两大类:一是直接回归的端到端格式,二是鉴于物体种别先验的两阶段格式。然而,这些格式都将该题目建模为回归任务,因此在处理对称物体和部分可见物体时,需要特殊的设计来应对多解题目。

为了克服这些挑战,北京大学的研究团队提出了一种全新的种别级 6D 物体位姿推断范式,将该题目重新定义为前提分布建模题目,从而实现了最新的最优性能。他们还将这一格式成功利用于机器人操作任务,如在视频中展示的倒水等任务。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

论文地址:https://arxiv.org/abs/2306.10531

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA种别级 6D 物体姿势推断中的多解题目

在种别级 6D 物体姿势推断中,多解题目指的是在同一察看前提下,可能存在多个合理的位姿推断。这种情况主要源于两个方面,如图 1 所示:对称物体和部分察看。对于对称物体,例如球形或圆柱形的物体,在不同方向上的察看可能会完全相同,因此从理论上讲,它们有无限多个可能的位姿真值。同时,单一视角无法获取到完整的物体察看,例如马克杯,在没有观察到杯柄的情况下,也存在无限多个可能的位姿真值。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

图 1. 多解题目的来源:对称物体和部分察看

格式介绍

那么如何应对上述多解题目呢?作家把该题目看作前提分布建模题目,提出了一种名为 GenPose 的格式,利用分散模型来推断物体位姿的前提分布。该格式首先使用鉴于分数的分散模型生成物体位姿的候选项。然后通过两步对候选项举行聚拢:首先,通过似然推断筛选掉异常值,接着通过平均池化对剩余候选位姿举行聚拢。为了避免在推断似然时需要繁琐的积分计算,研究作家还引入了一种鉴于能量的分散模型的训练格式,以实现端到端的似然推断。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

图 2. GenPose 框架结构

鉴于分数的分散模型用于物体姿势候选的生成

这一步骤旨在解决多解题目,那么如何建模物体位姿的前提概率分布呢?作家采用了鉴于分数的分散模型,利用 VE SDE(Variational Eulerian Stochastic Differential Equation)构建了一个连续的分散过程。在模型的训练过程中,其目标是推断扰动前提姿势分布的分数函数,并最终通过 Probability Flow ODE(Ordinary Differential Equation)从前提分布中采样物体姿势的候选项。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

图3. 鉴于分数的分散模型生成物体姿势候选

鉴于能量的分散模型用于物体姿势候选的聚拢

从训练好的前提分布可以采样出无限个物体位姿候选,如果从候选中得到一个最终的物体位姿呢?最直接的方式是随机采样,但是这种格式无法保证预计的稳定性。是否可以通过平均池化来聚拢候选项呢?然而这种聚拢方式未考虑候选的质量,容易受到离群值的影响。作家认为可以通过似然推断的方式把候选的质量作为聚拢的参考。具体来说,根据似然推断结果对物体姿势候选举行排序,过滤掉似然推断较低离群候选后对剩余候选举行平均池化,就可以得到聚拢后的姿势推断结果。但是,分散模型举行似然推断需要繁琐的积分计算,这严重影响了推理速度,及其限制其实际利用。为了解决这个题目,作家提出训练一个鉴于能量的分散模型,直接用于举行端到端的似然推断,实现候选的快速聚拢。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

图4. 鉴于能量的分散模型用于似然推断与物体姿势候选聚拢

实验与结果

作家在 REAL275 数据集上对 GenPose 性能举行了验证,可以看出 GenPose 在各项指标上都大幅优于之前的格式,即使是与使用更多模态信息的格式举行对比,GenPose 依然有很大的领先优势,表 1 展示了作家提出的生成式物体姿势推断范式的优势。图 5 是可视化的结果。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

表 1. 与其他格式的对比

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

图 5. 不同格式的预计可视化效果

作家还研究了使用不同的聚拢格式(随机采样,随机排序后聚拢、鉴于能量排序后聚拢、GT 排序后聚拢)的影响。可以看出使用能量模型举行排序明显优于随机抽样格式。可以看出作家提出的鉴于能量的分散模型对物体姿势候选举行聚拢的格式明显由于随机采样的格式和随机排序后平均池化的格式。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

表 2. 不同聚拢方式的对比

为了更好地分析能量模型的影响,作家进一步研究了推断的位姿缺点与预计的能量之间的相关性。如图 4 所示,预计的位姿缺点和能量之间存在一般的负相关关系。能量模型在识别缺点较大的姿势时表现较好,而在识别缺点较小的姿势时表现较差,这解释了为什么预计的能量被用来去除离群点,而非直接选出能量最大的候选。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

图6. 能量与预计缺点相关性分析

作家还展示了该格式跨种别泛化的能力,该格式不依赖种别先验,在跨种别的泛化上的表现也显著优于之前的格式。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

表 3. 跨种别泛化效果。‘/’ 左边表示训练数据集包含测试类时的性能,‘/’ 右边表示把训练时把测试的种别移除时候的性能。

同时,由于分散模型的闭环生成过程,文章中的单帧姿势推断框架还可以直接用于 6D 物体姿势跟踪任务,没有任何特殊的设计,该格式在多项指标中优于最先进的 6D 物体姿势跟踪格式,结果如表 4 所示。

NeurIPS 2023|北京大学提出种别级6D物体位姿推断新范式,取得新SOTA

表 4. 种别级 6D 物体姿势追踪性能对比

总结与展望

这项工作提出了一个种别级 6D 物体位姿推断新范式,训练过程无需针对对称物体和部分察看带来的多解题目做任何特殊设计,取得了新的 SOTA 性能。未来的工作会利用分散模型的最新进展来加速推理过程,并考虑结合强化学习来实现主动式 6D 物体位姿推断。

研究团队介绍:

本次研究的通讯作家董豪为北京大学的助理教授、博导、博雅青年学者、智源学者,其创立并领导北大超平面实验室(Hyperplane Lab)。

论文共同一作张继耀、吴铭东为北京大学博士生,导师为董豪老师,详见个人主页。

https://jiyao06.github.io/

https://aaronanima.github.io/

给TA打赏
共{{data.count}}人
人已打赏
应用

OpenAI同意从一家首创公司购买5100万美元的类脑芯片,CEO Altman是它的股东

2023-12-4 15:09:00

应用

R-CNN作者Ross Girshick离职,何恺明、谢赛宁回归学界,Meta CV走出了多少大神

2023-12-4 17:29:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索