在计算机视觉中,物体级别的三维概况重修技术面临诸多挑战。与场景级别的重修技术不同,物体级别的三维重修需要为场景中的每个物体给出独立的三维表示,以支持细粒度的场景建模和理解。这对 AR/VR/MR 以及机器人相关的应用具有重要意义。
许多现有办法行使三维生成模型的隐空间来完成物体级别的三维重修,这些办法用隐空间的编码向量来表示物体外形,并将重修任务建模成对物体位姿和外形编码的联合估计。得益于生成模型隐空间的优秀性质,这些办法可以重修出破碎的物体外形,但仅限于特定种别物体的三维重修,如桌子或椅子。即使在这些种别中,这类办法优化得到的外形编码也往往难以准确匹配实际物体的三维外形。另外一些办法则从数据库中检索合适的 CAD 模型,并辅以物体位姿估计来完成三维重修,这类办法也面临着类似的问题,其可扩展性比较有限,重修准确性低,很难贴合物体真实的三维概况构造。
随着 NeRF 和 NeuS 等技术的发展,imap 和 vMap 等技术能够行使可微渲染来优化物体的几何构造,这些办法能够重修出更加贴合真实物体概况的网格模型,也能够重修多个种别的物体,打破单一物体种别的限制。然而,由于场景内部拍摄角度的约束,很多物体都是被遮拦的,比如靠近墙壁的物体,或者彼此遮拦的物体。在物体被遮拦的情况下,这些办法重修出的物体往往是不破碎的,如下图所示。这些不破碎的三维模型无法支持大角度的转动和大范围平移,就很难被各种下游任务行使。
遮拦下的重修结果
清华大学刘永进教授团队提出物体三维重修的新办法 O²-Recon,行使已有的 2D 分散模型补全物体图象中被遮拦的地区,继而用神经隐式概况场从补全后的图象中重修破碎的三维物体。该论文行使重投影机制保持填充地区的三维一致性,并且在隐式重修过程中加入 CLIP 损失函数监督不可见角度的语义信息,最终重修出破碎且合理的三维物体模型,支持大角度的转动和平移,可以用于各种下游任务。目前,该论文已被人工智能顶会之一 AAAI 2024 接收。
论文链接:https://arxiv.org/abs/2308.09591
O²-Recon 简介
办法介绍
受到 2D 分散模型在图象补全任务中出色表现的启发,研究者设计了 O²-Recon 办法,旨在行使预训练的分散模型来补全图象中物体被遮拦的地区。虽然现有的分散模型在图象补全中表现出强劲的性能,但如果没有准确的遮罩(Mask)来指出物体应当被补全的地区,分散模型就很有可能生成错误的图象内容,比如超出正确地区的构造或者错误的外形。在 O²-Recon 办法中,研究者引入了少量的人工操作来构建准确的 Mask,从而保证 2D 补全和 3D 重修的质量。
给定一段带有物体 Mask 的 RGB-D 视频序列,需要用户选择 1-3 帧图象,并推测这 1-3 帧图象中物体被遮拦的地区,绘制被遮拦地区的 Mask。结合分散模型补全出的深度信息,研究者将这些视角下的 Mask 投影到所有其他视角,得到其他视角下的遮拦地区 Mask。通过加入少量的人机交互,研究者保证了 Mask 的质量,同时由于这些 Mask 是重投影得到的,它们在不同视角下具有的几何一致性,从而能够引导 2D 分散模型为遮拦地区填充出合理且一致的图象内容。
在三维重修阶段,研究者行使类似于 NeuS 的神经隐式概况场来完成概况重修,并行使体渲染构建损失函数进行优化。考虑到补全的图象仍然可能存在不一致性,这种隐式表示能在多视角优化的过程中逐渐学习出合理的三维构造。另一方面,研究者从两个角度来提升完全不可见地区的重修效果:首先,研究者行使 CLIP 特征监督新视角下渲染结果与和物体种别文本的一致性;其次,研究者设计了一个级联网络构造来编码隐式概况场,其中包括一个浅层的 MLP+低频位子编码来确保概况的整体平滑性,以及一个更深的 MLP 分支+高频 PE 位子编码来预测 SDF 的残差。这种构造既保证可见地区概况的灵活性,又确保了物体不可见地区的平滑性。
实验效果
物体的三维重修效果
主要实验结果展示
与其他物体级别的三维重修办法相比,O²-Recon 能重修出更准确,更破碎的三维构造,如上图所示。其中 FroDO 是基于隐空间外形编码的办法,Scan2CAD 是基于数据库检索的办法,vMap 是行使 NeRF 做概况重修的办法,MonoSDF 是场景级别的三维重修办法。
动图比照
动图比照
动图比照
重修后物体的位子编纂
由于 O²-Recon 重修出的物体较为破碎,我们可以对这些物体做大幅度的转动或平移,在编纂位子之后,从新的角度观察这些物体,其概况质量仍然不错,如下图所示。
在编纂之前,这些物体在原场景中的位子下:
多物体动图比照
在编纂之后,这些物体在新的位子下:
多物体动图比照
总结
本文提出了 O²-Recon 办法,来行使预训练的 2D 分散模型重修场景中被遮拦物体的破碎 3D 几何外形。研究者行使分散模型对多视角 2D 图象中的遮拦部分进行补全,并从补全后的图象行使神经隐式概况重修 3D 物体。为了防止 Mask 的不一致性,研究者采用了一种人机协同策略,通过少量人机交互生成高质量的多角度 Mask,有效地引导 2D 图象补全过程。在神经隐式概况的优化过程中,研究者设计了一个级联的网络架构来保证 SDF 的平滑性,并行使预训练的 CLIP 模型通过语义一致性损失监督新视角。研究者在 ScanNet 数据集上的实验证明,O²-Recon 能够为任意种别的被遮拦物体重修出精确破碎的 3D 概况。这些重修出的破碎 3D 物体支持进一步的编纂操作,如大范围转动和平移。