单目静态场景(Monocular Dynamic Scene)是指使用单眼摄像头观察并分析的静态环境,其中场景中的物体可以自由移动。单目静态场景重修对于理解环境中的静态变化、预测物体运动轨迹以及静态数字资产生成等任务至关重要。
随着以神经辐射场(Neural Radiance Field, NeRF)为代表的神经衬着的兴起,越来越多的工作开始使用隐式表征(implicit representation)进行静态场景的三维重修。尽管鉴于 NeRF 的一些代表工作,如 D-NeRF,Nerfies,K-planes 等已经获得了令人满意的衬着质量,他们仍然距离真正的照片级确实衬着(photo-realistic rendering)存在一定的距离。
来自浙江大学、字节跳动的研讨团队认为,上述问题的根本原因在于鉴于光线投射(ray casting)的 NeRF pipeline 通过逆向映照(backward-flow)将观测空间(observation space)映照到典型空间(canonical space)无法完成正确且干净的映照。逆向映照并不利于可学习结构的收敛,使得目前的步骤在 D-NeRF 数据集上只能获得 30 + 级别的 PSNR 衬着指标。
为了解决这一问题,该研讨团队提出了一种鉴于光栅化(rasterization)的单目静态场景建模 pipeline,首次将变形场(Deformation Field)与 3D 高斯(3D Gaussian Splatting)结合,完成了高质量的重修与新视角衬着。研讨论文《Deformable 3D Gaussians for High-Fidelity Monocular Dynamic Scene Reconstruction》已被计算机视觉顶级国际学术会议 CVPR 2024 接收。值得一提的是,这是首个使用变形场将 3D 高斯拓展到单目静态场景的工作。
项目主页:https://ingra14m.github.io/Deformable-Gaussians/
论文链接:https://arxiv.org/abs/2309.13101
代码:https://github.com/ingra14m/Deformable-3D-Gaussians
实验结果表明,变形场可以正确地将典型空间下的 3D 高斯前向映照(forward-flow)到观测空间,不仅在 D-NeRF 数据集上完成了 10 + 的 PSNR 提高,而且在相机位姿不正确的确实场景也获得了衬着细节上的增加:
图 1 HyperNeRF 确实场景的实验结果。
相关工作
静态场景重修一直以来是三维重修的热点问题。随着以 NeRF 为代表的神经衬着完成了高质量的衬着,静态重修领域涌现出了一系列以隐式表征作为基础的工作。D-NeRF 和 Nerfies 在 NeRF 光线投射 pipeline 的基础上引入了变形场,完成了稳健的静态场景重修。TiNeuVox,K-Planes 和 Hexplanes 在此基础上引入了网格结构,大大加速了模型的训练过程,衬着速度有一定的提高。然而这些步骤都鉴于逆向映照,无法真正完成高质量的典型空间和变形场的解耦。
3D 高斯泼溅是一种鉴于光栅化的点云衬着 pipeline。其 CUDA 定制的可微高斯光栅化 pipeline 和创新的致密化使得 3D 高斯不仅完成了 SOTA 的衬着质量,还完成了实时衬着。Dynamic 3D 高斯首先将静态的 3D 高斯拓展到了静态领域。然而,其只能处理多目场景非常严重地制约了其应用于更通用的情况,如手机拍摄等单目场景。
研讨思想
Deformable-GS 的核心在于将静态的 3D 高斯拓展到单目静态场景。每一个 3D 高斯携带位置,旋转,缩放,不透明度和 SH 系数用于图像层级的衬着。根据 3D 高斯 alpha-blend 的公式,不难发现,随时间变化的位置,以及控制高斯形状的旋转和缩放是决定静态 3D 高斯的决定性参数。然而,不同于传统的鉴于点云的衬着步骤,3D 高斯在初始化之后,位置,透明度等参数会随着优化不断更新。这给静态高斯的学习增加了难度。
该研讨创新性地提出了变形场与 3D 高斯联合优化的静态场景衬着框架。具体来说,该研讨将 COLMAP 或随机点云初始化的 3D 高斯视作典型空间,随后通过变形场,以典型空间中 3D 高斯的坐标信息作为输入,预测每一个 3D 高斯随时间变化的位置和形状参数。利用变形场,该研讨可以将典型空间的 3D 高斯变换到观测空间用于光栅化衬着。这一策略并不会影响 3D 高斯的可微光栅化 pipeline,经过其计算得到的梯度可以用于更新典型空间 3D 高斯的参数。
此外,引入变形场有利于动作幅度较大部分的高斯致密化。这是因为动作幅度较大的区域变形场的梯度也会相对较高,从而指导相应区域在致密化的过程中得到更精细的调控。即使典型空间 3D 高斯的数量和位置参数在初期也在不断更新,但实验结果表明,这种联合优化的策略可以最终得到稳健的收敛结果。大约经过 20000 轮迭代,典型空间的 3D 高斯的位置参数几乎不再变化。
研讨团队发现确实场景的相机位姿往往不够正确,而静态场景更加剧了这一问题。这对于鉴于神经辐射场的结构来说并不会产生较大的影响,因为神经辐射场鉴于多层感知机(Multilayer Perceptron,MLP),是一个非常平滑的结构。但是 3D 高斯是鉴于点云的显式结构,略微不正确的相机位姿很难通过高斯泼溅得到较为稳健地矫正。
为了缓解这个问题,该研讨创新地引入了退火平滑训练(Annealing Smooth Training,AST)。该训练机制旨在初期平滑 3D 高斯的学习,在后期增加衬着的细节。这一机制的引入不仅提高了衬着的质量,而且大幅度提高了时间插值任务的稳定性与平滑性。
图 2 展示了该研讨的 pipeline,详情请参见论文原文。
图 2 该研讨的 pipeline。
结果展示
该研讨首先在静态重修领域被广泛使用的 D-NeRF 数据集上进行了合成数据集的实验。从图 3 的可视化结果中不难看出,Deformable-GS 相比于之前的步骤有着非常巨大的衬着质量提升。
图 3 该研讨在 D-NeRF 数据集上的定性实验对比结果。
该研讨提出的步骤不仅在视觉效果上获得了大幅度的提升,在衬着的定量指标上也有着相应的改进。值得注意的是,研讨团队发现 D-NeRF 数据集的 Lego 场景存在错误,即训练集和测试集的场景具有微小的差别。这体现在 Lego 模型铲子的翻转角度不一致。这也是为什么之前步骤在 Lego 场景的指标无法提高的根本原因。为了完成有意义的比较,该研讨使用了 Lego 的验证集作为指标测量的基准。
图 4 在合成数据集上的定量比较。
如图 4 所示,该研讨在全分辨率(800×800)下对比了 SOTA 步骤,其中包括了 CVPR 2020 的 D-NeRF,Sig Asia 2022 的 TiNeuVox 和 CVPR2023 的 Tensor4D,K-planes。该研讨提出的步骤在各个衬着指标(PSNR、SSIM、LPIPS),各个场景下都获得了大幅度的提高。
该研讨提出的步骤不仅能够适用于合成场景,在相机位姿不够正确的确实场景也获得了 SOTA 结果。如图 5 所示,该研讨在 NeRF-DS 数据集上与 SOTA 步骤进行了对比。实验结果表明,即使没有对高光反射表面进行特殊处理,该研讨提出的步骤依旧能够超过专为高光反射场景设计的 NeRF-DS,获得了最佳的衬着效果。
图 5 确实场景步骤对比。
虽然 MLP 的引入增加了衬着开销,但是得益于 3D 高斯极其高效的 CUDA 完成与我们紧凑的 MLP 结构,我们依旧能够做到实时衬着。在 3090 上 D-NeRF 数据集的平均 FPS 可以达到 85(400×400),68(800×800)。
此外,该研讨还首次应用了带有前向与反向深度传播的可微高斯光栅化管线。如图 6 所示,该深度也证明了 Deformable-GS 也可以得到鲁棒的几何表示。深度的反向传播可以推动日后很多需要使用深度监督的任务,例如逆向衬着(Inverse Rendering),SLAM 与自动驾驶等。
图6 深度可视化。
作者简介
论文第一作者:杨子逸,浙江大学硕士二年级,主要研讨方向为三维高斯、神经辐射场、实时衬着等。
论文其他作者:高新宇,浙江大学硕士三年级,主要研讨方向为神经辐射场,隐式场景组合。
张宇晴:浙江大学硕士二年级,主要研讨方向为 3D 生成,逆向衬着。
论文通讯作者为浙江大学计算机科学与技术学院金小刚教授。
Email: [email protected]
个人主页:http://www.cad.zju.edu.cn/home/jin/