AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级尝试室,有效促进了学术交流与传播。如果您有优秀的歇息想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
原文链接:https://arxiv.org/abs/2403.20018
项目链接:https://github.com/WU-CVGL/SCINeRF
论文标题:SCINeRF: Neural Radiance Fields from a Snapshot Compressive Image
一、引言
传统的 3D 重修算法需要不同视角拍摄的多张图片作为输入从而重修出 3D 场景。近年来,有相当多的歇息尝试从单张图片构建 3D 场景。然而,绝大多数此类歇息都依赖生成式模型(如 Stable Diffusion),换句话说,此类歇息仍然需要通过预训练的生成式模型推理场景中的 3D 信息。
因此,不依赖任何生成式模型并从单张图片重修整个 3D 场景仍然存在巨大挑战。
本文提出了一种鉴于单曝光紧缩成像(Snapshot Compressive Imaging, SCI)体系和神经辐射场(NeRF)的三维场景拍摄与重修方式,首先将多视角图象信息记录到一张紧缩图象之中,而后在重修阶段通过一个鉴于 NeRF 的 3D 重修算法将场景复原。
一个典型的 SCI 体系使用 2D 传感器,可以在单次丈量中将高维数据(如视频、多帧图象、高光谱图象等)紧缩成一张 2D 图片。在从事丈量后,需要通过重修算法将 2D 丈量数据复原为原始的高维数据,该过程涉及求解逆问题。近年来,深度学习的发展促进了 SCI 重修算法的快速发展。然而,当前的重修算法并没有考虑被拍摄场景的 3D 结构,只能单纯地逐帧复原 2D 图象。且当前的重修算法依然存在准确性低、稳定性差、泛化性不足等问题。
和已有的单张图象生成 3D 方式相比,本文中的方式不需要依赖任何预训练的模型即可从单张图片中重修 3D 场景。和传统 SCI 重修方式相比,该歇息借助 NeRF 强大的 3D 场景估计能力和图象衬着能力,实现了高质量的 3D 场景重修,并可以衬着高帧率的场景图象。
同时,由于 NeRF 实行测试时间优化 (Test-time Optimization, TTO),该方式具有极佳的泛化性。在各种合成数据集和真正数据上,对结果的定性和定量评估都证明了该方式优异的本能表现。
作为输入的单张紧缩图象和从重修的 3D 场景衬着出的新视角图象
本文的主要贡献如下:
提出了一种全新的鉴于 SCI 成像与 NeRF 的 3D 场景重修算法,实现了从单张紧缩图象端到端重修 3D 场景。
从事了广泛的尝试,评估了本文中的方式在 3D 场景重修和 SCI 图象 / 视频重修使命上的本能表现。在合成数据集和真正数据集上,该方式均显著优于已有方式。
该方式在场景加密与解密、图象紧缩、高速摄像等领域具有极大的应用前景。
二、方式介绍
硬件设计
受益于新颖的光学硬件和成像算法的设计,单曝光紧缩成像体系可以在一次紧缩丈量中,将高维数据(例如视频、高光谱图象)从事采样和紧缩,从而实现了通过 2D 传感器(如 CCD/CMOS 相机)高效获取视觉信号。本文通过单次丈量时间内拍摄快速移动的场景,将多视角图象信息紧缩到单张图象中。
单曝光紧缩成像 (SCI) 体系使用 2D 传感器在丈量中捕获高维数据
模型架构
为从 SCI 图象中端到端重修 3D 场景,本文提出了一种鉴于 NeRF 的重修方式。由于传统的 NeRF 方式需要多视角图象及其对应的相机姿态作为输入,因此本文对 NeRF 的训练机制从事了大幅度改进。
首先,在训练 NeRF 时,将相机位姿作为优化参数,与 NeRF 的神经网络一同优化。由于在拍摄场景时丈量时间很短,SCI 体系相对场景运动的幅度较小,因此该歇息假设拍摄时体系作匀速直线运动,大幅降低了训练复杂度。对于比较复杂的运动轨迹,可以使用更复杂的运动模型来优化运行轨迹。
其次,通过模拟 SCI 体系的成像原理,将各个视角下衬着出的图象从事采样并紧缩,得到一张合成的 SCI 图象来与真正测得的 SCI 图象计算误差并从事反向传导,从而实现使用单张图片从事端到端训练。通过以上训练机制,可以从 SCI 图象中直接获得重修好的 3D 场景(具体推导过程请见论文)。
最后,当场景重修好后,利用 NeRF 强大的图象衬着能力,可以获得恢复的图象。
本论文中的模型训练机制。通过共同优化相机位姿和 NeRF 神经网络,并模拟 SCI 成像机理,合成一张 SCI 图象与实际丈量得到的 SCI 图象计算误差并反向传导,从而实现鉴于单张 SCI 图象的端到端 3D 场景重修
三、尝试
定量尝试
尝试部分,本文鉴于 3D 重修领域常见的几个数据集合成了 SCI 数据集,并在该数据集上对本文提出的模型和几种已有的 SCI 图象重修算法从事了对比尝试。首先通过尝试,比较了几种方式在 SCI 图象 / 视频复原使命上的本能。
在 SCI 图象 / 视频复原使命上与已有方式的对比
同时,本文还比较了几种方式在 3D 场景重修使命上的本能表现。由于已有方式只能逐帧复原 2D 图象,因此在从事 3D 场景重修使命比较时,将已有方式输出的图片使用 NeRF 重修对应场景并比较本能。
在 3D 场景重修使命上与已有方式的对比
尝试结果表明本文提出的方式本能显著优于已有方式。
定性尝试
除此之外,本文还通过搭建 SCI 成像体系获取了真正数据集,并从事了定性尝试。尝试结果表明在真正数据集上本文提出的方式仍显著优于已有方式。
利用搭建的 SCI 成像体系,本文在真正数据集上与已有歇息从事了定性对比尝试。尝试结果表明该歇息在真正数据集上仍显著优于已有歇息
四、结论
本文提出了一种鉴于单曝光成像和 NeRF 的 3D 场景重修方式,实现了不依赖任何预训练生成模型的端到端单张图象重修 3D 场景。本文通过大幅度改进 NeRF 训练机制,利用 SCI 图象中隐含的 3D 信息,成功将其中的 3D 场景从事复原,并利用 NeRF 强大的图象衬着能力从场景中衬着高质量、高帧率图象。
尝试结果表明,该方式不仅可以重修高质量 3D 场景,还在传统的 SCI 图象 / 视频复原使命上显著优于已有方式。这为未来在高速 3D 摄像、3D 场景加密与解密、图象与视频信息紧缩等领域的应用开辟了新的可能性。