美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编写办法 ——CustomNeRF,同时支持文本描绘和参照图象作为 3D 场景的编写提醒,该研究成果已被 CVPR 2024 接收。
自 2020 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来,将隐式表达推上了一个新的高度。作为当前最前沿的技术之一,NeRF 快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域,并持续受到广泛关注。
有赖于易于优化和连续表示的特点,NeRF 在 3D 场景重修中有着大量应用,也带动了 3D 场景编写领域的研究,如 3D 对象或场景的纹理重绘、风格化等。为了进一步提高 3D 场景编写的灵活性,近期基于预训练散布模型举行 3D 场景编写的办法也正在被大量探索,但由于 NeRF 的隐式表征以及 3D 场景的多少特性,获得符合文本提醒的编写结果并非易事。
为了让文本启动的 3D 场景编写也可能实现精准控制,美图影像研究院(MT Lab)与中国科学院信息工程研究所、北京航空航天大学、中山大学,共同提出了一种将文本描绘和参照图象统一为编写提醒的 CustomNeRF 框架,可以通过微调预训练的散布模型将参照图象中包含的特定视觉主体 V∗嵌入到混合提醒中,从而满足一般化和定制化的 3D 场景编写要求。该研究成果目前已被 CVPR 2024 收录,代码已开源。
论文链接:https://arxiv.org/abs/2312.01663
代码链接:https://github.com/hrz2000/CustomNeRF
图 1:CustomNeRF 在文本启动(左)和图象启动(右)的编写效果
CustomNeRF 解决的两大挑战
目前,基于预训练散布模型举行 3D 场景编写的主流办法主要分为两类。
其一,是使用图象编写模型迭代地更新数据集中的图象,但是受限于图象编写模型的能力,会在部分编写情形下失效。其二,则是利用分数蒸馏采样(SDS)损失对场景举行编写,但由于文本和场景之间的对齐问题,这类办法在真实场景中无法直接适配,会对非编写地区造成不必要的修改,往往需要 mesh 或 voxel 等显式中间表达。
此外,当前的这两类办法主要集中在由文本启动的 3D 场景编写任务中,文本描绘往往难以准确表达用户的编写需求,无法将图象中的具体概念定制化到 3D 场景中,只能对原始 3D 场景举行一般化编写,因此难以获得用户预期中的编写结果。
事实上,获得预期编写结果的关键在于精确识别图象远景地区,这样可能在保持图象配景的同时促进多少一概的图象远景编写。
因此,为了实现仅对图象远景地区举行准确编写,该论文提出了一种全部 – 全部迭代编写(LGIE)的训练方案,在图象远景地区编写和全图象编写之间交替举行。该方案可能准确定位图象远景地区,并在保留图象配景的同时仅对图象远景举行操作。
此外,在由图象启动的 3D 场景编写中,存在因微调的散布模型过拟合到参照图象视角,所造成的编写结果多少不一概问题。对此,该论文设计了一种类引导的正则化,在全部编写阶段仅使用类词来表示参照图象的主体,并利用预训练散布模型中的一般类先验来促进多少一概的编写。
CustomNeRF 的整体流程
如图 2 所示,CustomNeRF 通过 3 个步骤,来实现在文本提醒或参照图象的指导下精确编写重修 3D 场景这一目标。
图 2 CustomNeRF 的整体流程图
首先,在重修原始的 3D 场景时,CustomNeRF 引入了额外的 mask field 来估计除常规颜色和密度之外的编写概率。如图 2(a) 所示,对于一组需要重修 3D 场景的图象,该论文先使用 Grouded SAM 从自然语言描绘中提取图象编写地区的掩码,结合原始图象集训练 foreground-aware NeRF。在 NeRF 重修后,编写概率用于区分要编写的图象地区(即图象远景地区)和不相关的图象地区(即图象配景地区),以便于在图象编写训练过程中举行解耦合的衬着。
其次,为了统一图象启动和文本启动的 3D 场景编写任务,如图 2(b)所示,该论文采用了 Custom Diffusion 的办法在图象启动条件下针对参照图举行微调,以学习特定主体的关键特征。经过训练后,特殊词 V∗可以作为常规的单词标记用于表达参照图象中的主体概念,从而形成一个混合提醒,例如 “a photo of a V∗ dog”。通过这种方式,CustomNeRF 可能对自适应类型的数据(包括图象或文本)举行一概且有效的编写。
在最终的编写阶段,由于 NeRF 的隐式表达,如果使用 SDS 损失对整个 3D 地区举行优化会导致配景地区发生显著变化,而这些地区在编写后理应与原始场景保持一概。如图 2(c)所示,该论文提出了全部 – 全部迭代编写(LGIE)方案举行解耦合的 SDS 训练,使其可能在编写布局地区的同时保留配景内容。
具体而言,该论文将 NeRF 的编写训练过程举行了更精细的划分。借助 foreground-aware NeRF,CustomNeRF 可以在训练中灵活地控制 NeRF 的衬着过程,即在固定相机视角下,可以选择衬着远景、配景、以及包含远景和配景的常规图象。在训练过程中,通过迭代衬着远景和配景,并结合相应的远景或配景提醒,可以利用 SDS 损失在不同层面编写当前的 NeRF 场景。其中,全部的远景训练使得在编写过程中可能只关注需编写的地区,简化复杂场景中编写任务的难度;而全部的训练将整个场景考虑在内,可能保持远景和配景的协调性。为了进一步保持非编写地区不发生改变,该论文还利用编写训练前的配景监督训练过程中所新衬着的配景,来保持配景像素的一概性。
此外,图象启动 3D 场景编写中存在着加剧的多少不一概问题。因为经过参照图象微调过的散布模型,在推理过程中倾向于产生和参照图象视角相近的图象,造成编写后 3D 场景的多个视角均是前视图的多少问题。为此,该论文设计了一种类引导的正则化策略,在全部提醒中使用特殊描绘符 V*,在全部提醒中仅使用类词,以利用预训练散布模型中包含的类先验,使用更多少一概的方式将新概念注入场景中。
实验结果
如图 3 和图 4 展示了 CustomNeRF 与基线办法的 3D 场景重修结果对比,在参照图象和文本启动的 3D 场景编写任务中,CustomNeRF 均取得了不错的编写结果,不仅与编写提醒达成了良好的对齐,且配景地区和原场景保持一概。此外,表 1、表 2 展示了 CustomNeRF 在图象、文本启动下与基线办法的量化比较,结果显示在文本对齐指标、图象对齐指标和人类评估中,CustomNeRF 均超越了基线办法。
图 3 图象启动编写下与基线办法的可视化比较
图 4 文本启动编写下与基线的可视化比较
表 1 图象启动编写下与基线的定量比较
表 2 文本启动编写下与基线的定量比较
总结
本论文创新性地提出了 CustomNeRF 模型,同时支持文本描绘或参照图象的编写提醒,并解决了两个关键性挑战 —— 精确的仅远景编写以及在使用单视图参照图象时多个视图的一概性。该方案包括全部 – 全部迭代编写(LGIE)训练方案,使得编写操作可能在专注于远景的同时保持配景不变;以及类引导正则化,减轻图象启动编写中的视图不一概,通过大量实验,也验证了 CustomNeRF 在各种真实场景中,可能准确编写由文本描绘和参照图象提醒的 3D 场景。