CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编写办法 ——CustomNeRF，同时支持文本描绘和参照图象作为 3D 场景的编写提醒，该研究成果已被 CVPR 2024 接收。自 2020 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来，将隐式表达推上了一个新的高度。作为当前最前沿的技术之一，NeRF 快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域，并持续受到广泛关注。有赖于易于优化和连续表示的特点，

美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学共同提出了 3D 场景编写办法 ——CustomNeRF，同时支持文本描绘和参照图象作为 3D 场景的编写提醒，该研究成果已被 CVPR 2024 接收。

自 2020 年神经辐射场 (Neural Radiance Field, NeRF) 提出以来，将隐式表达推上了一个新的高度。作为当前最前沿的技术之一，NeRF 快速泛化应用在计算机视觉、计算机图形学、增强现实、虚拟现实等领域，并持续受到广泛关注。

有赖于易于优化和连续表示的特点，NeRF 在 3D 场景重修中有着大量应用，也带动了 3D 场景编写领域的研究，如 3D 对象或场景的纹理重绘、风格化等。为了进一步提高 3D 场景编写的灵活性，近期基于预训练散布模型举行 3D 场景编写的办法也正在被大量探索，但由于 NeRF 的隐式表征以及 3D 场景的多少特性，获得符合文本提醒的编写结果并非易事。

为了让文本启动的 3D 场景编写也可能实现精准控制，美图影像研究院（MT Lab）与中国科学院信息工程研究所、北京航空航天大学、中山大学，共同提出了一种将文本描绘和参照图象统一为编写提醒的 CustomNeRF 框架，可以通过微调预训练的散布模型将参照图象中包含的特定视觉主体 V∗嵌入到混合提醒中，从而满足一般化和定制化的 3D 场景编写要求。该研究成果目前已被 CVPR 2024 收录，代码已开源。

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

论文链接：https://arxiv.org/abs/2312.01663

代码链接：https://github.com/hrz2000/CustomNeRF

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

图 1：CustomNeRF 在文本启动（左）和图象启动（右）的编写效果

CustomNeRF 解决的两大挑战

目前，基于预训练散布模型举行 3D 场景编写的主流办法主要分为两类。

其一，是使用图象编写模型迭代地更新数据集中的图象，但是受限于图象编写模型的能力，会在部分编写情形下失效。其二，则是利用分数蒸馏采样（SDS）损失对场景举行编写，但由于文本和场景之间的对齐问题，这类办法在真实场景中无法直接适配，会对非编写地区造成不必要的修改，往往需要 mesh 或 voxel 等显式中间表达。

此外，当前的这两类办法主要集中在由文本启动的 3D 场景编写任务中，文本描绘往往难以准确表达用户的编写需求，无法将图象中的具体概念定制化到 3D 场景中，只能对原始 3D 场景举行一般化编写，因此难以获得用户预期中的编写结果。

事实上，获得预期编写结果的关键在于精确识别图象远景地区，这样可能在保持图象配景的同时促进多少一概的图象远景编写。

因此，为了实现仅对图象远景地区举行准确编写，该论文提出了一种全部 – 全部迭代编写（LGIE）的训练方案，在图象远景地区编写和全图象编写之间交替举行。该方案可能准确定位图象远景地区，并在保留图象配景的同时仅对图象远景举行操作。

此外，在由图象启动的 3D 场景编写中，存在因微调的散布模型过拟合到参照图象视角，所造成的编写结果多少不一概问题。对此，该论文设计了一种类引导的正则化，在全部编写阶段仅使用类词来表示参照图象的主体，并利用预训练散布模型中的一般类先验来促进多少一概的编写。

CustomNeRF 的整体流程

如图 2 所示，CustomNeRF 通过 3 个步骤，来实现在文本提醒或参照图象的指导下精确编写重修 3D 场景这一目标。

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

图 2 CustomNeRF 的整体流程图

首先，在重修原始的 3D 场景时，CustomNeRF 引入了额外的 mask field 来估计除常规颜色和密度之外的编写概率。如图 2（a）所示，对于一组需要重修 3D 场景的图象，该论文先使用 Grouded SAM 从自然语言描绘中提取图象编写地区的掩码，结合原始图象集训练 foreground-aware NeRF。在 NeRF 重修后，编写概率用于区分要编写的图象地区（即图象远景地区）和不相关的图象地区（即图象配景地区），以便于在图象编写训练过程中举行解耦合的衬着。

其次，为了统一图象启动和文本启动的 3D 场景编写任务，如图 2（b）所示，该论文采用了 Custom Diffusion 的办法在图象启动条件下针对参照图举行微调，以学习特定主体的关键特征。经过训练后，特殊词 V∗可以作为常规的单词标记用于表达参照图象中的主体概念，从而形成一个混合提醒，例如 “a photo of a V∗ dog”。通过这种方式，CustomNeRF 可能对自适应类型的数据（包括图象或文本）举行一概且有效的编写。

在最终的编写阶段，由于 NeRF 的隐式表达，如果使用 SDS 损失对整个 3D 地区举行优化会导致配景地区发生显著变化，而这些地区在编写后理应与原始场景保持一概。如图 2（c）所示，该论文提出了全部 – 全部迭代编写（LGIE）方案举行解耦合的 SDS 训练，使其可能在编写布局地区的同时保留配景内容。

具体而言，该论文将 NeRF 的编写训练过程举行了更精细的划分。借助 foreground-aware NeRF，CustomNeRF 可以在训练中灵活地控制 NeRF 的衬着过程，即在固定相机视角下，可以选择衬着远景、配景、以及包含远景和配景的常规图象。在训练过程中，通过迭代衬着远景和配景，并结合相应的远景或配景提醒，可以利用 SDS 损失在不同层面编写当前的 NeRF 场景。其中，全部的远景训练使得在编写过程中可能只关注需编写的地区，简化复杂场景中编写任务的难度；而全部的训练将整个场景考虑在内，可能保持远景和配景的协调性。为了进一步保持非编写地区不发生改变，该论文还利用编写训练前的配景监督训练过程中所新衬着的配景，来保持配景像素的一概性。

此外，图象启动 3D 场景编写中存在着加剧的多少不一概问题。因为经过参照图象微调过的散布模型，在推理过程中倾向于产生和参照图象视角相近的图象，造成编写后 3D 场景的多个视角均是前视图的多少问题。为此，该论文设计了一种类引导的正则化策略，在全部提醒中使用特殊描绘符 V*，在全部提醒中仅使用类词，以利用预训练散布模型中包含的类先验，使用更多少一概的方式将新概念注入场景中。

实验结果

如图 3 和图 4 展示了 CustomNeRF 与基线办法的 3D 场景重修结果对比，在参照图象和文本启动的 3D 场景编写任务中，CustomNeRF 均取得了不错的编写结果，不仅与编写提醒达成了良好的对齐，且配景地区和原场景保持一概。此外，表 1、表 2 展示了 CustomNeRF 在图象、文本启动下与基线办法的量化比较，结果显示在文本对齐指标、图象对齐指标和人类评估中，CustomNeRF 均超越了基线办法。

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

图 3 图象启动编写下与基线办法的可视化比较

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

图 4 文本启动编写下与基线的可视化比较

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

表 1 图象启动编写下与基线的定量比较

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

表 2 文本启动编写下与基线的定量比较

总结

本论文创新性地提出了 CustomNeRF 模型，同时支持文本描绘或参照图象的编写提醒，并解决了两个关键性挑战 —— 精确的仅远景编写以及在使用单视图参照图象时多个视图的一概性。该方案包括全部 – 全部迭代编写（LGIE）训练方案，使得编写操作可能在专注于远景的同时保持配景不变；以及类引导正则化，减轻图象启动编写中的视图不一概，通过大量实验，也验证了 CustomNeRF 在各种真实场景中，可能准确编写由文本描绘和参照图象提醒的 3D 场景。

{{userData.name}}已认证

CVPR 2024 | 仅需文本或图象提醒，新框架CustomNeRF精准编写3D场景

谁说大象不能起舞! 重编程大谈话模型实现跨模态交互的时序展望 | ICLR 2024

曾爆火的 InstantID又有了新玩法：格调化图象生成，已开源

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！