AIxiv专栏是机器之心发布学术、技术实质的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇实质,覆盖全球各大高校与企业的顶级尝试室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]。
来自香港科技大学,清华大学的研究者提出了「GenN2N」,一个统一的生成式 NeRF-to-NeRF 变换框架,适用于各种 NeRF 变换任意,例如文字启动的 NeRF 编写、着色、超分辨率、建设等,性能均表现极其出色!
论文地址:https://arxiv.org/abs/2404.02788
论文主页:https://xiangyueliu.github.io/GenN2N/
Github 地址:https://github.com/Lxiangyue/GenN2N
论文标题:GenN2N: Generative NeRF2NeRF Translation
近年来,神经辐射场(NeRF)因其紧凑、高质量、多功能性在三维重建、三维生成和新视角合成领域引起了广泛关注。然而,一旦创建了 NeRF 场景,这些办法通常缺乏对生成几何和外观的进一步控制。因此,NeRF 编写(NeRF Editing)最近成为了一个值得关注的研究重点。
目前的 NeRF 编写办法通常是针对一定任意的,例如 NeRF 的文本启动编写、超分辨率、建设和着色。这些办法需要大量的一定任意领域知识。而在 2D 图象编写领域,开发通用的图象到图象(Image-to-image)变换办法成为一种趋势,例如利用 2D 生成模型 Stable Difussion 支持多功能的图象编写。因此,我们提出了利用基础的 2D 生成模型进行通用的 NeRF 编写。
随之而来的挑战是 NeRF 和 2D 图象之间的表示差距,尤其是图象编写器通常会为不同视角生成多种不一致的编写。最近的一种基于文本的 NeRF 编写办法 Instruct-NeRF2NeRF 对此进行了探究。其采用 “衬着 – 编写 – 聚合” 的流程,通过逐步衬着多视角图象、编写这些图象,将编写图象聚合到 NeRF 中逐步更新 NeRF 场景。然而这种编写办法,针对一定的编写需求,经过大量的优化,只能生成一种一定编写的结果,如果用户不满意则需要反复迭代尝试。
因此,我们提出了「GenN2N」,一种适用于多种 NeRF 编写任意的 NeRF-to-NeRF 通用框架,其核心在于用生成的方式来刻画编写过程多解性,使其可以借助生成式编写轻松产生大量符合要求的编写结果供用户挑选。
在 GenN2N 的核心部分,1)引入了 3D VAE-GAN 的生成式框架,使用 VAE 表征整个编写空间,来学习与一组输出的 2D 编写图象对应的所有可能的 3D NeRF 编写分布,并用 GAN 为编写 NeRF 的不同视图提供合理的监督,确保编写结果的真实性,2)使用比拟学习解耦编写实质和视角,确保不同视角间的编写实质一致性,3)在推理时,用户简单地从条件生成模型中随机地采样出多个编写码,就可以生成与编写目标对应的各种 3D 编写结果。
相比于各种 NeRF 编写任意的 SOTA 办法(ICCV2023 Oral 等),GenN2N 在编写质量、多样性、效率等方面均优于已有办法。
办法介绍
我们首先进行 2D 图象编写,然后将这些 2D 编写提升到 3D NeRF 来实现生成式的 NeRF-to-NeRF 的变换。
A. 隐式蒸馏(Latent Distill)
我们用 Latent Distill Module 作为 VAE 的 encoder,为每张编写图象学习一个隐式的编写码,在 NeRF-to-NeRF 变换中通过此编写码控制生成的实质。所有编写码在 KL loss 的约束下服从一个良好的正态分布,以便更好地采样。为了解耦编写实质和视角,我们精心设计了比拟学习,鼓励相同编写风格视角不同的图片的编写码相近,不同编写风格但视角相同的图片的编写码互相远离。
B.NeRF-to-NeRF 的变换(Translated NeRF)
我们用 NeRF-to-NeRF Translation 作为 VAE 的 decoder,其以编写码作为输出,将原始的 NeRF 修改为一个变换 NeRF。我们在原 NeRF 网络隐藏层之间添加了残差层,这些残差层以编写码作为输出来调制隐藏层神经元,使得变换 NeRF 既能够保留原本 NeRF 的信息,又可以根据编写码来控制变换 3D 实质。同时,NeRF-to-NeRF Translation 也作为生成器参与生成对抗训练。通过生成而非优化的方式,使得我们可以一次性得到多种变换结果,显著提升了 NeRF 变换效率和结果多样性。
C. 条件判断器(Conditional Discriminator)
变换 NeRF 的衬着图片构成了需要判断的生成空间,这些图片的编写风格、衬着视角各异,导致生成空间非常复杂。因此我们提供一个 condition 作为判断器的额外信息。具体而言,判断器在鉴别生成器的衬着图片(负样本)或训练数据中的编写图片(正样本)时,我们都从训练数据中再挑选一张相同视角的编写图片作为条件,这使得判断器在鉴别正负样本时不会受到视角因素的干扰。
D. 推理(Inference)
在 GenN2N 优化后,用户可以从正态分布中随机采样出编写码,输出变换 NeRF 即可生成出编写后的高质量、多视角一致性的 3D NeRF 场景。
尝试
我们在多种 NeRF-to-NeRF 任意上进行了大量的尝试,包括 NeRF 文本启动编写、着色、超分辨率、建设等。尝试结果展示了 GenN2N 卓越的编写质量、多视角一致性、生成的多样性和编写效率。
A. 基于文本的 NeRF 编写B.NeRF 着色 C.NeRF 超分辨率 D.NeRF 建设
比拟尝试
我们的办法与各种一定 NeRF 任意的 SOTA 办法进行了定性和定量比拟(包括文本启动编写、着色、超分辨率和建设等)。结果表明,GenN2N 作为一个通用框架,其表现与一定任意 SOTA 相当或者更好,同时编写结果具有更强的多样性(如下是 GenN2N 与 Instruct-NeRF2NeRF 在基于文本的 NeRF 编写任意上的比拟)。
A. 基于文本的 NeRF 编写
了解更多尝试、办法实质,请参考论文主页。
团队介绍
该论文来自香港科技大学谭平团队、清华大学 3DVICI Lab、上海人工智能尝试室和上海期智研究院,论文的作者为香港科技大学学生刘襄阅,清华大学学生薛晗,香港科技大学学生罗堃铭,指导老师为清华大学弋力老师和香港科技大学谭平老师。