画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

现在,通过文本提示和一个 2D 边境框,我们就能在 3D 场景中生成工具。看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本框中输出文本「在托盘上增添意大利面包」,魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。房间的地板上看起来太空荡了,想加个凳子,只需在你中意的地方框一下,然后输出文本「在地板上增添一个矮凳」,一张凳子就出现了:相同的操作方式,在圆桌上增添一个茶杯:玩具旁边摆放一只手提包统统都可以:我们可以从以上示例看出,新生成的方向可以插在场景中的任意位子,还能很好地与原

现在,通过文本提示和一个 2D 边境框,我们就能在 3D 场景中生成工具。

看到下面这张图了没?一开始,盘子里是没有东西的,但当你在托盘上画个框,然后在文本框中输出文本「在托盘上增添意大利面包」,魔法就出现了:一个看起来美味可口的面包就出现在你的眼前。

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

房间的地板上看起来太空荡了,想加个凳子,只需在你中意的地方框一下,然后输出文本「在地板上增添一个矮凳」,一张凳子就出现了:

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

相同的操作方式,在圆桌上增添一个茶杯:

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

玩具旁边摆放一只手提包统统都可以:

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

我们可以从以上示例看出,新生成的方向可以插在场景中的任意位子,还能很好地与原场景举行混合。

上述研讨来自苏黎世联邦理工学院和谷歌,在论文《InseRF: Text-Driven Generative Object Insertion in Neural 3D Scenes》中,他们提出了一种名为 InseRF 的 3D 场景重修法子。InseRF 能基于用户供应的文本描述和参照视点中的 2D 边境框,在 3D 场景中生成新工具。

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

论文地址:https://arxiv.org/pdf/2401.05335.pdf

项目地址:https://mohamad-shahbazi.github.io/inserf/

项目主页:https://mohamad-shahbazi.github.io/inserf/

在与其他法子的比较中,对于要求在玩具旁边渲染出一个杯子,I-N2N 直接改变了玩具原来的模样, MV-Inpainting 给出的结果更加糟糕,只有 InseRF 符合要求。

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

从左到右分别是原场景、 I-N2N 法子、 MV-Inpainting 以及 InseRF

这项研讨重点关注在 3D 场景中拔出生成工具(generative object insertion),这种方式在跨多个视图的同时还能保持一致,并且新生成的工具可以摆放在场景中的任意位子上。

一般来讲,应用 2D 生成模型在 3D 场景中拔出生成工具是一项特别具有挑战性的任务,因为它需要在不同视点中实现 3D 一致的工具生成和搁置。一种简单的法子是应用 3D 形状生成模型单独生成所需的工具,并应用 3D 空间信息将它们拔出场景中。 

然而,这种法子需要 3D 工具的准确位子、方向和比例。此外,与场景无关的工具生成可能会导致场景的样式和外表与拔出工具之间的不匹配。 

本文提出的 InseRF 很好地解决了上述问题,能够应用工具的文本描述和单视图 2D 边境框作为空间指导,在 3D 场景中举行场景感知生成和拔出工具。

 法子介绍

本文将 3D 场景的 NeRF 重修、要拔出方向工具的文本描述以及 2D 边境框作为输出。输出结果会返回同一场景的 NeRF 重修,并且还包含在 2D 边境框里生成的方向 3D 工具。

值得注意的是,由于研讨者还会用散布模型先验来举行精确的 2D 定位,InseRF 只需要一个粗略的边境框就可以了。

InseRF 由五个主要步骤组成:

1)基于文本提示和 2D 边境框,在选定的场景参照视图中创建方向工具的 2D 视图; 

2) 根据生成的参照图像中的 2D 视图重修 3D 工具 NeRF; 

3) 借助单目深度估计来估计场景中工具的 3D 位子; 

4) 将工具和场景 NeRF 混合成一个包含估计搁置物体的单个场景; 

5) 对混合的 3D 表示应用细化步骤以进一步改进拔出的工具。

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

编辑参照视图

编辑 pipeline:首先选择场景的一个渲染视图作为参照,并根据用户供应的文本提示和 2D 边境框拔出方向工具的 2D 视图。参照视图用于供应参照外表和位子来为 3D 拔出奠定基础。

为了确保输出边境框中的局部 2D 拔出,本文选择掩码条件修复法子作为 2D 生成模型。具体来说,他们选择 Imagen,这是一种强大的文本到图像散布模型,并通过应用 RePaint(一种应用散布模型举行掩码条件修复的法子)进一步使其适应掩码条件。

单视图工具重修

获得参照编辑视图后,本文提取边境框内生成工具的 2D 视图并构建其 3D 重修。本文建议利用最新的单视图工具重修范式,即应用 3D 感知散布模型。此类重修法子通常在大规模 3D 形状数据集(例如 Objaverse )上举行训练,因此包含对 3D 工具的几何形状和外表的强大先验。

本文应用最近提出的 SyncDreamer 举行工具重修,它在重修质量和效率之间供应了良好的权衡。

实验

该研讨在 MipNeRF-360 和 Instruct-NeRF2NeRF 数据集上举行了评估。

此外,该研讨还将 InseRF 与基线法子举行了比较,包括 Instruct-NeRF2NeRF (I-N2N) 、 Multi-View Inpainting (MV-Inpainting) 。

为了评估 InseRF 生成拔出工具的能力,该研讨在图 3 中供应了将 InseRF 应用于不同 3D 场景的可视化示例。如图所示,InseRF 可以在场景中拔出 3D 一致的工具。值得注意的是,InseRF 能够在不同表面上拔出工具,这在缺乏精确 3D 搁置信息的情况下是一项具有挑战性的任务。

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

图 4 是与基线法子的比较。由结果可知,应用 I-N2N 会导致场景中的全局更改,并且这种改变是更改现有工具而不是创建新工具,例如 I-N2N 把 4a 中的乐高卡车变成了一个马克杯,把 4b 中厨房柜台上的物品变成了一个餐盘。

画个框、输出文字,面包即刻出现:AI开始在3D场景「无中生有」了

给TA打赏
共{{data.count}}人
人已打赏
应用

纪念碑谷式错觉图象都被「看穿」,港大、TikTok的Depth Anything火了

2024-1-24 11:07:00

应用

首个通用双向Adapter多模态宗旨追踪方式BAT,入选AAAI 2024

2024-1-24 14:41:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索