单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

3D 生成是 AI 视觉领域的研究热点之一。本文中，来自 Adobe 研究院和斯坦福大学等机构的研究者利用鉴于 transformer 的 3D 大型重修模型来对多视图聚集从事去噪，并提出了一种新颖的 3D 生成格式 DMV3D，兑现了新的 SOTA 结果。2D 聚集模型极大地简化了图象内容的创作流程，2D 设计行业也因此发生了变革。近来，聚集模型已扩展到 3D 创作领域，减少了应用程序（如 VR、AR、机器人技术和游戏等）中的人工成本。有许多研究已经对应用预训练的 2D 聚集模型，生成具有评分蒸馏采样（SDS）损

3D 生成是 AI 视觉领域的研究热点之一。本文中，来自 Adobe 研究院和斯坦福大学等机构的研究者利用鉴于 transformer 的 3D 大型重修模型来对多视图聚集从事去噪，并提出了一种新颖的 3D 生成格式 DMV3D，兑现了新的 SOTA 结果。

2D 聚集模型极大地简化了图象内容的创作流程，2D 设计行业也因此发生了变革。近来，聚集模型已扩展到 3D 创作领域，减少了应用程序（如 VR、AR、机器人技术和游戏等）中的人工成本。有许多研究已经对应用预训练的 2D 聚集模型，生成具有评分蒸馏采样（SDS）损失的 NeRFs 格式从事了探索。然而，鉴于 SDS 的格式通常需要花费数小时来优化资源，并且经常引发图形中的几何问题，比如多面 Janus 问题。

另一方面，研究者对无需花费大量时间优化每个资源，也能够兑现多样化生成的 3D 聚集模型也从事了多种尝试。这些格式通常需要获取包含真实数据的 3D 模型 / 点云用于训练。然而，对于真实图象来说，这种训练数据难以获得。由于目前的 3D 聚集格式通常鉴于两阶段训练，这导致在不分类、高度多样化的 3D 数据集上存在一个模糊且难以去噪的潜在空间，使得高质量衬着成为亟待解决的挑战。

为了解决这个问题，已经有研究者提出了单阶段模型，但这些模型大多数只针对特定的简单类别，泛化性较差。

因此，本文研究者的目标是兑现快速、逼真和通用的 3D 生成。为此，他们提出了 DMV3D。DMV3D 是一种全新的单阶段的全类别聚集模型，能直接根据模型文字或单张图片的输出，生成 3D NeRF。在单个 A100 GPU 上，仅需 30 秒，DMV3D 就能生成各种高保真 3D 图象。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

具体来讲，DMV3D 是一个 2D 多视图图象聚集模型，它将 3D NeRF 重修和衬着集成到其降噪器中，以端到端的方式从事训练，而无需直接 3D 监督。这避免了单独训练用于潜在空间聚集的 3D NeRF 编码器（如两阶段模型）和繁琐的对每个工具从事优化的格式（如 SDS）中会出现的问题。

本质上，本文的格式是对 2D 多视图聚集的框架从事 3D 重修。这种格式受到了 RenderDiffusion 的启发，它是一种通过单视图聚集兑现 3D 生成的格式。然而，RenderDiffusion 的局限性在于，训练数据需要特定类别的先验知识，数据中的工具也需要特定的角度或姿势，因此泛化性很差，无法对任意类型的工具从事 3D 生成。

相比之下，研究者认为一组稀疏的包含一个工具的四个多视角的投影，足以描述一个没有被遮挡的 3D 物体。这种训练数据的输出源于人类的空间想象能力。他们可以根据几个工具的周围的立体视图，想象出一个完整的 3D 物体。这种想象通常是非常确定和具像化的。

然而，利用这种输出本质上仍需解决稀疏视图下 3D 重修的任务。这是一个长期存在的问题，即使在输出没有噪声的情况下，也是一个非常具有挑战性的问题。

本文的格式能够鉴于单个图象 / 文本兑现 3D 生成。对于图象输出，他们固定一个稀疏视图作为无噪声输出，并对其他视图从事类似于 2D 图象修复的降噪。为了兑现鉴于文本的 3D 生成，研究者应用了在 2D 聚集模型中通常会用到的、鉴于注意力的文本条件和不受类型限制的分类器。

他们只采用了图象空间监督，在 Objaverse 合成的图象和 MVImgNet 真实捕获的图象组成的大型数据集上从事了训练。从结果来看，DMV3D 在单图象 3D 重修方面取得了 SOTA，超越了先前鉴于 SDS 的格式和 3D 聚集模型。DMV3D 生成的鉴于文本的 3D 模型，也优于此前的格式。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

论文地址：https://arxiv.org/pdf/2311.09217.pdf

官网地址：https://justimyhxu.github.io/projects/dmv3d/

我们来看一下生成的 3D 图象效果。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

格式概览

单阶段 3D 聚集模型是如何训练并推理的呢？

研究者首先引入了一种新的聚集框架，该框架应用鉴于重修的降噪器来对有噪声的多视图图象去噪以从事 3D 生成；其次他们提出了一种新的、以聚集时间步为条件的、鉴于 LRM 的多视图降噪器，从而通过 3D NeRF 重修和衬着来渐进地对多视图图象从事去噪；最后进一步对模型从事聚集，支持文本和图象调剂，兑现可控生成。

多视图聚集和去噪

多视图聚集。2D聚集模型中处理的原始 x_0 分布在数据集中是单个图象分布。相反，研究者考虑的是多视图图象单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式的联合分布，其中每组都是从视点 C = {c_1, .. ., c_N} 中相同 3D 场景（资产）的图象观察结果。聚集过程相当于应用相同的噪声调度独立地对每个图象从事聚集操作，如下公式 (1) 所示。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

鉴于重修的去噪。2D 聚集过程的逆过程本质上是去噪。本文中，研究者提出利用 3D 重修和衬着来兑现 2D 多视图图象去噪，同时输出干净的、用于 3D 生成的 3D 模型。具体来讲，他们应用 3D 重修模块 E (・) 来从有噪声的多视图图象单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式中重修 3D 表示 S，并应用可微衬着模块 R (・) 对去噪图象从事衬着，如下公式 (2) 所示。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

鉴于重修的多视图降噪器

研究者鉴于 LRM 构建了多视图降噪器，并应用大型 transformer 模型从有噪声的稀疏视图姿态图象中重修了一个干净的三立体 NeRF，然后将重修后的三立体 NeRF 的衬着用作去噪输出。

重修和衬着。如下图 3 所示，研究者应用一个 Vision Transformer（DINO）来将输出图象单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式转化为 2D token，然后应用 transformer 将学得的三立体位置嵌入映射到最后的三立体，以表示资产的 3D 形状和外观。接下来将预测到的三立体用来通过一个 MLP 来解码体积密度和颜色，以从事可微体积衬着。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

时间调剂。与鉴于 CNN 的 DDPM（去噪聚集概率模型）相比，本文鉴于 transformer 的模型需要不同的时间调剂设计。

相机调剂。在具有高度多样化的相机内参和外参的数据集（如 MVImgNet）上训练本文的模型时，研究者表示需要对输出相机调剂从事有效的设计，以促使模型理解相机并兑现 3D 推理。

在单个图象或文本上调剂

以上格式使研究者提出的模型可以充当一个无条件生成模型。他们介绍了如何利用条件降噪器单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式来对条件概率分布从事建模，其中 y 表示文本或图象，以兑现可控 3D 生成。

图象调剂。研究者提出了一种简单但有效的图象调剂策略，其中不需要改变模型的架构。

文本调剂。为了将文本调剂添加到自己的模型中，研究者采用了类似于 Stable Diffusion 的策略。他们应用 CLIP 文本编码器生成文本嵌入，并应用交叉注意力将它们注入到降噪器中。

训练和推理

训练。在训练阶段，研究者在范围 [1, T] 内均匀地采样时间步 t，并根据余弦调度来添加噪声。他们应用随机相机姿态对输出图象从事采样，还随机采样额外的新视点来监督衬着以获得更好的质量。

研究者应用条件信号 y 来最小化以下训练目标。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

推理。在推理阶段，研究者选择了以圆圈均匀围绕工具的视点，以确保很好地覆盖生成的 3D 资产。他们将四个视图的相机市场角固定为 50 度。

实验结果

在实验环节，研究者应用了 AdamW 优化器来训练自己的模型，其中初始学习率为 4e^-4。他们针对该学习率应用了 3K 步的预热和余弦衰减，应用 256 × 256 输出图象来训练降噪器，对 128 × 128 的裁剪图象从事衬着以从事监督。

关于数据集，研究者的模型只需多视图姿态图象来训练，因而应用来自 Objaverse 数据集的约 730k 个工具的衬着后多视图图象。对于每个工具，他们按照 LRM 的设置，在对固定 50 度 FOV 的随机视点均匀照明下，衬着了 32 张图象。

首先是单图象重修。研究者将自己的图象 – 调剂模型与 Point-E、Shap-E、Zero-1-to-3 和 Magic123 等以往格式在单图象重修任务上从事了比较。他们应用到的指标有 PSNR、LPIPS、CLIP 相似性得分和 FID，以评估所有格式的新视图衬着质量。

下表 1 分别展示了 GSO 和 ABO 测试集上的定量结果。研究者的模型优于所有基线格式，并在两个数据集上兑现所有指标的新 SOTA。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

图 4 为定性结果，相比基线，本文模型生成的结果具有更高质量的几何和更清晰的外观细节。

相比之下，DMV3D 是一个以 2D 图象为训练目标的单阶段模型，无需对每个资产单独优化，在消除多视图聚集噪声的同时，直接生成 3D NeRF 的模型。总的来说，DMV3D 可以快速生成 3D 图象，并获得最优的单图象 3D 重修结果。

单个A100生成3D图象只需30秒，这是Adobe让文本、图象都动起来的新格式

从文本到 3D。研究者还评估了 DMV3D 鉴于文本的 3D 生成结果。研究者将 DMV3D 和同样能够支持全类别的快速推理的 Shap-E 和 Point-E 从事了比较。研究者让三个模型根据 Shap-E 的 50 个文本提示从事生成，并应用了两个不同的 ViT 模型的 CLIP 精度和平均精度来评估生成结果，如表 2 所示。