重塑3D生成核心实际：VAST、港大、清华用「零」训练数据生成了3D模型

AI 生成 3D 模型最难的一关，终于被搞定了。无需任何训练数据，只需对着模型形容一句话，如「一个做作业的香蕉人」：或是「一只戴着 VR 眼镜的猫」：就能生成符合形容的带有高质量纹理贴图的 3D 场景。不仅如此，还能对已有的 3D 模型进行精细化贴图。这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新要领，它能够从复杂的文本形容中，直接生成富有想象力的高质量 3D 模型。目前，这项研究成果已被人工智能顶级会议 ICLR 2024 收录，代码也已经开源。对这项研究感兴趣的小伙伴，可以戳下方项目主

AI 生成 3D 模型最难的一关，终于被搞定了。

无需任何训练数据，只需对着模型形容一句话，如「一个做作业的香蕉人」：

或是「一只戴着 VR 眼镜的猫」：

重塑3D生成核心实际：VAST、港大、清华用「零」训练数据生成了3D模型

就能生成符合形容的带有高质量纹理贴图的 3D 场景。不仅如此，还能对已有的 3D 模型进行精细化贴图。

重塑3D生成核心实际：VAST、港大、清华用「零」训练数据生成了3D模型

这是港大与清华大学联合 3D 生成明星公司 VAST AI 研发的一种新要领，它能够从复杂的文本形容中，直接生成富有想象力的高质量 3D 模型。

重塑3D生成核心实际：VAST、港大、清华用「零」训练数据生成了3D模型

目前，这项研究成果已被人工智能顶级会议 ICLR 2024 收录，代码也已经开源。对这项研究感兴趣的小伙伴，可以戳下方项目主页和论文地址查看。

论文地址：https://arxiv.org/abs/2310.19415

项目地址：https://xinyu-andy.github.io/Classifier-Score-Distillation

代码地址：https://github.com/CVMI-Lab/Classifier-Score-Distillation

论文标题：Text-to-3D with Classifier Score Distillation

所以它究竟是如何做到的？在了解新要领是什么之前，我们先来了解目前已有的要领存在什么问题。

传统生成模型面临的困境

在交互式游戏、电影艺术、增强 / 虚拟现实以及仿真技术等多个应用场景中，高质量的三维资产创建一直是一个重要且具有挑战性的问题。

目前大多数生成模型都依赖于本畛域的大量高质量数据做训练，但在 3D 畛域，这样的数据集非常匮乏。这导致目前鉴于 3D 数据训练的 3D 生成模型的效果还无法复刻图像畛域的成功。

鉴于 2D 先验的 3D 生成要领

为了解决这一问题，Google 的 Dream Fusion 首次提出 Score Distillation Sampling（SDS）的要领，证明了可以通过预训练的二维扩散模型生成高质量和复杂的三维结果。这一范式的优势在于无需任何 3D 数据预训练即可生成 3D 模型，这一架构也一直被研究者们和后续工作所沿用，例如 Nvidia 的 Magic3D 等。其核心实际在于通过激励其渲染图像移向文本条件下的高概率密度区域，来反向生成 3d 场景。

尽管鉴于 SDS 的要领取得了令人瞩目的成果，然而，本文的研究者们发现，鉴于 SDS 的要领在实际实现中总是与实际出现一些差距，主要是因为普遍依赖于 Classifier-Free Guidance (CFG)。

在使用 CFG 时，推动优化的梯度实际上包含两个部分：一是数据密度的梯度，二是后验函数的梯度。其中前者对应于 SDS 实际中的关键部分，而后者仅仅是在试验过程中才加入的辅助手段。

分类器分数蒸馏：重塑 3D 生成的关键所在

这篇论文的核心贡献，在于重新评估了 SDS 中 CFG 的角色，发现 CFG 不仅仅是辅助手段，恰恰相反，它才是文本到三维生成中的关键驱动。由于这一部分可以被解释为一个隐式的分类模型，研究者们将这一新范式命名为分类器分数蒸馏（Classifier Score Distillation, CSD）。

这一发现从根本上改变了我们对鉴于分数蒸馏成功的文本到三维生成机制的理解。具体而言，其有效性来自于从隐式分类器中提炼知识，而不是依赖于生成先验。

CSD 的引入使得我们能够重新审视现有技术设计选择。例如，研究者们展示了负面提示可以被视为负分类器分数，从而制定了一个渐进式的负分类器分数优化策略，这增强了生成质量，同时保持了与提示的结果忠实度。

此外，研究还揭示了利用分类器分数进行高效的鉴于文本驱动的三维编写的可能性，以及将变分分数蒸馏技术 (Variational Score Distillation) 视为一种自适应性的负分类器分数优化形式。

试验效果

CSD 不仅在实际上对文本到三维生成畛域提供了新的视角，而且在实际应用中也表现出优越的性能。

在主要的 3D 生成任务上的试验结果显示，在文本对齐和视觉质量方面，该要领相较于 Dream Fusion、Magic3D、Fantasia3D 等现有技术有显著提升，生成的纹理也真实丰富。

在速度上，CSD 在单个 A800 GPU 上只需 1 小时即可完成任务，而能达到同样视觉效果的 Prolific Dreamer 要领则需要长达 8 小时。这一显著的速度优势，加上其出色的生成质量，证明了 CSD 技术的高效性和实用性。

此外，定量评估中采用的 CLIP R-Precision 指标进一步证实了 CSD 的优越性。用户研究也显示 59.4% 的参与者更倾向于选择 CSD 生成的结果。

重塑3D生成核心实际：VAST、港大、清华用「零」训练数据生成了3D模型