Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。该系统不仅能够保持细致的物种特征,还能通过插值和采样生成全新的部件。通过自监督特征一致性损失,Chirpy3D确保了未见部件的稳定生成,展现了其在细粒度3D生成领域的创新能力。
生成的由不同部分组成的活泼的 3D 鸟类。Chirpy3D 从原始 2D 图像中学习部分潜在空间,并且可以通过探索部分潜在空间生成高质量的创意 3D 鸟类。(顶部)现有物种,(底部)新物种
相关链接
- 论文:http://arxiv.org/abs/2501.04144v1
- 主页:https://github.com/kamwoh/chirpy3d
论文介绍
论文将细粒度 3D 生成的边界推向了真正具有创造性的领域。当前的方法要么缺乏复杂的细节,要么只是模仿现有对象——我们同时实现了这两种方法。通过多视图扩散将 2D 细粒度理解提升到 3D,并将部分潜在建模为连续分布,我们解锁了通过插值和采样生成全新但合理部分的能力。自监督特征一致性损失进一步确保了这些看不见的部分的稳定生成。结果是第一个能够创建具有超越现有示例的物种特定细节的新型 3D 对象的系统。虽然我们在鸟类身上展示了我们的方法,但底层框架超越了会鸣叫的事物!
方法
Chirpy3D 的整体架构。(顶部)在训练期间,我们仅使用鸟类的 2D 图像对文本到多视图扩散模型(例如 MVDream)进行微调。我们的目标是通过建模连续的部分感知潜在空间来学习底层的部分信息。这是通过学习一组物种嵌入 e,通过可学习的 f 将它们投射到部分潜在 l 中,通过可学习的 g 解码为词嵌入 t 并插入文本提示来实现的。我们训练具有扩散损失(等式 5)和多个损失目标的扩散模型 - Lreg(等式 2)将部分潜在建模为高斯分布,Lattn(等式 6)用于部分解缠,以及我们提出的 Lcl(等式 4)以增强视觉连贯性。f 和 g 是可训练模块。为了提高训练效率,我们在 U-Net 的交叉注意层中添加了 LoRA 层。 (底部)在推理过程中,我们可以首先通过选择所需的部分潜在特征作为条件来预览多视图图像,然后通过 SDS 损失 LSDS 将它们转换为 3D 表示(例如 NeRF)。
结果
两个不同物种(蓝松鸦和白鹈鹕)的主题生成。
部分组成的视觉比较。A、B、C、D、E、F 分别代表红雀、威尔逊莺、最小海雀、加州鸥、角百灵和歌带鹀。红色圆圈表示已更改的部分。所有部分(包括源和目标)均由同一种子生成。
蓝松鸦和红雀两种不同物种之间所有部分潜伏值的线性插值。仅显示一个视图。我们的 Chirpy3D 实现了更平滑的插值,而不像 PartCraft 在某个步骤后表现出突然切换现象(红色框)
结论
Chirpy3D是一个细粒度 3D 生成框架,它通过多视图扩散将 2D 理解提升到 3D,将部分潜在信息建模为连续的。所有图像都是用相同的相机姿势生成的但在看不见的潜在信息上使用不同的种子。
连续分布并规范特征一致性以稳定看不见部分的生成。这种方法可以创建具有前所未有的细粒度细节和创作自由的新型 3D 对象。虽然该方法是在鸟类身上进行演示,但这种方法也可以应用于其他物体。