Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征

Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。 当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。 Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。

Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。该系统不仅能够保持细致的物种特征,还能通过插值和采样生成全新的部件。通过自监督特征一致性损失,Chirpy3D确保了未见部件的稳定生成,展现了其在细粒度3D生成领域的创新能力。

图片

生成的由不同部分组成的活泼的 3D 鸟类。Chirpy3D 从原始 2D 图像中学习部分潜在空间,并且可以通过探索部分潜在空间生成高质量的创意 3D 鸟类。(顶部)现有物种,(底部)新物种

相关链接

  • 论文:http://arxiv.org/abs/2501.04144v1
  • 主页:https://github.com/kamwoh/chirpy3d

论文介绍

图片

论文将细粒度 3D 生成的边界推向了真正具有创造性的领域。当前的方法要么缺乏复杂的细节,要么只是模仿现有对象——我们同时实现了这两种方法。通过多视图扩散将 2D 细粒度理解提升到 3D,并将部分潜在建模为连续分布,我们解锁了通过插值和采样生成全新但合理部分的能力。自监督特征一致性损失进一步确保了这些看不见的部分的稳定生成。结果是第一个能够创建具有超越现有示例的物种特定细节的新型 3D 对象的系统。虽然我们在鸟类身上展示了我们的方法,但底层框架超越了会鸣叫的事物!

方法

图片

Chirpy3D 的整体架构。(顶部)在训练期间,我们仅使用鸟类的 2D 图像对文本到多视图扩散模型(例如 MVDream)进行微调。我们的目标是通过建模连续的部分感知潜在空间来学习底层的部分信息。这是通过学习一组物种嵌入 e,通过可学习的 f 将它们投射到部分潜在 l 中,通过可学习的 g 解码为词嵌入 t 并插入文本提示来实现的。我们训练具有扩散损失(等式 5)和多个损失目标的扩散模型 - Lreg(等式 2)将部分潜在建模为高斯分布,Lattn(等式 6)用于部分解缠,以及我们提出的 Lcl(等式 4)以增强视觉连贯性。f 和 g 是可训练模块。为了提高训练效率,我们在 U-Net 的交叉注意层中添加了 LoRA 层。 (底部)在推理过程中,我们可以首先通过选择所需的部分潜在特征作为条件来预览多视图图像,然后通过 SDS 损失 LSDS 将它们转换为 3D 表示(例如 NeRF)。

结果

图片

两个不同物种(蓝松鸦和白鹈鹕)的主题生成。

图片

部分组成的视觉比较。A、B、C、D、E、F 分别代表红雀、威尔逊莺、最小海雀、加州鸥、角百灵和歌带鹀。红色圆圈表示已更改的部分。所有部分(包括源和目标)均由同一种子生成。

图片蓝松鸦和红雀两种不同物种之间所有部分潜伏值的线性插值。仅显示一个视图。我们的 Chirpy3D 实现了更平滑的插值,而不像 PartCraft 在某个步骤后表现出突然切换现象(红色框)

结论

Chirpy3D是一个细粒度 3D 生成框架,它通过多视图扩散将 2D 理解提升到 3D,将部分潜在信息建模为连续的。所有图像都是用相同的相机姿势生成的但在看不见的潜在信息上使用不同的种子。

连续分布并规范特征一致性以稳定看不见部分的生成。这种方法可以创建具有前所未有的细粒度细节和创作自由的新型 3D 对象。虽然该方法是在鸟类身上进行演示,但这种方法也可以应用于其他物体。

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

MV-DUSt3R+: 只需2秒!Meta Reality Labs开源最新三维基座模型,多视图大场景重建

本文一作为唐正纲,目前为博士生,就读于伊利诺伊大学厄巴纳 - 香槟分校,本科毕业于北京大学。 通讯作者是严志程,Meta Reality Labs 高级科研研究员 (Senior Staff Research Scientist),主要研究方向包括三维基础模型,终端人工智能 (On-device AI) 和混合现实。 近期,Fei-Fei Li 教授的 World Labs 和 Google 的 Genie 2 展示了 AI 从单图生成 3D 世界的能力。

模型压缩70%!精度更高!开源MoDec-GS:更紧凑、更精确的动态3DGS

本文经3D视觉之心公众号授权转载,转载请联系出处。 论文信息标题:MoDec-GS: Global-to-Local Motion Decomposition and Temporal Interval Adjustment for Compact Dynamic 3D Gaussian Splatting作者:Sangwoon Kwak, Joonsoo Kim, Jun Young Jeong, Won-Sik Cheong, Jihyong Oh, Munchurl Kim机构:ETRI, South Korea、KAIST, South Korea、Chung-Ang University, South Korea原文链接::. 导读3D Gaussian Splatting (3DGS)在场景表示和神经渲染方面取得了重大进展,并致力于使其适应动态场景。