2025 年来了,3D 生成也迎来了新突破

2025 年来了,3D 生成也迎来了新突破。 刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。 无论是精致的艺术品,还是纹理复杂的日常用品,SPAR3D 都能提供精确的几何形状和完整的 360 度视图的详细预测,包括通常隐藏的区域(例如物体的背面):值得一提的是,SPAR3D 还引入了实时编辑功能,能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。

2025 年来了,3D 生成也迎来了新突破。

刚刚,Stability AI 在 CES 上宣布为 3D 生成推出一种两阶段新方法 ——SPAR3D(Stable Point Aware 3D),旨在为游戏开发者、产品设计师和环境构建者开拓 3D 原型设计新方式。

无论是精致的艺术品,还是纹理复杂的日常用品,SPAR3D 都能提供精确的几何形状和完整的 360 度视图的详细预测,包括通常隐藏的区域(例如物体的背面):

图片

值得一提的是,SPAR3D 还引入了实时编辑功能,能在不到一秒的时间内从单个图像生成 3D 对象的完整结构。

图片

SPAR3D 是一种新颖的两阶段方法:第一阶段使用轻量级点扩散模型生成稀疏 3D 点云,采样速度快;第二阶段使用采样点云和输入图像来创建高度详细的网格。

这种两阶段设计能够对不适定的单图像 3D 任务进行概率建模,同时保持高计算效率和出色的输出保真度。使用点云作为中间表征还进一步允许交互式用户编辑。在不同的数据集上进行评估后,SPAR3D 表现出了优于 SOTA 方法的性能。

图片

  • 论文标题:SPAR3D: Stable Point-Aware Reconstruction of 3D Objects from Single Images
  • 论文链接:https://static1.squarespace.com/static/6213c340453c3f502425776e/t/677e3bc1b9e5df16b60ed4fe/1736326093956/SPAR3D+Research+Paper.pdf

简单来说,SPAR3D 具有如下优势:

  • 前所未有的控制:允许用户通过删除、复制、拉伸、添加特征或重新着色点来直接编辑点云。
  • 完整的结构预测:通过提供精确的几何形状和完整的 360 度视图的详细预测来增强 3D 构建。
  • 闪电般快速生成:仅需 0.3 秒即可将编辑后的点云转换为最终网格,实现无缝实时编辑。从单个输入图像,SPAR3D 仅需 0.7 秒即可为每个对象生成高度详细的 3D 网格。

SPAR3D

基于点云采样的单图像三维物体重建

从一张图像重建 3D 物体是一个具有挑战性的逆向工程问题:尽管可以通过分析图像中的光影来推测物体的可见表面形状,但要准确预测被遮挡的部分,需要丰富的 3D 先验知识作为支撑。

目前该领域主要有两个发展方向:前馈回归和基于扩散的生成。基于回归的模型虽然推理速度快,但对重建有遮挡的区域效果不佳。而基于扩散的方法通过迭代采样可以生成多样化的 3D 结果,但计算效率低且与输入图像的对齐效果较差。

为了既能充分利用扩散模型在分布式学习方面的优势,又能避免输出质量差和计算效率低的问题,Stability AI 的研究团队设计了一个两阶段重建系统:SPAR3D。这个系统将 3D 重建过程分为点采样和网格化两个阶段,实现了高效率与高质量的平衡。

当输入一张图像图片时,该方法可以生成一个包含 PBR 材质的 3D 网格模型,其中包括反照率、金属度、粗糙度和表面法线等属性。

该团队设计了一个包含点采样和网格化两个阶段的模型(如图 2 所示)。在点采样阶段,系统将使用点扩散模型来学习输入图像对应的点云分布。由于点云的分辨率较低,这个阶段能快速完成迭代采样。

图片

在网格化阶段,系统通过回归方法将采样得到的点云转换为高细节网格,并利用局部图像特征确保与输入图像的准确匹配。

这种设计将复杂的不确定性计算集中在点采样阶段,让网格化阶段能够专注于生成高质量的细节。这不仅提升了整体效果,有效减少了纹理中不必要的光照影响,特别是在处理反光表面时效果更好。

选择点云作为连接两个阶段的中间表示是该方法的关键设计。点云不仅是计算效率最高的 3D 表示,因为所有信息都用于表示表面,其缺乏连接性的特点还为用户编辑提供了优势。

当 3D 生成的结果与用户期望不符时,可以在低分辨率点云上轻松进行局部编辑,无需担心拓扑结构。将编辑后的点云输入网格化阶段即可生成更符合用户需求的网格。这也使得 SPAR3D 在保持高计算效率和输入观察保真度的同时,显著优于以往的回归方法。

实验

主要结果

该团队在 GSO 和 Omniobject3D 数据集上对 SPAR3D 与其他基线方法进行了定量比较。如表 1 和表 2 所示,SPAR3D 在两个数据集的大多数评估指标上都显著优于其他回归或生成式基线方法。

图片

图 5 展示了不同方法的定性结果对比:基于回归的方法 (如 SF3D、TripoSR) 生成的 3D 资产虽然与输入的图像保持了较好的一致性,但背面过于平滑;基于多视图扩散的方法(如 LGM、CRM)生成的 3D 资产虽然在背面保留了较多细节,但存在明显伪影;而纯生成方法(如 Shap-E、LN3Diff)虽然能生成清晰的表面轮廓,但细节经常出错。

图片

相比之下,SPAR3D 不仅能忠实重现输入图像,还能合理生成被遮挡部分的细节。

图 6 进一步展示了其在真实场景图像上的出色泛化性能。

图片

可编辑的结果

SPAR3D 采用显式点云作为中间表示,为用户提供了进一步编辑模型的能力。通过点云,用户可以灵活地修改重建网格的不可见部分。

图 7 展示了几个编辑示例,比如为 3D 模型添加关键组件,还能优化生成效果不理想的细节部分。

图片

这种编辑方式简单高效,让用户能够根据需求轻松调整重建结果。

消融实验

研究团队通过消融实验验证了点采样阶段的关键作用。他们将 SPAR3D 简化为纯回归模型 SPAR3D w/o Point(移除点采样阶段),并在 GSO 和 Omniobject3D 数据集上进行对比。

图片

实验结果显示,完整的 SPAR3D 明显优于简化版本,验证了该设计的有效性。

分析

该团队设计了实验来进一步理解 SPAR3D 的工作原理。在设计 SPAR3D 时,其核心假设是两阶段设计能有效分离单目 3D 重建中的不确定部分 (背面建模) 和确定性部分 (可见表面建模)。

理想情况下,网格化阶段应主要依靠输入图像重建可见表面,同时依靠点云生成背面。为验证这一点,研究团队进行了一个特殊的实验:故意将不匹配的数据输入系统(一张松鼠的图片配上一匹马的点云数据),以测试系统如何处理这种冲突的输入。

图片

如图 8 所示,实验结果很有意思:重建模型的正面与松鼠对齐,而背面则遵循了点云马的形状。这个结果证实了系统确实能够分别处理可见和不可见部分的重建工作。

更多研究细节,请参阅原论文。

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

专访生数科技唐家渝:清华系团队拿到近亿融资,用Transformer来做多模态大模型

随着GPT4的出现,多模态大模型的发展方向逐渐成为共识。近日,一支由清华人工智能研究院副院长朱军教授带领的新团队悄悄完成了近亿级天使轮融资。

Stability AI 开源上新:3D 生成引入视频扩散模型,质量一致性 up,4090 可玩

Stable Diffusion 背后公司 Stability AI 又上新了。这次带来的是图生 3D 方面的新进展:基于 Stable Video Diffusion 的 Stable Video 3D(SV3D),只用一张图片就能生成高质量 3D 网格。Stable Video Diffusion(SVD)是 Stability AI 此前推出的高分辨率视频生成模型。也就是说,此番登场的 SV3D 首次将视频扩散模型应用到了 3D 生成领域。官方表示,基于此,SV3D 大大提高了 3D 生成的质量和视图一致性。