剑指专业领域零部件级3D生成！Meta联手牛津推出全新多视图扩散模型

作者：新智元

2025-01-08 02:45

当前AI生成的3D模型，已经拥有相当高的质量。但这些生成结果通常只是单个物体的某种表示（比如隐式神经场、高斯混合或网格），而不包含结构信息。对于专业应用和创意工作流来说，除了高质量的形状和纹理，更需要可以独立操作的「零部件级3D模型」。

当前AI生成的3D模型，已经拥有相当高的质量。

但这些生成结果通常只是单个物体的某种表示（比如隐式神经场、高斯混合或网格），而不包含结构信息。

对于专业应用和创意工作流来说，除了高质量的形状和纹理，更需要可以独立操作的「零部件级3D模型」。

比如上图中的几个例子，3D模型应该由多个有意义的部分组成，可以分离、组合与编辑。

而上图中的效果，正是出自Meta与牛津大学的研究人员推出的全新多视图扩散模型——PartGen。

论文地址：https://arxiv.org/pdf/2412.18608

项目地址：https://silent-chen.github.io/PartGen

PartGen可以使用文本、图像或非结构化3D对象作为输入，生成上面说的「子结构可分离」的3D模型。

同一些SOTA生成工作流类似，PartGen也采用两阶段方案，以消除零部件分割和重建的歧义：

首先，多视图生成器根据给定条件，生成3D对象的多个视图，由第一个多视图扩散模型提取一组合理且视图一致的部分分割，将对象划分为多个部分。

然后，第二个多视图扩散模型将每个部分分开，填充遮挡并馈送到3D重建网络，对这些补充完整的视图进行3D重建。

PartGen在生成过程中考虑了整个对象的上下文，以确保各部分紧密集成。这种生成式补全模型可以弥补由于遮挡而丢失的信息，还原出完全不可见的部分。

作者在合成以及真实的3D资产上评估了PartGen，如图所示，其性能大大优于之前的类似方法。

作者还将PartGen部署到真实的下游应用程序，例如3D零件编辑，以证明模型的实力。

零部件级3D生成

零件很重要，因为零件可以支持重用、编辑或者动画。

人类艺术家在制作3D模型时，会自然地以这种角度考虑。

比如一个人的模型可以分解成衣服和配饰，以及各种解剖特征（头发、眼睛、牙齿、四肢等）。

零件承载的信息和功能也很重要，比如不同的部分可能具有不同的动画或不同的材质。

零件还可以单独替换、删除或编辑。比如在视频游戏中，角色更换武器或衣服。

另外，由于其语义意义，零部件对于机器人、具身人工智能和空间智能等3D理解和应用也很重要。

PartGen将现有3D生成方法从非结构化，升级为零部件组合的方法，从而解决了两个关键问题：

1）如何自动将3D对象分割成多个部分；
2）如何提取高质量、完整的3D零部件，即使是在外观部分遮挡、或者根本看不到的情况下。

多视图零部件分割

3D对象分割并没有所谓的「黄金标准」。因此，分割方法应该对合理的部分分割的分布进行建模，而不是对单个分割进行建模。

可以使用概率扩散模型来学习这项任务，从而有效地捕捉和建模这种模糊性。

作为整个生成流程的第一阶段，研究人员将零件分割转换为随机多视图一致性着色问题（stochastic multi-view-consistent colouring problem），利用经过微调的多视图图像生成器，在3D对象的多个视图中生成颜色编码的分割图。

作者不假设任何确定性的零件分类法——分割模型从艺术家创建的大量数据中学习，如何将对象分解为多个部分。

考虑将多数图图像作为输入，模型的任务就是预测多个部分的mask。给定一个映射，将分割图渲染为多视图RGB图像，然后对预训练模型进行微调。

作者使用VAE将多视图图像编码到潜在空间中，并将其与噪声潜在空间堆叠起来，作为扩散网络的输入。

这种方法有两个优势：首先是利用了预训练的图像生成器，保证了天生具有视图一致性；其次，生成方法允许简单地从模型中重新采样来进行多个合理的分割。

上下文部分补全

对于第二个问题，即在3D中重建分割的零件，普遍的方法是在现有的对象视图中屏蔽零件，然后使用3D重建网络进行恢复。

然而，当零件被严重遮挡时，这项任务相当于非模态重建，是高度模糊的，确定性重构网络无法很好地解决。

本文建议微调另一个多视图生成器来补全部分的视图，同时考虑整个对象的上下文。

类似于上一个阶段，研究人员将预训练的VAE分别应用于蒙版图像和上下文图像，产生2 × 8个通道，并将它们与8D噪声图像和未编码的部分掩码堆叠在一起，获得扩散模型的25通道输入。

通过这种方式，即使零件在原始输入视图中仅部分可见，甚至不可见，也可以可靠地重建这些零件。此外，生成的部分可以很好地组合在一起，形成一个连贯的3D对象。

最后一步是在3D中重建零件。因为零件视图已经是完整且一致的，所以可以简单地使用重建网络来生成预测，此阶段的模型不需要特殊的微调。

训练数据

为了训练模型，研究人员从140k 3D艺术家生成的资产集合中构建了数据集（商业来源获得AI训练许可）。数据集中的示例对象如图3所示。

对于方法中涉及微调的三个模型，每个模型的数据预处理方式都不同。

为了训练多视图生成器模型，首先必须将目标多视图图像（4个视图组成）渲染到完整对象。

作者从正交方位角和20度仰角对4个视图进行着色，并将它们排列在2 × 2网格中。

在文本条件下，训练数据由多视图图像对及其文本标题组成，选择10k最高质量的资产，并使用类似CAP3D的工作流生成它们的文本标题。

在图像条件下，使用所有140k模型数据，设置随机采样以单个渲染的形式出现。

为了训练零件分割和补全网络，还需要渲染多视图零件图像及其深度图。

由于不同的创作者对部分分解有不同的想法，因此作者过滤掉数据集中可能缺乏语义的过于精细的部分（首先剔除占用对象体积小于5%的部分，然后删除具有10个以上部分或由单个整体组成的资产）。

最终的数据集包含45k个对象（210k个零部件）。

下游应用

下图给出了几个应用示例：部件感知文本到3D生成、部件感知图像到3D生成，以及真实世界的3D对象分解。

如图所示，PartGen可以有效地生成具有不同部件的3D对象，即使在严重重叠的情况下，例如小熊软糖。

给定一个来自GSO（Google Scanned Objects）的3D对象，渲染不同的视图以获得图像网格，图6的最后一行显示，PartGen可以有效地分解现实世界的3D对象。

当3D对象被分解之后，它们就可以通过文本输入进一步修改。如图7所示，PartGen可以根据文本提示有效地编辑零件的形状和纹理。

弱智吧竟成最佳中文 AI 训练数据？中科院等：8 项测试第一，远超知乎豆瓣小红书

离大谱了，弱智吧登上正经 AI 论文，还成了最好的中文训练数据？？具体来说，使用弱智吧数据训练的大模型，跑分超过百科、知乎、豆瓣、小红书等平台，甚至是研究团队精心挑选的数据集。在问答、头脑风暴、分类、生成、总结、提取等 8 项测试中取得最高分。没错，论文中的 Ruozhiba 就是指百度贴吧弱智吧，一个充满荒谬、离奇、不合常理发言的中文社区，画风通常是这样的：最离谱的是，弱智吧 AI 代码能力也超过了使用专业技术问答社区思否数据训练的 AI，这下吧友自己都闹不明白了。其他平台围观网友也纷纷蚌埠住。这项研究来自中科院

4/4/2024 2:39:50 PM

清源

美国酝酿 AI「登月计划」，陶哲轩领衔 62 页报告重磅发布

【新智元导读】就在刚刚，陶哲轩领衔的一份 62 页报告出炉了，总结和预测了 AI 对半导体、超导体、宇宙基础物理学、生命科学等领域带来的巨大改变。如果这些预测在几十年后能够实现，美国酝酿的 AI「登月计划」就将成真。就在刚刚，陶哲轩领衔的一份 AI 技术对全球研究潜在影响的技术报告发布了。这份报告长达 62 页，总结了 AI 对材料、半导体设计、气候、物理、生命科学等领域已经做出的改变，以及预测它们在未来可能由 AI 产生的改变。报告地址： AI 工具已经改变的科学领域的小插曲，陶哲轩等人还发出了三个呼吁 ——1.

5/1/2024 2:54:04 PM

清源

微软正努力治疗 AI 幻觉，以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时，微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状，他们设定了一个会让大多数人头疼的文本检索任务，然后跟踪并改进模型响应，这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示，“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源，因此我们认为自己可以帮助阐明“应该如何负责任地使用新

6/21/2024 10:37:35 PM

问舟

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部