AI在线 AI在线

单图直出CAD工程文件!CVPR 2025新研究解决AI生成3D模型“不可编辑”痛点

作者:量子位
2025-04-15 08:57
单张图直接就能生成可编辑的CAD工程文件! 来自魔芯科技、NTU等的研究人员提出图生3D新框架,名为CADCrafter。 CADCrafter和过去得到网格(Mesh)或3D高斯泼溅(3DGS)的图生3D方法大不相同。

单张图直接就能生成可编辑的CAD工程文件!

来自魔芯科技、NTU等的研究人员提出图生3D新框架,名为CADCrafter

CADCrafter和过去得到网格(Mesh)或3D高斯泼溅(3DGS)的图生3D方法大不相同。

不管是零件渲染图,还是拍摄的3D打印零件,甚至是随意拍摄的日常生活中的物体,CADCrafter均能够生成的对应的原始CAD文件(以CAD指令的方式表示,包括表征每个几何特征的指令和对应参数)。

并且通过CAD编译器进行编译,可得到直接生产加工的3D文件(如STP格式的文件)。

用户可以通过编辑CAD指令实现对物体的编辑(下图右)。

图片

实验中,从落地实用性、表面质量等特点来看,CADCrafter相较于目前的图生3D方法均有显著提升。

图片

这项研究的作者来自KOKONI 3D(魔芯科技)、新加坡南洋理工大学、新加坡A*STAR、西湖大学、德州大学奥斯汀分校和浙江大学。

通讯作者为魔芯科技创始人Tianrun Chen和新加坡A*STAR研究科学家Fayao Liu。

论文已被CVPR 2025接收。

图片

以下是更多细节。

从图像到高质量CAD模型的端到端生成流程

在现实世界中,大多数人造物体最初都是通过计算机辅助设计(CAD)软件以参数化的方式建模的。

然而,如今大热的3D AI生成内容(3D AIGC)技术,例如TRELLIS等方法,大多仍依赖于“网格模型”(Mesh)作为基础。

问题也随之而来。

相比CAD的参数化设计,网格模型不仅难以理解,更难精确编辑。用户想要修改一个小部件的尺寸?在CAD中只需调整参数,在网格模型中却可能要大动干戈。

而且,这些AI生成的网格模型表面常常不够光滑,边缘也不够锐利,尤其是使用像Marching Cubes这样的算法从隐式函数转换生成网格时,几何质量更容易受到影响。

这种粗糙不清的表面,在需要高质量渲染或动画的应用中,显得格外捉襟见肘。

相比之下,CAD的参数化模型则提供了极高的可控性和精度。它们允许用户直接通过参数调整几何形状,实现快速且精准的修改,大大提升了设计的灵活性与可解释性。

CADCrafter就率先尝试了从Image-to-Mesh到Image-to-CAD的范式转变。

方法概述如下:

图片

1. 基于VAE与Diffusion Transformer的隐空间生成框架

CADCrafter采用了一种结合VAE与扩散模型的两阶段生成架构。

首先,团队训练了一个变分自编码器(VAE),将CAD指令序列映射到一个结构化的隐空间。

接着,在该隐空间中引入条件扩散生成过程:基于Diffusion Transformer(DiT)架构,训练一个扩散生成大模型,输入条件为用户提供的图像,从而实现图像引导下的CAD隐空间采样与生成。

2. 蒸馏策略:从多视图到单视图的高效建模转移

考虑到从单张图像重建CAD模型的挑战性,团队首先构建了一个多视图输入的DiT生成模型,以更稳定地学习图像到CAD空间的映射关系。

随后,通过引入蒸馏机制(使用Ldistill损失),将多视图模型的知识迁移到单视图模型中,从而实现了仅基于单张图像进行高质量CAD生成的能力。

3. 引入基于DPO的可编译性代码检查机制

在CAD生成过程中,CAD指令还需经过CAD内核(CAD Kernel)解析,才能生成可视的3D模型。

然而,若生成指令存在语义错误,例如不闭合曲线等问题,模型构建将直接失败。

为解决这一关键挑战,作者设计了一个代码合理性判别模块,用于判断生成的CAD代码是否能够被成功编译。

作者进一步采用DPO(Direct Preference Optimization)损失,引导模型倾向于生成更可编译、几何结构完整的CAD指令,从而显著提升最终3D模型生成的成功率与实用性。

渲染零件、拍摄的3D打印零件等均能重建

研究团队选取多个标准CAD模型,使用KOKONI SOTA 3D打印机将其打印成实物,并通过拍照获取图像输入。

实验表明,CADCrafter能够基于单张图像,准确生成结构清晰、符合几何特征的CAD建模指令,其生成效果在细节还原度方面优于现有方法。

图片

拍摄日常生活中的物体,CADCrafter也能直接生成其设计制造时可用的工程文件,其表面平面度、棱角等细节均符合物体被生产加工制造时的特点(良好表面、尺寸和几何特征均可编辑)。

图片

这一成果不仅展示了CADCrafter在建模精度上的突破,也展现了其在实际应用场景中的可行性。

例如,在制造与维修领域,工程师可通过拍摄现有零件照片,快速生成可编辑的CAD模型,进而加速原型设计或零件重建流程。

团队相信,CADCrafter为AI辅助工业设计提供了新的解决方案,其从Image-to-Mesh到Image-to-CAD的范式转变,有助于推动图像驱动的AI 3D建模向真正可落地应用迈出关键一步。

论文链接:https://arxiv.org/pdf/2504.04753

相关标签:

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和
7/4/2024 5:55:00 PM
机器之心

MV-DUSt3R+: 只需2秒!Meta Reality Labs开源最新三维基座模型,多视图大场景重建

本文一作为唐正纲,目前为博士生,就读于伊利诺伊大学厄巴纳 - 香槟分校,本科毕业于北京大学。 通讯作者是严志程,Meta Reality Labs 高级科研研究员 (Senior Staff Research Scientist),主要研究方向包括三维基础模型,终端人工智能 (On-device AI) 和混合现实。 近期,Fei-Fei Li 教授的 World Labs 和 Google 的 Genie 2 展示了 AI 从单图生成 3D 世界的能力。
1/26/2025 2:13:28 PM
机器之心

Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征

Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。 当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。 Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。
2/5/2025 11:00:00 AM
AIGC Studio