神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林,香港城市大学傅红波老师,卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

本论文作者是中国科学院计算技术研究所高林老师及其博士生刘锋林,香港城市大学傅红波老师,卡迪夫大学来煜坤老师。该项研究工作受到国家自然科学基金委、北京市自然科学基金委、北京市科学技术委员会的资助,由信息高铁智算算力网平台提供算力支持。

鉴于人工智能的数字内容生成,即 AIGC 在二维图象生成领域取得了很大的成功,但在三维生成方面仍存在挑战。智能化生成三维模型在 AR/VR、工业设计、建筑设计和游戏影视等方面都有应用价值,现有的智能化三维生成格式已经可以生成高质量的三维模型,但如何对生成结果从事精确负责,并对真实模型或生成的模型从事细节的修改,从而让用户自由定制高质量的三维模型仍然是一个待解决的问题。

近期,一篇题为《SketchDream: Sketch-based Text-to-3D Generation and Editing》的论文提出了鉴于线稿和文本的三维内容生成和编纂格式 SketchDream [1],论文发表在 SIGGRAPH 2024,并被收录于图形学顶级期刊 ACM Transactions on Graphics。这个 3D AIGC 工作助你成为神笔马良,通过画笔画出三维世界,已入选 SIGGRAPH 精选亮点工作宣传片。

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

论文:SketchDream: Sketch-based Text-to-3D Generation and Editing

论文地址:https://arxiv.org/pdf/2405.06461

项目主页:http://www.geometrylearning.com/SketchDream/

应用该系统,即应用户不会应用复杂的三维软件,也可以鉴于线稿自由创作三维内容,并对真实的模型从事修改和编纂。先来看看应用 SketchDream 创作的模型的结果:神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了                             图 1 鉴于 SketchDream 的三维生成结果 神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了                               图 2 鉴于 SketchDream 的三维编纂结果 

背景

最近,AI 绘画非常火爆,鉴于 Stable Diffusion [2] 和 ControlNet [3] 等格式,通过指定文本可以生成高真实感的二维图象。最新的视频生成格式 Sora [4],已经可以鉴于文本生成高质量影视级的视频。但是,上述工作无法直接生成高质量的三维模型,更无法对现有的三维模型从事编纂和修改。

针对上述问题,DreamFusion [5] 提出了 Score Distillation Sampling (SDS) 的格式,利用二维图象的 Diffusion model 生成模型优化神经辐射场,鉴于文本合成任意类别的高质量的三维模型。后续一系列工作 [6][7][8] 对该格式从事了改进,提升了生成的三维模型的质量,并使生成的过程更加稳定。但是,仅仅鉴于文本,难以实现对几何细节的负责,例如物体的形状和轮廓,不同的组件的形状和位置等。为了提高可控性,许多格式 [9][10] 应用额外的图象作为输入,生成高质量的模型,但用户依然需要提前获取合适的图象。

除了三维内容生成,如何对已有的三维模型从事再创作,即对真实的三维模型从事修改和编纂也是非常重要的问题。Vox-e [11] 和 DreamEditor [12] 根据文本自适应的确定三维编纂地区,再实现鉴于文本的编纂结果。为了实现更精细的负责,SKED [13] 应用线稿编纂三维模型,但如何处理复杂编纂情景仍然较为困难。

线稿作为一种用户友好的交互格式,被广泛用于三维建模。艺术家们通常会先绘制物体的线稿,再进一步应用专业软件从事建模。然而,直接应用线稿生成高质量的三维物体存在下述挑战:首先,线稿风格多样且过于稀疏,很难应用单视角的线稿约束三维物体的生成;其次,二维线稿只包含了单视角的信息,如何解决歧义性,生成侧面和背面地区较为困难。鉴于线稿的模型编纂则更具挑战性,如何分析并处理不同组件的关系,如何保证编纂地区的生成质量,如何保持非编纂地区不变,都是需要解决的问题。

SketchDream 算法原理

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

                             图 3 SketchDream 的收集架构图,生成和编纂流程

鉴于线稿的多视角图象生成收集

给定单视角的手绘线稿后,仅在线稿对应的视角增加约束,无法生成合理的三维模型。因此,需要将线稿的信息有效地传播到三维空间中的新视角,从而合成与线稿对应的高质量的模型。SketchDream 算法构建了鉴于线稿的多视角图象生成的扩散模型。具体而言,算法在多视角图象生成收集 MVDream [8] 的基础上,增加了与 ControlNet 结构类似的负责收集,鉴于线稿负责多视角图象的特征。收集应用了 3D Self-Attention,在不同视角之间共享 Q,K,V 特征,从而生成三维一致的结果。

直接应用单视角二维线稿作为多视角图象负责收集的输入,由于缺乏三维信息和空间对应,难以实现有效的线稿负责。因此,算法应用扩散模型生成线稿对应的深度图,补充稀疏线稿缺失的几何信息。进一步,鉴于深度对线稿变形,从而将线稿显式地变换到相邻的新视角,其他视角则直接输入空白图象。尽管其他视角输入了空白图象,但 3D Self-Attention 保证了视角间的信息交换,从而实现对多视角图象的有效负责。

鉴于线稿的三维生成

为了实现高质量的三维生成,算法鉴于线稿的多视角图象扩散模型,反向优化神经辐射场。优化过程中,每一个迭代的步骤,应用不同的相机参数衬着模型并计算梯度,反向优化三维模型。算法鉴于多视角图象生成收集计算 SDS Loss,保证三维模型的几何合理性。并且,为了提升纹理细节的质量,算法鉴于 2D 的图象生成收集,计算 ISM Loss [14],提高模型生成质量。算法额外增加蒙版约束和正则化项,提高线稿的对应性和模型的合理性。

鉴于线稿的三维编纂

为了实现精细化的编纂,算法提出了两阶段编纂格式:粗粒度编纂阶段,算法分析组件的交互关系,生成初始的编纂结果,并鉴于此获取更精确的三维蒙版;细粒度编纂阶段,算法对局部编纂地区从事衬着优化,并保持非编纂地区的特征,实现高质量的局部编纂结果。

具体而言,在粗粒度编纂阶段,将手绘的 2D 蒙版转换为 3D 空间中的圆柱网格模型,粗略标记编纂的地区。优化过程中,应用与生成相同的损失函数从事优化,但在非编纂地区额外增加与原始模型的 L2 损失,保持原始模型的特征。进一步,从粗略编纂的 NeRF 结果中提取网格模型,标记 3D 网格的局部地区表示待编纂的地区,获取精细化的 3D 蒙版。在细粒度编纂阶段,为了提升编纂地区的质量,算法对局部编纂地区从事衬着,增加鉴于线稿的 SDS 约束,并增加更精细的非编纂地区的约束,生成更高质量的编纂结果。

结果展示

如图 4 所示,给定手绘线稿和文本描述,该格式可以生成高质量的三维模型。算法生成的结果没有类别限制,结果具备合理的几何属性和高质量的纹理属性。用户可以自由变换视角,都能得到非常真实的衬着结果。

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

                               图 4 鉴于线稿生成的三维模型

如图 5 所示,给定真实的三维模型,用户可以选择任意的视角,对衬着出的线稿从事修改,从而编纂三维模型。该格式可以对已有模型的部件从事替换,例如左侧的修改狮子头部、更换裙子等,也可以增加新的部件,例如右侧的增加新的房间、增加翅膀等。

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

                              图 5 鉴于线稿的三维模型编纂结果

如图 6 所示,给定线稿和文本描述,该格式可以对应的三维模型。进一步,用户可以旋转到新的视角,对局部地区从事修改,实现三维模型的精细化定制。

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

                               图 6 鉴于线稿的生成和编纂结果

如图 7 所示,针对同一个三维模型,用户可以绘制不同的线稿,从而生成具备多样性的结果。线稿也实现了较为精细化的负责,实现了对鸵鸟不同颈部姿态的负责结果。

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

                               图 7 鉴于线稿的多样化的编纂结果

如图 8 所示,针对同一个三维模型,用户可以指定不同的文本,从而生成具备纹理多样性的结果。在给定相同线稿的情况下,可以生成黄金、铜制和石头质感的狮子头,并保持其他地区不变。

神笔马良画出三维世界,鉴于线稿的3D生成编纂格式SketchDream来了

                             图 8 鉴于文本的多样化的编纂结果

结语

鉴于人工智能的数字内容生成技术蓬勃发展,在很多领域已经有广泛的应用。针对三维内容生成,除了保证高真实感的生成质量,如何提高用户的可控性是重要的问题。SketchDream 提供了一种可行的解决方案,鉴于手绘线稿,用户可以生成高质量的三维模型,并支持对真实模型的可控编纂。

鉴于该系统,我们无需安装繁杂的三维建模软件并学习复杂的技能,也不需要花费数个小时时间精力,仅仅通过勾勒简单的线条,普通用户也能轻松构建心中完美的三维模型,并得到高质量的衬着结果。SketchDream 已经被 ACM SIGGRAPH 2024 接收,并将刊登在期刊 ACM Transactions on Graphics 上,已入选 SIGGRAPH 精选亮点工作宣传片。

参考文献:

[1] Feng-Lin Liu, Hongbo Fu, Yu-Kun Lai, Lin Gao*. SketchDream: Sketch-based Text-to-3D Generation and Editing. ACM SIGGRAPH(TOG). 2024

[2] Robin Rombach, Andreas Blattmann, Dominik Lorenz, Patrick Esser, Björn Ommer, High-Resolution Image Synthesis with Latent Diffusion Models. CVPR. 2022

[3] Adding Conditional Control to Text-to-Image Diffusion Models, Lvmin Zhang and Maneesh Agrawala, ArXiv, 2023

[4] https://openai.com/sora

[5] Poole, Ben, Ajay Jain, Jonathan T. Barron, and Ben Mildenhall. Dreamfusion: Text-to-3d using 2d diffusion. 

[6] Lin, Chen-Hsuan, Jun Gao, Luming Tang, Towaki Takikawa, Xiaohui Zeng, Xun Huang, Karsten Kreis, Sanja Fidler, Ming-Yu Liu, and Tsung-Yi Lin. Magic3d: High-resolution text-to-3d content creation. CVPR. 2023.

[7] Wang, Zhengyi, Cheng Lu, Yikai Wang, Fan Bao, Chongxuan Li, Hang Su, and Jun Zhu. Prolificdreamer: High-fidelity and diverse text-to-3d generation with variational score distillation. NeuIPS. 2024.

[8] Shi, Yichun, Peng Wang, Jianglong Ye, Mai Long, Kejie Li, and Xiao Yang. Mvdream: Multi-view diffusion for 3d generation. arXiv. 2023.

[9] Liu, Ruoshi, Rundi Wu, Basile Van Hoorick, Pavel Tokmakov, Sergey Zakharov, and Carl Vondrick. Zero-1-to-3: Zero-shot one image to 3d object. CVPR. 2023.

[10] Qian, Guocheng, Jinjie Mai, Abdullah Hamdi, Jian Ren, Aliaksandr Siarohin, Bing Li, Hsin-Ying Lee et al. Magic123: One image to high-quality 3d object generation using both 2d and 3d diffusion priors. ArXiv. 2023.

[11] Sella, Etai, Gal Fiebelman, Peter Hedman, and Hadar Averbuch-Elor. Vox-e: Text-guided voxel editing of 3d objects. CVPR. 2023.

[12] Zhuang, Jingyu, Chen Wang, Liang Lin, Lingjie Liu, and Guanbin Li. "Dreameditor: Text-driven 3d scene editing with neural fields." In SIGGRAPH Asia 2023 Conference Papers. 2023.

[13] Mikaeili, Aryan, Or Perel, Mehdi Safaee, Daniel Cohen-Or, and Ali Mahdavi-Amiri. Sked: Sketch-guided text-based 3d editing.CVPR. 2023.

[14] Liang, Yixun, Xin Yang, Jiantao Lin, Haodong Li, Xiaogang Xu, and Yingcong Chen. Luciddreamer: Towards high-fidelity text-to-3d generation via interval score matching. ArXiv. 2023.

给TA打赏
共{{data.count}}人
人已打赏
应用

AI时代如何重构交际?Soul App 通过媒体开放日运动这样回答

2024-5-31 14:04:00

应用

爆火ChatTTS突破开源语音天花板,3天斩获9k的Star量

2024-5-31 15:21:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索