魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束

在数字时代,发型不仅是时尚的标志,更是个人文化身份的彰显。 但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。 为此,上海科技大学和华中科技大学推出了ANGLED技术,能从任意风格、视角的图像中,轻松生成逼真3D发型。

在数字时代,发型不仅是时尚的标志,更是个人文化身份的彰显。但传统3D发型生成技术往往难以捕捉复杂发型的细腻之美。为此,上海科技大学和华中科技大学推出了ANGLED技术,能从任意风格、视角的图像中,轻松生成逼真3D发型。依托457种多样发型的MultiHair数据集,TANGLED通过三步管道,灵活适应各种风格与视角,让卷发、辫子等高难度发型栩栩如生。这一突破不仅提升了发型生成的多样性,更促进了文化包容性的表达,让每个人的独特风采,在数字世界得以完美呈现。

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束

相关链接

  • 论文:http://arxiv.org/abs/2502.06392v1
  • 主页:https://sites.google.com/view/tangled1
  • 代码&数据:即将推出

论文介绍

发型错综复杂,具有各种几何形状、纹理和结构,具有重要的文化意义。现有的文本或图像引导生成方法无法处理丰富而复杂的各种发型。我们提出了 TANGLED,这是一种用于生成 3D 发束的新方法,可适应不同风格、视点和输入视图数量的各种图像输入。

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束

TANGLED 采用三步流程: 首先,我们的 MultiHair 数据集提供了 457 种不同的发型,并标注了 74 种属性,强调复杂且具有重要文化意义的发型,以提高模型的泛化能力。其次,我们提出了一个以多视图线条图为条件的扩散框架,该框架可以捕捉拓扑线索(例如,发束密度和分型线)并滤除噪音。通过利用对线条图特征具有交叉注意的潜在扩散模型,我们的方法可以在不同的输入条件下实现灵活而强大的 3D 头发生成。最后,理模块强制执行特定于辫子的约束,以保持复杂结构的一致性。该框架不仅提高了发型的真实感和多样性,而且还实现了文化包容性的数字化身和新颖的应用,如基于草图的动画 3D 发束编辑和增强现实。

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束

概述

我们的模型以任意样式和视角的头发图像为条件,通过扩散过程生成 3D 头发潜在图。条件被随机屏蔽并与潜在图交叉注意。在推理时,我们对头发潜在图进行采样,并将上采样的头发潜在图输入发束解码器以提取 3D 发束。

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束

结果

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束TANGLED 可以根据各种风格的图像条件生成逼真的发型,包括照片、动漫和油画。有关更多结果,请参阅补充视频。请注意,我们在渲染过程中手动指定了生成的头发的颜色。

魔发奇缘,3D发型生成新突破!TANGLED:可用任意样式和视点的图像生成 3D 发束第 1 行显示了从手绘草图生成的发型。第 2 行通过改变第 1 行草图中的特定部分展示了发型修改(添加辫子)。第 3-4 行描绘了使用指导线(以红色突出显示)生成带有辫子的输出的过程。

结论

TANGLED是一种用于3D发束生成的新型多视图线性条件扩散模型。MultiHair数据集是一个多样化的集合,它扩展了具有代表性不足的纹理和复杂几何形状的发型表示。该模型的扩散框架以多视图线性为条件,可以跨各种风格和视点灵活而准确地生成。此外,参数化后处理改进了特定于辫子的约束,增强了复杂风格的连贯性。

虽然 TANGLED 取得了重大进展,但挑战依然存在。首先,MultiHair 数据集虽然更加多样化,但仍然缺乏对超高频发束细节进行建模的能力。其次,由于锚点遮挡,辫子生成管道难以应对极端头部姿势,即偏航/俯仰 >75°。最后,生成的头发和输入图像之间的像素级对齐是有限的,这在很大程度上受到数据集大小的限制。

相关资讯

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和

MV-DUSt3R+: 只需2秒!Meta Reality Labs开源最新三维基座模型,多视图大场景重建

本文一作为唐正纲,目前为博士生,就读于伊利诺伊大学厄巴纳 - 香槟分校,本科毕业于北京大学。 通讯作者是严志程,Meta Reality Labs 高级科研研究员 (Senior Staff Research Scientist),主要研究方向包括三维基础模型,终端人工智能 (On-device AI) 和混合现实。 近期,Fei-Fei Li 教授的 World Labs 和 Google 的 Genie 2 展示了 AI 从单图生成 3D 世界的能力。

Chirpy3D:用于创意 3D 鸟类生成的连续部分潜在特征

Chirpy3D框架可以将细粒度的2D图像理解提升至3D生成的全新境界。 当前的3D生成方法往往只关注于重构简单的对象,缺乏细致的特征和创造性。 Chirpy3D通过结合多视角扩散模型和连续的部件潜在空间,能够生成全新且合理的3D鸟类模型。