ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

有人表示:「等待已久的 AI 图象创建功能终于迎来了图层!」尽管用于生成图象的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层实质生成或浑浊图象(是指图象的某些部分是浑浊的,允许布景或者其他图层的图象通过这些浑浊部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉实质编辑软件和工作流程都是基于层的,严重依赖浑浊或分层元素来组合和创建实质。来自斯坦福大学的研究者提出了一种「latent transparency(潜伏浑浊度)」步骤,使得经过大规模预训练的潜伏集中模型能够生成透

有人表示:「等待已久的 AI 图象创建功能终于迎来了图层!」

尽管用于生成图象的大模型已经成为计算机视觉和图形学的基础,但令人惊讶的是,分层实质生成或浑浊图象(是指图象的某些部分是浑浊的,允许布景或者其他图层的图象通过这些浑浊部分显示出来)生成领域获得的关注极少。这与市场的实际需求形成了鲜明对比。大多数视觉实质编辑软件和工作流程都是基于层的,严重依赖浑浊或分层元素来组合和创建实质。

来自斯坦福大学的研究者提出了一种「latent transparency(潜伏浑浊度)」步骤,使得经过大规模预训练的潜伏集中模型能够生成浑浊图象以及多个浑浊图层。 

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

论文地址:https://arxiv.org/pdf/2402.17113.pdf

论文标题:Transparent Image Layer Diffusion using Latent Transparency

举例来说,对于给定的文本提示(如头发凌乱的女人,在卧室里),该研究提出的步骤能够生成具有浑浊度的多个图层。也就是说该模型不仅能根据提示生成图片,还能将远景和布景进行分层,布景丢失的信息也能很好的补充。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

此外,本文还采用人机交互的方式来训练模型框架并同时收集数据,最终数据集的规模达到 100 万张浑浊图象,涵盖多种实质主题和风格。然后,该研究将数据集扩展到多图层样本。该数据集不仅可以训练浑浊图象生成器,还可以用于不同的应用,例如布景 / 远景前提生成、结构引导生成、风格迁移等。

实验表明,在绝大多数情况下 (97%),用户更喜欢由本文步骤生成的浑浊实质,而不是以前的解决方案(例如先生成然后抠图)。当研究者将生成的质量与 Adobe Stock 等商业网站的搜索结果进行比较时,也取得了不错的成绩。

这项研究作者共有两位 Lvmin Zhang 以及 Maneesh Agrawala ,其中 Lvmin Zhang 还是 ContorlNet 的作者。

有网友表示:「能生成浑浊图层的意义绝不仅仅是抠图。这是现在动画、视频制作最核心的工序之一。这一步能够过,可以说 SD 一致性就不再是问题了。」

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

步骤介绍

本文的目标是为像 Stable Diffusion (SD) 这样的大规模潜伏集中模型添加浑浊度支持,这些模型通常应用一个潜伏编码器(VAE)将 RGB 图象转换为潜伏图象,然后再将其输入到集中模型中。在此过程中,VAE 和集中模型应共享相同的潜伏分布,因为任何重大不匹配都可能显著降低潜伏集中框架的推理 / 训练 / 微调性能。

潜伏浑浊度:当调整潜伏空间以支持浑浊度时,必须尽可能保留原始的潜伏分布。这个看似不明确的目标可以通过一个直接的测量来确定:可以检查修改后的潜伏分布被原始预训练的冻结潜伏解码器解码的如何 —— 如果解码修改后的潜伏图象创建了严重的人工痕迹,那么潜伏分布就是不对齐或损坏的。这一过程可视化结果如下图所示:

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

生成多个图层:该研究进一步应用注意力共享和 LoRA 将基础模型扩展为多图层模型,如图 3-(b) 所示。图 3-(a) 为训练可视化结果。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

图 4 引入了几种替代架构,以实现更复杂的工作流程。研究者可以向 UNet 添加零初始化通道,并应用 VAE(有或没有潜伏浑浊度)将远景、布景或图层组合编码为前提,并训练模型生成远景或布景(例如,图 4-( b,d)),或直接生成混合图象(例如,图 4-(a,c))。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

数据准备及其训练细节

训练数据集包括基础数据集(图 5-(a))以及多图层数据集 (5-(b)) 。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

训练设备为 4 × A100 80G NV-link,整个训练时间为一周(为了减少预算,在人工收集下一轮优化数据时暂停训练),实际 GPU 时间约为 350 A100 小时。该步骤适合个人规模或实验室规模的研究,因为 350 个 GPU 小时预算通常在 1K 美元内。

 实验

图 6 揭示了应用单图象基础模型生成的图象定性结果。这些结果揭示了该模型可以生成原生浑浊图象,如生成高质量的玻璃浑浊度、头发、毛发、发光、火焰、魔法等效果。这些结果还证明了该模型可以泛化到不同的场景。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

图 7 揭示了应用具有不同主题的提示来生成图片的定性结果。每个示例会显示混合图象和两个输出层。这些图层不仅在照明和若干关系方面保持一致,而且还揭示了稳定集中的美学品质(例如,布景和远景的颜色选择,看起来和谐且美观)。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

前提层生成。研究者在图 8 中揭示了前提层生成结果(即以远景为前提的布景生成和以布景为前提的远景生成)。可以看到,本文的模型可以生成具有一致若干和照明效果的连贯构图。在「教堂中悬挂的灯泡」示例中,该模型尝试通过一种对称性审美设计来匹配远景。而在「坐在长登上或坐在沙发上」示例中,该模型可以推断远景和布景之间的交互,并生成相应的若干。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

迭代生成。如图 9 所示,研究者可以迭代应用以布景为前提的远景生成模型,以实现构图或任意数量的层。对于每个新的层,他们将之前生成的所有层融入到一个 RGB 图象,并馈入到以布景为前提的远景模型。研究者还观察到,该模型能够在布景图象的上下文中解释自然语言,比如在一只猫的面前生成一本书。该模型展现了强大的若干构图能力,比如生成一个人坐在箱子上的组合图象。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

可控生成。如图 10 所示,研究者揭示了 ControlNet 等现有可控模型可以用于他们的模型,以提供丰富的功能。可以看到,本文的模型可以基于 ControlNet 信号来保留全局结构,以生成具有一致照明效果的和谐构图。研究者也通过一个「反射球」示例揭示了本文的模型可以与远景和布景的实质进行交互,从而生成反光等一致性照明效果。

ControlNet作者又出新作:百万数据训练,AI图象生成迎来图层设计

给TA打赏
共{{data.count}}人
人已打赏
工程

微软37页论文逆向工程Sora,得到了哪些结论?

2024-3-1 15:17:00

工程

CVPR 2024满分论文:浙大提出鉴于可变形三维高斯的高质量单目静态重修新步骤

2024-3-4 14:58:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索