AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
该文章的第一作者帅欣成,目前在复旦大学FVL实验室攻读博士学位,本科毕业于上海交通大学。他的主要钻研方向包括图象和视频编写以及多模态学习。
前言
本文提出了解决一般性编写工作的分裂框架!近期,复旦大学 FVL 实验室和南洋理工大学的钻研人员对于多模态指导的基于文生图大模型的图象编写算法进行了总结和回顾。综述涵盖 300 多篇相关钻研,调研的最新模型截止至今年 6 月!该综述拓展了关于控制条件(自然语言,图象,用户接口)和编写工作的议论 (物体 / 属性操作、空间变换、inpainting、风格转换、图象翻译,主体 / 属性客制化),以从更新颖和更一般性的角度全面的探讨编写步骤。此外,该综述提出的分裂框架将编写进程表示为分别算法族的拉拢,并通过全面的定性和定量实验来说明各种拉拢的特性以及适应场景。该框架提供了友好的设计空间以满足用户分别的需求,并为钻研者们提供了一定的参考以开发新的算法。
摘要
图象编写旨在根据用户的特定需求编写给定的合成图象或真实图象。作为人工智能生成内容(AIGC)领域中一个有前景且具有挑战性的领域,图象编写得到了广泛钻研。近期,大规模文生图(T2I)扩散模型驱动了图象编写技术的发展。这些模型根据文本提示生成图象,展示了惊人的生成能力,已成为图象编写的常用工具。基于 T2I 的图象编写步骤显著提升了编写性能,为用户提供了使用多模态条件指导进行内容修改的接口。我们对基于 T2I 扩散模型的多模态指导下的图象编写技术进行了全面回顾。首先,我们从更一般性的角度定义了图象编写工作的范围,并详细描述了各种控制信号和编写场景。然后,我们提出了一个分裂框架来形式化编写进程,将其表示为两个算法族的拉拢。这个框架为用户提供了一个设计空间,以实现特定目标。接着,我们对该框架内的每个组件进行了深入分析,钻研了分别拉拢的特性和适用场景。由于基于训练的步骤直接学习将源图象映射到目标图象,我们对这些步骤进行了单独议论,并介绍了分别场景下源图象的注入方案。此外,我们也回顾了 2D 技术在视频编写中的利用,重点介绍了解决帧间不一致性的问题。最后,我们也议论了该领域的开放性挑战,并提出了潜在的未来钻研方向。
论文题目:A Survey of Multimodal-Guided Image Editing with Text-to-Image Diffusion Models
发表单位:复旦大学 FVL 实验室,南洋理工大学
论文地址:https://arxiv.org/abs/2406.14555
项目地址:https://github.com/xinchengshuai/Awesome-Image-Editing
1.钻研动机
1.1,在现实生活中,人们对于可控的、高质量的智能化图象编写工具的需求日益增加,因此有必要系统地总结与对比这个方向的步骤与技术特点。
1.2,当前的编写算法与相关的综述都将编写场景局限于保留图象中的大部分与编写无关的低级语义信息,为此需要扩展编写工作的范围,从更具有一般性的视角议论编写工作。
1.3,由于需求和场景具有多样性,有必要将编写进程形式化为一个分裂框架,并为用户提供一个设计空间来适应分别的编写目标。
2.综述亮点,与当前编写综述有何区别?
2.1 关于编写工作的定义与议论范围。相比于现有的算法以及此前的编写综述,本文对于图象编写工作的定义更加广泛。具体的,本文将编写工作分为 content-aware 和 content-free 场景组。其中 content-aware 组内的场景为之前的文献所议论的主要工作,它们的共性是保留图象中的一些低级语义特征,如编写无关区域的像素内容,或图象结构。此外,我们开创性地将定制化工作(customization)纳入到 content-free 场景组中,将这一类保留高级语义(如主体身份信息,或者其他细粒度属性)的工作作为对常规的编写场景的补充。
图 1. Survey 议论的各种编写场景
2.2 一般性编写算法的分裂框架。由于编写场景的多样性,现有的算法无法很好的解决所有的需求。因此我们将现有的编写进程形式化为一个分裂的框架,将其表示为两个算法族的拉拢。此外我们也通过定性和定量实验分析了分别拉拢的特性与适应场景,为用户提供了一个良好的设计空间以适应分别的编写目标。同时,该框架也为钻研者们提供了一个较好的参考,以设计出性能更优的算法。
2.3 议论的全面性。我们调研了 300 多篇的相关论文,系统且全面地阐述了各种模态的控制信号在分别场景下的利用。对于基于训练的编写步骤,本文也提供了在各种场景下将源图象注入到 T2I 模型的策略。此外,我们也探讨了图象编写技术在视频领域的利用,使得读者能够快速的理解分别领域间编写算法的联系。
3.一般性编写算法的分裂框架
图 2. 一般性编写算法的分裂框架
框架包含了两个算法族 Inversion 算法和 Editing 算法。
3.1 Inversion 算法。Inversion 算法将源图象集合编码到特定的特征或参数空间,得到对应的表征(inversion clue),并用对应的源文本描述作为源图象的标识符。包括 tuning-based和 forward-based两种类型的 inversion 算法。其可以被形式化为:
Tuning-based inversion通过原有的 diffusion 训练进程将源图象集合植入到扩散模型的生成分布中。形式化进程为:
其中为引入的可学习的参数,且。
Forward-based inversion用于在扩散模型的反向进程中()还原某一条前向路径中的噪声()。形式化进程为:
其中为步骤中引入的参数,用于最小化,其中,。
3.2.Editing 算法。Editing 算法根据和多模态指导集合来生成最终的编写结果。包含 attention-based,blending-based,score-based以及 optimization-based的 editing 算法。其可以被形式化为:
特别地,对于每一步的反向进程,进行了如下操作:
其中中的操作表示编写算法对于扩散模型采样进程的干预,用于保证编写后的图象与源图象集合的一致性,并反应出中指导条件所指明的视觉变换。
特别地,我们将无干预的编写进程视作为普通版本的编写算法。其形式化为:
Attention-based editing的形式化进程:
Blending-based editing的形式化进程:
Score-based editing的形式化进程:
Optimization-based editing的形式化进程:
3.3 Training-Based 的编写步骤。与 training-free 的步骤分别的是,training-based 算法通过在工作特定的数据集中直接学习源图象集合到编写图象的映射。这一类算法可以看作是 tuning-based inversion 的扩展,即通过额外引入的参数将源图象编码到生成分布中。在这类算法中,最重要的是如何将源图象注入到 T2I 模型中,以下是针对分别编写场景的注入方案。
Content-aware 工作的注入方案:
图 3. Content-aware 工作的注入方案
Content-free 工作的注入方案:
图 3. Content-free 工作的注入方案
4.分裂框架在多模态编写工作中的利用
本文通过定性实验说明了各个拉拢在多模态编写工作中的利用:
图 4. 关于 attention-based editing的算法拉拢的利用
图 5. 关于 blending-based editing的算法拉拢的利用
图 6. 关于 score-based editing的算法拉拢的利用
图 7. 关于 optimization-based editing的算法拉拢的利用
详细分析请查阅原始论文。
5.分别拉拢在文本指导编写场景下的比较
对于常见的文本指导的编写工作,本文通过设计了多个具有挑战性的定性实验,以说明分别拉拢所适合的编写场景。此外,本文也相应地收集了高质量和具有一定难度的数据集,以定量地说明各种拉拢中的先进算法在分别场景下的性能。
对于 content-aware 工作,我们主要考虑对象操作(增 / 删 / 替换),属性改变,风格迁移。特别地,我们考虑了具有挑战性的实验设置:1. 多目标编写。2. 对于图象的语义布局影响较大的用例。我们也收集了这些复杂场景的高质量图片,并对分别拉拢中的先进算法进行全面定量比较。
图 8.Content-aware 工作中各个拉拢的定性比较,从左至右分别是
结果分析以及更多实验结果请查阅原始论文。
对于 content-free 工作,我们主要考虑基于主体驱动的(subject-driven)定制化工作。并考虑了多种场景,如更换背景,与物体交互,行为改变,以及风格改变。我们也定义了大量的文本指导模板,并对各个步骤的整体性能进行定量分析。
图 9.Content-free 工作中各个拉拢的定性比较,从左至右分别是
结果分析以及更多实验结果请查阅原始论文。
6.未来可以钻研的方向
此外本文也给出了一些关于未来钻研方向的分析。这里以 content-aware 工作和 content-free 工作面临的挑战为例。
6.1. Content-aware 工作的挑战。对于 content-aware 编写工作的挑战,现有步骤无法同时处理多种编写场景和控制信号。这一限制迫使利用在分别工作之间切换合适的后端算法。此外,一些高级步骤在易用性方面不友好。某些步骤需要用户调整关键参数以获得最佳结果,而其他步骤则需要繁琐的输入,例如源和目标提示,或辅助掩码。
6.2.Content-free 工作的挑战。对于 content-free 编写工作,现有步骤在测试时调优进程冗长且存在过拟合问题 。一些钻研旨在通过优化少量参数或从头开始训练模型来缓解这一问题。然而,它们常常会丢失个性化主体的细节,或表现出较差的泛化能力。此外,当前步骤在从少量图象中提取抽象概念方面也有所不足,它们无法完全将所需概念与其他视觉元素分离开来。
了解更多钻研方向内容可以查阅原始论文。