近日,来自香港中文大学 – 商汤科技联合实验室等机构的研究者们提出了FouriScale,该办法在利用预训练分散模型生成高分辨率图象方面取得了显著提升。
近期,分散模型凭借其出色的性能已超越 GAN 和自回归模型,成为生成式模型的主流选择。基于分散模型的文本到图象生成模型(如 SD、SDXL、Midjourney 和 Imagen)展现了生成高质量图象的惊人能力。通常,这些模型在特定分辨率下进行训练,以确保在现有硬件上实现高效处理和稳定的模型训练。
图 1 : 接纳分别办法在 SDXL 1.0 下生成 2048×2048 图象的比照。[1]
然而,当这些预训练的分散模型在超出训练分辨率时生成图象,通常会出现模式反复和严重的人工伪影(artifacts)问题,如图 1 最左侧所示。
为了解决这一问题,来自香港中文大学 – 商汤科技联合实验室等机构的研究者们在一篇论文中深入研究了分散模型中常用的 UNet 构造的卷积层,并从频域分析的角度提出了 FouriScale, 如图 2 所示。
图 2 FouriScale 的流程(橙色线)示意图,目的是确保跨分辨率的一致性。
FouriScale 通过引入朴陋卷积操作和低通滤波操作来替换预训练分散模型中的原始卷积层,旨在实现分别分辨率下的构造和标准一致性。配合「填充然后裁剪」策略,该办法能够灵活生成分别尺寸和长宽比的图象。此外,借助 FouriScale 作为指导,该办法在生成任意尺寸的高分辨率图象时,能够确保完整的图象构造和卓越的图象质量。FouriScale 无需任何离线预计算,具有良好的兼容性和可扩展性。
定额和定性实验结果表明,FouriScale 在利用预训练分散模型生成高分辨率图象方面取得了显著提升。
论文地址:https://arxiv.org/abs/2403.12963
开源代码:https://github.com/LeonHLJ/FouriScale
论文标题:FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis
办法介绍
1、朴陋卷积确保跨分辨率下的构造一致性
分散模型的去噪网络通常是在特定分辨率的图象或潜在空间上训练的,这个网络通常接纳 U-Net 构造。作家的目标是在推理阶段应用去噪网络的参数生成分辨率更高的图象,而无需重新训练。为了避免推理分辨率下的构造失真,作家尝试在默认分辨率和高分辨率之间建立构造一致性。对于 U-Net 中的卷积层,构造一致性可表述为:
其中 k 是原本的卷积核,k' 是为更大分辨率定制的新卷积核。根据空间下采样的频域表示,如下:
可以将公式(3)写为:
这个公式表明了理想卷积核 k' 的傅里叶频谱应该是由 s×s 个卷积核 k 的傅里叶频谱拼接而成的。换句话说,k' 的傅里叶频谱应该有周期性反复,这个反复模式是 k 的傅里叶频谱。
广泛应用的朴陋卷积正好满足这个要求。朴陋卷积的频域周期性可以通过下式表示:
当利用预训练分散模型(训练分辨率为(h,w))生成 (H,W) 的高分辨率图象时,朴陋卷积的参数应用原始卷积核,扩张因子为 (H/h, W/w),是理想的卷积核 k'。
2、低通滤波确保跨分辨率下的标准一致性
然而,只利用朴陋卷积无法完美地解决问题,如图 3 左上角所示,只应用朴陋卷积仍然在细节上存在模式反复的现象。作家认为这是因为空间下采样的频率混叠现象改变了频域分量,导致了分别分辨率下频域分布的差异。为了确保跨分辨率下的标准一致性,他们引入了低通滤波来过滤掉高频分量,以去除空间下采样后的频率混叠问题。从图 3 右侧比照曲线可以看到,在应用低通滤波后,高低分辨率下的频率分布更加接近,从而确保了标准一致。从图 3 左下角图看到,在应用低通滤波后,细节的模式反复现象有明显地改善。
图 3 (a) 是否接纳低通滤波的视觉比照。(b)不接纳低通滤波的傅立叶相对对数幅值曲线。(c) 接纳低通滤波的傅立叶相对对数幅值曲线。
3、适应于任意尺寸的图象生成
以上的方式只能适应于生成分辨率与默认推理分辨率的长宽比一致时,为了使 FouriScale 适应于任意尺寸的图象生成,作家接纳了一种「填充然后裁剪」的方式,办法 1 中展示了结合了该策略的 FouriScale 的伪代码.
4、FouriScale 领导
由于 FouriScale 中的频域操作,不可避免的使生成的图象出现了细节缺失与不期望的伪影问题。为了解决这一问题,如图 4,作家提出了将 FouriScale 作为领导的方式。具体来说,在原本的条件生成约莫以及无条件生成约莫的基础上,他们引入一个额外的条件生成约莫。这个额外的条件生成约莫的生成过程同样接纳朴陋卷积,但是应用更加温和的低通滤波,从而确保细节不丢失。同时他们将利用 FouriScale 输出的条件生成约莫中的注意力分数替换掉这一额外的条件生成约莫中的注意力分数,由于注意力分数包含着生成图象中的构造信息,这一操作将 FouriScale 中正确的图象构造信息引入,同时确保了图象质量。
图 4 (a) FouriScale 领导示意图。(b)不接纳 FouriScale 作为领导的生成图象,有明显的伪影和细节错误。(c) 接纳 FouriScale 作为领导的生成图象。
实验
1. 定额试验结果
作家遵循 [1] 的办法,测试了三个文生图模型(包括 SD 1.5,SD 2.1 和 SDXL 1.0),生成四种更高分辨率的图象。测试的分辨率是它们各自训练分辨率的 4 倍、6.25 倍、8 倍和 16 倍像素数量。在 Laion-5B 上随机采样 30000/10000 个图文对测试的结果如表 1 所示:
表 1 分别的无需训练办法的定额结果比照
他们的办法在各个预训练模型,分别分辨率下都获得了最优的结果。
2. 定性试验结果
如图 5 所示,他们的办法在各个预训练模型,分别分辨率下都能够确保图象生成质量与一致的构造。
图 5 分别的无需训练办法的生成图象比照
结论
本文提出了 FouriScale 用于增强预训练分散模型生成高分辨率图象的能力。FouriScale 从频域分析出来,通过朴陋卷积和低通滤波操作改善了分别分辨率下的构造和标准一致性,解决了反复模式和构造失真等关键挑战。接纳「填充然后裁剪」策略并利用 FouriScale 作为指导,增强了文本到图象生成的灵活性和生成质量,同时适应了分别的长宽比生成。定额和定性的实验比照表明,FouriScale 能够在分别预训练模型,分别分辨率下都能够确保更高的图象生成质量。
[1] He Y, Yang S, Chen H, et al. Scalecrafter: Tuning-free higher-resolution visual generation with diffusion models[C]//The Twelfth International Conference on Learning Representations. 2023.