聚集模型凭借其在图象生成方面的出色表现,开启了生成式模型的新纪元。诸如 Stable Diffusion,DALLE,Imagen,SORA 等大模型如雨后春笋般涌现,进一步丰富了生成式 AI 的使用前景。然而,当前的聚集模型在理论上并非完美,鲜有研讨关注到采样时间端点处未定义的奇点课题。此外,奇点课题在使用中导致的平衡灰度等影响生成图象质量的课题也一直未得到办理。
为了办理这一难题,微信视觉团队与中山大学合作,联手探究了聚集模型中的奇点课题,并提出了一个即插即用的步骤,有效办理了初始时辰的采样课题。该步骤成功办理了平衡灰度课题,昭著提升了现有聚集模型的生成能力。这一研讨成果已在 CVPR 2024 会议上发表。
聚集模型在多模态内容生成任务中取得了昭著的成功,包括图象、音频、文本和视频等生成。这些模型的成功建模大多依赖于一个假设,即聚集流程的逆流程也符合高斯特色。然而,这一假设并没有得到充分证明。特别是在端点处,即 t=0 或 t=1,会出现奇点课题,限制了现有步骤对奇点处采样的研讨。
此外,奇点课题也会影响聚集模型的生成能力,导致模型出现平衡灰度课题,即难以生成亮度强或者弱的图象,如图下所示。这在一定程度上也限制了当前聚集模型的使用范围。
为了办理聚集模型在时间端点处的奇点课题,微信视觉团队与中山大学合作,从理论和实践两个方面展开了深入探究。首先,该团队提出了一个包含奇点时辰逆流程近似高斯分布的误差上界,为后续研讨提供了理论基础。基于这一理论保障,团队对奇点处的采样进行了研讨,并得出了两个重要的结论:1)t=1 处的奇点可以通过求取极限转化为可去奇点,2)t=0 处的奇点是聚集模型的固有特色,不需要规避。基于这些结论,该团队提出了一个即插即用的步骤:SingDiffusion,用于办理聚集模型在初始时辰采样的课题。
通过大量的实验考证表明,仅需训练一次,SingDiffusion 模块即可无缝使用到现有的聚集模型中,昭著地办理了平衡灰度值的课题。在不使用无分类器指引技术的情况下,SingDiffusion 能够昭著提升当前步骤的生成质量,特别是在使用于 Stable Diffusion1.5(SD-1.5)后,其生成的图象质量更是提升了 33%
论文地址:https://arxiv.org/pdf/2403.08381.pdf
项目地址:https://pangzecheung.github.io/SingDiffusion/
论文题目:Tackling the Singularities at the Endpoints of Time Intervals in Diffusion Models
逆流程的高斯特色
为了研讨聚集模型的奇点课题,需要考证全流程包含奇点处的逆流程满足高斯特色。首先定义为聚集模型的训练样本,训练样本的分布可以表示为:
其中 δ 表示狄拉克函数。根据 [1] 中连续时间聚集模型的定义,对于任意两个时辰 0≤s,t≤1,正向流程可以表示为:
其中,,,随着时间单调的从 1 变化到 0。考虑到刚刚定义的训练样本分布,的单时辰边际概率密度可以表示为:
由此,可以通过贝叶斯公式计算逆流程的条件分布:
然而,得到的分布是混合高斯分布,难以用网络进行拟合。因此,主流的聚集模型通常假设这一分布可以由单个高斯分布拟合:
其中,为了考证这一假设,该研讨在 Proposition 1 中估计了这一拟合的误差。
然而,该研讨发现当 t=1 时,随着 s 趋近 1,也将趋近于 1,误差无法忽略。因此,Proposition 1 并不能证明 t=1 时的逆向高斯特色。为了办理这一课题,该研讨给出了新的命题:
根据 Proposition 2,当 t=1 时,随着 s 趋近 1,将趋近于 0。由此,该研讨证明了包含奇点时辰的逆流程全流程都符合高斯特色。
奇点时辰的采样
有了逆流程高斯特色的保证,该研讨基于逆向采样公式对奇点时辰的采样展开了研讨。
首先考虑 t=1 时辰的奇点课题。当 t=1 时,=0,下面的采样公式将出现分母除 0 的情况:
研讨团队发现,通过计算极限,该奇点可以转化为可去奇点:
然而,这一极限无法在测试流程中进行计算。为此,该研讨提出可以在 t=1 时辰拟合,使用 「x – 预测」,来办理的初始奇点处的采样课题。
接着考虑 t=0 时辰,高斯分布拟合的逆流程将变成方差为 0 的高斯分布,即狄拉克函数:
其中。这样的奇异性会使得采样流程收敛到正确的数据上。因此,t=0 处的奇点是聚集模型良好的性质,并不需要规避。
此外,该研讨还在附录中探讨了 DDIM,SDE,ODE 中的奇点课题。
即插即用的 SingDiffusion 模块
奇点处的采样会影响聚集模型生成图象的质量。例如,在输入高或低亮度的提示时,现有步骤往往只能生成平衡灰度的图象,这被称为平衡灰度课题。这个课题源于现有步骤忽略了 t=0 时奇点处的采样,而是在 1-ϵ 时辰使用标准高斯分布作为初始分布进行采样。然而,正如上图所示,标准高斯分布与实际的 1-ϵ 时辰的数据分布存在较大的差距。
在这样的差距下,根据 Proposition 3,现有步骤等同于在 t=1 时朝着一个均值为 0 的图象进行生成,即平衡灰度图象。因此,现有步骤难以生成亮度极强或极弱的图象。为了办理这个课题,该研讨提出了一个即插即用的 SingDiffusion 步骤,通过拟合标准高斯分布与实际数据分布之间的转换来弥补这一差距。
SingDiffuion 的算法以下图所示:
根据上一节的结论,该研讨在在 t=1 时辰使用了 「x – 预测」步骤来办理奇点处的采样课题。对于图-文数据对,该步骤训练了一个 Unet来拟合。损失函数表示为:
模型收敛后,就可以按照下面的 DDIM 采样公式并使用新得到的模块采样。
DDIM 的采样公式确保了生成的符合 1-ε 时辰的数据分布,从而办理了平衡灰度课题。在这一步骤之后,就可以使用预训练的模型执行后续的采样步骤,直到生成。值得注意的是,由于该步骤仅参与第一步的采样,与后续的采样流程无关,因此 SingDiffusion 可以使用在绝大多数已有的聚集模型中。另外,为了避免无分类器指导操作导致的数据溢出课题,该步骤还使用了以下的归一化操作:
其中 guidance 表示无分类器指导操作后的结果,neg 表示负面提示下的输出,pos 表示正面提示下的输出,ω 表示指导强度。
实验
首先,该研讨在 SD-1.5、SD-2.0-base 和 SD-2.0 三个模型上考证了 SingDiffusion 办理平衡灰度课题的能力。该研讨选择了四个极端的提示,包括 「纯白 / 黑背景」 和 「单色线条艺术标志在白 / 黑背景上」,作为条件进行生成,并计算生成图象的平衡灰度值,以下表所示:
从表格中可以看出,该研讨能够昭著地办理平衡灰度值课题,生成符合输入文字描述亮度的图象。此外,该研讨还可视化了在这四个提示语句下的生成结果,以下图所示:
从图中可以看出,加入该步骤后,现有的聚集模型能够生成偏黑或者偏白的图象。
为了进一步研讨该步骤对于图象质量的提升,该研讨在 COCO 数据集上选择了 30,000 个描述进行了测试。首先,该研讨展示了在不使用无分类器引导下,模型本身的生成能力,以下表所示:
从表格中可以看出,所提出的步骤能够昭著降低生成图象的 FID,并提升 CLIP 指标。值得注意的是,在 SD-1.5 模型中,该论文中的步骤相比于原模型在 FID 指标上降低了 33%。
进一步地,为了考证所提出步骤在无分类器引导下的生成能力,该研讨还在下图中展示了在不同引导大小 ω∈[1.5,2,3,4,5,6,7,8] 下 CLIP v.s. FID 的帕累托曲线:
从图中可以看出,在相同的 CLIP 水平下,所提出的步骤能够获得更低的 FID 数值,生成更逼真的图象。
此外,该研讨还展示了所提出步骤在不同 CIVITAI 预训练模型下的泛化能力,以下图所示:
可以看出,该研讨所提出的步骤仅需进行一次训练,即可轻松地使用到已有的聚集模型中,办理平衡灰度课题。
最后,该研讨所提出的步骤还能够无缝地使用到预训练的 ControlNet 模型上,以下图所示:
从结果中可以看出,该步骤能有效办理 ControlNet 的平衡灰度课题。
参考文献:
[1] Tero Karras, Miika Aittala, Timo Aila, and Samuli Laine. Elucidating the design space of diffusion-based generative models. Advances in Neural Information Processing Systems (NeurIPS), pages 26565–26577, 2022. 3