NeurIPS | 对比采样链:让扩散模型更快、更准、更清晰的秘密武器

论文 Contrastive Sampling Chains in Diffusion Models 的精炼解读。 一眼概览该论文提出了一种 对比采样链(Contrastive Sampling Chains, CSC) 方法,通过对比损失和得分匹配相结合,优化扩散模型(DMs)的采样过程,从而 减少离散化误差,提高生成图像的质量,同时提升采样速度。 核心问题扩散模型在使用数值求解方法进行采样时 不可避免地引入离散化误差,导致生成样本与真实数据分布之间存在偏差。

论文 Contrastive Sampling Chains in Diffusion Models 的精炼解读。

一眼概览

该论文提出了一种 对比采样链(Contrastive Sampling Chains, CSC) 方法,通过对比损失和得分匹配相结合,优化扩散模型(DMs)的采样过程,从而 减少离散化误差,提高生成图像的质量,同时提升采样速度。

核心问题

扩散模型在使用数值求解方法进行采样时 不可避免地引入离散化误差,导致生成样本与真实数据分布之间存在偏差。现有方法尝试减少采样步骤以加速生成,但会导致图像质量下降。本研究的核心问题是:

• 如何减少离散化误差,在 不增加计算开销 的情况下,提高生成图像的质量?

• 如何在采样过程中 使模型生成的分布更接近真实数据分布?

技术亮点

1. 提出对比采样链:使用对比损失构建采样链,通过正样本对(同一图像不同时间步的采样结果)和负样本对(不同图像的采样结果)优化模型,使不同时间步的生成样本更加一致,从而减少误差积累。

2. 优化 KL 散度上界:理论分析表明,合适的对比损失和得分匹配组合可作为真实数据分布与模型分布 KL 散度的上界,从而有效减少离散化误差。

3. 提升质量或加速采样:方法适用于各种 预训练扩散模型(无论是否使用快速采样算法),在 相同计算量下提升图像质量,或在 保持质量的同时减少采样步骤

方法框架

图片图片

论文的方法流程如下:

1. 构建对比采样链

• 在扩散模型的采样过程中,选择同一图像不同时间步的生成结果作为正样本对,不同图像的生成结果作为负样本对。

• 使用 MoCov2 预训练模型 提取 128 维特征并计算 InfoNCE 对比损失。

2. 联合优化损失

        • 结合原始得分匹配损失(JSM)和对比损失(InfoNCE)。

   3. 采用 BPTT 进行优化

        • 采用 时间反向传播(BPTT) 传播梯度,优化整个采样链,而非单步优化,从而进一步减少全局误差。

实验结果速览

• 在 CIFAR-10 数据集上

结合 EDM 预训练模型,在 相同采样步数(35 NFEs)下,FID 从 2.04 降至 1.88(质量提升)。

相同 FID(2.04)下,采样步数从 35 降至 25(计算量减少)。

• 适用于不同快速采样方法

         在 DPM-Solver、DEIS 等快速采样方法上应用本方法,可在相同计算量下降低 FID,或在相同 FID 下减少计算量。

实用价值与应用

该方法可用于 图像生成、视频生成、文本到图像生成 等任务,尤其适用于:

• 自动驾驶(减少传感器噪声,提高环境感知能力)

• 医学影像(降低数据采样误差,提高合成数据质量)

• 计算机视觉(提升图像生成质量,提高数据增强效果)

开放问题

1. 对比采样链能否适用于三维点云生成或视频生成?

2. 是否可以进一步结合自监督学习,优化对比损失的构造方式?

3. 如何在计算资源受限的情况下,实现更高效的优化策略?

其他

• 论文的官方期刊或会议来源:https://proceedings.neurips.cc/paper_files/paper/2023/file/e8ff788779f2e9e74ccd0d6b84607437-Paper-Conference.pdf

• 注:所有免费资料获取链接:https://link3.cc/soragpt

相关资讯

让模型预见分布漂移:动态系统颠覆性设计引领时域泛化新革命

在实际应用中,数据集的数据分布往往随着时间而不断变化,预测模型需要持续更新以保持准确性。 时域泛化旨在预测未来数据分布,从而提前更新模型,使模型与数据同步变化。 然而,传统方法假设领域数据在固定时间间隔内收集,忽视了现实任务中数据集采集的随机性和不定时性,无法应对数据分布在连续时间上的变化。

图生成扩散模型综述:算法与在分子和蛋白质建模上应用

论文简要回顾了扩散模型在图数据上的算法及相关应用的若干研究。论文链接::(Graph-based Data)可以保存现实世界实体(节点)之间丰富多样的关系信息,包括实体间的关联联系、属性特征、以及拓扑结构,已经在社交网络分析、推荐系统、生物信息学等领域有广泛的应用。图生成模型旨在理解和学习现有的图数据分布,并合成新的图样本。这对于研究图数据中潜在的图结构关系,理解现有数据中的模式、关联和隐藏的信息具有重要的意义。生成模型可以用于探索图数据不同尺度的关系、发现社区结构、预测节点属性等。主要的图生成范式分为两类:自回归

Midjourney 迎来最强对手,种子轮融资大佬云集,测试版让马斯克一「键」穿越

机器之能报道编辑:SIA一直以来,Midjourney  稳坐 AIGC 文生图的王座,少有威胁,直到这家公司的出现。8 月 23 日,生成式人工智能创业公司 Ideogram AI 正式官宣:「我们正在开发最先进的人工智能工具,使创意表达变得更容易、更有趣、更高效。」官网写道。团队核心成员也是谷歌大脑 Imagen 团队主要成员, Ideogram AI 也被认为试图将 Imagen 发扬光大:Mohammad Norouzi(CEO )、Jonathan Ho (联合创始人)、 William Chan 和 C