论文 Contrastive Sampling Chains in Diffusion Models 的精炼解读。
一眼概览
该论文提出了一种 对比采样链(Contrastive Sampling Chains, CSC) 方法,通过对比损失和得分匹配相结合,优化扩散模型(DMs)的采样过程,从而 减少离散化误差,提高生成图像的质量,同时提升采样速度。
核心问题
扩散模型在使用数值求解方法进行采样时 不可避免地引入离散化误差,导致生成样本与真实数据分布之间存在偏差。现有方法尝试减少采样步骤以加速生成,但会导致图像质量下降。本研究的核心问题是:
• 如何减少离散化误差,在 不增加计算开销 的情况下,提高生成图像的质量?
• 如何在采样过程中 使模型生成的分布更接近真实数据分布?
技术亮点
1. 提出对比采样链:使用对比损失构建采样链,通过正样本对(同一图像不同时间步的采样结果)和负样本对(不同图像的采样结果)优化模型,使不同时间步的生成样本更加一致,从而减少误差积累。
2. 优化 KL 散度上界:理论分析表明,合适的对比损失和得分匹配组合可作为真实数据分布与模型分布 KL 散度的上界,从而有效减少离散化误差。
3. 提升质量或加速采样:方法适用于各种 预训练扩散模型(无论是否使用快速采样算法),在 相同计算量下提升图像质量,或在 保持质量的同时减少采样步骤。
方法框架
图片
论文的方法流程如下:
1. 构建对比采样链:
• 在扩散模型的采样过程中,选择同一图像不同时间步的生成结果作为正样本对,不同图像的生成结果作为负样本对。
• 使用 MoCov2 预训练模型 提取 128 维特征并计算 InfoNCE 对比损失。
2. 联合优化损失:
• 结合原始得分匹配损失(JSM)和对比损失(InfoNCE)。
3. 采用 BPTT 进行优化:
• 采用 时间反向传播(BPTT) 传播梯度,优化整个采样链,而非单步优化,从而进一步减少全局误差。
实验结果速览
• 在 CIFAR-10 数据集上:
结合 EDM 预训练模型,在 相同采样步数(35 NFEs)下,FID 从 2.04 降至 1.88(质量提升)。
相同 FID(2.04)下,采样步数从 35 降至 25(计算量减少)。
• 适用于不同快速采样方法:
在 DPM-Solver、DEIS 等快速采样方法上应用本方法,可在相同计算量下降低 FID,或在相同 FID 下减少计算量。
实用价值与应用
该方法可用于 图像生成、视频生成、文本到图像生成 等任务,尤其适用于:
• 自动驾驶(减少传感器噪声,提高环境感知能力)
• 医学影像(降低数据采样误差,提高合成数据质量)
• 计算机视觉(提升图像生成质量,提高数据增强效果)
开放问题
1. 对比采样链能否适用于三维点云生成或视频生成?
2. 是否可以进一步结合自监督学习,优化对比损失的构造方式?
3. 如何在计算资源受限的情况下,实现更高效的优化策略?
其他
• 论文的官方期刊或会议来源:https://proceedings.neurips.cc/paper_files/paper/2023/file/e8ff788779f2e9e74ccd0d6b84607437-Paper-Conference.pdf
• 注:所有免费资料获取链接:https://link3.cc/soragpt