CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!

本文经AIGC Studio公众号授权转载,转载请联系出处。 在图像生成领域,大型文本到图像(T2I)扩散模型近年来取得了革命性的突破。 然而,将这些强大的生成能力转化为精细的图像编辑任务,仍面临诸多挑战。

本文经AIGC Studio公众号授权转载,转载请联系出处。

在图像生成领域,大型文本到图像(T2I)扩散模型近年来取得了革命性的突破。然而,将这些强大的生成能力转化为精细的图像编辑任务,仍面临诸多挑战。CVPR 2024, 来自北京大学深圳研究生院与腾讯PCG的研究团队提出了一种创新的图像编辑方法——DiffEditor,该方法不仅显著提升了编辑的准确性和灵活性,还拓宽了扩散模型在图像编辑领域的应用边界。图片DiffEditor可以对一般图像执行各种细粒度的图像编辑操作。给定一张图片,用户可以选择一个对象进行移动或调整大小,也可以选择多个像素点进行更精确的内容拖动。此外,用户还可以选择参考图像进行跨图像编辑,即对象粘贴和外观替换。

图片

相关链接

  • 论文:https://arxiv.org/pdf/2402.02583
  • 项目:https://github.com/MC-E/DragonDiffusion

背景与挑战

现有的基于扩散模型的图像编辑方法,如DragDiff和DragonDiff,虽然在一定程度上实现了图像的精细编辑,但仍存在局限性。DragDiff受限于GAN模型的容量,而DragonDiff则在编辑过程中牺牲了部分灵活性。此外,这些方法往往忽视了文本提示在精细编辑中的潜在作用,导致编辑结果在某些场景下缺乏细节和准确性。

方法

图片DiffEditor 概述,它由可训练的图像提示编码器和带有不需要训练的编辑指导的扩散采样组成。

  1. 引入图像提示:DiffEditor首次尝试将图像提示引入精细图像编辑任务中,与文本提示相结合,为编辑内容提供了更详细的描述,从而显著提高了编辑质量。
  2. 区域SDE策略:为了提升编辑的灵活性,DiffEditor提出了一种区域随机微分方程(SDE)策略,该策略能够在编辑区域注入随机性,同时保持其他区域的内容一致性。
  3. 时间旅行策略:为了进一步改善编辑质量,DiffEditor引入了时间旅行策略,在单个扩散时间步内建立循环指导,从而精炼编辑效果。

CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!

图像提示编码器设计说明CVPR 2024 Spotlight | 解锁图像编辑新境界, 北大、腾讯提出DiffEditor,让精细编辑更简单!

图片

实验与性能

图片

DiffEditor与其他面部处理方法的定性比较。当前点和目标点用红色和蓝色标记吗,白线表示距离,结果和目标之间的 MSE 距离用黄色标记。

图片

提出的方法与其他方法在外观替换、对象粘贴和对象移动任务上的视觉比较。

图片

不同扩散模型上的编辑结果可视化。

综上所示,研究团队通过大量实验验证了DiffEditor在各种精细图像编辑任务(如内容拖动、对象移动、缩放、粘贴和外观替换)中的优越性能。与现有的基于扩散和GAN的方法相比,DiffEditor不仅具有更高的编辑准确性和内容一致性,还保持了良好的灵活性。特别是在需要想象新内容的场景中,DiffEditor能够产生更自然的结果。

结论

DiffEditor是一种高效且灵活的图像编辑方法,能够无缝融入各种精细图像编辑任务,无需针对特定任务进行训练。尽管DiffEditor已经取得了显著成果,但在某些需要大量内容想象的场景中,如旋转汽车的前部,仍存在一定的编辑难度。研究团队认为,这主要归因于基础模型SD的多样性限制。未来,他们将继续探索更先进的模型架构和训练策略,以进一步拓展DiffEditor的应用范围和编辑能力。

相关资讯

英伟达新 nGPT 架构撬动 AI 未来:超球面学习提效,训练模型时间可缩短至 1/20

科技媒体 dataconomy 昨日(10 月 21 日)发布博文,报道称英伟达在训练 AI 模型方面取得重大突破,发布了最新的 Normalized Transformer(nGPT)新架构,保持模型的稳定性和准确性的前提下,可以将训练 AI 时间缩短至 1/4 或者 1/20。nGPT 架构提升效率的秘诀在于“超球面学习”(Hyperspherical learning)这个概念。传统的变换器模型通常缺乏一致的几何框架,而 nGPT 通过将嵌入、注意力矩阵和隐藏状态等关键组件映射到超球面表面,确保模型各层在训练过程中保持平衡。

万字独家爆光,首揭o1 pro架构!惊人反转,Claude 3.5 Opus没失败?

大模型Scaling Law终结,前段时间曾被吵得沸沸扬扬。 面对诸多的质疑,硅谷巨头们用行动给出了截然不同的答案。 谷歌祭出最强下一代新模型Gemini 2.0 Flash,并带着多个智能体一同亮相;OpenAI「满血版」o1和o1 pro mode向所有人证明了模型的能力还远没有触及到天花板。

谷歌、Meta如何给大模型瘦身?谷歌工程师亲述部署秘籍(免费书)

这是一本正在写作的新书,目前前四章已经放出了草稿。