组件可控个性化生成方法MagicTailor:生成过程可自由地定制ID

本文经AIGC Studio公众号授权转载,转载请联系出处。 文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。 相关链接论文阅读::(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。

本文经AIGC Studio公众号授权转载,转载请联系出处。

文章提出了一种组件可控的个性化生成方法MagicTailor,旨在个性化生成过程中可以自由地定制ID的特定组件。

图片图片

相关链接

论文阅读:https://arxiv.org/pdf/2410.13370

项目主页:https://correr-zhou.github.io/MagicTailor/

论文介绍

图片

文生图(T2I)扩散模型的最新进展使得能够根据文本提示创建高质量图像,但它们仍然难以生成对特定视觉概念进行精确控制的图像。现有的方法可以通过学习参考图像来复制给定的概念,但它们缺乏对概念中的各个组件进行细粒度定制的灵活性。

在本文中,介绍了组件可控的个性化,这是一项新颖的任务,它允许用户在个性化视觉概念时重新配置特定组件,从而突破了 T2I 模型的界限。由于两个主要障碍,这项任务特别具有挑战性:语义污染,即不需要的视觉元素破坏个性化概念;语义不平衡,导致概念和组件的学习不成比例。

为了克服这些挑战,本文设计了MagicTailor,这是一个创新框架,利用动态掩码退化(DM-Deg)来动态扰乱不需要的视觉语义和双流平衡(DS-Bal),为所需的视觉语义建立平衡的学习范例。广泛的比较、消融和分析表明,MagicTailor 不仅在这项具有挑战性的任务中表现出色,而且在实际应用中也具有重大前景,为更细致和更具创意的图像生成铺平了道路。

方法介绍

图片

MagicTailor 使用参考图像作为输入,通过低秩自适应 (LoRA) 微调 T2I 扩散模型,以学习目标概念和组件,从而能够生成将组件无缝集成到概念中的图像。 我们引入了动态掩码退化(DM-Deg),这是一种动态干扰不需要的视觉语义的新技术。这种方法有助于抑制模型对不相关视觉细节的敏感性,同时保留整体视觉上下文,从而有效减轻语义污染。 此外,我们采用双流平衡(DS-Bal),一种旨在平衡视觉语义学习的双流学习范式,来解决语义不平衡的问题。在线去噪 U-Net 执行样本最小-最大优化,而动量去噪 U-Net 应用选择性保留正则化,确保更忠实的个性化。

组件可控的个性化

图片

(a) 个性化插图,展示文本到图像 (T2I) 扩散模型如何从给定的参考图像中学习和再现视觉概念。 (b) 组件可控个性化的图示,描绘了一项新制定的任务,旨在在个性化过程中修改视觉概念的特定组件。 (c) MagicTailor 生成的示例图像,展示了所提出的 MagicTailor 的有效性,MagicTailor 是一种新颖的框架,采用 T2I 扩散模型来实现组件可控的个性化。

组件可控个性化的挑战

语义污染

  1. 不受欢迎的视觉元素可能会无意中扰乱个性化概念。
  2. 简单的屏蔽策略是无效的,会导致意外的合成;
  3. 我们的 DM-Deg 有效地抑制了不需要的视觉语义,防止了这种污染。

语义不平衡

图片

  1. 同时学习概念和组件可能会导致不平衡,导致概念或组件扭曲(这里我们介绍前者的情况)。
  2. 我们的 DS-Bal 确保平衡学习,提高个性化表现。

定性结果

图片

我们展示了由 MagicTailor 生成的图像以及针对各个领域的个性化的 SOTA 方法。 MagicTailor 总体上实现了良好的文本对齐、强大的身份保真度和高生成质量。

图片

定量结果

图片

我们将 MagicTailor 与基于自动指标(CLIP-T、CLIP-I、DINO 和 DreamSim)和用户研究(人类对文本对齐、身份保真度和生成质量的偏好)的 SOTA 个性化方法进行比较。最佳结果以粗体标记。 MagicTailor 可以在这项具有挑战性的任务中取得卓越的性能。

相关资讯

美图影像节发布7款影像生产力工具,推出懂美学的视觉大模型

6月19日,美图公司举办以“AI时代的影像生产力工具”为主题的第二届影像节,现场发布7款新品:AI视觉创作工具WHEE;AI口播视频工具开拍;桌面端AI视频编辑工具WinkStudio;主打AI商业设计的美图设计室2.0;AI数字人生成工具DreamAvatar;美图AI助手RoboNeo;美图视觉大模型MiracleVision。 全面提供从生活场景到生产力场景影像服务的同时,美图公布了最新的VIP会员数量,截至6月18日,美图全球VIP会员数为719万。 美图公司创始人、董事长兼首席执行官吴欣鸿介绍说:“过去美

视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品

模型安全和可靠性、系统整合和互操作性、用户交互和认证……当“多模态”“跨模态”成为不可阻挡的AI趋势时,多模态场景下的安全挑战尤其应当引发产学研各界的注意。 应对挑战,淘天集团未来生活实验室团队联手南京大学、重庆大学、港中文MMLab提出了一种全新的视觉语言模型(VLM)安全对齐方法,PSA-VLM(Progressive Safety Alignment for Vision-Language Models)。 PSA-VLM通过基于概念瓶颈模型(CBM)的架构创新,允许模型在生成答案时干预模型的中间层概念预测,从而优化大模型的最终回复,显著提升VLM在应对视觉安全风险方面的性能。

9亿训练集、通用CV任务,微软打造Florence模型打破分类、检索等多项SOTA

来自微软的研究者另辟蹊径,提出了一种新的计算机视觉基础模型 Florence。在广泛的视觉和视觉 - 语言基准测试中,Florence 显著优于之前的大规模预训练方法,实现了新的 SOTA 结果。