解决文生图质量和美学问题,字节跳动提出VMix:多维度美学控制方法,一键提升图像美学

本文经AIGC Studio公众号授权转载,转载请联系出处。 为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。 论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。

本文经AIGC Studio公众号授权转载,转载请联系出处。

为了解决扩散模型在文生图的质量和美学问题,字节跳动&中科大研究团队提出VMix美学条件注入方法,通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型,从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块,无需再训练即可应用于不同的开源模型,提升模型的生成美感。

图片

相关链接 

  • 文章:https://arxiv.org/pdf/2412.20800
  • 代码:https://github.com/fenfenfenfan/VMix
  • 项目:https://vmix-diffusion.github.io/VMix/

论文介绍 

图片

虽然扩散模型在文本到图像生成方面表现出色,但它们仍可能无法生成高度美观的图像。更具体地说,在颜色、光照、构图等更细粒度的维度上,生成的图像与现实世界的美学图像之间仍然存在差距。

在本文中,我们提出了跨注意值混合控制(VMix)适配器,这是一种即插即用的美学适配器,通过(1)通过初始化美学嵌入将输入文本提示解开为内容描述和美学描述,以及(2)通过值混合交叉注意将美学条件整合到去噪过程中,网络通过零初始化的线性层连接,来升级生成图像的质量,同时保持跨视觉概念的通用性。我们的关键见解是通过设计一种优越的条件控制方法来增强现有扩散模型的美学呈现,同时保持图像-文本对齐。

通过我们精心的设计,VMix 足够灵活,可以应用于社区模型以获得更好的视觉性能而无需重新训练。为了验证我们方法的有效性,我们进行了大量实验,结果表明 VMix 优于其他最先进的方法,并且与其他社区模块(例如 LoRA、ControlNet 和 IPAdapter)兼容以用于图像生成。

图片现有的方法总是无法满足人类对视觉生成内容的细粒度偏好。人类喜爱的图像应该同时在各种细粒度的美学维度上表现出色,例如自然光、连贯的色彩和合理的构图。为了应对这一挑战,我们推出了VMix,这是一种新颖的即插即用适配器,旨在系统地弥合生成的图像与现实世界图像在各种美学维度上的美学质量差距。

它是如何工作的? 

图片VMix 示意图:

(a)在初始化阶段,通过 CLIP 将预定义的美学标签转化为 [CLS] token,从而得到 AesEmb,只需要在训练开始时处理一次。

(b)在训练阶段,项目层首先将输入的美学描述 y aes映射到与内容文本嵌入 f t具有相同 token 维度的 嵌入 f a 。然后通过值混合交叉注意力将文本嵌入 f t集成到去噪网络中。

(c) 在推理阶段,VMix 从 AesEmb 中提取所有正向美学嵌入以形成美学输入,并与内容输入一起输入到模型中进行去噪过程。

美学细腻控制 

VMix 可以通过调整美学嵌入来实现细粒度的美学控制。当仅使用单维美学标签时,可以观察到图像质量在特定维度上得到改善。当使用全正美学标签时,图像的视觉性能整体优于基线。

图片

Prompt: "A girl leaning against a window with a breeze blowing, summer portrait, half-length medium view"

与当前方法的比较 

与各种最先进的方法进行定性比较。所有结果均基于稳定扩散。

图片与各种最先进的方法进行定性比较。所有方法的结果均基于 SDXL。

图片

个性化文本转图像模型

带有或不带有 VMix 的个性化模型生成的图像。

图片

相关资讯

OminiControl:一个新的FLUX通用控制模型,单个模型实现图像主题控制和深度控制

OminiControl 也开源了其可控生成模型。 OminiControl 是一个最小但功能强大的FLUX通用控制框架,可以一个模型实现图像主题控制和深度控制。 比如一个提示词加一个服装图片就能让生成的人物穿上服装。

「DeepSeek接班OpenAI」,最新开源的R1推理模型,让AI圈爆了

昨晚,大模型领域再次「热闹起来」,月之暗面发布在数学、代码、多模态推理能力层面全面对标 OpenAI 的满血版 o1 的多模态思考模型 K1.5。 而最近大热的 DeepSeek 正式推出了 DeepSeek-R1,同样在数学、代码和自然语言推理等任务上比肩 OpenAI o1 正式版。 去年 12 月开源的大模型 DeepSeek-V3 刚刚掀起了一阵热潮,实现了诸多的不可能。

微软开源Markdown工具爆了:支持Office文档,可接多模态LLM直出报告

微软官方开源了一款文件格式转换工具——MarkItDown! 它不仅可以将常见的Office文档(Word、PowerPoint、Excel)、PDF、图像、音频等转换为对大模型更友好的Markdown格式。 而且还支持集成像GPT-4o这样的多模态LLM,可以直接对图片、音频文件进行更高级的处理,比如快速输出商业报告。