解决文生图质量和美学问题，字节跳动提出VMix：多维度美学控制方法，一键提升图像美学

2025-01-22 09:48

本文经AIGC Studio公众号授权转载，转载请联系出处。为了解决扩散模型在文生图的质量和美学问题，字节跳动&中科大研究团队提出VMix美学条件注入方法，通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型，从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块，无需再训练即可应用于不同的开源模型，提升模型的生成美感。

本文经AIGC Studio公众号授权转载，转载请联系出处。

为了解决扩散模型在文生图的质量和美学问题，字节跳动&中科大研究团队提出VMix美学条件注入方法，通过将抽象的图像美感拆分成不同维度的美学向量引入扩散模型，从而实现细粒度美学图像生成。论文基于提出的方法训练了一个即插即用的模块，无需再训练即可应用于不同的开源模型，提升模型的生成美感。

论文介绍

虽然扩散模型在文本到图像生成方面表现出色，但它们仍可能无法生成高度美观的图像。更具体地说，在颜色、光照、构图等更细粒度的维度上，生成的图像与现实世界的美学图像之间仍然存在差距。

在本文中，我们提出了跨注意值混合控制（VMix）适配器，这是一种即插即用的美学适配器，通过（1）通过初始化美学嵌入将输入文本提示解开为内容描述和美学描述，以及（2）通过值混合交叉注意将美学条件整合到去噪过程中，网络通过零初始化的线性层连接，来升级生成图像的质量，同时保持跨视觉概念的通用性。我们的关键见解是通过设计一种优越的条件控制方法来增强现有扩散模型的美学呈现，同时保持图像-文本对齐。

通过我们精心的设计，VMix 足够灵活，可以应用于社区模型以获得更好的视觉性能而无需重新训练。为了验证我们方法的有效性，我们进行了大量实验，结果表明 VMix 优于其他最先进的方法，并且与其他社区模块（例如 LoRA、ControlNet 和 IPAdapter）兼容以用于图像生成。

现有的方法总是无法满足人类对视觉生成内容的细粒度偏好。人类喜爱的图像应该同时在各种细粒度的美学维度上表现出色，例如自然光、连贯的色彩和合理的构图。为了应对这一挑战，我们推出了VMix，这是一种新颖的即插即用适配器，旨在系统地弥合生成的图像与现实世界图像在各种美学维度上的美学质量差距。

它是如何工作的？

VMix 示意图：

（a）在初始化阶段，通过 CLIP 将预定义的美学标签转化为 [CLS] token，从而得到 AesEmb，只需要在训练开始时处理一次。

（b）在训练阶段，项目层首先将输入的美学描述 y aes映射到与内容文本嵌入 f t具有相同 token 维度的嵌入 f a 。然后通过值混合交叉注意力将文本嵌入 f t集成到去噪网络中。

美学细腻控制

VMix 可以通过调整美学嵌入来实现细粒度的美学控制。当仅使用单维美学标签时，可以观察到图像质量在特定维度上得到改善。当使用全正美学标签时，图像的视觉性能整体优于基线。

Prompt: "A girl leaning against a window with a breeze blowing, summer portrait, half-length medium view"

与当前方法的比较

与各种最先进的方法进行定性比较。所有结果均基于稳定扩散。

与各种最先进的方法进行定性比较。所有方法的结果均基于 SDXL。

个性化文本转图像模型

带有或不带有 VMix 的个性化模型生成的图像。

1/30训练步骤复刻DeepSeek-R1-Zero，沈向洋姜大昕张祥雨等开源推理模型RL训练方法

DeepSeek啥都开源了，就是没有开源训练代码和数据。现在，开源RL训练方法只需要用1/30的训练步骤就能赶上相同尺寸的DeepSeek-R1-Zero蒸馏Qwen。国内大模型六小强之一的阶跃星辰联与清华联合发布Open Reasoner Zero（ORZ），由AI大拿沈向洋、阶跃星辰创始人/CEO姜大昕、ResNet作者张祥雨等一众大佬亲自署名。

2/24/2025 8:40:00 AM

量子位

360智脑开源Light-R1！1000美元数学上首次从零超越DeepSeek-R1-Distill

2025 年 3 月 4 日，360 智脑开源了 Light-R1-32B 模型，以及全部训练数据、代码。仅需 12 台 H800 上 6 小时即可训练完成，从没有长思维链的 Qwen2.5-32B-Instruct 出发，仅使用 7 万条数学数据训练，得到 Light-R1-32B，在 AIME24 测试基准中取得 76.6 分、AIME25 取得 64.6 分，在数学评测上开源首次实现从零大幅超越 DeepSeek-R1-Distill-Qwen-32B 的 72.6 分和 54.9 分。一周前，360 智脑联合北大开源了 TinyR1-32B-Preview，从 DeepSeek-R1-Distill-Qwen-32B 训练，在数学、科学和代码上取得了接近 DeepSeek-R1 满血版的优异效果。

3/6/2025 10:00:00 AM

机器之心