Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

2024-11-15 01:14

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：liyazhou@jiqizhixin.com；zhaoyunfeng@jiqizhixin.com

Sora 的发布让广大研究者及开发者深刻认识到基于 Transformer 架构扩散模型的巨大潜力。作为这一类的代表性工作，DiT 模型抛弃了传统的 U-Net 扩散架构，转而使用直筒型去噪模型。鉴于直筒型 DiT 在隐空间生成任务上效果出众，后续的一些工作如 PixArt、SD3 等等也都不约而同地使用了直筒型架构。然而令人感到不解的是，U-Net 结构是之前最常用的扩散架构，在图像空间和隐空间的生成效果均表现不俗；可以说 U-Net 的 inductive bias 在扩散任务上已被广泛证实是有效的。因此，北大和华为的研究者们产生了一个疑问：能否重新拾起 U-Net，将 U-Net 架构和 Transformer 有机结合，使扩散模型效果更上一层楼？带着这个问题，他们提出了基于 U-Net 的 DiT 架构 U-DiT。

论文标题：U-DiTs: Downsample Tokens in U-Shaped Diffusion Transformers
论文地址：https://arxiv.org/pdf/2405.02730
GitHub 地址：https://github.com/YuchuanTian/U-DiT

从一个小实验谈开去首先，研究者开展了一个小实验，在实验中尝试着将 U-Net 和 DiT 模块简单结合。然而，如表 1 所示，在相似的算力比较下，U-Net 的 DiT（DiT-UNet）仅仅比原始的 DiT 有略微的提升。

在图 3 中，作者们展示了从原始的直筒 DiT 模型一步步演化到 U-DiT 模型的过程。根据先前的工作，在扩散中 U-Net 的主干结构特征图主要为低频信号。由于全局自注意力运算机制需要消耗大量算力，在 U-Net 的主干自注意力架构中可能存在冗余。这时作者注意到，简单的下采样可以自然地滤除噪声较多的高频，强调信息充沛的低频。既然如此，是否可以通过下采样来消除对特征图自注意力中的冗余？Token 下采样后的自注意力由此，作者提出了下采样自注意力机制。在自注意力之前，首先需将特征图进行 2 倍下采样。为避免重要信息的损失，生成了四个维度完全相同的下采样图，以确保下采样前后的特征总维度相同。随后，在四个特征图上使用共用的 QKV 映射，并分别独立进行自注意力运算。最后，将四个 2 倍下采样的特征图重新融为一个完整特征图。和传统的全局自注意力相比，下采样自注意力可以使得自注意力所需算力降低 3/4。令人惊讶的是，尽管加入下采样操作之后能够显著模型降低所需算力，但是却反而能获得比原来更好的效果（表 1）。

U-DiT：全面超越 DiT根据此发现，作者提出了基于下采样自注意力机制的 U 型扩散模型 U-DiT。对标 DiT 系列模型的算力，作者提出了三个 U-DiT 模型版本（S/B/L）。在完全相同的训练超参设定下，U-DiT 在 ImageNet 生成任务上取得了令人惊讶的生成效果。其中，U-DiT-L 在 400K 训练迭代下的表现比直筒型 DiT-XL 模型高约 10 FID，U-DiT-S/B 模型比同级直筒型 DiT 模型高约 30 FID；U-DiT-B 模型只需 DiT-XL/2 六分之一的算力便可达到更好的效果（表 2、图 1）。

在有条件生成任务（表 3）和大图（512*512）生成任务（表 5）上，U-DiT 模型相比于 DiT 模型的优势同样非常明显。

研究者们还进一步延长了训练的迭代次数，发现 U-DiT-L 在 600K 迭代时便能优于 DiT 在 7M 迭代时的无条件生成效果（表 4、图 2）。

U-DiT 模型的生成效果非常出众，在 1M 次迭代下的有条件生成效果已经非常真实。

论文已被 NeurIPS 2024 接收，更多内容，请参考原论文。

AIGC时代的视频扩散模型，复旦等团队发布领域首篇综述

AI 生成内容已经成为当前人工智能领域的最热门话题之一，也代表着该领域的前沿技术。近年来，随着 Stable Diffusion、DALL-E3、ControlNet 等新技术的发布，AI 图像生成和编辑领域实现了令人惊艳的视觉效果，并且在学术界和工业界都受到了广泛关注和探讨。这些方法大多基于扩散模型，而这正是它们能够实现强大可控生成、照片级生成以及多样性的关键所在。然而，与简单的静态图像相比，视频具有更为丰富的语义信息和动态变化。视频能够展示实物的动态演变过程，因此在视频生成和编辑领域的需求和挑战更为复杂。尽管在

10/23/2023 3:43:00 PM

机器之心

真正实现一步文生图，谷歌UFOGen极速采样，生成高质量图像

最近一年来，以 Stable Diffusion 为代表的一系列文生图扩散模型彻底改变了视觉创作领域。数不清的用户通过扩散模型产生的图片提升生产力。但是，扩散模型的生成速度是一个老生常谈的问题。因为降噪模型依赖于多步降噪来逐渐将初始的高斯噪音变为图片，因此需要对网络多次计算，导致生成速度很慢。这导致大规模的文生图扩散模型对一些注重实时性，互动性的应用非常不友好。随着一系列技术的提出，从扩散模型中采样所需的步数已经从最初的几百步，到几十步，甚至只需要 4-8 步。最近，来自谷歌的研究团队提出了 UFOGen 模型，一

11/20/2023 3:24:00 PM

机器之心

爆火Sora背后的技术，一文综述扩散模型的最新发展方向

为了使机器具有人类的想象力，深度生成模型取得了重大进展。这些模型能创造逼真的样本，尤其是扩散模型，在多个领域表现出色。扩散模型解决了其他模型的限制，如 VAEs 的后验分布对齐问题、GANs 的不稳定性、EBMs 的计算量大和 NFs 的网络约束问题。因此，扩散模型在计算机视觉、自然语言处理等方面备受关注。扩散模型由两个过程组成：前向过程和反向过程。前向过程把数据转化为简单的先验分布，而反向过程则逆转这一变化，用训练好的神经网络模拟微分方程来生成数据。与其他模型相比，扩散模型提供了更稳定的训练目标和更好的生成效果。

2/22/2024 10:53:00 AM

机器之心

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求纳米AI发布MCP万能工具箱，简化AI工具集成与调用即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Ollama 支持全线的 Qwen 3 模型 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流 DeepWiki：AI驱动的GitHub代码库百科全书正式亮相

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion Gemini 马斯克算法蛋白质芯片生成式代码英伟达腾讯神经网络研究计算 Anthropic Sora 3D AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测人形机器人百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索具身智能驾驶神器推荐文本 Copilot LLaMA 算力安全视觉视频生成干货合集应用训练大型语言模型科技亚马逊特斯拉 2024 AGI

顶部

Make U-Nets Great Again！北大&华为提出扩散架构U-DiT，六分之一算力即可超越DiT

相关资讯

AIGC时代的视频扩散模型，复旦等团队发布领域首篇综述

真正实现一步文生图，谷歌UFOGen极速采样，生成高质量图像

爆火Sora背后的技术，一文综述扩散模型的最新发展方向