AI在线 AI在线

港大&Adobe联合提出图像生成模型PixelFlow,可直接在原始像素空间中运行,无需VAE即可进行端到端训练

作者:AIGC Studio
2025-04-29 09:21
香港大学和Adobe联合提出了一种直接在原始像素空间中运行的图像生成模型PixelFlow,这种方法简化了图像生成过程,无需预先训练的变分自编码器 (VAE),并使整个模型能够端到端训练。 通过高效的级联流建模,PixelFlow 在像素空间中实现了可承受的计算成本。 它在 256x256 ImageNet 类条件图像生成基准上实现了 1.98 的 FID。

香港大学和Adobe联合提出了一种直接在原始像素空间中运行的图像生成模型PixelFlow,这种方法简化了图像生成过程,无需预先训练的变分自编码器 (VAE),并使整个模型能够端到端训练。通过高效的级联流建模,PixelFlow 在像素空间中实现了可承受的计算成本。它在 256x256 ImageNet 类条件图像生成基准上实现了 1.98 的 FID。

图片

图片

  • 论文:https://arxiv.org/pdf/2504.07963
  • 代码:https://gihub.com/ShoufaChen/PixelFlow
  • 试用:https://huggingface.co/spaces/ShoufaChen/PixelFlow

论文介绍

PixelFlow:基于 Flow 的像素空间生成模型PixelFlow是一系列直接在原始像素空间中运行的图像生成模型,与主流的潜在空间模型形成对比。这种方法简化了图像生成过程,无需预先训练的变分自编码器 (VAE),并使整个模型能够端到端训练。通过高效的级联流建模,PixelFlow 在像素空间中实现了可承受的计算成本。它在 256x256 ImageNet 类条件图像生成基准上实现了 1.98 的 FID。定性的文本转图像结果显示,PixelFlow 在图像质量、艺术性和语义控制方面表现出色。

方法概述

图片

基于潜伏层的扩散模型 (LDM)、基于像素的扩散模型 (PDM) 和 PixelFlow 的设计范式比较:(a) LDM 将训练分为两个独立的阶段——首先独立训练现成的 VAE,然后基于从预训练 VAE 中提取的 token 训练扩散模型;(b) 之前的 PDM 通常训练两个独立的模型:一个用于低分辨率图像的扩散模型和一个用于高分辨率合成的上采样器;(c) 相比之下,PixelFlow 为基于像素的生成提供了端到端的解决方案,兼具高效率和强大的生成性能。

图片

PixelFlow 用于从像素空间进行级联图像生成。将整个生成过程划分为一系列分辨率阶段。在每个分辨率阶段开始时,我们都会将前一阶段中相对嘈杂的结果进行放大,并将其作为当前阶段的起点。因此,随着分辨率的提高,可以获得更精细的样本。

图片

级联阶段中间结果的可视化。从四个阶段中提取中间结果进行直接可视化。我们在各个分辨率阶段观察到清晰的去噪过程。

实验结果

图片

PixelFlow 类条件图像生成的定性结果。所有图像均为 256×256 分辨率。

图片

PixelFlow 文本条件生成的定性结果。所有图像均为 512×512 分辨率。题目的关键部分以红色突出显示。

图片

PixelFlow 的定性样本。展示了 1024×1024 分辨率的生成图像。关键词以红色突出显示。

结论

论文推出了一种全新的图像生成模型 PixelFlow,它通过直接在原始像素空间上进行操作,重新思考了基于潜在空间的模型的优势。通过直接在不同分辨率阶段之间进行转换,该模型在简洁性和端到端可训练性方面展现出显著优势。在类条件图像生成和文本到图像生成基准测试中,PixelFlow 已被证明能够比主流的基于潜在空间的方法展现出更强大的图像生成能力。

相关标签:

相关资讯

LineArt:无需训练的高质量设计绘图生成方法,可保留结构准确性并生成高保真外观

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍一种无需训练的基于扩散模型的高质量设计绘图外观迁移方法LineArt,该方法可以将复杂外观转移到详细设计图上的框架,可促进设计和艺术创作。 现有的图像生成技术在细节保留和风格样式一致性方面存在局限,尤其是在处理专业设计图时。
1/20/2025 10:23:00 AM
AIGC Studio

你要跳舞么?复旦&微软提出StableAnimator:可实现高质量和高保真的ID一致性人类视频生成

本文经AIGC Studio公众号授权转载,转载请联系出处。 由复旦、微软、虎牙、CMU的研究团队提出的StableAnimator框架,实现了高质量和高保真的ID一致性人类视频生成。 StableAnimator 生成的姿势驱动的人体图像动画展示了其合成高保真和 ID 保留视频的能力。
1/22/2025 10:30:00 AM
AIGC Studio

阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!

在这个数字化时代,生成式AI技术正以前所未有的速度改变着我们的创作方式。 近期,阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文,该论文提出了一种创新的框架,旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成,为故事可视化、艺术创作乃至更多领域带来了革命性的突破。 论文中深入探讨了当前文本到图像生成技术面临的挑战,如主体一致性、细节保留以及多主体个性化等方面的不足。
1/24/2025 12:11:21 PM
AIGC Studio
  • 1