本篇分享论文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation,是由复旦大学&字节跳动提出的layout-to-image新范式,支持基于布局的MM-DiT架构下的可控图像生成!
效果示例
相关链接
- 论文地址: https://arxiv.org/abs/2412.03859
- 项目主页: https://creatilayout.github.io
- 项目代码: https://github.com/HuiZhang0812/CreatiLayout
- 项目Demo: https://huggingface.co/spaces/HuiZhang0812/CreatiLayout
- 数据集: https://huggingface.co/datasets/HuiZhang0812/LayoutSAM
论文介绍
任务背景
布局到图像生成 (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术,其中布局信息包括实体在图像中的空间位置和描述。例如,用户指定了这些实体的描述与空间位置:钢铁侠手里拿着画板,站在岩石上,画板上用手绘字体写着“CreatiLayout”,背景是海边与日落。Layout-to-Image则能根据这些信息,生成符合用户需求的图像。
Layout-to-Image能进一步释放Text-to-Image模型的能力,为用户进一步提供精确控制和创意表达的渠道,在游戏开发、动画制作、室内设计、创意设计等场景有着广泛的应用前景。
先前的Layout-to-Image模型,主要存在以下问题:
- 布局数据问题:现有的布局数据集存在封闭集合的小规模数据和粗粒度的实体标注等方面的不足,这限制了模型在生成开放集实体的泛化能力以及在生成具有复杂属性实体的精准性。
- 模型架构问题:先前模型主要集中在 U-Net 架构上,例如 SD1.5 和 SDXL。然而,随着MM-DiT的发展,SD3、FLUX等文生图模型开辟了视觉质量与文本遵循度的新高度。直接将 U-Net 的布局控制范式应用到 MM-DiT 上会削弱布局控制的准确度。因此需要为 MM-DiT 设计一个新框架,以高效融合布局信息,充分发挥其潜力。
- 用户体验问题:许多现有方法只支持边界框作为用户指定实体位置的方式,缺乏对更灵活输入方式(例如中心点、掩码、草图或只是语言描述)的处理能力,限制了用户的使用体验。此外,这些方法不支持对用户的布局进行添加、删除或修改等优化。
方法简介
为了解决先前方法在数据、模型、体验等方面存在的问题,CreatiLayout 提出了针对性的解决方案,实现了更高质量、更可控的布局到图像生成。
大规模&细粒度的布局数据集
LayoutSAMCreatiLayout 构建了自动标注布局的链路,提出了大规模布局数据集LayoutSAM,包含了 270万图像-文本对和 1070万个实体标注。LayoutSAM 从 SAM 数据集中筛选而来,有着开放集的实体、细粒度的标注和高图像质量等特质。每个实体都包含边界框和详细描述,涵盖颜色、形状、纹理等复杂属性。这为模型能够更好地理解和学习布局信息提供了数据驱动。基于此,CreatiLayout构建了布局到图像生成评估基准LayoutSAM-Eval,全面评估模型在布局控制、图像质量和文本遵循等方面的表现。
将布局信息视为一种模态的模型架构
SiamLayoutCreatiLayout 提出了 SiamLayout 框架,将布局信息引入MM-DiT的同时,有效缓解了模态竞争问题,增强了布局的指导作用,相比于其他网络方案取得了更精准的布局控制。核心设计点为:
- 将布局信息视为一种独立的模态,与文本和图像模态同等重要,提升布局信息对图像内容指导程度
- 布局模态与图像模态的交互通过MM-DiT原生的MM-Attention实现,保留了其在模态交互的优势
- 将图像、文本、布局这三个模态的交互解耦为两个孪生的分支:图像-文本交互分支与图像-布局交互分支,使得文本与布局对图像内容的指导各司其职、互不干扰。
支持布局生成与优化的布局设计器
LayoutDesignerCreatiLayout 提出了 LayoutDesigner,利用大语言模型进行布局规划,能够根据用户输入(中心点、掩码、草图、文本描述)生成和优化布局,支持更灵活的用户输入方式,并提供布局优化功能,例如添加、删除、修改实体等。这使得用户能够更方便地表达自己的设计意图,并生成更和谐美观的布局。
实验结果
与SOTA方法在布局到图像生成的对比实验
在细粒度开放集布局到图像生成任务上,CreatiLayout在空间定位、颜色、纹理、形状等区域级别的属性渲染上都优于之前的 SOTA 方法;在整图质量上,CreatiLayout也展现出更好的视觉质量与文本遵循度。下面的可视化结果进一步证实了CreatiLayout 的优势。例如对于"HELLO FRIENDS"这一文本的更精准的生成和对不同颜色的铅笔与长椅的生成等。可以在项目demo上进一步感受CreatiLayout在Layout-to-Image的能力。
与SOTA方法在布局生成与优化的对比
实验在布局规划任务上的定量和定性实验,展示了不同布局优化器在不同用户输入粒度下的布局生成和优化能力。LayoutDesigner 在基于全局标题、中心点和边界框的布局规划任务上都表现出色,格式准确性达到 100%,这表明 它能生成符合格式要求的布局。此外,基于LayoutDesigner 规划的布局去生成图像,能得到更高质量、更具美感的图像。例如,Llama3.1 生成的布局经常缺少关键元素,而 GPT4 生成的布局经常违反基本物理定律,导致基于这些次优的布局去生成图像会得到较差的图像质量与较低文本遵循度。