图像生成

复旦&字节提出layout-to-image新范式,支持基于布局的MM-DiT架构下可控图像生成!

本篇分享论文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation,是由复旦大学&字节跳动提出的layout-to-image新范式,支持基于布局的MM-DiT架构下的可控图像生成! 效果示例相关链接论文地址: : : : : (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术,其中布局信息包括实体在图像中的空间位置和描述。 例如,用户指定了这些实体的描述与空间位置:钢铁侠手里拿着画板,站在岩石上,画板上用手绘字体写着“CreatiLayout”,背景是海边与日落。

北航 | 第一个多功能即插即用适配器MV-Adapter:轻松实现多视图一致图像生成。

北航提出了第一个多功能的即插即用适配器MV-Adapter。 可以在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。 MV-Adapter 在 SDXL 上实现了高达768分辨率的多视图图像生成,并展示了出色的适应性和多功能性。

SHMT:通过潜在扩散模型进行自监督分层化妆转移(阿里&武汉理工)

本文经AIGC Studio公众号授权转载,转载请联系出处。 当前的妆容转移技术面临两个主要挑战:缺乏成对数据,导致模型训练依赖于低质量的伪配对数据,从而影响妆容的真实感;不同妆容风格对面部的影响各异,现有方法难以有效处理这种多样性。 今天给大家介绍的方法是由阿里联合武汉理工等提出的自监督层次化妆转移方法(SHMT),可以将多样化的妆容风格自然且精准地应用于给定的面部图像。

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

在AI生成图像领域,Stable Diffusion已经成为一个里程碑式的工具,凭借其强大的图像生成能力,被广泛应用于艺术创作、商业设计等领域。 然而,生成高质量图像的过程常常需要付出大量的时间和内存,这对于硬件资源有限的设备来说是一大挑战。 为了应对这一问题,北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp(简称Sdcpp)的优化方法,引入了Winograd算法和三个优化策略,最终整图生成速度最高可达到4.79倍,从此实现创作自由!

DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

OpenAI的发布会仿佛连续剧,让人眼花缭乱,谷歌也悄悄发布了PaliGemma 2模型,迈向可调视觉语言模型的下一代。 今年5月,谷歌发布PaliGemma,也是Gemma家族中的第一个视觉语言模型,致力于模型民主化,降低视觉模型的使用难度。 PaliGemma 2模型以更高性能的Gemma 2为基座,增加了视觉能力,微调起来更容易,性能也更好。

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

近年来,生成式人工智能(AIGC)引发广泛关注。 Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。 然而,这些模型在处理复杂的提示词时仍存在不足。
  • 1