港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。

 本文经AIGC Studio公众号授权转载,转载请联系出处。

今天给大家介绍由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。上图为UniReal多功能性的展示。作为一个通用框架,UniReal 支持在单一模型内进行广泛的图像生成和编辑任务,适应不同的输入输出配置并生成高度逼真的结果,可有效处理具有挑战性的场景,例如阴影、反射、灯光效果、物体姿势变化等。

相关链接

  • 论文:https://arxiv.org/abs/2412.07774
  • 主页:https://xavierchen34.github.io/UniReal-Page/
  • 代码:即将开放...

论文概述

论文提出了一个统一的框架UniReal,旨在解决各种图像生成和编辑任务。现有的解决方案通常因任务而异,但基本原则是相同的:在捕捉视觉变化的同时保持输入和输出之间的一致性。受最近视频生成模型的启发,这些模型有效地平衡了帧之间的一致性和变化,文中提出了一种统一的方法,将图像级任务视为不连续的视频生成。具体来说,将不同数量的输入和输出图像视为帧,从而实现对图像生成、编辑、自定义、合成等任务的无缝支持。虽然是为图像级任务设计的,但是利用了视频作为通用监督的可扩展来源。UniReal 从大规模视频中学习世界动态,展示了处理阴影、反射、姿势变化和物体交互的高级能力,同时也展示了用于新应用的新兴能力。

方法介绍

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。UniReal将图像生成和编辑任务制定为不连续帧生成。首先,输入图像通过 VAE 编码器编码到潜在空间中。然后,将图像潜在和噪声潜在修补成视觉标记。之后将索引嵌入和图像提示(资产/画布/控件)添加到视觉标记中。同时,上下文提示和基本提示由 T5 编码器处理。将所有潜在补丁和文本嵌入连接为一个长 1D 张量并将它们发送到转换器。最后对去噪结果进行解码以获得所需的输出图像。

结果展示

自由形式的指导性编辑

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

主题驱动的图像定制

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

人体形象个性化

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

对象/部件插入

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

图像理解

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

更多应用

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

相关资讯

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

近年来,生成式人工智能(AIGC)引发广泛关注。 Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。 然而,这些模型在处理复杂的提示词时仍存在不足。

DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

OpenAI的发布会仿佛连续剧,让人眼花缭乱,谷歌也悄悄发布了PaliGemma 2模型,迈向可调视觉语言模型的下一代。 今年5月,谷歌发布PaliGemma,也是Gemma家族中的第一个视觉语言模型,致力于模型民主化,降低视觉模型的使用难度。 PaliGemma 2模型以更高性能的Gemma 2为基座,增加了视觉能力,微调起来更容易,性能也更好。

抽卡效率提升4.8倍!东北大学等开源优化版Stable-Diffusion.cpp:分辨率越高越快,生成质量更好

在AI生成图像领域,Stable Diffusion已经成为一个里程碑式的工具,凭借其强大的图像生成能力,被广泛应用于艺术创作、商业设计等领域。 然而,生成高质量图像的过程常常需要付出大量的时间和内存,这对于硬件资源有限的设备来说是一大挑战。 为了应对这一问题,北京大学、东北大学、佐治亚大学发布了Stable-Diffusion.cpp(简称Sdcpp)的优化方法,引入了Winograd算法和三个优化策略,最终整图生成速度最高可达到4.79倍,从此实现创作自由!