北航 | 第一个多功能即插即用适配器MV-Adapter:轻松实现多视图一致图像生成。

北航提出了第一个多功能的即插即用适配器MV-Adapter。 可以在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。 MV-Adapter 在 SDXL 上实现了高达768分辨率的多视图图像生成,并展示了出色的适应性和多功能性。

本文经AIGC Studio公众号授权转载,转载请联系出处。

北航提出了第一个多功能的即插即用适配器MV-Adapter。可以在不改变原有网络结构或特征空间的情况下增强T2I模型及其衍生模型。MV-Adapter 在 SDXL 上实现了高达768分辨率的多视图图像生成,并展示了出色的适应性和多功能性。它还能扩展到任意视角生成,为更广泛的应用打开了新大门

下图展示的第1行显示了将 MV-Adapter 与个性化T2I、精炼的少步T2I 和 ControlNet 集成的结果,展示了其适应性。第 2 行显示了各种控制信号下的结果,包括使用文本或图像输入的视图引导或几何引导生成,展示了其多功能性。

图片

相关链接

  • 代码:https://github.com/huanngzh/MV-Adapter
  • 论文:https://arxiv.org/abs/2412.03632
  • 主页:https://huanngzh.github.io/MV-Adapter-Page/
  • 试用:https://huggingface.co/spaces/VAST-AI/MV-Adapter-I2MV-SDXL
  • ComfyUI:https://github.com/huanngzh/ComfyUI-MVAdapter

论文介绍

图片MV-Adapter:轻松实现多视图一致图像生成

摘要

现有的多视图图像生成方法通常会对预训练的文本转图像 (T2I) 模型进行侵入性修改并需要完全微调,会导致以下问题:

  1. 计算成本高,尤其是对于大型基础模型和高分辨率图像
  2. 由于优化困难和高质量 3D 数据稀缺而导致图像质量下降。

论文提出了第一个基于适配器的多视图图像生成解决方案,并介绍了 MV-Adapter,这是一种多功能的即插即用适配器,可在不改变原始网络结构或特征空间的情况下增强 T2I 模型及其衍生产品。通过更新更少的参数,MV-Adapter 可以实现高效训练并保留预训练模型中嵌入的先验知识,从而降低过度拟合风险。

为了在适配器中有效地对 3D 几何知识进行建模,论文引入了创新设计,包括重复的自注意力层和并行注意力架构,使适配器能够继承预训练模型的强大先验来对新颖的 3D 知识进行建模。此外还提出了一个统一的条件编码器,无缝集成了相机参数和几何信息,促进了基于文本和图像的 3D 生成和纹理化等应用。

MV-Adapter 在稳定扩散 XL (SDXL) 上实现了 768 分辨率的多视图生成,并展示了适应性和多功能性。它还可以扩展到任意视图生成,从而实现更广泛的应用。MV-Adapter 为多视图图像生成设定了新的质量标准,并因其效率、适应性和多功能性开辟了新的可能性。

方法介绍

图片MV-Adapter 是一个即插即用的适配器,它学习多视图先验,无需特殊调整即可转移到 T2I 模型的衍生物,并使 T2I 能够 在各种条件下生成多视图一致的图像。在推理时,MV-Adapter 包含条件引导器(黄色)和解耦的注意层(蓝色),可以直接插入个性化或蒸馏的 T2I 中以构成多视图生成器。

图片MV-Adapter 由两部分组成:

  1. 对相机条件或几何条件进行编码的条件引导器;
  2. 包含多视图注意层的解耦注意层,用于学习多视图一致性,以及可选的图像交叉注意层以支持图像条件生成

其中使用预先训练的 U-Net 对参考图像进行编码以提取细粒度信息。

结果展示

文本到多视图

图片

图像到多视图

图片

草图到多视图 (使用 ControlNet)

图片

文本条件3D生成

图片

图像条件3D生成

图片

文本条件纹理生成

图片

图像条件纹理生成

图片

ComfyUI试用

将MV-Adapter集成到 ComfyUI 中,允许用户直接在 ComfyUI 界面内从文本提示或单个图像生成多视图一致的图像。 具体可以参考上面的链接。

  • 支持与 SDXL LoRA 集成
  • 根据文本提示或单幅图像生成多视角一致图像

图片图片

相关资讯

文生图 AI 巨头 Stability AI 被曝欠下近 1 亿美元,正与投资者洽谈融资事宜

综合路透社、The Information 消息,被视为文生图 AI 领域“巨头”之一的英国人工智能初创公司 Stability AI 发言人表示,该公司正与一批投资者洽谈大额股权融资事宜,以为当前资金短缺的 Stability AI 注入新的资金。该发言人表示,Stability AI 正与一家“世界知名的”技术投资集团进行独家合作。报道称,Stability AI 公司第一季度的收入不到 500 万美元(IT之家备注:当前约 3610 万元人民币),亏损超过 3000 万美元(当前约 2.17 亿元人民币),目

加速70倍!支持4K分辨率!ETH全新开源PanSplat:全景GS重建和新视角合成SOTA!

论文信息标题:PanSplat: 4K Panorama Synthesis with Feed-Forward Gaussian Splatting作者:Cheng Zhang, Haofei Xu, Qianyi Wu, Camilo Cruz Gambardella, Dinh Phung, Jianfei Cai机构:Monash University、Building 4.0 CRC, Caulfield East, Victoria, Australia、ETH Zurich原文链接::. 导读随着便携式360°摄像机的出现,全景在虚拟现实(VR)、虚拟旅游、机器人和自动驾驶等应用中获得了极大的关注。 因此,宽基线全景视图合成已经成为一项至关重要的任务,其中高分辨率、快速推理和存储效率是必不可少的。

中科院图协作学习模型,从空间分辨转录组学数据中阐明肿瘤异质性

编辑 | 萝卜皮空间解析转录组学 (SRT) 技术使研究人员能够获得对组织结构和细胞发育的新见解,尤其是在肿瘤中。然而,缺乏对生物背景和多视图特征的计算开发严重阻碍了组织异质性的阐明。在这里,中国科学院的研究团队提出了 stMVC,这是一种多视图图协作学习模型,它在通过注意力分析 SRT 数据时集成了组织学、基因表达、空间位置和生物学背景。具体来说,采用半监督图注意力自动编码器的 stMVC 分别学习组织学相似性图或空间位置图的特定视图表示,然后在生物上下文的半监督下通过注意力同时整合两个视图图以获得鲁棒表示。st