CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,灵验促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]蔡志鹏博士()是美国英特尔研究院的研究员,博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知,持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,灵验促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]

蔡志鹏博士(https://zhipengcai.github.io/)是美国英特尔研究院的研究员,博士毕业于澳大利亚阿德莱德大学。他的研究兴趣包括鲁棒视觉感知,持续学习和生成模型等。他的工作已在领域顶级会议杂志上发表超过15篇。其中5篇文章被选为顶级会议(ECCV18*2,ICCV19,ICLR24,CVPR24)口头或特邀报告,对鲁棒估计计算复杂度的理论证明工作被选为ECCV18 12篇最佳论文之一。

360 度场景生成是计算机视觉的重要任务,主流法子主要可分为两类,一类利用图象聚集模型分别生成 360 度场景的多个视角。由于图象聚集模型缺乏场景全部构造的先验知识,这类法子无法灵验生成多样的 360 度视角,导致场景内主要的目标被多次重复生成,如图 1 的床和雕塑。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                             图 1. 缺乏场景全部构造的先验知识导致一个卧室出现多张床,一个公园出现多个雕塑。

另一类法子将 360 度场景用一张 Equirectangular Image 来表示,并用 GAN 或聚集模型直接生成。由于该表征的局限性,这类法子通常无法灵验完成 360 度闭环(如图 2 每张图片的中间部分),导致 360 度的连接处出现明显的分界线。同时由于缺少大规模训练数据,这类法子有时无法生成复合输出条件的场景。最后,这类法子通常只能接受笔墨作为输出。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                             图 2. 现有法子的闭环问题.

为了解决这些问题,来自美国英特尔研究院的 Zhipeng Cai 等人提出了 L-MAGIC(Language Model Assisted Generation of Images with Coherence),通过运用说话模型控制图象聚集模型灵验实现高质量、多模态、零样本泛化的 360 度场景生成。L-MAGIC 的 live demo 已被选为英特尔公司 2024 年的 5 个技术突破之一,在 ISC HPC 2024 上展示。该论文已被 CVPR 2024 接收。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

项目主页:https://zhipengcai.github.io/MMPano

代码:https://github.com/IntelLabs/MMPano

论文地址:https://arxiv.org/pdf/2406.01843

Youtube 视频介绍:https://youtu.be/XDMNEzH4-Ec

Intel ISC HPC 2024 live demo:https://www.intel.com/content/www/us/en/events/supercomputing.html

法子概览

如图 3 所示,L-MAGIC 是一个结合了说话模型及聚集模型的场景生成框架。L-MAGIC 通过做作图象连接各类不同模态的输出。当输出不是一张做作图象时,L-MAGIC 运用成熟的条件聚集模型如 ControlNet 从各种模态的输出(笔墨,手绘草图,深度图等等)生成一张做作图象。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                             图 3.L-MAGIC 流程图。

在获得做作图象之后,L-MAGIC 通过 iterative warping and inpainting 来生成 360 度场景的多个视角。在每一个 iteration 中,warping step 将已生成的多视角 warp 到一个新的视角,实例中的黑色部分代表新视角中的缺失像素。Inpainting step 运用基于聚集的图象 inpainting 模型(Stable Diffusion v2)生成缺失像素。为了使图象聚集模型可以或许生成多样的全部场景构造,L-MAGIC 运用说话模型控制聚集模型在每个视角需要生成的场景内容。

除了生成 360 度场景的全景图,利用深度估计模型,L-MAGIC 还可以或许生成包含相机旋转及平移的沉浸式视频,以及场景的三维点云。由于无需微调,L-MAGIC 可以或许灵验地保持说话及聚集模型的泛化性,实现多样化场景的高质量生成。

L-MAGIC 的核心是运用说话模型全自动地控制聚集模型。如图 4 所示若用户未提供场景的笔墨形貌,L-MAGIC 运用视觉说话模型(如 BLIP-2)基于输出图象获得场景的整体形貌(line 2)。

获得场景形貌后,L-MAGIC 运用如 ChatGPT 的说话模型(开源代码已支持 ChatGPT-3.5、ChatGPT-4、Llama3),使其根据整体场景形貌生成各个视角的形貌(line 3),并决定对该场景是否需要防止重复物体的生成(line 5,如树林里各个视角都是树是合理的,但卧室有 5 张床就比较少见,L-MAGIC 利用大说话模型的泛化性能自适应地规避不合理的重复目标)。

由于聚集模型训练数据的 bias,有时聚集模型的输出无法完全符合说话模型的 prompt 要求。为了解决该问题,L-MAGIC 再次运用视觉说话模型监督聚集模型的输出(line 14-18),如果聚集模型的输出不符合说话模型的要求,L-MAGIC 会重新进行当前视角的生成。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                              图 4. L-MAGIC 算法。

实验结果

如图 5 所示,L-MAGIC 在图象到 360 度场景生成及笔墨到 360 度场景生成任务中均达到了 SOTA。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                              图 5. 定量实验。

如图 6 及图 7 所示,L-MAGIC 在多样的输出及场景下均可以或许生成具有多样化 360 度场景构造的全景图,并且可以或许平滑地完成 360 度闭环。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                                  图 6. 图象到 360 度场景生成。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                                 图 7. 笔墨到 360 度场景生成

如图 8 所示,除了笔墨及做作图象之外,L-MAGIC 还可以或许运用 ControlNet 接受多样化的输出,例如深度图、设计草图等。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                              图 8. 更多不同模态的输出。

通过利用成熟的计算机视觉算法例如深度估计,L-MAGIC 还可以或许生成场景的沉浸式视频 (见 presentation video)以及三维点云(图 9)。有趣的是,我们可以或许清晰地分辨海底场景点云中鱼以及珊瑚的几何构造。

CVPR 2024|让图象聚集模型生成高质量360度场景,只需要一个说话模型

                              图 9. 三维点云生成结果。

给TA打赏
共{{data.count}}人
人已打赏
应用

北上广深等六地策略对比|中国无人驾驭产业发展背后的都市竞速

2024-6-11 14:29:00

应用

这家全国模型公司发布中国版Sora级视频生成大模型,走向全国模型打造新一代数据引擎

2024-6-11 14:56:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索