单幅图像合成 360° 3D场景的新方法:PanoDreamer,可同时生成全景图像和相应的深度信息。

论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。 该方法以连贯的方式生成全景图及其相应的深度,解决了现有最先进方法(如 LucidDreamer 和 WonderJourney 的局限性。 这些方法按照生成轨迹依次添加细节,通常在循环回输入图像时导致可见的接缝。

论文介绍了一种从单幅图像合成 360° 3D 场景的新方法。该方法以连贯的方式生成全景图及其相应的深度,解决了现有最先进方法(如 LucidDreamer 和 WonderJourney 的局限性。这些方法按照生成轨迹依次添加细节,通常在循环回输入图像时导致可见的接缝。相比之下,该方法可确保整个 360° 场景的一致性,如图所示。黄色条显示每个结果中与输入相对应的区域。

图片

图片

相关链接

  • 论文:http://arxiv.org/abs/2412.04827v1
  • 主页:https://people.engr.tamu.edu/nimak/Papers/PanoDreamer
  • 代码:https://github.com/avinashpaliwal/PanoDreamer

论文介绍

图片PanoDreamer:从单个图像合成 3D 全景

论文提出一种从单个输入图像生成连贯 360° 3D 场景的新颖方法PanoDreamer。与顺序生成场景的现有方法不同,该方法将问题描述为单图像全景和深度估计。一旦获得连贯的全景图像及其相应的深度,就可以通过修复小的遮挡区域并将其投影到 3D 空间来重建场景。论文主要贡献是将单图像全景和深度估计制定为两个优化任务,并引入交替最小化策略来有效解决其目标。该方法在一致性和整体质量方面优于单图像 360° 场景重建的现有技术。

单图像全景生成

论文使用修复扩散模型解决单图像全景生成问题,将其框架为通过交替最小化策略解决的优化任务。在迭代过程中,中心的输入纹理逐渐向外传播。

图片

全景与多重扩散的比较

图片图片

全景深度估计

与全景图生成类似,使用交替最小化来对齐圆柱形全景图的重叠单眼深度图块,从而能够估计一致的 360° 深度图。

图片

3D 场景与其他方法的比较

将该方法 PanoDreamer(右)与基线方法(左)的渲染进行比较。尝试选择不同的方法和场景!

图片图片

结论

论文提出了一种从单个输入图像生成 360° 3D 场景的新方法。该方法首先生成全景图及其相应的深度图。在修复遮挡区域后,这些图像用于优化 3DGS 表示,从中可以渲染新视图。为了创建一个连贯且全局一致的全景图,论文将任务设计为具有两个项的优化问题,并通过交替最小化策略有效地解决它。此外,论文提出使用现有单目深度估计方法估计全景图深度的问题作为优化,并使用交替最小化来解决它。大量实验表明,该方法在全景图生成和重建 3D 场景方面都优于最先进的方法。

相关资讯

下载次数破39万!CMU、Meta联合发布VQAScore文生图优化方案:Imagen3已采用

近年来,生成式人工智能(AIGC)引发广泛关注。 Midjourney、Imagen3、Stable Diffusion和Sora等模型能够根据自然语言提示词生成美观且逼真的图像和视频,广受用户喜爱。 然而,这些模型在处理复杂的提示词时仍存在不足。

DeepMind悄悄发布PaliGemma二代,最易微调「视觉语言全能王」来了,多项任务登顶SOTA

OpenAI的发布会仿佛连续剧,让人眼花缭乱,谷歌也悄悄发布了PaliGemma 2模型,迈向可调视觉语言模型的下一代。 今年5月,谷歌发布PaliGemma,也是Gemma家族中的第一个视觉语言模型,致力于模型民主化,降低视觉模型的使用难度。 PaliGemma 2模型以更高性能的Gemma 2为基座,增加了视觉能力,微调起来更容易,性能也更好。

港大&Adobe提出通用生成框架UniReal:通过学习真实世界动态实现通用图像生成和编辑。

本文经AIGC Studio公众号授权转载,转载请联系出处。 今天给大家介绍由香港大学,Adobe提出的统一图像生产与编辑方法UniReal,将多种图像任务统一成视频生成的范式,并且在大规模视频中学习真实的动态与变化,在指令编辑、图像定制化、图像组合等多种任务达到最佳水准。 上图为UniReal多功能性的展示。