从广角视图到微距拍摄,每一步由你来决定。
以躺在草坪上的男人为中心,将镜头画面按照 10 倍的比率不断扩展,你将看到一亿光年外的场景。
以躺在草坪上的男人为中心,每次画面镜头缩减 90%,单个质子将充满整个镜头。
让人震惊的是,这两组画面来自 1977 年的经典短片《Powers of Ten》。在评论区中,有人表示这个视频在 2022 年依然被当做经典出现在课堂中。
有网友对于这个视频的制作表示无法想象。从银河系外层直达细胞内部,这样的跨度让人更加直观地感受到了宇宙中存在的巨大标准。
原视频观看地址:https://www.bilibili.com/video/BV1Rx411y7i9/?vd_source=339fb2e79b91dc2f5d8eb2025c2d4c90
不过在当时,制作类似的动画或互动体验需要训练有素的艺术家,并且他们要花费大量的繁琐劳动。技术进步,尽管人们希望用生成模型来取代这一进程,但现有的办法尚未证明有能力在多个缩放级别生成同等的实质。不过,文本到图象模型的最新进展带来了变革性的应用,或许这能够给我们一些新的启发。
来自华盛顿大学与谷歌等机构的研究者提出了一种办法:利用文本到图象模型在多个图象标准上生成同等的实质,从而实行场景的极端语义缩放,例如从森林的广角视图到坐在树枝上的昆虫的微距拍摄。他们通过一种联合多标准扩散采样办法实行了这一目标,这种办法既能保持分歧标准之间的同等性,又能保持每一个单独采样进程的完整性。
论文链接:https://arxiv.org/pdf/2312.02149.pdf
项目页面 https://powers-of-10.github.io/
由于每一个生成的标准都由分歧的文本提醒引导,因此与传统的超分辨率办法相比,该办法可以实行更深层次的缩放,而传统的超分辨率办法可能难以在截然分歧的标准上创建新的上下文结构。本文还将其办法与其他图象超分辨率和扩图技术举行了定性比较,结果表明本文提出的办法在生成同等的多标准实质方面最为有效。
办法概览
传统的超分辨率办法是以原始图象的像素为条件生成更高分辨率的实质,与此分歧的是,极端缩放会暴露出全新的结构,例如,缩小一只手以显示其下面的皮肤细胞。生成这样的缩放需要人体解剖学的语义知识。在本文中,研究者专注于解决这一语义缩放问题,即实行文本条件下的多标准图象生成,以创建类似于《Powers of Ten》的缩放视频。
本文办法需要一系列描述场景分歧标准的文本提醒作为输出,并生成一个多标准图象表示作为输出,该图象表示可以举行交互式探索或衬着为无缝缩放视频。这些文本提醒可以由用户定义,允许对分歧缩放级别的实质举行创造性控制,也可以在大型语言模型的帮助下制作。
本文办法的核心是一种联合采样算法,它使用一组分布在分歧缩放级别的并行扩散采样进程。这些采样进程通过迭代频带整合进程协调同等,在此进程中,中间图象预测会在分歧标准之间举行同等的合并。与通过反复提高有效图象分辨率来实行类似目标的现有办法分歧,本文的采样进程一次性对所有标准的实质举行联合优化,从而实行每一个标准上的合理图象和跨标准的同等实质。
此外,现有办法在探索大标准范围的能力方面受到限制,因为它们主要依赖输出图象实质来确定后续缩放级别的新增细节。在很多情况下,图象片段包含的上下文信息不足以为更深的缩放级别细节提供信息。与此分歧,本文办法在文本提醒中为每一个缩放比率提供依据,允许在极端缩放级别上构思新的结构和实质。在实验中,研究者将他们的办法与其他办法举行比较,并证明了该办法生成的缩放视频明显更加同等。
本文的缩放堆栈表示法用 L= (L_0, …, L_N-1) 表示,其设计目的是允许在任意缩放级别 p_0,…,p_N-1 下衬着图象。如图 3 所示,该表示法包含 N 个形状为 H × W 的图象,每一个缩放级别对应一个图象,其中第 i 个图象 L_i 保存了与第 i 个缩放级别 p_i 相对应的像素。
本文完整的多标准联合采样进程如下图所示。
图 4 展现了一个采样步骤,每一个缩放级别中的噪声图象 z_i,t 与相应的提醒 y_i 并行输出预训练的扩散模型,以预测噪声,从而计算出估计的干净图象 。利用多分辨率混合技术,干净图象被合并成一个缩放堆栈,然后在所有缩放级别上举行衬着,生成同等的图象 。然后,这些图象将与输出 z_t 一起用于 DDPM 更新步骤,以计算下一个 z_t-1。
图 5 展现了多分辨率融合进程的概要,该进程使用拉普拉斯金字塔(Laplacian pyramids)选择性地融合每一个观测级别的适当频带,从而防止混叠和过度模糊。
实验
图 6、图 7、图 8、图 9 和图 10 展现了本文办法成功生成了同等的高质量变焦序列,适用于任意相对变焦系数和各种场景。
图 8 比较了使用本文办法和非本文办法生成的缩放序列,即每一个标准独立采样。
研究者还将本文办法与两种自动生成缩放序列的办法举行比较:Stable Diffusion 的扩图模型和 Stable Diffusion 的 「upscale」超分辨率模型。图 9 展现了具有代表性的定性结果。
与渐进式扩图相比。扩图基线从生成缩小到最大的图象开始,通过对之前生成的图象举行低采样并对周围区域举行扩图,逐步生成更粗的比率。与本文办法一样,每一层的修复都以相应的文本提醒为条件。图 9 显示,由于自回归进程的因果关系,扩图办法的误差会逐渐累积,也就是说,当某一步出现错误时,后面的扩图迭代可能难以生成同等的图象。
与渐进式超分辨率相比。超分辨率基线从缩小程度最高的图象开始,根据相应的文字提醒,通过对缩小的中心图象区域举行超分辨率处理来生成后续比率。低分辨率输出提供了强大的结构信息,制约着下一张缩小图象的布局。从图 9 可以看到,这种超分辨率基线无法合成只出现在更精细的缩小比率中的新对象。
图 10 展现了本文办法与更简单版本的定性比较,以检验设计决策的效果。
更多技术细节,请阅读原文。