「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

分散模型在图像生成方面取得了明显的成功,但由于对输出保真度和工夫一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,特别是其固有的随机性使这变得复杂。来自南洋理工大学 S-Lab 的研讨团队提出了一种用于视频超分的文本领导(text-guided)潜伏分散框架 ——Upscale-A-Video。该框架通过两个关键机制确保工夫一致性:在全部,它将工夫层集成到 U-Net 和 VAE-Decoder 中,保持短序列的一致性;在全部范围内,无需训练,就引入了流领导(flow-guided)循环潜伏传布模块,通过

分散模型在图像生成方面取得了明显的成功,但由于对输出保真度和工夫一致性的高要求,将这些模型应用于视频超分辨率仍然具有挑战性,特别是其固有的随机性使这变得复杂。

来自南洋理工大学 S-Lab 的研讨团队提出了一种用于视频超分的文本领导(text-guided)潜伏分散框架 ——Upscale-A-Video。该框架通过两个关键机制确保工夫一致性:在全部,它将工夫层集成到 U-Net 和 VAE-Decoder 中,保持短序列的一致性;在全部范围内,无需训练,就引入了流领导(flow-guided)循环潜伏传布模块,通过在整个序列中传布和融合潜伏来增强整体视频的稳定性。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

论文地址:https://arxiv.org/abs/2312.06640

得益于分散范式,Upscale-A-Video 还提供了很大的灵活性,允许文本 prompt 领导纹理创建,并且可调节噪声水平以平衡恢复(restoration)和生成,从而兑现保真度和质量之间的权衡。

实验结果表明,Upscale-A-Video 在合成和现实世界基准上都超越了现有方法,展示了令人印象深刻的视觉真实感和工夫一致性。

我们先来看几个具体例子,例如,借助 Upscale-A-Video,「花果山名场面」有了高清画质版:

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

相比于 StableSR,Upscale-A-Video 让视频中的松鼠毛发纹理清晰可见:

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

方法简介

一些研讨通过引入工夫一致性策略来调整图像分散模型以适应视频任务,其中包括:1)利用工夫层微调视频模型,例如 3D 卷积和工夫注意力;2)在预训练模型中采用零样本(zero-shot)机制,例如跨帧注意力和流领导注意力。

尽管这些解决方案明显提高了视频稳定性,但仍然存在两个主要问题:

当前在 U-Net 特征或潜伏空间中运行的方法难以保持俗气一致性,纹理闪灼等问题仍然存在。 

现有的工夫层和注意力机制只能对短的全部输入序列施加约束,限制了它们确保较长视频中全部工夫一致性的能力。

为了解决这些问题,Upscale-A-Video 采用全部-全部策略来维持视频重建中的工夫一致性,重点关注细粒度纹理和整体一致性。在全部视频剪辑上,该研讨探索利用视频数据上的附加工夫层来微调预训练图像 ×4 超分模型。

具体来说,在潜伏分散框架内,该研讨首先利用集成的 3D 卷积和工夫注意力层对 U-Net 进行微调,然后利用视频条件输入和 3D 卷积来调整 VAE 解码器。前者明显兑现了全部序列的结构稳定性,后者进一步提高了俗气一致性,减少了纹理闪灼。在全部范围内,该研讨引入了一种新颖的、免训练的流领导循环潜伏传布模块,在推理过程中双向进行逐帧传布和潜伏融合,促进长视频的整体稳定性。

Upscale-A-Video 模型可以利用文本 prompt 作为可选条件来领导模型产生更真实、更高质量的细节,如图 1 所示。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

Upscale-A-Video 将视频划分为多个片断,并利用具有工夫层的 U-Net 对其进行处理,以兑现片断内的一致性。在用户指定的全部细化分散期间,利用循环潜伏传布模块来增强片断间的一致性。最后,经过微调的 VAE 解码器可减少闪灼伪影,兑现俗气一致性。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

实验结果

Upscale-A-Video 在现有基准上兑现了SOTA性能,展现出卓越的视觉真实感和工夫一致性。

定量评估。如表 1 所示,Upscale-A-Video在所有四个合成数据集中兑现了最高的 PSNR,表明其具有出色的重建能力。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

定性评估。该研讨分别在图 4 和图 5 中展示了合成和真实世界视频的视觉结果。Upscale-A-Video 在伪影去除和细节生成方面都明显优于现有的 CNN 和基于分散的方法。

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

「花果山名场面」有了高清画质版,NTU提出视频超分框架Upscale-A-Video

给TA打赏
共{{data.count}}人
人已打赏
工程

从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述

2024-1-2 11:04:00

工程

告别冷启动,LoRA成为大模型「氮气加速器」,提速高达300%

2024-1-2 14:11:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索