视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

本文作者来自于上海交通大学,中国科学技术大学以及上海人工智能实验室等。 其中第一作者周彧杰为上海交通大学二年级博士生,师从牛力副教授。 数字化时代,视频内容的创作与编辑需求日益增长。

本文作者来自于上海交通大学,中国科学技术大学以及上海人工智能实验室等。其中第一作者周彧杰为上海交通大学二年级博士生,师从牛力副教授。

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

数字化时代,视频内容的创作与编辑需求日益增长。从电影制作到社交媒体,高质量的视频编辑技术成为了行业的核心竞争力之一。然而,视频重打光(video relighting)—— 即对视频中的光照条件进行调整和优化,一直是这一领域的技术瓶颈。传统的视频重打光方法面临着高昂的训练成本和数据稀缺的双重挑战,导致其难以广泛应用。

如今,这一难题终于迎来了突破 —— 由上海交通大学以及上海人工智能实验室联合研发的 Light-A-Video 技术,为视频重打光带来了全新的解决方案。

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

  • 论文地址:https://arxiv.org/abs/2502.08590
  • 项目主页:https://bujiazi.github.io/light-a-video.github.io/
  • 代码地址:https://github.com/bcmi/Light-A-Video

无需训练,零样本实现视频重打光

Light-A-Video 是一种无需训练的视频重打光方法,能够在没有任何训练或优化的情况下,生成高质量、时序一致的重打光视频。这一技术的核心在于充分利用预训练的图像重打光模型(如 IC-Light)和视频扩散模型(如 AnimateDiff 和 CogVideoX),通过创新的 Consistent Light Attention(CLA)模块和 Progressive Light Fusion(PLF)策略,针对视频内容的光照变化进行了一致性的优化,实现了对视频序列的零样本(zero-shot)光照控制。

其优势在于:

1. 无需训练,高效实现视频重打光:Light-A-Video 是首个无需训练的视频重打光模型,能够直接利用预训练的图像重打光模型(如 IC-Light)的能力,生成高质量且时间连贯的重打光视频。这种方法避免了传统视频重打光方法中高昂的训练成本和数据稀缺的问题,显著提高了视频重打光的效率和扩展性。

2. 创新的端到端流程,确保光照稳定性与时序一致性:CLA 模块通过增强跨帧交互,稳定背景光源的生成,减少因光照不一致导致的闪烁问题。PLF 通过渐进式光照融合策略,逐步注入光照信息,确保生成视频外观的时间连贯性。

3. 广泛的适用性与灵活性:Light-A-Video 不仅支持对完整输入视频的重打光,还可以对输入的前景序列进行重打光,并生成与文字描述相符的背景。而且不依赖于特定的视频扩散模型,因此与多种流行的视频生成框架(如 AnimateDiff、CogVideoX 和 LTX-Video)具有高度的兼容性。

CLA + PLF

确保光照一致性与稳定性

Light-A-Video 核心技术包括两个关键模块:Consistent Light Attention 和 Progressive Light Fusion。CLA 模块通过增强自注意力层中的跨帧交互,稳定背景光照源的生成。它引入了一种双重注意力融合策略,一方面保留原始帧的高频细节,另一方面通过时间维度的平均处理,减少光照源的高频抖动,从而实现稳定的光照效果。实验表明,CLA 模块显著提高了视频重打光的稳定性,减少了因光照不一致导致的闪烁问题。

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

PLF 策略则进一步提升了视频外观的稳定性。它基于光传输理论的光照线性融合特性,通过逐步混合的方式,将重打光外观与原始视频外观进行融合。在视频扩散模型的去噪过程中,PLF 策略逐步引导视频向目标光照方向过渡,确保了时间连贯性。这种渐进式的光照融合方法不仅保留了原始视频的细节,还实现了平滑的光照过渡。

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

Light-A-Video 整体架构设计

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

1. 利用视频扩散模型的时序先验,将原始视频加噪到对应的步数后进行去噪。在每一步的去噪过程中,提取其预测的原始去噪目标视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光并添加上对应的视频细节补偿项作为当前步的一致性目标 视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

2. 将 视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光 输入图片重打光模型(IC-Light),并利用 CLA 的双流注意力模块进行逐帧重打光,实现稳定的背景光源生成,作为当前步的重打光的目标视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

3. 在预测下一步的视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光时,先利用 VAE 编解码器将视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光从潜层编码空间解码到视频像素层面。然后通过引入一个渐进式随时间步下降的参数视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光将两个目标进行线性外观混合后,重新编码到潜层编码空间获取混合目标视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光。即 PLF 策略利用混合目标视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光引导生成单步的重打光结果视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

当视频完全去噪后,Light-A-Video 能够获得时序稳定且光照一致的重打光视频。

高质量、时间连贯的重光照效果

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

为了验证 Light-A-Video 的有效性,研究团队基于 DAVIS 和 Pixabay 公开数据集上构建了其测试数据集。实验结果表明,Light-A-Video 在多个评估指标上均优于现有的基准方法,尤其在动作保留方面,该方法在保证原视频外观内容的基础上实现了高质量的重打光效果。

视频版IC-Light来了!Light-A-Video提出渐进式光照融合,免训练一键视频重打光

另外,Light-A-Video 能够在仅提供前景序列的情况下,实现背景生成和重打光的并行处理。

未来展望:动态光照与更广泛应用

之后,Light-A-Video 将致力于有效地处理动态光照条件,进一步提升视频重打光的灵活性与适应性。这一创新技术的出现,已然为视频编辑领域注入了全新思路。随着技术的持续发展与优化,我们有理由相信,Light-A-Video 必将在更广泛的领域大放异彩,为视频内容创作开辟更多可能性。

相关资讯

英伟达被曝未经许可抓取 YouTube、Netflix 平台视频用于训练 AI

科技媒体 404Media 披露的文件显示,英伟达收集了大量受版权包含的内容,用于训练人工智能(AI)。该媒体披露的内部邮件、电子邮件、Slack 对话以及相关文件显示,英伟达从 YouTube 等多个来源收集视频素材,用于扩充训练 AI 的数据集。该媒体披露的对话显示参与该项目的员工曾提出质疑,认为擅自使用 YouTube 视频以及研究目的编译的数据集,在法律层面可能会存在问题。不过项目经理的回复是,这种收集模式已经获得了公司最高层的许可,可以使用这些内容训练 AI,并认为“完全符合版权法的文字描述和精神”。一位

从零开始,用英伟达T4、A10训练小型文生视频模型,几小时搞定

很翔实的一篇教程。OpenAI 的 Sora、Stability AI 的 Stable Video Diffusion 以及许多其他已经发布或未来将出现的文本生成视频模型,是继大语言模型 (LLM) 之后 2024 年最流行的 AI 趋势之一。在这篇博客中,作者将展示如何将从头开始构建一个小规模的文本生成视频模型,涵盖了从理解理论概念、到编写整个架构再到生成最终结果的所有内容。由于作者没有大算力的 GPU,所以仅编写了小规模架构。以下是在不同处理器上训练模型所需时间的比较。作者表示,在 CPU 上运行显然需要更长

全球首个类 Sora 开源复现方案来了!全面公开所有训练细节和模型权重

全球首个开源的类 Sora 架构视频生成模型,来了!整个训练流程,包括数据处理、所有训练细节和模型权重,全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下,能生成繁华都市夜景中的车水马龙。还能用航拍视角,展现悬崖海岸边,海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来,由于效果惊艳但技术细节寥寥,揭秘、复现 Sora 成为了开发社区最热议话题之一。比如 Colossal-AI 团队推出成本直降 46% 的 Sora 训练推理复现流程。短短两周时间后,该团队再次发布最