美图影象研究院(MT Lab)与中国科学院大学突破性地提出了鉴于文生图模型的视频生成新方法 EI2,用于提高视频编写过程中的语义和内容两方面的同等性。该论文从理论角度分析和论证视频编写过程中闪现的不同等的题目,主要由引入的时序信息进修模块使特征空间闪现协变量偏移造成,并针对性地计划了新的网络模块举行办理以生成高质量的编写结果。目前,该论文已被机器进修顶会之一 NeurIPS 2023 接收。
背景
作为当前炙手可热的前沿技术之一,生成式 AI 被广泛应用于各类视觉合成恣意,尤其是在图像生成和编写领域获得了令人赞叹的生成效果。对比静态图像,视频拥有更丰富的动态变化和语义信息,而现有的视觉生成恣意主要鉴于变分自编码器(VAE)和生成对抗网络(GAN),但通常会受限于特定场景和数据,很难提供普适的办理规划。因此,近年来鉴于扩散模型(Diffusion Models)在分布式进修上表现出的卓越能力,扩散模型也开始被拓展到视频领域,并在视频生成与编写领域展现出了巨大的潜力。
在研究初期,鉴于扩散模型的视频生成和编写恣意利用文本 – 视频数据集直接训练文生视频模型以达到目标。然而,由于缺少高质量的视频数据,这类工作泛化能力通常较差,此外,它们也需要耗费大量的计算资源。为避免上述题目,近期工作更倾向于将鉴于大规模数据集上预训练的文生图模型拓展到视频领域。此类恣意通过引入可进修的时序模块使文生图模型具备视频生成和编写能力,从而减少对视频数据的需求以及计算量,并提供了简单易用的规划。因此,这类恣意在近期引起了广泛的关注。然而,以上鉴于文生图模型的视频生成规划也面临着两个关键题目:一是时序不同等题目,即生成视频帧间内容的不同等,例如闪烁和主体变化等;二是语义不同等题目,即生成视频未能按照给定文本举行修改。办理上述两个核心题目将极大地推动鉴于文本的视频编写与生成技术在实际场景中的应用和落地。
美图影象研究院(MT Lab)与中国科学院大学在 NeurIPS 2023 上共同提出一种鉴于文生图模型的视频编写方法 EI2, 从理论上分析和论证了现有规划闪现不同等的原因,并提出了有效的办理规划。
论文链接:https://arxiv.org/pdf/2305.17431.pdf
EI2:鉴于文生图模型的视频同等性编写办理规划
EI2 首先对语义不同等题目举行了分析,发现该题目不是由微调策略或过拟合现象闪现所导致的,而是由新引入的时序模块造成的。这些模块虽然能提升文生图模型的时序连续性,但会减弱甚至消除其原有的生成和编写能力。
EI2 规划将这一现象的闪现归因于生成特征空间闪现协变量偏移:由于时序模块只在目标视频上举行训练,其输出特征的分布与源模型的分布存在差异。此外,现有空间注意力机制为减小计算量,通常会忽略特定元素举行局部计算,从而导致次优解的闪现。因此,高效地融合全局上的空间和时序注意力信息也是取得时序同等性编写的关键。
图 1 本文提出的 EI2 规划与已有规划在视频编写恣意上的结果对比
鉴于上述分析,EI2 计划了更为合理的时序模块并将其与文生图模型相结合,用于增强生成能力,以更好地办理视频编写恣意。具体而言,EI2 采用一次微调框架(One-shot Tuning),从理论和实践两方面对现有方法举行了改进。
首先,EI2 计划了偏移控制时序注意力模块,用于办理视频编写过程中闪现的语义不同等题目。EI2 从理论上证明了在特定假设下,协变量偏移与微调无关,是由时序注意力机制新引入的参数造成,这为办理语义不同等题目提供了有价值的指导。
通过上述论证,EI2 定位层归一化(Layer Norm)模块是协变量偏移闪现的重要原因。为了办理这一题目,EI2 提出了简单有效的实例中心化模块以控制分布偏移。此外,EI2 也对原时序注意力模块中的权值举行归一化,从而限制方差的偏移。其次,EI2 计划了粗细力度帧间注意力模块来缓解视频编写过程中闪现的时序不同等题目。EI2 创新性地提出了一种粗细力度交互机制,用于更为有效地建立时空注意力机制,从而使得低成本的视频全局信息交互成为可能。与现有丢弃空间信息的规划相比,EI2 在空间维度上举行采样,这不仅保持了时空数据的整体结构,也减少了需要考虑的数据规模。
具体而言,粗细力度帧间注意力模块对于当前帧保留细粒度信息,而对于其他帧则举行下采样以获得粗粒度信息来做交互。这种方式使得 EI2 在有效进修时序信息的同时,保证了与现有时空交互规划接近的计算量。鉴于以上计划,实验结果表明 EI2 可以有效地办理视频编写过程中闪现的语义不同等题目并保证时序上的同等性,取得了超越现有规划的视频编写效果。
图 2 EI2 的训练和推理流程
实验结果
表 1 与基线方法的量化对比
图 3 与基线方法的可视化对比
图 4 协变量偏移控制的消融实验
图 5 时空注意力机制的消融实验
总结
该论文创新性地提出了鉴于文生图模型的视频编写新规划 EI2,有效地办理了现有规划遇到的语义和时序不同等题目。其中,EI2 从理论上证明了语义不同等题目由引入的时序模块产生的协变量偏移造成,并计划了偏移控制时序注意力举行改进。另外,EI2 提出了粗细力度帧间注意力模块,在提升视频编写效果的同时也保证了较低的计算复杂度。与现有规划相比,EI2 在量化和可视化的分析中都表现出了明显的优势。
研究团队
本论文由美图影象研究院(MT Lab)和中国科学院大学的研究者们共同提出。
美图影象研究院成立于 2010 年,致力于计算机视觉、深度进修、计算机图形学等人工智能(AI)相关领域的研发。曾先后参与 CVPR、ICCV、ECCV 等计算机视觉国际顶级会议,并斩获 ISIC Challenge 2018 皮肤癌病灶分割赛道冠军,ECCV 2018 图像增强技术比赛冠军,CVPR-NTIRE2019 图像增强比赛冠军,ICCV2019 服饰关键点估计比赛冠军等十余项冠亚军,在 AAAI、CVPR、ICCV、ECCV、NIPS 等国际顶级会议及期刊上累计发表 48 篇学术论文。
在美图影象研究院(MT Lab)的支持下,美图公司拥有丰富的 AIGC 场景落地经验。2010 年开始人工智能领域的相关探索,2013 年开始布局深度进修,2016 年推出 AIGC 雏形产品 “手绘自拍”,2022 年 AIGC 产品全面进入爆发期,2023年6月发布自研AI视觉大模型MiracleVision(奇想智能),2023年12月MiracleVision迭代至4.0 版本,主打AI计划与AI视频。