AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年,机器之心AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实行室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected];[email protected]
人类舞蹈视频生成是一项引人注目且具有挑战性的可控视频分解任务,旨在根据输出的参照图象和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展,特别是生成模型的迭代演化,舞蹈视频生成任务取得了前所未有的进展,并展示了广泛的应用潜力。
现有的方式可以大致分为两组。第一组通常鉴于生成对抗收集(GAN),其利用中间的姿势引导表示来扭曲参照外观,并通过之前扭曲的目标生成合理的视频帧。然而,鉴于生成对抗收集的方式通常存在训练不稳定和泛化能力差的问题,导致明显的伪影和帧间抖动。
第二组则使用分散模型(Diffusion model)来分解逼真的视频。这些方式兼具稳定训练和强大迁移能力的优势,相较于鉴于 GAN 的方式表现更好,典型方式如 Disco、MagicAnimate、Animate Anyone、Champ 等。
尽管鉴于分散模型的方式取得了显著进展,但现有的方式仍存在两个限制:一是需要特殊的参照收集(ReferenceNet)来编码参照图象特征并将其与 3D-UNet 的主干分支从事表观对齐,导致增加了训练难度和模型参数;二是它们通常采用时序 Transformer 来建模视频帧之间时序依赖关系,但 Transformer 的复杂度随生成的时间长度成二次方的计算关系,限制了生成视频的时序长度。典型方式只能生成 24 帧视频,限制了实际部署的可能性。尽管采用了时序重合的滑动窗口计谋可以生成更长的视频,但团队作者发现这种方式容易导致片断重合连接处通常存在不流畅的转换和外貌不一致性的问题。
为了解决这些问题,来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了 UniAnimate 框架,以实现高效且长时间的人类视频生成。
论文地址:https://arxiv.org/abs/2406.01188
项目主页:https://unianimate.github.io/
方式简介
UniAnimate 框架首先将参照图象、姿势指导和噪声视频映射到特征空间中,然后利用一致的视频分散模型(Unified Video Diffusion Model)同时处理参照图象与视频主干分支表观对齐和视频去噪任务,实现高效特征对齐和连贯的视频生成。
其次,研究团队还提出了一种一致的噪声输出,其支持随机噪声输出和鉴于第一帧的条件噪声输出,随机噪声输出可以配合参照图象和姿势序列生成一段视频,而鉴于第一帧的条件噪声输出(First Frame Conditioning)则以视频第一帧作为条件输出延续生成后续的视频。通过这种方式,推理时可以通过把前一个视频片断(segment)的最后一帧当作后一个片断的第一帧来从事生成,并以此类推在一个框架中实现长视频生成。
最后,为了进一步高效处理长序列,研究团队探索了鉴于状态空间模型(Mamba)的时间建模架构,作为原始的计算密集型时序 Transformer 的一种替代。实行发现鉴于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果,但是需要的显存开销更小。
通过 UniAnimate 框架,用户可以生成高质量的时序连续人类舞蹈视频。值得一提的是,通过多次使用 First Frame Conditioning 计谋,可以生成持续一分钟的高清视频。与传统方式相比,UniAnimate 具有以下优势:
无需特殊的参照收集:UniAnimate 框架通过一致的视频分散模型,消除了对特殊参照收集的依赖,降低了训练难度和模型参数的数量。
引入了参照图象的姿势图作为特殊的参照条件,促进收集学习参照姿势和目标姿势之间的对应关系,实现良好的表观对齐。
一致框架内生成长序列视频:通过增加一致的噪声输出,UniAnimate 能够在一个框架内生成长时间的视频,不再受到传统方式的时间限制。
具备高度一致性:UniAnimate 框架通过迭代利用第一帧作为条件生成后续帧的计谋,保证了生成视频的平滑过渡效果,使得视频在外观上更加一致和连贯。这一计谋也使得用户可以生成多个视频片断,并选取生成结果好的片断的最后一帧作为下一个生成片断的第一帧,方便了用户与模型交互和按需调整生成结果。而利用之前时序重合的滑动窗口计谋生成长视频,则无法从事分段选择,因为每一段视频在每一步分散过程中都相互耦合。
以上这些特点使得 UniAnimate 框架在分解高质量、长时间的人类舞蹈视频方面表现出色,为实现更广泛的应用提供了新的可能性。
生成结果示例
1. 鉴于分解图片从事舞蹈视频生成。
2. 鉴于真实图片从事舞蹈视频生成。
3. 鉴于粘土风格图片从事舞蹈视频生成。
4. 马斯克舞蹈。
5. Yann LeCun 舞蹈。
6. 鉴于其他跨域图片从事舞蹈视频生成。
7. 一分钟舞蹈视频生成。
获取原始 MP4 视频和更多高清视频示例请参照论文的项目主页 https://unianimate.github.io/。
实行比照分析
1. 和现有方式在 TikTok 数据集上的定量比照实行。
如上表所示,UniAnimate 方式在图片指标如 L1、PSNR、SSIM、LPIPS 上和视频指标 FVD 上都取得了最好的结果,说明了 UniAnimate 可以生成高保真的结果。
2. 和现有方式的定性比照实行。
从上述定性比照实行也可以看出,相比于 MagicAnimate、Animate Anyone, UniAnimate 方式可以生成更好的连续结果,没有出现明显的 artifacts,表明了 UniAnimate 的有效性。
3. 剥离实行。
从上表的数值结果可以看出,UniAnimate 中用到的参照姿势和一致视频分散模型对性能提升起到了很关键的作用。
4. 长视频生成计谋比照。
从上图可以看出之前常用的时序重合滑动窗口计谋生成长视频容易导致不连续的过渡,研究团队认为这是因为不同窗口在时序重合部分去噪难度不一致,使得生成结果不同,而直接平均会导致有明显的变形或者扭曲等情况发生,并且这种不一致会从事错误传播。而本文利用的首帧视频延续生成方式则可以生成平滑的过渡。
更多的实行比照结果和分析可以参照原论文。
总而言之,UniAnimate 的示例结果表现和定量比照结果很不错,期待 UniAnimate 在各个领域的应用,如影视制作、虚拟现实和游戏产业等,为用户带来更为逼真、精彩的人类形象动画体验。