支持分解一分钟高清视频，华科等提出人类舞蹈视频生成新框架UniAnimate

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实行室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]人类舞蹈视频生成是一项引人注目且具有挑战性的可控视频分解任务，旨在根据输出的参照图象和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展，特别是生成模型的迭代演化，舞蹈视频生

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实行室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]

人类舞蹈视频生成是一项引人注目且具有挑战性的可控视频分解任务，旨在根据输出的参照图象和目标姿势序列生成高质量逼真的连续视频。随着视频生成技术的快速发展，特别是生成模型的迭代演化，舞蹈视频生成任务取得了前所未有的进展，并展示了广泛的应用潜力。

现有的方式可以大致分为两组。第一组通常鉴于生成对抗收集（GAN），其利用中间的姿势引导表示来扭曲参照外观，并通过之前扭曲的目标生成合理的视频帧。然而，鉴于生成对抗收集的方式通常存在训练不稳定和泛化能力差的问题，导致明显的伪影和帧间抖动。

第二组则使用分散模型（Diffusion model）来分解逼真的视频。这些方式兼具稳定训练和强大迁移能力的优势，相较于鉴于 GAN 的方式表现更好，典型方式如 Disco、MagicAnimate、Animate Anyone、Champ 等。

尽管鉴于分散模型的方式取得了显著进展，但现有的方式仍存在两个限制：一是需要特殊的参照收集（ReferenceNet）来编码参照图象特征并将其与 3D-UNet 的主干分支从事表观对齐，导致增加了训练难度和模型参数；二是它们通常采用时序 Transformer 来建模视频帧之间时序依赖关系，但 Transformer 的复杂度随生成的时间长度成二次方的计算关系，限制了生成视频的时序长度。典型方式只能生成 24 帧视频，限制了实际部署的可能性。尽管采用了时序重合的滑动窗口计谋可以生成更长的视频，但团队作者发现这种方式容易导致片断重合连接处通常存在不流畅的转换和外貌不一致性的问题。

为了解决这些问题，来自华中科技大学、阿里巴巴、中国科学技术大学的研究团队提出了 UniAnimate 框架，以实现高效且长时间的人类视频生成。

支持分解一分钟高清视频，华科等提出人类舞蹈视频生成新框架UniAnimate

论文地址：https://arxiv.org/abs/2406.01188

项目主页：https://unianimate.github.io/

方式简介

UniAnimate 框架首先将参照图象、姿势指导和噪声视频映射到特征空间中，然后利用一致的视频分散模型（Unified Video Diffusion Model）同时处理参照图象与视频主干分支表观对齐和视频去噪任务，实现高效特征对齐和连贯的视频生成。

其次，研究团队还提出了一种一致的噪声输出，其支持随机噪声输出和鉴于第一帧的条件噪声输出，随机噪声输出可以配合参照图象和姿势序列生成一段视频，而鉴于第一帧的条件噪声输出（First Frame Conditioning）则以视频第一帧作为条件输出延续生成后续的视频。通过这种方式，推理时可以通过把前一个视频片断（segment）的最后一帧当作后一个片断的第一帧来从事生成，并以此类推在一个框架中实现长视频生成。

最后，为了进一步高效处理长序列，研究团队探索了鉴于状态空间模型（Mamba）的时间建模架构，作为原始的计算密集型时序 Transformer 的一种替代。实行发现鉴于时序 Mamba 的架构可以取得和时序 Transformer 类似的效果，但是需要的显存开销更小。

支持分解一分钟高清视频，华科等提出人类舞蹈视频生成新框架UniAnimate

通过 UniAnimate 框架，用户可以生成高质量的时序连续人类舞蹈视频。值得一提的是，通过多次使用 First Frame Conditioning 计谋，可以生成持续一分钟的高清视频。与传统方式相比，UniAnimate 具有以下优势：

无需特殊的参照收集：UniAnimate 框架通过一致的视频分散模型，消除了对特殊参照收集的依赖，降低了训练难度和模型参数的数量。

引入了参照图象的姿势图作为特殊的参照条件，促进收集学习参照姿势和目标姿势之间的对应关系，实现良好的表观对齐。

一致框架内生成长序列视频：通过增加一致的噪声输出，UniAnimate 能够在一个框架内生成长时间的视频，不再受到传统方式的时间限制。

具备高度一致性：UniAnimate 框架通过迭代利用第一帧作为条件生成后续帧的计谋，保证了生成视频的平滑过渡效果，使得视频在外观上更加一致和连贯。这一计谋也使得用户可以生成多个视频片断，并选取生成结果好的片断的最后一帧作为下一个生成片断的第一帧，方便了用户与模型交互和按需调整生成结果。而利用之前时序重合的滑动窗口计谋生成长视频，则无法从事分段选择，因为每一段视频在每一步分散过程中都相互耦合。

以上这些特点使得 UniAnimate 框架在分解高质量、长时间的人类舞蹈视频方面表现出色，为实现更广泛的应用提供了新的可能性。

生成结果示例

1. 鉴于分解图片从事舞蹈视频生成。

支持分解一分钟高清视频，华科等提出人类舞蹈视频生成新框架UniAnimate