Magic Mirror:可从单个参考图像生成电影级质量身份一致性和自然运动视频

Magic Mirror 可以生成合成身份配对的视频数据。 该框架利用视频扩散模型,能够在保持身份一致性的同时,生成具有电影级质量和动态运动的视频。 Magic Mirror 根据 ID 参考图像生成文本转视频结果。

Magic Mirror 可以生成合成身份配对的视频数据。该框架利用视频扩散模型,能够在保持身份一致性的同时,生成具有电影级质量和动态运动的视频。

图片

Magic Mirror 根据 ID 参考图像生成文本转视频结果。每对视频显示 24 帧(总共 49 帧),其对应的面部参考显示在左下角。

图片图片

相关链接

  • 论文:http://arxiv.org/abs/2501.03931v1
  • 主页:https://julianjuaner.github.io/projects/MagicMirror/

论文介绍

图片Magic Mirror 是一个用于生成具有电影级质量和动态运动的身份保留视频的框架。虽然视频扩散模型的最新进展在文本到视频生成方面表现出了令人印象深刻的能力,但在产生自然运动的同时保持一致的身份仍然具有挑战性。以前的方法要么需要针对个人进行微调,要么难以平衡身份保留与运动多样性。

Magic Mirror基于视频扩散变换器,引入了三个关键组件:

  1. 双分支面部特征提取器,可同时捕获身份和结构特征;
  2. 具有条件自适应规范化的轻量级跨模态适配器,可实现有效的身份集成;
  3. 结合合成身份对和视频数据的两阶段训练策略。

大量实验表明Magic Mirror 有效地平衡了身份一致性和自然运动,在多个指标上优于现有方法,同时只需添加最少的参数。

图片

Magic Mirror 可生成动态面部动作。由于身份保留约束较强,IDAnimator 和 Video Ocean 的运动范围有限。Magic Mirror 在保持参考身份保真度的同时,实现了更加动态的面部表情。

图片

方法

图片

Magic Mirror 概述。 该框架采用双分支特征提取系统,包括 ID 和面部感知器,然后是跨模态适配器,用于基于 DiT 的视频生成。通过优化火焰标记的可训练模块,我们的方法可以有效地整合面部特征,实现受控的视频合成,同时保持模型效率。

Magic Mirror的方法可分为以下几个关键组成部分:

  1. 双分支面部特征提取器:该组件同时提取身份特征和结构信息,确保在视频生成中保持高水平的身份一致性。
  2. 轻量级跨模态适配器:该适配器集成到视频扩散模型中,允许在生成过程中有效地结合面部特征和文本提示。
  3. 条件自适应归一化(CAN):此模块用于在生成过程中动态调整面部特征的分布,确保在不同视频帧之间保持一致的身份特征。
  4. 两阶段训练策略:首先在图像数据上进行预训练,以学习稳健的身份表示,然后在视频数据上进行微调,以确保面部表情的时间一致性。

图片

DiT 块中的跨模态适配器,具有条件自适应归一化 (CAN),用于特定模态的特征调制和解耦注意力整合。

图片

训练数据集概述。 管道包括图像预训练数据(A-D)和视频后训练数据(D)。利用自参考数据(A,B)和具有相同身份的过滤合成对(C,D)。报告了(图像+合成图像)的数量。

实验

图片

定性比较。 每个案例的左上角均显示标题和参考身份图像。

图片

消融研究示例。 左:消融模块。右:消融和训练策略。

图片

使用 Magic Mirror 生成图像。图像预训练阶段的模型会捕获参考 ID 的 ID 嵌入(Ref-ID),但在某些低级分布(如图像质量、风格和背景)上会出现过度拟合。

图片

视频生成结果。 结果展示了 Magic Mirror 在不同面部比例和构图中的能力。

总结

Magic Mirror是一个用于身份保留视频生成的零样本框架。Magic Mirror 将双人脸嵌入和条件自适应规范化 (CAN) 融入基于 DiT 的架构中。该方法可以实现强大的身份保留和稳定的训练收敛。实验表明Magic Mirror 可以从单个参考图像生成高质量的个性化视频,同时保持身份一致性,在多个基准和人工评估中的表现优于现有方法。

相关资讯

多重可控插帧视频生成编辑,Adobe这个大一统模型做到了,效果惊艳

本文一作 Maham Tanveer 是 Simon Fraser University 的在读博士生,主要研究方向为艺术视觉生成和创作,此前在 ICCV 发表过艺术字体的生成工作。 师从 Hao (Richard) Zhang, IEEE Fellow, Distinguished Professor, 并担任 SIGGRAPH 2025 Paper Chair. 本文尾作 Nanxuan (Cherry)  Zhao 在 Adobe Research 担任 Research Scientist, 研究方向为多模态可控生成和编辑,有丰富的交叉方向研究经历(图形学 图像 人机交互),致力于开发可以让用户更高效进行设计创作的算法和工具。

革新在线购物体验:CatV2TON引领虚拟试穿技术新纪元

本文经AIGC Studio公众号授权转载,转载请联系出处。 在这个数字化飞速发展的时代,图像与视频合成技术正以前所未有的速度重塑着我们的生活,尤其在在线零售领域,一场关于购物体验的革命正在悄然上演。 想象一下,无需亲自试穿,仅凭一张照片或一段视频,就能精准预览任何心仪服装的上身效果——这听起来仿佛科幻电影中的场景,中山大学和新加坡国立大学提出的基于视觉的虚拟试穿(CatV2TON)技术正将其变为现实。

Meta新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近20%,可无缝集成DiT模型

针对视频生成中的运动一致性难题,Meta GenAI团队提出了一个全新框架VideoJAM。 VideoJAM基于主流的DiT路线,但和Sora等纯DiT模型相比,动态效果直接拉满:哪怕变化又大又迅速、动作又复杂的舞蹈,也看起来像真的一样,而且还是两个人同步:像倒立这样的操作,同样可以轻松驾驭:而且不需要额外数据或缩放,就能无缝集成到不同规模的DiT模型当中,带来运动效果的提升。 有网友表示,第一眼看上去就和真的一样,也许到今年年底,我们看不到区别了。