Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

针对视频生成中的运动一致性难题,Meta GenAI 团队提出了一个全新框架 VideoJAM。VideoJAM 基于主流的 DiT 路线,但和 Sora 等纯 DiT 模型相比,动态效果直接拉满。

针对视频生成中的运动一致性难题,Meta GenAI 团队提出了一个全新框架 VideoJAM

VideoJAM 基于主流的 DiT 路线,但和 Sora 等纯 DiT 模型相比,动态效果直接拉满:

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

哪怕变化又大又迅速、动作又复杂的舞蹈,也看起来像真的一样,而且还是两个人同步:

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

像倒立这样的操作,同样可以轻松驾驭:

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

而且不需要额外数据或缩放,就能无缝集成到不同规模的 DiT 模型当中,带来运动效果的提升。

有网友表示,第一眼看上去就和真的一样,也许到今年年底,我们看不到区别了。

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

运动效果超越 Sora、Gen3

VideoJAM 在处理运动场景时,不仅视觉上效果更好,也更加贴合物理规律。

比如吹灭蜡烛时火苗的晃动,以及渐进式的熄灭过程,连燃烧产生的白烟也没有落下:

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

写书法时毛笔的运动处理得也很精细,并且做到了笔迹和纸上的字迹同步(虽然不知道写的是什么):

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

还有用手捏史莱姆时的形状变化,以及内部产生的流体效果,连手松开时的粘连效果也体现了出来:

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

甚至是三个球来回抛的杂技表演,也能很好地体现出抛物线轨迹:

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

另外,作者也针对文本 / 外观 / 运动一致性、视频质量等指标,在 4B 和 30B 的 DiT 模型上分别运用 VideoJAM 进行了评估,并与主流视频生成模型进行了对比。

结果在 4B 和 30B 规模下,相比于原始的 DiT 模型,运动质量从 78.3 和 88.1,分别提升到了 93.7 和 92.4,提升比例分别为 19.67% 和 4.88%。

并且应用 VideoJAM 后,运动质量也超过了 Gen3、Sora 等其他对比模型。

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

那么,VideoJAM 是如何做到的呢?

训练中引入运动信息

在训练和推理阶段,VideoJAM 针对经典的 DiT 架构都进行了一定补充。

具体来说,在训练阶段,VideoJAM 采用了联合外观-运动表示(Joint Appearance-Motion Representation)。

通过在模型中引入额外的运动预测任务,让模型在生成视频的同时也学习如何预测对应的运动。

为实现联合外观-运动表示,VideoJAM 对现有视频生成模型进行了两处关键性改动,添加了输入和输出两个线性投影层。

  • 输入投影层将外观特征(视频帧的表示)和运动特征拼接后映射到模型的隐藏空间,形成一个联合的潜在表示,这个潜在表示融合了静态外观信息和动态运动信息。

  • 输出投影层则从模型的联合潜在表示中,分别解码出视频的外观预测和运动预测,其中外观预测用于生成最终的视频帧,运动预测则用来评估模型对时间一致性的理解。

在这一过程当中,运动是用(Optical Flow),也就是视频帧之间像素的位移的形式进行表示的。

处理时,VideoJAM 将光流转换成 RGB 格式,像素运动方向被映射为色调,强度则被映射为亮度或透明度,使其可以像普通视频一样被模型处理。

这种处理方式无需额外训练复杂的运动编码器,且兼容性强,可以方便地嵌入到现有的视频生成模型中。

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

到了推理阶段,VideoJAM 采用了内部引导机制(Inner-Guidance Mechanism),进一步增强生成视频的运动一致性。

这种机制不依赖外部条件,而是使用模型自身在每个生成步骤中预测的运动信息来动态调整生成过程,可以实时捕捉生成视频的动态变化。

和其他扩散模型一样,生成视频的初始输入是随机噪声,模型首先对噪声进行处理,生成初步的视频帧和对应的运动预测。

生成过程中,模型会使用当前帧的运动预测作为指导信号,调整下一个时间步的生成方向。

这种反馈机制之下,模型不断审视自己生成的动作是否连贯,并在发现不一致时自动进行调整。

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

具体到生成进程,可以分成两个阶段,内部引导主要应用在其中第一个:

  • 粗略阶段:在生成初期(大约前 50% 的步骤),重点关注大范围的运动连贯性,如整体方向和节奏。

  • 细化阶段:在生成后期,转向优化细节,如肢体动作的微调和物体交互的物理合理性。

消融实验表明,作者采用的光流表示和内部引导机制正是 VideoJAM 实现高运动一致性的关键。

Meta 新视频生成框架 VideoJAM 拿捏倒立杂技,双人舞也能完美同步

论文地址:

https://arxiv.org/abs/2502.02492

项目主页:

https://hila-chefer.github.io/videojam-paper.github.io/

本文来自微信公众号:量子位(ID:QbitAI),作者:克雷西,原标题《Meta 新视频生成框架拿捏倒立杂技,双人舞也能完美同步!运动一致性暴增近 20%,可无缝集成 DiT 模型》

相关资讯

Meta AI 全球市场扩张,并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI,在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型,速度更快、智能性更高、功能更强,是执行各种任务的理想选择

Llama3后,Meta又开放自家头显操作系统,打造元宇宙时代新安卓

虽然向第三方开放了操作系统,但 Meta 将继续开发 Quest 头显设备。Meta 誓将开放进行到底。这次把自家 VR 头显 Quest 采用的操作系统「Meta Horizon OS」向第三方硬件制造商开放了,包括华硕、联想和微软等一众企业。此举意在展示作为 MR 操作系统整合者的 Meta 对元宇宙开放的新愿景。至此,Meta 正式向实现元宇宙更开放的计算平台愿景迈出下一步。为实现该恢弘战略,Meta 同时在三方面不断发力,并竭力整合资源:向第三方硬件制造商开放 Meta Quest 设备的操作系统,为消费者

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和