MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

本文经AIGC Studio公众号授权转载,转载请联系出处。 MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。 使用 MinT 生成时间控制的多事件视频。

本文经AIGC Studio公众号授权转载,转载请联系出处。

MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。使用 MinT 生成时间控制的多事件视频。给定一系列事件文本提示及其所需的开始和结束时间戳,MinT 可以合成具有一致主题和背景的平滑连接事件。此外,它可以灵活地控制每个事件的时间跨度。下图展示了连续手势、日常活动、面部表情和猫咪动作的结果图片

图片

相关链接

  • 论文:http://arxiv.org/abs/2412.05263v1
  • 项目:https://mint-video.github.io/

摘要

现实世界的视频由一系列事件组成。使用现有的视频生成器生成具有精确时间控制的此类序列是不可行的,因为这些生成器依赖于一段文本作为输入。当使用单个提示生成多个事件时,这些方法通常会忽略某些事件或无法按正确的顺序排列它们。为了解决这一限制,我们提出了 MinT,这是一个具有时间控制的多事件视频生成器。我们的主要见解是将每个事件绑定到生成的视频中的特定时间段,这使模型可以一次关注一个事件。为了实现事件字幕和视频标记之间的时间感知交互,我们设计了一种基于时间的位置编码方法,称为 ReRoPE。这种编码有助于指导交叉注意操作。通过在时间基础数据上微调预先训练的视频扩散变换器,我们的方法可以生成具有平滑连接事件的连贯视频。在文献中,我们的模型首次提供了对生成视频中事件时间的控制。大量实验表明,MinT 的表现远远优于现有的开源模型。

方法

图片

  • 模型采用了全局字幕、时间字幕列表和场景切换条件(可选)。每个时间字幕和场景切换都与视频中的时间跨度绑定。
  • 为了对基于时间的事件字幕进行条件化,我们在 DiT 块中引入了一个新的时间交叉注意层。
  • 论文设计了一种新颖的重新缩放旋转位置嵌入 (ReRoPE) 来指示视频标记与事件字幕和场景切换标记之间的时间对应关系(可选)。这使 MinT 能够控制事件的开始和结束时间以及镜头过渡时间。

结果

定性结果

这里我们展示了一些高分辨率视频(1024x576)。我们使用彩色边框和字幕来指示每个事件的时间段。我们首先在每个事件之前暂停播放视频,然后再次连续播放。您可以在此处找到更多 512x288 视频。

图片图片

与 SOTA 模型的比较

现有的视频生成器难以生成连续事件。将其与 SOTA 开源模型 CogVideoX-5B 和 Mochi 1以及商业模型 Kling 1.5和 Gen3-Alpha 进行了比较。 将所有时间字幕连接到一个长提示,并运行它们的在线 API 来生成视频。 我们用于 SOTA 模型的提示可以在提示中找到。

现有模型经常会在结果中遗漏一些事件,或者合并多个事件并混淆它们的顺序。相比之下,MinT 可以按照所需的时间跨度无缝合成所有事件。有关 SOTA 模型行为的更多分析,请参阅论文附录 C.6。在此处 查看更多比较。

图片图片图片

MinT 关于 OOD 提示的结果

MinT 针对主要描述以人为中心的事件的时间字幕视频进行了微调。然而,我们表明我们的模型仍然具有基础模型生成新概念的能力。在这里,我们展示了 MinT 以分布外提示为条件生成的视频

图片

VBench 上的快速增强

我们利用 LLM 将简短提示扩展为详细的全局字幕和时间字幕,从而可以生成具有更丰富动作的更有趣视频。我们用于 LLM 的指令可以在提示中找到。在这里,我们使用原始简短提示(称为Short)和详细的全局字幕(称为Global)与我们的基础模型生成的视频进行比较。这允许普通用户使用我们的模型,而无需繁琐地指定事件和时间戳。

场景切换调节

长视频往往包含丰富的事件,但也伴随着许多场景切换。直接用它们训练视频生成器将导致生成结果中出现不想要的突然镜头转换。相反,我们建议在训练期间明确地根据场景切换时间戳来条件化模型。一旦模型学会了这种条件作用,我们就可以将它们设置为零,以在推理时生成无剪切的视频。 在这里,我们比较了用不同的场景切换条件生成的视频。我们在输入场景切换时间暂停视频(用青色边框突出显示)。我们的模型引入了所需的镜头转换,并且仍然可以保留主体身份和场景背景图片

事件时间跨度控制

我们展示了 MinT 对事件时间的细粒度控制。在每个示例中,我们将所有事件的开始和结束时间偏移特定值。因此,每行都显示了事件发生的顺利进展

图片

结论

论文提出的MinT是一个具有事件时间控制的多事件视频生成框架。方法采用独特的位置编码方法来指导视频的时间动态,从而产生流畅连接的事件和一致的主题。借助 LLM论文进一步设计了一个提示增强器,可以从简单的提示中生成运动丰富的视频。

相关资讯

潞晨尤洋:视频生成的GPT-4时刻,3年后可以见证 | MEET 2025

奥特曼说,Sora代表了视频生成大模型的GPT-1时刻。 从开年到现在,国内外、初创独角兽到互联网大厂,都纷纷投入视频生成领域,带来一个个新鲜模型的同时,视频、影视行业也随之发生巨变。 不可否认,当下的视频生成模型还遇到诸多问题,比如对空间、对物理规律的理解,我们都期待着视频生成的GPT-3.5/4时刻到来。

人类模仿AI新赛道,AI:论疯癫,你是我爹

机器之能报道编辑:杨文AI被人类带坏!这个世界,太癫了……最近,社交媒体上冒出来一堆搞怪视频,打着 AI 的旗号,真人 cos AI,甚至抖音还专门出了个热门话题——人类模仿 AI 大赛。(视频来自抖音博主「关妮乱石」)视频链接::左边一张旧照片,右边打着「AI 修复」的字幕,实际由真人演绎着脑干缺失的狗血「剧情」。-1-AI:第一次被人冒充,没想到比我还抽象自从可灵、Luma 发布以来,全球网友组团整活,什么特朗普和拜登打啵,鳌拜和韦小宝秀恩爱,奥特曼和黄仁勋打起来……只有你想不到,没有 AI「祸害」不到。(查看

智谱AI杀入视频生成:「清影」上线,时长6秒,免费不限量

智谱大模型团队自研打造。自从快手可灵 AI 火爆海内外,国内视频生成也如同 2023 年的文本大模型一样,越来越卷了。刚刚,又一视频生成大模型产品宣布正式上线:智谱 AI 正式发布「清影」。只要你有好的创意(几个字到几百个字),再加上一点点耐心(30 秒),「清影」就能生成 1440x960 清晰度的高精度视频。即日起,清影上线清言 App,所有用户都可以全方位体验对话、图片、视频、代码和 Agent 生成功能。除了覆盖智谱清言的网页端和 App,你也可以在「AI 动态照片小程序」上进行操作,快速为手机里的照片实现