MinT: 第一个能够生成顺序事件并控制其时间戳的文本转视频模型。

2025-01-08 08:48

本文经AIGC Studio公众号授权转载，转载请联系出处。 MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。使用 MinT 生成时间控制的多事件视频。

本文经AIGC Studio公众号授权转载，转载请联系出处。

MinT 是第一个能够生成顺序事件并控制其时间戳的文本转视频模型。使用 MinT 生成时间控制的多事件视频。给定一系列事件文本提示及其所需的开始和结束时间戳，MinT 可以合成具有一致主题和背景的平滑连接事件。此外，它可以灵活地控制每个事件的时间跨度。下图展示了连续手势、日常活动、面部表情和猫咪动作的结果

摘要

现实世界的视频由一系列事件组成。使用现有的视频生成器生成具有精确时间控制的此类序列是不可行的，因为这些生成器依赖于一段文本作为输入。当使用单个提示生成多个事件时，这些方法通常会忽略某些事件或无法按正确的顺序排列它们。为了解决这一限制，我们提出了 MinT，这是一个具有时间控制的多事件视频生成器。我们的主要见解是将每个事件绑定到生成的视频中的特定时间段，这使模型可以一次关注一个事件。为了实现事件字幕和视频标记之间的时间感知交互，我们设计了一种基于时间的位置编码方法，称为 ReRoPE。这种编码有助于指导交叉注意操作。通过在时间基础数据上微调预先训练的视频扩散变换器，我们的方法可以生成具有平滑连接事件的连贯视频。在文献中，我们的模型首次提供了对生成视频中事件时间的控制。大量实验表明，MinT 的表现远远优于现有的开源模型。

方法

模型采用了全局字幕、时间字幕列表和场景切换条件（可选）。每个时间字幕和场景切换都与视频中的时间跨度绑定。
为了对基于时间的事件字幕进行条件化，我们在 DiT 块中引入了一个新的时间交叉注意层。
论文设计了一种新颖的重新缩放旋转位置嵌入 (ReRoPE) 来指示视频标记与事件字幕和场景切换标记之间的时间对应关系（可选）。这使 MinT 能够控制事件的开始和结束时间以及镜头过渡时间。

结果

定性结果

这里我们展示了一些高分辨率视频（1024x576）。我们使用彩色边框和字幕来指示每个事件的时间段。我们首先在每个事件之前暂停播放视频，然后再次连续播放。您可以在此处找到更多 512x288 视频。

与 SOTA 模型的比较

现有的视频生成器难以生成连续事件。将其与 SOTA 开源模型 CogVideoX-5B 和 Mochi 1以及商业模型 Kling 1.5和 Gen3-Alpha 进行了比较。将所有时间字幕连接到一个长提示，并运行它们的在线 API 来生成视频。我们用于 SOTA 模型的提示可以在提示中找到。

现有模型经常会在结果中遗漏一些事件，或者合并多个事件并混淆它们的顺序。相比之下，MinT 可以按照所需的时间跨度无缝合成所有事件。有关 SOTA 模型行为的更多分析，请参阅论文附录 C.6。在此处查看更多比较。

MinT 关于 OOD 提示的结果

MinT 针对主要描述以人为中心的事件的时间字幕视频进行了微调。然而，我们表明我们的模型仍然具有基础模型生成新概念的能力。在这里，我们展示了 MinT 以分布外提示为条件生成的视频

VBench 上的快速增强

我们利用 LLM 将简短提示扩展为详细的全局字幕和时间字幕，从而可以生成具有更丰富动作的更有趣视频。我们用于 LLM 的指令可以在提示中找到。在这里，我们使用原始简短提示（称为Short）和详细的全局字幕（称为Global）与我们的基础模型生成的视频进行比较。这允许普通用户使用我们的模型，而无需繁琐地指定事件和时间戳。

场景切换调节

长视频往往包含丰富的事件，但也伴随着许多场景切换。直接用它们训练视频生成器将导致生成结果中出现不想要的突然镜头转换。相反，我们建议在训练期间明确地根据场景切换时间戳来条件化模型。一旦模型学会了这种条件作用，我们就可以将它们设置为零，以在推理时生成无剪切的视频。在这里，我们比较了用不同的场景切换条件生成的视频。我们在输入场景切换时间暂停视频（用青色边框突出显示）。我们的模型引入了所需的镜头转换，并且仍然可以保留主体身份和场景背景

事件时间跨度控制

我们展示了 MinT 对事件时间的细粒度控制。在每个示例中，我们将所有事件的开始和结束时间偏移特定值。因此，每行都显示了事件发生的顺利进展

结论

论文提出的MinT是一个具有事件时间控制的多事件视频生成框架。方法采用独特的位置编码方法来指导视频的时间动态，从而产生流畅连接的事件和一致的主题。借助 LLM论文进一步设计了一个提示增强器，可以从简单的提示中生成运动丰富的视频。

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

奥特曼说，Sora代表了视频生成大模型的GPT-1时刻。从开年到现在，国内外、初创独角兽到互联网大厂，都纷纷投入视频生成领域，带来一个个新鲜模型的同时，视频、影视行业也随之发生巨变。不可否认，当下的视频生成模型还遇到诸多问题，比如对空间、对物理规律的理解，我们都期待着视频生成的GPT-3.5/4时刻到来。

1/2/2025 9:14:51 AM

量子位

轨迹可控视频生成新范式，复旦微软破解视频生成难题，精准控制任意物体运动

轨迹可控的视频生成来了，支持三种不同级别的轨迹控制条件——分别为掩码、边界框和稀疏框。近年来，视频生成技术快速发展,显著提升了视频的视觉质量与时间连贯性。在此基础上，（trajectory-controllable video generation）涌现了许多工作，使得通过明确定义的路径精确控制生成视频中的物体运动轨迹成为可能。

3/27/2025 9:24:16 AM

量子位

人类模仿AI新赛道，AI：论疯癫，你是我爹

机器之能报道编辑：杨文AI被人类带坏！这个世界，太癫了……最近，社交媒体上冒出来一堆搞怪视频，打着 AI 的旗号，真人 cos AI，甚至抖音还专门出了个热门话题——人类模仿 AI 大赛。（视频来自抖音博主「关妮乱石」）视频链接：：左边一张旧照片，右边打着「AI 修复」的字幕，实际由真人演绎着脑干缺失的狗血「剧情」。-1-AI：第一次被人冒充，没想到比我还抽象自从可灵、Luma 发布以来，全球网友组团整活，什么特朗普和拜登打啵，鳌拜和韦小宝秀恩爱，奥特曼和黄仁勋打起来……只有你想不到，没有 AI「祸害」不到。（查看

7/16/2024 6:37:00 PM

机器之能

资讯热榜

Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 MiniMax MCP Server正式上线，开启多模态AI新纪元 OpenAI发布34页智能体实践指南：从网络搜索到代码编写

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习 AI视频苹果模态 xAI 字节跳动驾驶文本搜索大语言模型具身智能 Claude Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊干货合集特斯拉 2024 AGI 大型语言模型训练

顶部