何恺明的目标是:探索面向复杂全国的智能。
Sora 是首个引起社会广泛关注的大规模通用视频生成模型。自 OpenAI 在 2024 年 2 月推出以来,没有其他视频生成模型能够在机能或支持广泛视频生成义务的威力上与 Sora 匹敌。此外,完全公开的视频生成模型寥寥无几,大多数都是闭源的。
为了弥补这一差距,来自理海大学、微软研究院的研究者提出了一种多智能体框架 Mora,该框架整合了几种先进的视觉 AI 智能体,以复制 Sora 所展示的通用视频生成威力。特别是,Mora 能够利用多个视觉智能体,在各种义务中成功模仿 Sora 的视频生成威力,例如(1)文本到视频生成,(2)文本条件下的图象到视频生成,(3)扩张生成的视频,(4)视频到视频编纂,(5)衔接视频以及(6)摹拟数字全国。广泛的试验结果表明,Mora 在各种义务中达到了接近 Sora 的机能。然而,当从整体上评估时,Mora 与 Sora 之间存在明显的机能差距。总之,研究团队希望这个项目能够指导视频生成的未来轨迹,通过合作的 AI 智能体实现。
论文链接:https://arxiv.org/abs/2403.13248
项目链接:https://github.com/lichao-sun/Mora
先来看下 Mora 的视频生成效果,以文本到视频生成义务为例。输出 prompt:
A vibrant coral reef teeming with life under the crystal-clear blue ocean, with colorful fish swimming among the coral, rays of sunlight filtering through the water, and a gentle current moving the sea plants.
水晶般清澈的蓝色海洋下,珊瑚礁充满了生机,色彩缤纷的鱼儿在珊瑚间游动,阳光透过水面,水在海洋植物间轻柔地流动。
Mora 的生成结果:
输出 prompt:
In the middle of a vast desert, a golden desert city appears on the horizon, its architecture a blend of ancient Egyptian and futuristic elements.The city is surrounded by a radiant energy barrier, while in the air, seve
浩瀚的沙漠中,一座金色的沙漠之城出现在地平线上,它的建筑融合了古埃及和未来元素。这座城市被辐射能量屏障包围,在空中,有七道光柱环绕
Mora 的生成结果:
论文讲述了自 2022 年 11 月 ChatGPT 发布以来,生成性 AI 技术如何标志着交互方式和日常生活及产业各方面的重大转变。尽管图象生成模型(如 Midjourney、Stable Diffusion 和 DALL-E 3)领先于视觉 AI 领域,但视频生成技术相较于图象生成则发展较慢。
近期的视频生成模型虽能产生多样化和高品质的视频,但在生成超过 10 秒视频方面威力有限。OpenAI 推出的 Sora 模型开启了视频生成的新时代,能将文本提醒转换为详细视频,表现了复制物理全国动态的显著潜力。Sora 不仅擅长文本到视频生成,还能执行编纂、衔接和扩张视频等多种义务,生成实质以多视角透视和忠实于用户指令的特性著称。
然而,由于视频生成模型大多闭源,Sora 等模型的创新给学术界带来挑战,难以复制或扩张其威力。为此,该工作提出了 Mora,一个多智能体框架,旨在实现类似 Sora 的文本到视频威力。Mora 通过将视频生成义务分解为多个子义务,并为每个子义务分配专门的智能体来执行,例如从文本提醒生成图象、基于条件编纂或细化图象、从图象生成制作视频、衔接视频等。通过这种灵活的智能体合作,Mora 能完成广泛的视频生成义务,满足用户多样化需求。该工作希望 Mora 项目能通过合作的 AI 智能体,引导视频生成技术的未来发展。
方法概述
Mora 是一个面向视频生成的多智能体框架,它通过将复杂的工作拆解为更小、更具体的义务,利用不同威力的智能体之间的合作来解决视频生成义务。该框架定义了五种基本角色:文本选择与生成智能体、文本到图象生成智能体、图象到图象生成智能体、图象到视频生成智能体和视频到视频智能体。
智能体的定义:
1. 文本选择与生成智能体:在开始图象生成之前,文本提醒经过严格处理和优化,使用大型语言模型(如 GPT-4, Llama)精确分析文本,提取关键信息和动作,从而提高结果图象的相关性和品质。
2. 文本到图象生成智能体:这个智能体将丰富的文本描绘转换成高品质的初始图象,深入理解并可视化复杂的文本输出。
3. 图象到图象生成智能体:该智能体根据特定文本指令修改源图象,能够根据文本的意图进行详细识别,并将这些指示转换成视觉上的修改。
4. 图象到视频生成智能体:负责将静态图象转换成连贯的视频序列,分析图象的实质和气概,生成后续帧以确保时间上的稳定性和视觉上的一致性。
5. 视频到视频智能体:创建基于用户提供的两个输出视频的无缝过渡视频,精准识别两个视频中的共同元素和气概,以确保输出的连贯性和视觉吸引力。
方法:
Mora 框架通过设定不同智能体的专长和工作方式,精心设计了六种文本到视频生成义务,表现了在视频生成领域的灵活应用和高度定制化。这些义务涵盖了从基础的文本直接生成视频到复杂的视频编纂和全国摹拟,充分利用了各智能体之间的互动和合作,为用户提供了一套全面的视频生成解决方案。
1. 文本到视频生成:用户提供详细的文本描绘,文本到图象智能体首先根据这些描绘生成初始图象。然后,图象到视频智能体基于此图象生成一系列连续帧,逐步表现文本中描绘的场景或动作,以形成连贯的视频。
2. 条件文本图象到视频生成:与第一个义务相似,但区别在于输出不仅包括文本描绘还包括一个初始图象。这种方法结合了文本和图象的信息,为视频生成提供了更加丰富和具体的上下文。
3. 扩张生成视频:此义务旨在延续已有视频的故事线。通过分析输出视频的最后一帧,视频生成智能体生成新的帧序列,无缝扩张视频实质,创造出更长的叙事视频。
4. 视频到视频编纂:通过图象到图象智能体对视频的第一帧进行编纂(根据用户的文本提醒),然后利用这个编纂过的图象作为基础,图象到视频智能体生成反映所需更改的新视频序列。这个义务允许对视频实质进行细微到显著的修改。
5. 衔接视频:这个义务使用图象到视频智能体,通过分析第一个视频的最后一帧和第二个视频的第一帧,创造出一个平滑衔接两个视频的新视频,确保过渡自然且实质上的连贯性。
6. 摹拟数字全国:专注于创造整个视频序列在数字全国气概中的体验。通过在编纂提醒中添加特定短语,指示图象到视频智能体按照数字全国的美学生成视频序列,或者使用图象到图象智能体将现实图象转换为数字气概,推动视频生成的边界,创造出沉浸式的数字环境。
每个义务都体现了 Mora 框架中各智能体的特定职能和它们在处理视频生成义务时的互补性,从基本的文本解析到复杂的视觉转换,再到视频实质的延伸和编纂,为用户打造了一个多样化和高效的视频生成平台。
试验
在试验评估中,该研究采用了多个指标来衡量 Mora 的机能,包括视频品质、对象一致性、背景一致性、动态程度、影象品质和时空气概一致性等。下面是一些关键的试验结果和数字,这些结果表现了 Mora 在不同视频生成义务中的机能表现:
1. 文本到视频生成:Mora 在视频品质方面得分为 0.792,接近 Sora 的 0.797,表明其生成的视频品质与 Sora 相近。对象一致性得分为 0.95,与 Sora 相等,显示出在视频中保持对象外观的一致性。动态程度的得分为 0.70,略高于 Sora 的 0.69,这表明 Mora 生成的视频在表现动态变化方面有较好的表现。
2. 文本条件下的图象到视频生成:在这个义务中,Mora 的视频与文本整合性(VideoTI)得分为 0.88,略低于 Sora 的 0.90,但依然表现出良好的文本理解和视频生成威力。动态程度(Dynamic Degree)得分为 0.75,与 Sora 持平,说明 Mora 能够在此义务中生成具有活动感的视频。
3. 扩张生成的视频:Mora 在时空一致性(Temporal Consistency)上的得分为 0.94,略低于 Sora 的 0.99,但仍显示出其能够有效延续视频实质的威力。影象品质得分为 0.39,显示出在扩张视频时保持较高视觉品质的威力。
4. 视频到视频编纂:在这个义务中,Mora 的影象品质得分为 0.38,虽然低于 Sora 的 0.52,但考虑到 Mora 是一个开源模型,这一分数仍反映了其在视频编纂方面的潜力。
5. 衔接视频:Mora 在衔接视频义务中的影象品质得分为 0.42,低于 Sora 的 0.52。这表明在生成流畅过渡视频方面,Mora 与 Sora 之间存在一定的机能差距。
6. 摹拟数字全国:在这项义务中,Mora 的影象品质得分为 0.52,略低于 Sora 的 0.62,但在外观气概(Appearance Style)得分方面与 Sora 持平,均为 0.23。
这些试验结果表明,尽管 Mora 在一些视频生成义务中与 Sora 存在机能差距,但在多个方面仍表现出了强大的机能和潜力。特别是,Mora 在文本到视频生成义务中表现出了与其他领先模型相当的机能,同时还具有开放源代码的优势,为未来的研究和开发提供了广阔的可能性。