蒙娜丽莎打哈欠,小鸡学会举铁……googleVideoPoet大模型表现很亮眼。
2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。
本周二,google提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大谈话模型,被人们认为是革命性的 zero-shot 视频生成工具。
VideoPoet 既可以文生视频、图象生视频,又能风格迁移,视频转语音。从结果上看,它可以构建多样化且流畅的静止。
消息一出,有很多人表示欢迎:看看目前的几个成品结果不错,大模型技术发展的速度也太快了。
有人对于这个大模型生成视频的长度表示惊讶:
来源:https://twitter.com/cybersphere_ai/status/1737257729167966353
还有人表示这是一个革命性的大谈话模型。
也有人呼吁,google需要赶紧把 VideoPoet 开源了,大趋势不等人。
随着生成式 AI 的发展,最近出现了一波新的视频生成模型,这些模型展现了令人惊叹的画面质量。当前视频生成的瓶颈之一是产生连贯的大动作。但在许多情况下,即使是领先的模型也只能产生较小的静止,或者当产生较大的静止时,会表现出明显的伪影。
为了探索谈话模型在视频生成中的应用,来自google的研究者引入了一种大谈话模型(LLM)VideoPoet,能够执行各种视频生成任务,包括文本到视频、图象到视频、视频风格化、 视频建设和扩大,以及视频转音频。
VideoPoet 结果展现
文本生成视频
提醒:一只狗戴着耳机听音乐,细节丰富,8k。
提醒(从左到右):一条从嘴里射出激光束的鲨鱼;泰迪熊手牵着手走在雨天的第五大道上;举铁的小鸡。
提醒(从左到右):黄色蒲公英花瓣制成的狮子在咆哮;地球表面发生大规模爆炸;一匹马在梵高的星夜中驰骋;穿着盔甲的松鼠骑着鹅;熊猫在自拍。
图象生成视频
对于图象到视频,VideoPoet 可以获取输出图象并通过提醒将其动画化。
蒙娜丽莎开始打哈欠,只要输出一张图片,外加一句提醒:一个女人打哈欠。就会得到下边的结果。
提醒(从左到右):一艘船在波涛汹涌的大海上航行,有雷暴和闪电,油画风格;飞过有许多闪烁星星的星云;大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下边浮动的云海。
将视频风格化
VideoPoet 还能够根据文本提醒对输出视频进行风格化。
提醒(从左到右):泰迪熊在干净的冰湖上滑冰;一只金属色的狮子在熔炉的光芒下咆哮。
生成音频
VideoPoet 还能够生成音频。首先让模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测画面的音频。这样一来,VideoPoet 能够从单个模型生成视频和音频。
长视频
VideoPoet 还能生成长视频,默认是 2 秒。通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频。下边是 VideoPoet 从文本输出生成长视频的示例展现。提醒:FPV 镜头展现了丛林中一座非常锋利的精灵石城,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。
扩大视频
用户可以改变提醒,从而扩大视频。原始视频是两只浣熊骑着摩托车在松树环绕的山路上行驶,8k。扩大后的视频是两只浣熊骑着摩托车,浣熊身后落下流星,流星撞击地球并爆炸。
交互式视频编辑
对于提供的输出视频(最左边),用户可以改变物体的静止来执行不同的动作。如下所示,中间三个没有文本提醒,最后一个文本提醒为:烟雾背景下启动。
视频建设
VideoPoet 可以在视频被遮住的部分添加细节,也可以选择通过文本引导进行建设。
为了展现 VideoPoet 的功能,google还制作了一部由 VideoPoet 生成的多个短片组成的小短片。剧本是 Bard 编写的,是关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提醒列表。然后,google为每个提醒生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下边的最终视频。
方法简介
如下图所示,VideoPoet 可以将输出图象动画化以生成一段视频,并且可以编辑视频或扩大视频。
在风格化方面,该模型接收表征深度和光流的视频,以文本指导的风格绘制内容。
视频生成器
使用 LLM 进行训练的一个关键优势是,可以重复使用现有 LLM 训练基础设施中引入的许多可扩大的效率改进。然而,LLM 是在离散 token 上运行的,这使得视频生成具有挑战性。而视频和音频 tokenizer 可以用来将视频和音频剪辑编码为离散 token 序列,并且也可以转换回原始表征形式。
通过使用多个 tokenizer(用于视频和图象的 MAGVIT V2 和用于音频的 SoundStream),VideoPoet 训练自回归谈话模型来学习跨视频、图象、音频和文本的多个模态。一旦模型生成以某些上下文为条件的 token,就可以使用 tokenizer 解码器将它们转换回可视化的表征形式。
评价结果
研究团队使用各种基准来评价 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评价,该研究在各种不同的 prompt 下运行了所有模型,没有挑选示例,并要求人类评价者进行偏好评分。
平均而言,在遵循 prompt 方面,人们认为 VideoPoet 中 24-35% 的示例比竞争模型更好,而竞争模型的这一比例为 8-11%。评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为生成视频的动作更有趣,而其他模型的这一比例为 11-21%。
参考链接:
https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html
https://sites.research.google/videopoet/stylization/