视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

蒙娜丽莎打哈欠,小鸡学会举铁……googleVideoPoet大模型表现很亮眼。2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。本周二,google提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大谈话模型,被人们认为是革命性的 zero-shot 视频生成工具。VideoPoet 既可以文生视频、图象生视频,又能风格迁移,视频转语音。从结果上看,它可以构建多样化且流畅的静止。消息一出,有很多人表示欢迎:看看目前的几个成品结果不错,大模型技术发展的速度也太快了。有人对于

蒙娜丽莎打哈欠,小鸡学会举铁……googleVideoPoet大模型表现很亮眼。

2023 年底,科技公司都在冲击生成式 AI 的最后一个关卡 —— 视频生成。

本周二,google提出的视频生成大模型上线,立刻获得了人们的关注。这款名为 VideoPoet 的大谈话模型,被人们认为是革命性的 zero-shot 视频生成工具。

VideoPoet 既可以文生视频、图象生视频,又能风格迁移,视频转语音。从结果上看,它可以构建多样化且流畅的静止。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

消息一出,有很多人表示欢迎:看看目前的几个成品结果不错,大模型技术发展的速度也太快了。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

有人对于这个大模型生成视频的长度表示惊讶:

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

来源:https://twitter.com/cybersphere_ai/status/1737257729167966353

还有人表示这是一个革命性的大谈话模型。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

也有人呼吁,google需要赶紧把 VideoPoet 开源了,大趋势不等人。

随着生成式 AI 的发展,最近出现了一波新的视频生成模型,这些模型展现了令人惊叹的画面质量。当前视频生成的瓶颈之一是产生连贯的大动作。但在许多情况下,即使是领先的模型也只能产生较小的静止,或者当产生较大的静止时,会表现出明显的伪影。

为了探索谈话模型在视频生成中的应用,来自google的研究者引入了一种大谈话模型(LLM)VideoPoet,能够执行各种视频生成任务,包括文本到视频、图象到视频、视频风格化、 视频建设和扩大,以及视频转音频。

VideoPoet 结果展现

文本生成视频

提醒:一只狗戴着耳机听音乐,细节丰富,8k。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

提醒(从左到右):一条从嘴里射出激光束的鲨鱼;泰迪熊手牵着手走在雨天的第五大道上;举铁的小鸡。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

提醒(从左到右):黄色蒲公英花瓣制成的狮子在咆哮;地球表面发生大规模爆炸;一匹马在梵高的星夜中驰骋;穿着盔甲的松鼠骑着鹅;熊猫在自拍。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

图象生成视频

对于图象到视频,VideoPoet 可以获取输出图象并通过提醒将其动画化。

蒙娜丽莎开始打哈欠,只要输出一张图片,外加一句提醒:一个女人打哈欠。就会得到下边的结果。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

提醒(从左到右):一艘船在波涛汹涌的大海上航行,有雷暴和闪电,油画风格;飞过有许多闪烁星星的星云;大风天,一个拄着拐杖站在悬崖上的流浪者,俯视着下边浮动的云海。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

将视频风格化

VideoPoet 还能够根据文本提醒对输出视频进行风格化。

提醒(从左到右):泰迪熊在干净的冰湖上滑冰;一只金属色的狮子在熔炉的光芒下咆哮。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

生成音频

VideoPoet 还能够生成音频。首先让模型生成 2 秒的剪辑,然后尝试在没有任何文本指导的情况下预测画面的音频。这样一来,VideoPoet 能够从单个模型生成视频和音频。视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

长视频

VideoPoet 还能生成长视频,默认是 2 秒。通过调节视频的最后 1 秒并预测接下来的 1 秒,这个过程可以无限地重复,以生成任意时长的视频。下边是 VideoPoet 从文本输出生成长视频的示例展现。提醒:FPV 镜头展现了丛林中一座非常锋利的精灵石城,有明亮的蓝色河流、瀑布和大而陡峭的垂直悬崖面。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

扩大视频

用户可以改变提醒,从而扩大视频。原始视频是两只浣熊骑着摩托车在松树环绕的山路上行驶,8k。扩大后的视频是两只浣熊骑着摩托车,浣熊身后落下流星,流星撞击地球并爆炸。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

交互式视频编辑

对于提供的输出视频(最左边),用户可以改变物体的静止来执行不同的动作。如下所示,中间三个没有文本提醒,最后一个文本提醒为:烟雾背景下启动。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

视频建设

VideoPoet 可以在视频被遮住的部分添加细节,也可以选择通过文本引导进行建设。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

为了展现 VideoPoet 的功能,google还制作了一部由 VideoPoet 生成的多个短片组成的小短片。剧本是 Bard 编写的,是关于一只旅行浣熊的短篇故事,并附有逐个场景的分解和附带的提醒列表。然后,google为每个提醒生成视频剪辑,并将所有生成的剪辑拼接在一起以生成下边的最终视频。视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

方法简介

如下图所示,VideoPoet 可以将输出图象动画化以生成一段视频,并且可以编辑视频或扩大视频。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

在风格化方面,该模型接收表征深度和光流的视频,以文本指导的风格绘制内容。

视频生成器

使用 LLM 进行训练的一个关键优势是,可以重复使用现有 LLM 训练基础设施中引入的许多可扩大的效率改进。然而,LLM 是在离散 token 上运行的,这使得视频生成具有挑战性。而视频和音频 tokenizer 可以用来将视频和音频剪辑编码为离散 token 序列,并且也可以转换回原始表征形式。

通过使用多个 tokenizer(用于视频和图象的 MAGVIT V2 和用于音频的 SoundStream),VideoPoet 训练自回归谈话模型来学习跨视频、图象、音频和文本的多个模态。一旦模型生成以某些上下文为条件的 token,就可以使用 tokenizer 解码器将它们转换回可视化的表征形式。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

评价结果

研究团队使用各种基准来评价 VideoPoet 在文本到视频生成方面的表现,以将结果与其他方法进行比较。为了确保中立的评价,该研究在各种不同的 prompt 下运行了所有模型,没有挑选示例,并要求人类评价者进行偏好评分。

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

视频生成可以无限长?googleVideoPoet大模型上线,网友:革命性技术

平均而言,在遵循 prompt 方面,人们认为 VideoPoet 中 24-35% 的示例比竞争模型更好,而竞争模型的这一比例为 8-11%。评分者还更喜欢 VideoPoet 中 41-54% 的示例,因为生成视频的动作更有趣,而其他模型的这一比例为 11-21%。

参考链接:

https://blog.research.google/2023/12/videopoet-large-language-model-for-zero.html

https://sites.research.google/videopoet/stylization/

给TA打赏
共{{data.count}}人
人已打赏
应用

霉霉演唱《稻香》,国内团队的Amphion音频生成火了

2023-12-20 15:24:00

应用

卷生成式AI的旗舰手机,2024年会引发一场交互革命

2023-12-20 15:36:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索