Runway 王者归来!发布新模型 Gen-3 Alpha,直接对标 Sora

大家好,这里是和你们一起探索 AI 的花生。 自 OpenAI 发布 Sora,将文生视频拉高到一个新的高度后,各家 AI 视频工具都在努力升级模型、添加新功效,以期在这场竞赛中保住自己的一席之地,比如 Pika 已经推出了气势派头选择、视频配音、唇形一致等多种功效,Vidu、Kling 则是类 Sora 的新模型,在生成后果上已经十分接近 Sora。而曾经的领军产品 Runway 却始终都没有什么动静,因此很多人都在担心它未来的发展。 最近 Runway 终于放出大招,发布了第三代模型 Gen-3 Alpha,它各方

Runway 王者归来!发布新模型 Gen-3 Alpha,直接对标 Sora

大家好,这里是和你们一起探索 AI 的花生。

自 OpenAI 发布 Sora,将文生视频拉高到一个新的高度后,各家 AI 视频工具都在努力升级模型、添加新功效,以期在这场竞赛中保住自己的一席之地,比如 Pika 已经推出了气势派头选择、视频配音、唇形一致等多种功效,Vidu、Kling 则是类 Sora 的新模型,在生成后果上已经十分接近 Sora。而曾经的领军产品 Runway 却始终都没有什么动静,因此很多人都在担心它未来的发展。

最近 Runway 终于放出大招,发布了第三代模型 Gen-3 Alpha,它各方面的表现都与 Sora 极为接近,甚至可以说是不分上下。如果说前两天上线的 Dream Machine 秒杀 Runway Gen-2,那么这个新模型则足以反过来秒杀 Dream Machine,让人不得不感叹 AI 模型竞争之激烈。今天就带我们详细了解一下 Gen-3 Alpha 的功效与特点。

Runway 上一代模型 Gen-2:

一、Gen-3 Alpha 简介

Runway 官网: https://app.runwayml.com/ (Gen-3 将在未来几天开放)

不同于之前的 Gen-1 和 Gen-2 模型,此次的 Gen-3 Alpha 是一个全新的视频生成基础模型。它在视频和图象数据上进行了联合训练,不仅具备文本生成视频才智,同时也可以完成文本到图象和图象到视频,这一点和 Sora 是一样的。

与 Gen-2 相比,Gen-3 Alpha 在保真度、一致性和疏通方面有了重大改进。虽然目前只能生成最长 10s 的视频,但是在视频清晰度、细节丰富度、静态流畅度、对提醒词的理解和镜头疏通等方面已经完全到达了 Sora 的级别,光凭肉眼已经很难区分其与现实的区别。

当视频在手机上无法加载,可前往PC查看。

Runway Gen-3 Alpha 与 Gen-2、DreamMachine 后果对比

尤其是在人物生成上,不仅脚色形象、静态十分自然,还可以精准呈现手部动作和面部表情的变化。脚色形象的一致性也很稳定,即使有大幅度的动作,脸部和身体也不会扭曲变形,这是目前大部分模型都无法做到的。有了这个基础,我们就能通过人物完成更细腻准确的实质传达,这对提升 AI 视频质量十分重要。

Prompt: A middle-aged sad bald man becomes happy as a wig of curly hair and sunglasses fall suddenly on his head.

提醒词:一个中年悲伤的秃顶男人突然戴上了一顶卷曲假发和太阳镜,变得快乐起来。

Prompt: A man standing in front of a burning building giving the ‘thumbs up’ sign.

提醒词:一个男人站在燃烧的大楼前做出“竖起大拇指”的手势。

而且 Gen-3 Alpha 也和 Sora 一样,能在一定程度上理解物理世界的运行规律并进行模仿。比如火车行驶过程中,人物面部光影会随窗外的场景发生变化;生成绘画场景的时候,画笔会在纸面留下痕迹等。这也能证明 Runway 的新模型具备与 OpenAI Sora 同等的才智。

Prompt: Subtle reflections of a woman on the window of a train moving at hyper-speed in a Japanese city.

提醒词:一个女人在日本城市高速行驶的火车窗户上的微妙倒影。

二、艺术实质生成才智

除了模仿现实实质,Gen-3 Alph 还有生成气势派头化视频和奇幻实质的才智。

仅目前已经展示出的气势派头就有水彩、动漫,赛博朋克、电子故障等,质量都十分不错;而 “棉花糖巨人在咆哮”、“混泥土地面长出植物”、“玻璃碎片旋风席卷小巷” 这些原本需要特效才能制作的画面,现在仅凭文本就能生成。对视频创作者来说,这样既能扩大创作范围,也是提升效率、降低成本的有效方式。

Prompt: A Japanese animated film of a young woman standing on a ship and looking back at camera.

提醒词:一个日本动画电影中,一位年轻女子站在船上,回头看向镜头。

Prompt: An empty warehouse where flowers start blooming from the concrete.
提醒:一个空荡荡的仓库,鲜花开始从混凝土中绽放。

三、英文文本静态呈现

英文文本静态呈现应该是 Gen-3 Alpha 最令人惊喜和期待的一点了。虽然官网上没有相关的展示,但 Runway 联合创始人 Cristóbal Valenzuela 在推特上一口气放出了十几条相关示例,每一个示例的场景、字体、材质、静态后果都不一样,显示出高度的灵活性和可控性,质量之高直接拿来做视频片头都没有问题。不过目前还不确定这种后果是文本直接生成的,还是通过图象生成的。

四、精准控制与高级编辑功效

据官方介绍,Gen-3 Alpha 通过训练学习了大量具有时间序列信息的描述性字幕,因此在处理用户提醒词的时候,能够完成场景中元素的想象性过度和精确的关键帧设定。

比如它可以从海面丝滑过度到一个火焰场景,前面的 “混凝土长出植物” 可能也是通过这种才智完成的;而上面静态文本的后果,我觉得可能是上传了一张包含文本的图象做为关键帧,然后借助 Gen-3 Alpha 强大的过度才智来向前生成静态,而非直接用文本生成。

Prompt: Aerial shot of the ocean.a maelstrom forms in the water swirling around until itreveals the fiery depths below.

提醒:海洋的航拍。一个漩涡在水中形成,旋转着,直到它露出下面炽热的深处,

Runway 已有的视频控制功效,包括疏通画笔 (Motion Brush)、镜头疏通控制(CameraControls)等在 Gen-3 Alpha 模型中依旧可以使用,而且还会有一些新的功效推出,帮助用户对结构、气势派头和疏通进行更精细控制。此外 官方还表示可以为影视公司创建 Gen-3 的定制版本,指定脚色形象和视频的气势派头等实质,以满足特定的艺术和叙事需求。

Gen-3 Alpha 将在未来几天内对所有人开放,这代表与 Sora 同级别的 AI 视频生成工具马上就能被普通用户使用了,而 AI 视频创作也将进入一个新的阶段。最后再推荐大家看一下这个 Runway CEO 发布的预告视频,全部素材都是 Gen-3 Alpha 直接生成的,后果十分震撼,而我们离完成这种后果也十分近了。

当视频在手机上无法加载,可前往PC查看。

给TA打赏
共{{data.count}}人
人已打赏
应用

Apple AI 手艺的到来,会对安排师产生哪些影响?

2024-6-20 0:02:08

应用

超 1.2 万人参加 CVPR 2024,谷歌研究院获得最佳论文

2024-6-20 14:40:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索