AI 视频新王者诞生!一文盘点 Sora 模型 14 项功效特点!

人人好,我是花生~ 2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora,它可以根据文本生成 60s 的高质量视频,完全突破了以前 AI 文生视频存在的各种局限,所以一出现就引起广泛关注和热烈讨论,人人应该对它都有所了解。今天就根据网上已公布的视频,对 Sora 的功效特性进行一个盘点总结,其中包含与 Runway、Pika 等 AI 视频工具的生成成效对比,让人人对 Sora 的能力有一个更直观全面的了解。 相关推荐:一、60s 超长视频 以前优设已经推荐过 AI 视频工具,比如 Runw

AI 视频新王者诞生!一文盘点 Sora 模型  14 项功效特点!

人人好,我是花生~

2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora,它可以根据文本生成 60s 的高质量视频,完全突破了以前 AI 文生视频存在的各种局限,所以一出现就引起广泛关注和热烈讨论,人人应该对它都有所了解。今天就根据网上已公布的视频,对 Sora 的功效特性进行一个盘点总结,其中包含与 Runway、Pika 等 AI 视频工具的生成成效对比,让人人对 Sora 的能力有一个更直观全面的了解。

相关推荐:

一、60s 超长视频

以前优设已经推荐过 AI 视频工具,比如 Runway、Pika、MoonVally、Domo AI、AnimateDiff、Stable Video 等,它们文生视频长度都在 3-7 秒之间(Aminatediff 和 Deforum 因形式不同,不列入此处的比较),而 Sora 直接将时长最高提升到 60s,是以前的 10 倍,这样的长度是放在以前人人可能觉得要好几年才能实现,但是 Sora 让其一夜之间成为现实。

视频来源:Twitter@ Gabor Cselle

二、超高的文生视频质量

接触过 AI 视频生成的小伙伴肯定清楚,文本生成的视频成效最难控制,很容易出现画面扭曲、元素丢失情况,或者视频根本看不出动向。所以不少 AI 视频工具都转向在图生视频或者视频转绘上发力,比如 Runway 的 Motion Brush 笔刷,通过在图象上涂抹指定区域增添动效;以及 Domo AI,可以将真实视频转为多种不同的风格,这些方式让 AI 视频更可控,因此质量更好。

而 Sora 的出现则完全颠覆了人们对文生视频的认知,不仅直接能通过文本生成各种风格的高清的视频,还支持多样化的视频时长、分辨率和画幅比,并且能始终保持画面主体位于视频中央,消失出最佳构图。

Sora 根据一组提醒词生成的三组不同画幅的视频

三、连贯一致的视频内容

Sora 生成的视频中,随时长增加人物及场景元素依旧能保持自己原有原有的状态,不会扭曲变形,所以视频前后连贯性非常好。即使元素被遮挡或者短暂离开画面,Sora 依旧能在后续准确消失这一对象的相关特征。这就解决了以前人人一直很关心的视频中人物一致性问题,也许之后我们就无需后期拼接,而是仅凭文本就生成一个剧情完整的短视频了。

四、多视角稳定消失

Sora 能针对一个场景或者一个主题进行多视角消失,比如针对“下雪天的街道”主体,可以同时生成手部玩雪特写、街道元素特写、行人走动中景、街道全景等分镜。

底下是从 Sora 视频中截取一段,可以看到随着镜头旋转,新视角中无论是机器人还是背后环境的细节都能稳定消失,如同 CG 建模一样精准。以前为人人介绍过 Stable zero 123,一种可以生成多视角图象的 AI 模型,但成效远比不上在视频中的消失,也许 Sora 能为我们提供一种生成角色三视图的新方法。

五、天然流畅的动向

推特网友 @Poonam Soni 制作的了几组 Sora 与 Runway 的成效对比。无论是小狗打闹、云朵的飘动还是袋鼠跳舞,Sora 的动向都非常天然,就像我们在现实中看到的那样;相比之下 Runway 生成的动作总有一种 “慢放”的感觉,不够天然。

六、逼真的镜头运动

在 Runway、Pika 等工具中,如果想实现镜头运动,需要使用额外的 –motion 参数,然后从平移、旋转、缩放中等选项中选一种。而 Sora 中可以直接列理解文本提醒词中有关视频的镜头运动,比如提醒词中是 “镜头跟在一辆白色复古越野车后面”,在长达 20s 的视频内,无论道路如何弯曲,镜头真的能始终跟随这汽车,让其处于画面中央。Sora 也能在一个视频中使用多种镜头运动。

即使没有镜头提醒,Sora 也能主动地增添镜头动作,比如底下的视频,花盛开到快超出屏幕时,镜头会自动上移时。以展现完整的主体;以及镜头有聚焦在老人面部时,带着一种手持拍摄的抖动,这是用 motion 设置也无法得到的成效,让人感觉这是真的视频而非“会动的图片”。
https://twitter.com/i/status/1758295719788822866

七、准确的提醒词理解

对于“船在咖啡杯里”、”用白炽灯做壳的寄居蟹” 这样比较复杂的概念,Sora 能准确理解并消失出正确的视频,Runway、Pika、Morph 等目前则无法做到。在 Sora 的研究报告中,民间提到他们会利用 GPT 将用户的简短提醒转换成更长的详细说明,然后发送给视频模型,以得到更好的生成成效。

视频来源:twitter@ @Poonam Soni

八、图生视频

Sora 虽然自称是文生视频模型,但它也可以将图象转为动向视频,而且动向成效比其他 AI 视频都好,还不会出现转换后画质下降的情况。Sora 的图生视频功效并不是简单的为已有元素增添动向,还能生成新的内容(比如为云彩字增添了一个弹出的动效)。

视频来源:twitter@ Anu Aakash

九、用文本编辑视频

Sora 可以仅通过文本对视频进行编辑,对一个写画风视频加上 “rewrite the video in a pixel art style” 提醒,可以将其变为像素飞哥,加上 ““make it go underwater”可以替换画面元素,而且新元素与整体融合天然然。以前图象进行局部重绘都是有些困难的事,Sora 这是直接做到了对视频内容的完美局部重绘,模型的能力真的令人惊叹。

十、生成完美循环动画

Sora 支持在一个视频的基础上生成向前或向后延伸生成新内容,并且做到无缝衔接。底下 2 个视频是由同一段视频向前扩展得来的,所以结尾相同;而如果对一个视频同时操作向前和向后延伸,就能好得到一个完美的循环动画。这项功效目前还没有其他能实现的 AI 工具,如果能落地对创意视频生成肯定非常有帮助。

十一、无缝衔接视频

Sora 可以在两个视频之间逐步插值,在主题和场景构图完全不同的视频之间创建无缝过渡,比如由真实的海岛变为一个 3D 卡通风格的微缩雪地村庄,或者让一只蜥蜴慢慢变成一只鸟。民间用的 “无缝过渡” 绝不是夸张,仔细看视频你会发现 sora 真的会自己找角度让视频转换更天然,这点在影视特效制作上应该也大有可为。

十二、文生图

图象就是单帧的视频,Sora 既然能生成高质量的视频,那生成高质量的图象天然也不在话下,并且支持多种尺寸,最高分辨率到达 2048*2048 px。我用 Sora 民间给出的提醒词,在 Midjourney 的 V6 模型中重新生成一遍,底下的成效对比,你觉得哪一个更好?

AI 视频新王者诞生!一文盘点 Sora 模型  14 项功效特点!

AI 视频新王者诞生!一文盘点 Sora 模型  14 项功效特点!

十三、模拟真实世界的交互

Sora 可以模拟真实物理世界中物体的运作状态,比如画笔落下后画布上有对应的痕迹留下,并且持续保留;被咬了一个口的汉堡上会有一个缺口等。不过这个功效并不稳定,处理复杂交互场景也会出错,或者混淆空间细节。

十四、模拟虚拟世界

在 Sora 的提醒词中加上 Minecraft 后,除了视频会变成体素风格,Sora 还能通过基础策略控制玩家,并高保真地消失世界及其动向,达到真假难辨的地步。这或许会改变视频游戏的制作及玩法,对 AR、VR 的虚拟空间搭建应该也会有帮助。

那么以上就是本期为人人盘点的 AI 视频生成模型 Sora 的相关功效,如果想了解为什么 Sora 能做到这么厉害,可以去阅读 OpenAI 民间的研究报告,里面有相关介绍。

Sora 模型技术报告: https://openai.com/research/video-generation-models-as-world-simulators

给TA打赏
共{{data.count}}人
人已打赏
应用

超多实战案例!大厂出品的AIGC设想实践手册

2024-2-22 6:48:10

应用

模型混合、混合大师、更小的LLM,几篇论文看懂2024年LLM发展方向

2024-2-22 10:49:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索