降维式打击！像素级拆解文生视频大模型Sora

Openai 公布了它的文生视频大模型 Sora。终于 Openai 也加入了 AI 视频的战争，在此之前 Runway 和一众 AI 视频公司已经奋战了一年多，SD 最近也公布了他们产品化的 AI 视频工具，midjourney 也是即将要公布文生视频功能。但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的，全球的 AI 视频公司都要睡不着了。官网： Sora 并没有公开对大家开放测试入口，只公布了一个民间给大家展示成果。其中的关键信息是：最长生成 60s 视频，视频镜头一致

Openai 公布了它的文生视频大模型 Sora。

终于 Openai 也加入了 AI 视频的战争，在此之前 Runway 和一众 AI 视频公司已经奋战了一年多，SD 最近也公布了他们产品化的 AI 视频工具，midjourney 也是即将要公布文生视频功能。

但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的，全球的 AI 视频公司都要睡不着了。

官网： https://openai.com/sora

Sora 并没有公开对大家开放测试入口，只公布了一个民间给大家展示成果。

其中的关键信息是：最长生成 60s 视频，视频镜头一致性，理解物理天下，超传神不变形。

让我们一个个来拆解，因为无法实在体验到 Sora，以下所有的推理都鉴于他们在官网公布的视频。

更多AI视频干货：

一、Sora 的颠覆性功能

1. 生成视频时长 60s

民间只公布了一个 60s 时长的视频，就是底下这个东京的街头视频。

提醒词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面成果。许多行人走来走去。

但是这个视频并不是一镜到底的，视频在 37s 后切了一个特写镜头。从 sora 官网上其他的 demo 时长来看，一次视频的时长大概在 10s 左右。所以 60s 多半是视频拓展和拼接的结果。并不是一次性生成的 60s。

但是即便是这样，Sora 的成果也吊打了现有的所有的视频生成模型。现有的文生视频模型的时长大部分只有 4s。并且一旦生成活动幅度大一点的，就会变形。runway 也可以拓展 4s 视频到 16s，但是基本上很少有人用这个功能，因为成果真的太差了。

而 Sora 这个 60s 的视频基本上可以展示它解决了底下几个 AI 视频技术难点：

实在物理天下传神摹拟
脚色的一致性
长镜头的稳定性

2. 理解实在物理天下的活动方式

Openai 的民间说法是：Sora 能够生成具有多个脚色、特定类型的活动以及主体和背景的正确细节的复杂场景。该模型不仅了解用户在提醒中提出的要求，还了解这些东西在物理天下中的存在方式。

之前的 AI 视频工具也在运镜和活动上做了一些努力，现在看来这些努力都有点像小孩子的游戏。生成的活动方式非常的生硬，并且活动幅度无法很大，一使劲就变形，导致很多现在的 AI 片子都有点像 PPT 电影。

但是这次的 Sora 视频上的活动已经非常接近实在的活动了。

比如底下这个，无论是动作的连贯性，顺畅度，还有眼睛部分的反光都处理的很好。

提醒：“动画场景的特写是一个毛茸茸的小怪物跪在一根融化的红色烛炬旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的基调是惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的天下一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。”

也能很好的理解各种形式的运镜，runway 的运镜是通过外部设置镜头活动来实现的，只能支持很有限的时长，但是 sora 的活动幅度和传神程度都远远大 runway 的运镜功能。清晰度也大大提升了，但是清晰度相比之下仿佛是一个不太显眼的更新了。

提醒：“美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。”

3. 视频一致性

Sora 还可以在单个生成的视频中创建多个镜头，正确地保留脚色和视觉风格。

现在的常见 AI 视频工作流是用 AI 生成图片，然后再用图片生成视频。还有之前 runway 出的多重笔刷功能：AI 视频可控性里程碑更新：Runway 上线多重活动笔刷其实都是在为了一致性服务，并不是大家不喜欢直接用文生视频，是文生视频的一致性真的很差。现在尚不清楚 Sora 的多镜头保持一致性是如何做到的。

提醒：赛博朋克背景下机器人的生活故事。

降维式打击！像素级拆解文生视频大模型Sora

可以看到风格和机器人大体的的一致性都保持的很好，细节上只有机器人转身后背后的处理有一些不一样的地方（镜头二）。但是相对于之前还是一个巨大的进步。

他们具体怎么实现的这种超强一致性尚不可知，官网上提到这次的视频模型还是鉴于扩散模型，但是扩散模型如何做到这么好的成果可能需要等过段时间民间的技术论文了。

除了直接靠模型来保持一致性，鉴于图片生成视频和鉴于视频生成视频也是支持的，但是并不清楚是只支持它们的文生图片生成视频还是支持上传第三方的图片生成视频，因为 openai 也说了它们为了安全性会审查每一帧。这一切需要等他们真正的开放产品给大家用的时候了。

降维式打击！像素级拆解文生视频大模型Sora

二、Sora 的缺点

虽然 sora 已经足够惊艳，但是仍然不是全能的，以下是几个 sora 的缺点：

1. 它可能难以正确摹拟复杂场景的物理原理

结合上面的介绍，这里是在复杂场景下可能难以摹拟，并不是大部分时候不能摹拟，这里民间给了一些案例。

提醒：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。提醒：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。

缺点：在这个例子中，Sora 未能将椅子建模为刚性物体，导致物理交互不正确。

2. 可能无法理解因果关系

提醒：篮球穿过篮筐然后爆炸。

缺点：不正确的物理建模和不自然的物体“变形”的例子。

3. 可能混淆提醒的空间细节

比如底下这个例子，它把人物和跑步机的方向搞错了。

提醒：打印一个人跑步的场景，35 毫米电影胶片。提醒：打印一个人跑步的场景，35 毫米电影胶片。

缺点：sora 有时会产生身体上难以置信的动作。

4. 难以精确描述随着时间推移发生的事件

比如底下这个老奶奶吹烛炬就没有成功。

提醒：一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面，蛋糕上插着无数烛炬，脸上的表情是纯粹的喜悦和幸福，眼中闪烁着幸福的光芒。她倾身向前，轻轻地吹灭烛炬，蛋糕上有粉红色的糖霜和糖珠，烛炬不再闪烁，祖母穿着一件饰有花卉图案的浅蓝色衬衫，几个快乐的朋友和家人坐在桌边。看到庆祝，失去焦点。该场景拍摄精美，具有电影般的成果，展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。

缺点：摹拟对象和多个脚色之间的复杂交互通常对模型来说具有挑战性，有时会导致问题的产生。

三、Openai 的野心：Sora 是构建天下模型的基础

降维式打击！像素级拆解文生视频大模型Sora

在其它 AI 视频产品还在专研细分领域的时候，openai 直接在 sora 的页面最后强调，sora 只是他们构建 AGI 和天下模型的一个重要里程碑，并不是终点。

这里不由得感叹 AIGC 的创业真的太难了，去年 Openai 出了个 GPTS 基本上把中间层的创业公司都搞死了，现在又突然出了一个技术断层级别的文生视频产品 Sora，AI 视频公司也不知道该怎么办了。

现在只能寄希望于它的论文是否有一些启发，并且如果 openai 还是贯彻一个非常严格的审查制度，那么可能会给一些开源模型一些机会。但是谁知道呢？AIGC 的技术迭代一直是跳跃式的，并不会给大家慢慢来的时间。今年又是刺激的一年。

{{userData.name}}已认证

降维式打击！像素级拆解文生视频大模型Sora

一、Sora 的颠覆性功能

二、Sora 的缺点

三、Openai 的野心：Sora 是构建天下模型的基础

Prompt 灵感！8 组高质量元宵节 Midjourney 提醒词！

大型多视角高斯模型LGM：5秒产出高质量3D物体，可试玩

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩