降维式打击！像素级拆解文生视频大模型Sora

2024-02-20 01:30

Openai 发布了它的文生视频大模型 Sora。终于 Openai 也加入了 AI 视频的战争，在此之前 Runway 和一众 AI 视频公司已经奋战了一年多，SD 最近也发布了他们产品化的 AI 视频工具，midjourney 也是即将要发布文生视频功能。但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的，全球的 AI 视频公司都要睡不着了。官网： Sora 并没有公开对大家开放测试入口，只发布了一个官方给大家展示效果。其中的关键信息是：最长生成 60s 视频，视频镜头一致

Openai 发布了它的文生视频大模型 Sora。

终于 Openai 也加入了 AI 视频的战争，在此之前 Runway 和一众 AI 视频公司已经奋战了一年多，SD 最近也发布了他们产品化的 AI 视频工具，midjourney 也是即将要发布文生视频功能。

但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的，全球的 AI 视频公司都要睡不着了。

官网： https://openai.com/sora

Sora 并没有公开对大家开放测试入口，只发布了一个官方给大家展示效果。

其中的关键信息是：最长生成 60s 视频，视频镜头一致性，理解物理世界，超逼真不变形。

让我们一个个来拆解，因为无法真实体验到 Sora，以下所有的推理都基于他们在官网发布的视频。

更多AI视频干货：

一、Sora 的颠覆性功能

1. 生成视频时长 60s

官方只发布了一个 60s 时长的视频，就是下面这个东京的街头视频。

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

但是这个视频并不是一镜到底的，视频在 37s 后切了一个特写镜头。从 sora 官网上其他的 demo 时长来看，一次视频的时长大概在 10s 左右。所以 60s 多半是视频拓展和拼接的结果。并不是一次性生成的 60s。

但是即便是这样，Sora 的效果也吊打了现有的所有的视频生成模型。现有的文生视频模型的时长大部分只有 4s。并且一旦生成运动幅度大一点的，就会变形。runway 也可以拓展 4s 视频到 16s，但是基本上很少有人用这个功能，因为效果真的太差了。

而 Sora 这个 60s 的视频基本上可以展示它解决了下面几个 AI 视频技术难点：

真实物理世界逼真模拟角色的一致性长镜头的稳定性

2. 理解真实物理世界的运动方式

Openai 的官方说法是：Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

之前的 AI 视频工具也在运镜和运动上做了一些努力，现在看来这些努力都有点像小孩子的游戏。生成的运动方式非常的生硬，并且运动幅度无法很大，一使劲就变形，导致很多现在的 AI 片子都有点像 PPT 电影。

但是这次的 Sora 视频上的运动已经非常接近真实的运动了。

比如下面这个，无论是动作的连贯性，顺畅度，还有眼睛部分的反光都处理的很好。

提示：“动画场景的特写是一个毛茸茸的小怪物跪在一根融化的红色蜡烛旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的基调是惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。”

也能很好的理解各种形式的运镜，runway 的运镜是通过外部设置镜头运动来实现的，只能支持很有限的时长，但是 sora 的运动幅度和逼真程度都远远大 runway 的运镜功能。清晰度也大大提升了，但是清晰度相比之下仿佛是一个不太显眼的更新了。

提示：“美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。”

3. 视频一致性

Sora 还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

现在的常见 AI 视频工作流是用 AI 生成图片，然后再用图片生成视频。还有之前 runway 出的多重笔刷功能：AI 视频可控性里程碑更新：Runway 上线多重运动笔刷其实都是在为了一致性服务，并不是大家不喜欢直接用文生视频，是文生视频的一致性真的很差。现在尚不清楚 Sora 的多镜头保持一致性是如何做到的。

提示：赛博朋克背景下机器人的生活故事。

降维式打击！像素级拆解文生视频大模型Sora

可以看到风格和机器人大体的的一致性都保持的很好，细节上只有机器人转身后背后的处理有一些不一样的地方（镜头二）。但是相对于之前还是一个巨大的进步。

他们具体怎么实现的这种超强一致性尚不可知，官网上提到这次的视频模型还是基于扩散模型，但是扩散模型如何做到这么好的效果可能需要等过段时间官方的技术论文了。

除了直接靠模型来保持一致性，基于图片生成视频和基于视频生成视频也是支持的，但是并不清楚是只支持它们的文生图片生成视频还是支持上传第三方的图片生成视频，因为 openai 也说了它们为了安全性会审查每一帧。这一切需要等他们真正的开放产品给大家用的时候了。

降维式打击！像素级拆解文生视频大模型Sora

二、Sora 的弱点

虽然 sora 已经足够惊艳，但是仍然不是全能的，以下是几个 sora 的弱点：

1. 它可能难以准确模拟复杂场景的物理原理

结合上面的介绍，这里是在复杂场景下可能难以模拟，并不是大部分时候不能模拟，这里官方给了一些案例。

提示：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。提示：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。

弱点：在这个例子中，Sora 未能将椅子建模为刚性物体，导致物理交互不准确。

2. 可能无法理解因果关系

提示：篮球穿过篮筐然后爆炸。

弱点：不准确的物理建模和不自然的物体“变形”的例子。

3. 可能混淆提示的空间细节

比如下面这个例子，它把人物和跑步机的方向搞错了。

提示：打印一个人跑步的场景，35 毫米电影胶片。提示：打印一个人跑步的场景，35 毫米电影胶片。

弱点：sora 有时会产生身体上难以置信的动作。

4. 难以精确描述随着时间推移发生的事件

比如下面这个老奶奶吹蜡烛就没有成功。

提示：一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面，蛋糕上插着无数蜡烛，脸上的表情是纯粹的喜悦和幸福，眼中闪烁着幸福的光芒。她倾身向前，轻轻地吹灭蜡烛，蛋糕上有粉红色的糖霜和糖珠，蜡烛不再闪烁，祖母穿着一件饰有花卉图案的浅蓝色衬衫，几个快乐的朋友和家人坐在桌边。看到庆祝，失去焦点。该场景拍摄精美，具有电影般的效果，展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。

弱点：模拟对象和多个角色之间的复杂交互通常对模型来说具有挑战性，有时会导致问题的产生。

三、Openai 的野心：Sora 是构建世界模型的基础

降维式打击！像素级拆解文生视频大模型Sora

在其它 AI 视频产品还在专研细分领域的时候，openai 直接在 sora 的页面最后强调，sora 只是他们构建 AGI 和世界模型的一个重要里程碑，并不是终点。

这里不由得感叹 AIGC 的创业真的太难了，去年 Openai 出了个 GPTS 基本上把中间层的创业公司都搞死了，现在又突然出了一个技术断层级别的文生视频产品 Sora，AI 视频公司也不知道该怎么办了。

现在只能寄希望于它的论文是否有一些启发，并且如果 openai 还是贯彻一个非常严格的审查制度，那么可能会给一些开源模型一些机会。但是谁知道呢？AIGC 的技术迭代一直是跳跃式的，并不会给大家慢慢来的时间。今年又是刺激的一年。

Sora全球爆火，对设计师来说是机会还是挑战？

想必最近大家在网上都看到了有关 Sora 的信息，这是 OpenAI 在春节期间发布的一项令人难以置信的新技术，在人工智能领域，这可以说是颠覆性的突破和创新。简单来说，它是一个视频生成器，你给它一段文字，它就能帮你创造出你想要的视频作品！我们先来看一个 Sora 生成的视频。这个视频的咒语（Prompt）：一位时尚的女士穿着黑色皮夹克、长红裙和黑色靴子，手拿黑色手袋，在东京一条灯光温暖、霓虹灯闪烁、带有动感城市标志的街道上自信而随意地行走。她戴着太阳镜，涂着红色口红。街道潮湿而有反光效果，色彩缤纷的灯光仿佛在地面

2/23/2024 6:56:02 AM

团队58UXD

AI 视频新王者诞生！一文盘点 Sora 模型 14 项功能特点！

大家好，我是花生~ 2 月 16 日 OpenAI 发布了一个新的 AI 视频生成模型 Sora，它可以根据文本生成 60s 的高质量视频，完全突破了之前 AI 文生视频存在的各种局限，所以一出现就引起广泛关注和热烈讨论，大家应该对它都有所了解。今天就根据网上已公布的视频，对 Sora 的功能特性进行一个盘点总结，其中包含与 Runway、Pika 等 AI 视频工具的生成效果对比，让大家对 Sora 的能力有一个更直观全面的了解。相关推荐：一、60s 超长视频之前优设已经推荐过 AI 视频工具，比如 Runw

2/22/2024 8:51:19 AM

夏花生

7000字干货！Sora 提示词秘籍和竞品效果对比

2024 年 2 月 16 日凌晨，OpenAI 正式发布了文本到视频生成模型 Sora，直接生成 60s 视频，多角色多镜头切换的视频，还上了央视新闻。目前 Sora 并未开放，只向少数导演艺术家开放邀请码。至此，好莱坞的时代结束了，人人可以做视频电影的时代到来啦！今天我们就 Sora 生成视频来拆解提示词秘籍公式，竞品视频生成效果对比，解析 Sora 优势劣势和 Sora 模型原理。一、AIGC 视频模型效果对比首先让我们看看，目前主流的 AI 视频工具 Runway、Pika、Stable Video

2/26/2024 7:38:08 AM

yaoyao

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

降维式打击！像素级拆解文生视频大模型Sora

一、Sora 的颠覆性功能

二、Sora 的弱点

三、Openai 的野心：Sora 是构建世界模型的基础

相关资讯

Sora全球爆火，对设计师来说是机会还是挑战？

AI 视频新王者诞生！一文盘点 Sora 模型 14 项功能特点！

7000字干货！Sora 提示词秘籍和竞品效果对比