春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

应用
2月16日
编辑

机器之心

欢迎来到 bling zoo！北京时间今天凌晨，OpenAI 正式发布了文本到视频生成模型 Sora，继 Runway、Pika、谷歌和 Meta 之后，OpenAI 终于加入视频生成领域的战争。山姆・奥特曼的消息放出后，看到 OpenAI 工程师第一时间展现的 AI 生成视频效果，人们纷纷表示感叹：好莱坞的时代结束了？OpenAI 声称，如果给定一段简短或详细的描述或一张固态图片，Sora 就能生成近似影戏的 1080p 场景，其中包含多个角色、不同类型的动作和背景细节。Sora 有哪些特别之处呢？它对语言有着深

欢迎来到 bling zoo！

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

北京时间今天凌晨，OpenAI 正式发布了文本到视频生成模型 Sora，继 Runway、Pika、谷歌和 Meta 之后，OpenAI 终于加入视频生成领域的战争。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

山姆・奥特曼的消息放出后，看到 OpenAI 工程师第一时间展现的 AI 生成视频效果，人们纷纷表示感叹：好莱坞的时代结束了？

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

OpenAI 声称，如果给定一段简短或详细的描述或一张固态图片，Sora 就能生成近似影戏的 1080p 场景，其中包含多个角色、不同类型的动作和背景细节。

Sora 有哪些特别之处呢？它对语言有着深刻的理解，可以或许精确地解释 prompt 并生成吸引人的字符来表达充满活力的情感。同时，Sora 不仅可以或许了解用户在 prompt 中提出的要求，还能 get 到在物理世界中的存在方式。

在官方博客中，OpenAI 提供了很多 Sora 生成的视频示例，展现了令人印象深刻的效果，至少与此前出现过的文本生成视频技术相比是这样。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

对于初学者来说，Sora 可以生成各种风格的视频（例如，真实感、动画、黑白），最长可达一分钟 —— 比大多数文本到视频模型要长得多。

这些视频保持了合理的连贯性，它们并不总是屈服于所说的「人工智能怪异」，比如物体朝物理上不大概的方向移动。

先让 Sora 生成一张中国龙年舞龙的视频。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

比如输出 prompt：加州淘金热时期的历史镜头。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

输出 prompt：玻璃球的特写视图，里面有一个禅宗花园。球体中有一个小矮人正在沙子上创造图案。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

输出 prompt：一位 24 岁女性眨眼的极端特写，在魔法时刻站在马拉喀什，70 毫米拍摄的影戏，景深，鲜艳的色彩，影戏。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

输出 prompt：穿过东京郊区的火车窗外的倒影。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

输出 promot：赛博朋克背景下机器人的生活故事。

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

画面太真实，同时太诡异

但 OpenAI 承认，当前的模型也有弱点。它大概难以精确模拟复杂场景中的物理现象，也大概无法理解具体的因果关系。该模型还大概混同提示的空间细节，例如混同左和右，并大概难以精确描述随时间发生的事件，如跟随特定的摄像机轨迹。

比如他们发现，在生成的过程中动物和人会自发出现，尤其是在包含许多实体的场景中。

在下面这个例子中，Prompt 本来是「五只灰狼幼崽在草丛环绕的偏僻碎石路上玩耍追赶。幼狼们奔跑着、跳跃着，互相追赶着、咬着，玩耍着。」但所生成的这种「复制粘贴」的画面很容易让人想起某些神异鬼怪传说：

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

还有下面这个例子，吹烛炬之前和吹烛炬之后，火苗没有丝毫变化，透露出一种诡异：

春节大礼包！OpenAI首个视频生成模型发布，60秒高清大作，网友已叹服

技术细节

对 Sora 背后的模型细节，我们知之甚少。据 OpenAI 博客，更多的信息将在后续的技术论文中公布。

博客中透露了一些基础信息：Sora 是一种聚集模型，它生成的视频一开始看起来像固态乐音，然后通过多个步骤去除乐音，逐步转换视频。

Midjourney 和 Stable Diffusion 的图象和视频生成器同样基于聚集模型。但我们可以看出，OpenAI Sora 生成视频的质量好得多。Sora 感觉像是创建了真实的视频，而以往这些竞争对手的模型则感觉像是 AI 生成图象的定格动画。

Sora 可以一次性生成整个视频，也可以扩大生成的视频，使其更长。通过让模型一次预见多帧画面，OpenAI 解决了一个具有挑战性的问题，即确保被摄体即使暂时离开视线也能保持不变。

与 GPT 模型近似，Sora 也使用了 transformer 架构，从而实现了卓越的扩大性能。

OpenAI 将视频和图象表示为称为 patch 的较小数据单元的集合，每个 patch 近似于 GPT 中的 token。通过统一数据表示方式，OpenAI 可以或许在比以往更广泛的视觉数据上训练聚集 transformer，包括不同的持续时间、分辨率和宽高比。

Sora 建立在过去 DALL・E 和 GPT 模型的研究基础之上。它采用了 DALL・E 3 中的重述技术，即为视觉训练数据生成高度描述性的字幕。因此，该模型可以或许在生成的视频中更忠实地遵循用户的文字提示。

除了可以或许仅根据文字说明生成视频外，该模型还能根据现有的固态图象生成视频，并精确、细致地对图象内容进行动画处理。该模型还能提取现有视频，并对其进行扩大或填充缺失的帧。

参考链接：https://openai.com/sora

给TA打赏

共{{data.count}}人

人已打赏

googleGemini1.5火速上线：MoE架构，100万上下文

2024-2-16 17:39:00

让AI生成更准确！解析 Midjourny 的逆向生成方法

2024-2-17 0:13:57

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果
12月19日
TOP2

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物
12月19日
TOP3

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
2024年AI 编程现在可以做到什么程度？
12月18日
超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~
12月12日
腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践
12月11日
抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩
12月12日
实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！
12月16日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部