2月16日凌晨,正值中国春节法定节假日期间,OpenAI 毫无预兆地发布了 AI 视频生成大模型 Sora。看过视频效果后,网友纷纷感叹「现实,不存在了。」
不夸张地说,Sora 的技术结果直接碾压了过去世界范围内所有文生视频的探索结果,颠覆了 AI 短视频生成的现状。又一次,OpenAI 拉开了和 Pika 、Runway 等知名文生视频团队的代差,巩固了“遥遥领先”的“AI 霸主”地位。
基于此,可以预见的是:接下来,很多传统的影视公司、视频素材行业,甚至是新兴的虚拟拍摄制作、特效生成领域都要迎来“大变天”。更有网友戏谑调侃:OpenAI 没有停下杀掉初创公司的脚步。
以 ChatGPT 为首的人工智能正在改写世界的逻辑,带来诱人机遇,吸引诸多创业者前赴后继,但同时,冒险者也面临巨大不确定性,所有努力可能在顷刻间化为乌有。无论是 OpenAI 开发者大会发布的 GPTs 等一系列新成果,还是文生视频底层大模型 Sora 的问世,都「抄」了很多创业者的后路。
但实际上,Sora 并非 2024 年 AI 短视频生成领域的唯一“开门红”。2 月 16 日,海外各科技巨头纷纷亮相了 2024 开年的新产品:除了OpenAI 的 Sora 这一记惊雷之外,Google 发布了 Gemini Pro 1.5,Meta 也发布了全新视频生成模型 V-JEPA。
春节前,著名科技网红周鸿祎调侃大模型 “去年(2023 年)像原子弹,今年(2024 年)像茶叶蛋”;但在 OpenAI 推出 Sora 后,也纷纷改口,称“AGI 实现将从 10 年缩短到 1 年”。Sora 对现实物理世界的理解与模拟,超出了所有人的想象,在 Sora 的推动下,大模型的竞争也从 2023 年的暗流涌动,转为 2024 年的风起云涌。
2023 年,国产大模型的呼声高开低走,年底一度出现唱衰大模型的声音。但在科技大趋势面前,真正的追随者一直遵循同一个原则,即长期主义。2024 年将是大浪淘沙的一年,一部分人已经放弃,另一部分人则继续火力全开,如 OpenAI、谷歌与 Meta。
时代,永远眷顾有准备的人。
万众瞩目的 Sora
先来看风头最盛的 OpenAI Sora。
“生活中最大的乐趣之一就是发现未被发现的人才,赋予他们坚定的信念,并看着他们改变事物的轨迹。”
信任并不吝啬于给予年轻人资源——这一理念深深植根于 OpenAI 的基因中。Sora 的两位研发核心负责人Tim Brooks 和 William (Bill) Peebles 便是年轻的技术人才,两人同为美国加州大学伯克利分校的博士同窗,师从计算机视觉先驱 Alyosha Efros,并均在 2023 年毕业。
为何应届博士生能成为 Sora 负责人,带领团队扔出这个重磅炸弹?回顾二人的过往经历,不难发现,他们能够研发 Sora,并非幸运或偶然。
Tim Brooks 早两个月加入 OpenAI——去年 1 月 PhD 毕业后,Tim Brooks就丝滑入职 OpenAI,参与了 DALL·E-3 的工作。
Tim Brooks个人网站:https://www.timothybrooks.com/about/
2017 年 8 月,Tim Brooks 本科毕业于卡内基梅隆大学,毕业后加入了 谷歌的 Pixel 团队,研究 AI 在手机摄像头上的应用。
2019 年,Tim Brooks 在年初结束了在谷歌的工作,并于同年8月进入 UC Berkeley(加州大学伯克利分校)攻读PhD。就读期间,Tim Brooks 以实习生的身份加入 Nvidia,领导了视频生成的项目。
在 PhD 时期,Tim Brooks还与导师Alyosha Efros和现谷歌科学家Aleksander Holynski一起研发了一个条件扩散模型——InstructPix2Pix,它不需进行微调,能在几秒钟内快速编辑图像。该模型结合了GPT-3和Stable Diffusion语言和图像两种模型的互补知识,为跨越两种模态的任务创建配对训练数据,并根据该数据训练而成。
该研究成功入选CVPR 2023 Highlight。
但 Tim Brooks 不仅仅是一位技术人才。在他的个人网站里,还能看到他摄影、阿卡贝拉、BeatBox 相关的作品。其高中时期的摄影作品甚至获得了国家地理的奖项,他还曾在纽约百老汇的灯塔剧院演出,并获得 BeatBox 的国际奖项。
Tim Brooks 这样形容自己:“我对计算机科学和人工智能的职业充满热情,幸运的是它与我对摄影、电影和音乐的热爱融为一体。”
与 Tim Brooks 师出同门的 William Peebles 则在两个月后也加入了 OpenAI,两人共同领导 Sora 团队,负责研发工作。
William Peebles个人网站:https://www.wpeebles.com/
William Peebles 本科就读于 MIT 的计算机科学专业,期间加入了 MIT 知名的计算机科学与人工智能实验室(CSAIL),参与了 GAN 和 text2video 相关的研究。本科时期他曾在英伟达的深度学习与自动驾驶团队实习,研究计算机视觉。
2019年,William 加入加州大学伯克利分校开启了他的博士学习之旅。就读期间,William 继续研究 GAN,并先后在 Adobe 和 Meta 实习。
值得一提的是,自 2022 年 5 月至 12 月,William 在 Meta 仅实习不到一年,就与当时仍在 Meta 任职的 AI 技术大牛谢赛宁合作发表了 DiT(Diffusion Transformer)模型,首次将扩散模型与 Transformer 结合起来。此研究发表在 ICCV 2023 上,新鲜出炉的 Sora 就是建立在 DiT 的基础上的。
谢赛宁在推特上解读 Sora 与 DiT 模型
Sora 展现出惊人的视频效果,其背后的技术原理包含了文生视频技术变革的潜力。在 OpenAI 官网最新发布的技术报告中,可以窥探到 Sora 颠覆的技术细节。
借鉴 Transformer 架构的 Diffusion 扩散模型
Sora 大体技术架构和 Walt 类似,侧面说明整体的技术框架在行业内已逐渐确定下来。根据技术报告分析,Sora 的优势可能在于:找到了更好的表征视频数据的方式。
虽然 Sora 本质上采用的仍然是 Diffusion 扩散模型,但 Sora 把其中的实现逻辑 U-Net 架构替换成了 Transformer 架构。
基于 Transformer 的实现,依赖视觉数据向量化,Sora 用 visual patches 代表被压缩后的视频向量进行训练,每个「patches」相当于GPT中的一个「token」。
所谓的 patches 是一种高度可扩展和有效的表示,带有时间和空间信息,还可以自由排列,灵活度极高,可以用于训练不同类型的视频和图像的生成模型。使用patches,可以对视频、音频、文字进行统一的表征。
和大模型中的 tokens 类似,Sora用 patches 表示视频,把视频压缩到低维空间(latent space)后表示为Spacetime patches。
在 DiT 架构上,Sora 通过输入的提示词信息,即可预测下一个 patch 来生成视频,就大模型预测下一个 token 生成文本一样,这意味着 OpenAI 可以在训练 Sora 时倾注更多的数据和计算资源以实现更优的效果。
Sora 甚至能够接受带有噪声的图像块(及条件信息如文本提示)作为输入,并被训练以预测出原始的“清晰”图像块。
2023 年,在文生视频领域,行业内一致认为,现有的视频生成工具有一个共同难点,即运动一致性的持续性。针对这个问题,OpenAI 坚持了“压缩即智能”的技术路线,建立了相对完善的训练机制,从噪声开始,逐步精炼其生成的视频,直到出现生动、连贯的场景。这种架构不仅保证了 Sora 的高效率和可扩展性,也使其能够处理各种格式和比例的视觉内容。
不过,尽管 Sora 在 60 秒短视频的生成上效果大幅提升,仍有技术人员向 AI 科技评论表示,“运动一致性”在短期内仍是文生视频领域的一大掣肘。
可变持续时间、分辨率、宽高比
过去的图像和视频生成方法通常将视频调整为标准尺寸、裁剪或修剪——例如,256x256 分辨率的 4 秒视频。Sora 则更加灵活多样,可以采样宽屏 1920x1080p 视频、垂直 1080x1920 视频以及介于两者之间的一切。
这允许 Sora 直接以原生宽高比为不同设备创建内容。它还允许在以全分辨率生成之前,以较低的尺寸快速制作内容原型——所有这些都使用相同的模型。
改进的框架和构图
根据 OpenAI 的实验,以原生宽高比进行视频训练可以改善构图。将 Sora 与其他模型版本进行比较,发现其他模型会将所有训练视频裁剪为正方形,这通常是训练生成模型时的常见做法。在其他模型(上)生成的视频中,主体仅部分出现在视野里。相比之下,Sora(下)的视频则有明显的改进。
Sora 脱颖而出,不仅因为其独到的文本解析能力,更在于其重现物理世界动态的独特方式。它不仅仅是一个文本到视频的转换工具,而是一个能够理解复杂命令并将其转化为视觉故事的智能实体。与现有技术如 Runway 和 Pika 相比,Sora 在视频生成的真实感和细节表现上已迈出了重要一步。
世界模型
尽管 Sora 和真正的世界模型相比仍存在一定差距,但显而易见的是,与其他文生视频模型相比,Sora 更擅长模拟现实世界中的人、动物和环境,且这种能力不需要对三维空间、物体等有任何特定的预设偏好——它们纯粹是由数据规模驱动的结果。
Sora 具有三维空间的连贯性。它能生成带有动态视角变化的视频,当摄像机位置和角度变动时,视频中的人物和场景元素能够在三维空间中保持连贯移动。
在生成长视频时,保持时间上的连续性一直是个挑战。而 Sora 具有远距离连续性与物体持久性,能够有效处理短距离和长距离的依赖关系。比如,即使人物、动物或物体被遮挡或移出画面,Sora 也能保持它们的连续存在,能在同一视频样本中多次展示同一角色,确保其外观贯穿始终。
Sora 还能模拟出简单地影响世界状态的行为。例如,画家在画布上留下的笔触随时间持久存在,或者某人吃汉堡留下的咬痕,实现与世界的互动。
通过对视频的学习,Sora在一定程度上能理解人类的现实物理世界,预判了物理世界中物体之间的关系。
除了现实世界,Sora 还能模拟数字化过程,如视频游戏。它能在控制 Minecraft 游戏角色进行基本操作的同时,高质量渲染游戏世界及其动态。仅需通过提及“Minecraft”等字样的提示,即可激发这些能力的展现。
Sora 之后,大模型的军备竞赛加剧
Sora 的性能的确足够炸裂,从根本上来说,Sora 的打法就是在拥有足够大量的训练视频基础上,用多模态模型给视频做标注,把不同格式的视频编码成统一的视觉块(patches)嵌入,然后用足够大的网络架构加足够大的训练批次加足够强的算力,让模型对足够多的训练集做全局拟合。
有行业内人士如此评价 OpenAI 这一解决方案:虽然不是十分高深,但却是聪明的,是务实的训练方式和算力结合之后向前迈的一大步。
可以说,OpenAI 凭借 Sora 在国内外 AI 领域中又引发了一场没有硝烟的战争。
谷歌 、Meta 等先入场的巨头们也展示各自力量,纷纷谋划如何守住自身阵地,增强自身 AI 武器装备,进行新一轮军备竞赛较量,不至于落于后风。
首当其冲的就是谷歌。在 OpenAI 发布 Sora 的 2 小时之前,谷歌就已经先发布了 Gemini Pro 1.5。
从模型的性能来讲,谷歌 Gemini Pro 1.5 在多个维度上都有显著改进,能够跨模态进行高度复杂的理解和推理,其威力也可以称得上是王炸级别。
尤其是在长语境理解方面实现了突破,在 GPT-4 能理解的上下文长度是 128K,Claude 是 200K 的背景下, Gemini Pro 1.5 提升至 10M。也就是说,1 个小时的视频、11 个小时的音频、超过 70 万字的代码库,它都可以一次性阅读处理完。
除此之外, Gemini Pro 1.5 能够同时处理文本、图像、音频、视频等大量的多模态信息。例如,研究人员给 Gemini Pro 1.5 提供了一份长达 402 页的阿波罗登月的任务记录,然后向其提问这个脚印所代表的含义,Gemini Pro 1.5 能准确地记住信息并回答:这代表登月的那一刻,是个人的一小步,人类的一大步。
除了 OpenAI 的 Sora、谷歌的 Gemini Pro 1.5,Meta 在当地时间 2 月 15 日也发布了 V-JEPA (Video Joint-Embedding Predictive Architecture,即视频联合嵌入预测架构)。
V-JEPA 是基于图灵三巨头 Yann LeCun 提出的“自监督+世界模型”所构建的技术框架。Yann LeCun 认为必须让机器学习世界模型,从而能够填补缺失的信息,预测将要发生的事情和未来行动的影响。而 Yann LeCun 最早提出“自监督+世界模型”,是在 2022 年年初。可以说,Meta 酝酿 V-JEPA 已久。
V-JEPA 采用新的模型训练方法,经过打磨也能开发类似 Sora 的短视频生成产品,并解决视频、图像生成的帧间一致性问题。
在基准测试中,V-JEPA 表现不凡:Kinetics-400达到了 82.0% 的准确率,Something-Something-v2 达到了 72.2% 的准确率,ImageNet1K 中则在图像分类任务上达到了 77.9% 的准确率。
这些成绩部分超过了之前 SOTA 的视频模型,显示了 V-JEPA 在理解视频内容、分类动作和图像分类等方面的能力雏型,特别是对视频中细节丰富的对象互动的理解能力。
有硅谷 AI 创业者向 AI 科技评论评价,Meta 在这波大模型竞赛中最大的优势是其一直奉承的开源路线。无论是语言大模型还是文生视频大模型,Meta 的开源路线都对拥有理想主义情怀的技术极客们有着极大的吸引力,聚集人才、配齐算力,Meta 有机会做成大模型时代的“安卓”,一枝独秀。
今日早晨,Meta 首席科学家、图灵奖得主 Yann LeCun 也针对新晋的 Sora 发表了看法。Yann LeCun 是最早提出世界模型的科学家。他表达了对于 OpenAI 旗下 Sora 模型尚未能深入理解物理世界本质的思索,深度剖析了生成式模型在捕捉物理世界内在规律以及生成视觉内容方面存在的固有限制,并进一步探讨了联合嵌入预测架构(Joint Embedding Predictive Architecture, JEPA)相对于传统生成式模型所展现出的独特优势。
关键点包括:
生成逼真视频并不意味着系统具备对物理世界的真实理解,因为生成式模型仅需从概率分布中采样合理结果,而非模拟真实的因果逻辑。
能够生成符合物理规律及特定动作要求的连续视频片段难度较大且计算成本高,实际价值有限。
JEPA着重于构建连续视觉片段的抽象表征,剥离无关动作决策的细节,通过预测而非直接生成来优化表示学习。
JEPA系列方法相较于专注于像素重建的生成模型(例如变分自编码器、掩码自编码器、去噪自编码器等),能够在保持高质量的同时,生成对下游任务更具指导意义的视觉特征表示。
在下游任务应用中,联合嵌入架构的学习表示作为监督信号输入时,无需微调主干网络就能取得优于生成式架构的表现。
作为 Meta 的首席科学家,Yann LeCun 自然会为 JEPA 站台,在 Sora 率先引爆文生视频大战之后,双方的竞争将呈现怎样的发展趋势,也让大家十分关注。
此外,在 2 月16 号发布撞车的还有 Stability 的 SVD1.1,其官网曾发布 SVD1.1 正式介绍的推文,后被删除。
诸多厂商在文生视频大模型领域的竞争背后,是斥巨量资金支持海量实验的结果,也是基于算力逻辑对「卡」的比拼。
思谋科技创始人贾佳亚在朋友圈公开评价:“Sora 是大力出奇迹,在学术界连 VIT 的 256*256 的分辨率都没法改的情况下,Sora 直接用上了高清以及更大的分辨率,这没几千上万张 H100 都不敢想象如何开始这个项目。”
基于此,有行业人士预测,英伟达也定会加入这场大模型或 AGI 的军备竞赛中。几天前,英伟达也表示自己会造聊天机器人,发布了对话机器人「Chat with RTX」,面向 GeForce RTX 30 系列和 40 系列显卡用户。与 ChatGPT 等需要联网使用的聊天机器人不同,Chat with RTX 可以在本地运行,帮助检索、分析保存在电脑上的文件,并提供带有上下文的答案。
英伟达的这一行为在一定程度上可以说是向 OpenAI 的护城河进攻。黄仁勋近期也就Sora发表了见解,他坚信,计算机科学与人类生物学的深度融合将成为未来科技进步的核心驱动力。
Sora 的发布让 OpenAI 在大模型领域继续保持了“遥遥领先”的优势,但群雄逐鹿下,OpenAI 制霸天下的局面能持续多久也尚未可知。技术人士分析,半年内开源社区必有 Sora 的开源技术出现。
我们无法用提出问题的思维解决问题
在 Sora 这一标志性模型发布后,另一个火热的话题讨论是 Sora 的技术进步有可能加剧中美之间的人工智能技术水平差距。
有调研指出,相对于美国市场,2023 年,中国 AI 领域投融资领域处于“下滑”状态。
CB insights 报告显示,2023 年,中国 AI 领域投融资数量约为232笔,同比下降 38%;融资总额约为 20 亿美元(约合 142.45 亿元),同比下降 70%。特别是 2023 年第一季度,无论是融资额还是融资量,都创下了 5 年来最低。在 2023 年大模型角逐之中,中国明显处于下风。
随着 ChatGPT 引领了国人对自然语言处理(NLP)的关注热潮,Sora 的出现则预示着生成式视频内容可能成为海内外 AI 发展的下一波流行趋势。截至 2023 年末,仅国内短视频用户规模已突破 10 亿人,视频生成赛道前景广阔,也更容易让普通大众接受。
然而,对于 OpenAI 的追赶仅停留在技术层面的跟进并非长远之策。对于国内众多企业而言,在大模型竞赛中,研究人员和开发者不仅需要解答已知的具体技术难题,更要具备前瞻视野,主动挖掘未来可能出现的问题,并通过革新整体技术路径来应对日益复杂的AI技术研发挑战。这是横向竞争中迟早得面对的思维革新。
Sora 推出后,2023 年狂欢的语言大模型团队缄默了,这就好比 2019 年至 2020 年期间,当国内的团队还在追赶谷歌的预训练语言模型、OpenAI 已经推出 1750 亿参数的 GPT-3。也有投资人表示,从 Sora 再看国内的大模型团队,内心的一大感受就是“太慢了”。
另一方面,从 OpenAI 的一系列举措中可以看出,其对于生成式人工智能的发展路径在于持续加大投入,坚信大力出奇迹,基于大语言模型成功,快速拓展到视频领域,加上大量的训练数据和算力,促使 OpenAI 快速迭代生成文生视频模型,才出现了 Sora 的火爆。
这也给我们带来了另一层启示,即在 AI 技术的全局发展中,需要兼顾多个层面的考量,每一个细分领域的创新突破都是至关重要的,需要学会从整体布局与协同创新的角度出发,探寻和把握每一个细微变革所带来的深远影响。
可以用开源打闭源,可以快速对战亦可以稳中求胜,更可以用算力来取得扼喉式的突破,但重要的是需要明白,我们无法用提出问题的思维解决问题。