在 GPT-4 发布一年多后,OpenAI 推出 GPT-4o,是有史以来第一个真正实现「多模态输入—多模态输出」的多模态模型。
GPT-4o 的出现所传递的信息是:在底层模型并没有变得更智能的情况下,能够跨多种模态进行推理的模型必然是更加通用的。因为其不仅具备多种功能,还能以不同模态传递知识。
虽然具备了强大的多模态能力, 但 GPT-4o 目前只可以接受文本、音频和图像/视频数据的任意组合作为输入,并生成文本、音频和图像作为输出,其中尚未涉及视频生成这一部分。其实,这也侧面证明了,视频生成是难啃的一块骨头。
即使是主打视频生成能力的 Sora 在今年发布后也尚未对外开放使用,其真正的技术稳定性仍然存疑,而国内则是处在闷头追赶 Sora 的技术研发期,各文生视频创业公司亦是把战力值加满,想在短暂的窗口期融到更多的钱来尽快在几个月内追赶上 Sora 的脚步。
「三个月内对齐到 Sora 的视频生成效果还是很难的,和 Sora 相比大家都还是在一个相对低的起跑线上,这样是个长期发力、急不得的事。」香港大学教授、欧洲科学院外籍院士、徐图智能创始人徐东告诉 AI 科技评论。
AI 2.0 时代,模型即平台、模型即产品。在当下技术无定论、底层模型尚未开源的阶段,文生视频还处在科研和产品中间的位置,没有出现较为成熟的产品。因此,文生视频背后的技术能力就会起决定性作用,而技术又跟科研水平强挂钩,研究成果几乎就是模型本身。
背靠香港大学,徐东和其它几位教授和学生组成的徐图智能团队在 Sora 发布之前就开始采用 DiT 路线来实现文生视频。并且,在影响视频生成时长的压缩技术上,团队从 2018 年就开始进行技术积累。「做深度视频压缩算法,就相当于在攻克大语言模型的长文本能力。如果没办法在时间和空间层面同时做好视频压缩,那么生成的时长就无法做到 1 分钟。」徐东说道。
人类运用感官的能力被认为是智能的关键部分,而其中眼睛能看到的图像和视频则受众面更广、传播性更强,相较于文字有更低的接受门槛。因此,视频能力是多模态的关键,更是迈向 AGI 的路上不可跳过的一步。
至于最后究竟是大厂、AI 独角兽还是文生视频创业公司能够跑出来,还悬而未决。「但做文生视频最重要的是有信仰,抱着 fomo 的心态去试水和心怀坚定的技术信仰去研发是完全不同的两件事。」徐东说道。
文生视频这条赛道上,需要有技术实力、坚定信仰的创业者稳扎稳打、长期发力跑下去。
一、三个月无法对齐 Sora
AI 科技评论:Sora 出现之前,文生视频赛道中 Pika、Runway 刚崭露头角, Sora 的出现打了大家一个措手不及,这是否会使文生视频创业者因压力过大而动作变形?
徐东:压力肯定还是有的,但我觉得还好。因为我对这个赛道的判断是,肯定会有几家初创公司能活下来,当然大厂也认为不可 miss 这么大的机会所以肯定也会去做,但未必每家大厂都能做出来。其中可能至少有两家不同类型的公司能够活下来,其中一家提供最底层文生视频技术,另外一家可能更强调把 community 做好。
文生视频这个赛道和大语言模型的赛道是不一样的,去年一年涌现出上百个大模型,几个月内会定生死,而文生视频的赛道其实还挺长的,而且现在专注做文生视频的公司也不多,所以其实并不是那么拥挤。
因此,大家目前即使谁有一点领先、谁落后一点都还相对是能接受的,和 Sora 相比大家都还是在一个相对低的起跑线上,对齐 Sora 是个长期发力、急不得的事,不在乎一时的输赢,那压力就没那么大了。
AI 科技评论:在 Sora 出现之后,行业内有一种说法是想要在半年左右的时间去追赶上 Sora ,这是可行的吗?
徐东:老实讲,我觉得 3 个月对齐Sora还是挺难的。因为 Sora 消耗的 GPU 资源还是蛮大的。在当下创业公司都没有融很多钱的时候,去设置一个不太可能完成的目标,其实是没必要的。
还是把心态放平衡,除非某家有很多资源,那如果在没有很多资源的情况下,大家就是需要花相当长的时间去把这事逐步地追赶上去,而且最终也不止一家能活下来,所以说也没必要搞那么大压力。
并且这个赛道如果只做到快,也是不行的,没把数据准备、视频压缩、DiT 训练以及架构这些工作做扎实的话,很难做出国内的 Sora,不能跨越式发展。而且 Sora 的技术报告也没有给太多细节,所以会有时间上的试错成本。
AI 科技评论:也就是说做多模态或者文生视频,相较于大语言模型,是需要把战线拉得更长,节奏没有大语言模型那么快?
徐东:是的。现在即使是 Sora 的落地状况也不是很清楚,可能是由于 Sora 目前还是 ChatGPT 1.0 ,距离ChatGPT 3.5 这种能提高生产力的、可靠性较高的程度还是有差别的。当然生成视频如果只是 for fun, Sora也可能是可以的。但是大家估计Sora在云端做推理的成本很高,所以条件也不允许免费、大范围无限制地调用Sora来生成视频 to C for fun。
AI 科技评论:Sora 发布以来,现在国内有部分厂商也发布了自家生成的 20 秒视频,这是不是说明国内文生视频水平很快就能追上 Sora?
徐东:Sora 是甩开了大家至少两个身位。虽然很多家能做到10秒以上,但问题是到底有多可靠,无论是 Sora 还是国内,很少有视频大模型给大家开放实测。这背后的问题就是,目前国内的文生视频是否能很可靠地生成 20 秒视频?是否能做到不需要精挑细选就能生成一个可以对外的 demo?这几天快手「可灵」开放测试,不过网上放出来的生成结果都还只是5秒的视频,不知道是否能够稳定地生成其demo中呈现的120s视频。
AI 科技评论:做视频AI研究有 20 多年的时间以来,视频这一模态大概经历了什么样的发展历程?
徐东:正如计算机视觉可以分为 high level 视觉和 low level 视觉,视频方向的研究也可以分成 high level 和 low level。前者是做视频的识别、检测、分割、看视频说话( video to text),后者则是视频超分、去噪、 视频生成(text to video)。
在相当长一段时间,视频动作/事件识别是视频AI最重要的研究方向。最早做控制环境下(比如固定摄像头,简单背景)对人物动作的识别,后来逐步过渡到2007年左右的时候,就可以在真实的、没有限制的环境下进行动作/事件识别(比如电影视频里面的动作识别和我们做的新闻视频里面的事件识别)。之后到智能手机拍摄图像/视频变得流行以后,就开始做用户拍摄的personal video(个人视频)中的动作/事件识别。
AI 科技评论:最后为什么选择去做 low level 层面的创业?
AI 科技评论:你们团队解决过多视频这一模态的哪些关键问题?
徐东:我们是最早把迁移学习引入到做个人视频识别领域的团队。因为当时的一个难点是缺乏做视频事件识别所需要的训练数据集,但在 YouTube 上已经有一些用户为自己创作的视频打上一些关键词(tag),于是我们在网上下载到这些YouTube视频作为训练样本来学习分类模型,然后用它来识别其他用户自己拍摄的视频,很自然的就把迁移学习引进来处理训练 YouTube 视频和个人用户视频之间分布不一致的问题。这项研究的论文获了 CVPR 2010 最佳学生论文奖,期刊版本发表于T-PAMI 2012(参见如下论文)。
论文链接:https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=9b969e1ef4de098ebc6ba388e1b41aa98ea5df47
由于这个工作和我们团队2010年前后一系列的相关工作,计算机视觉领域的研究人员逐步提出了大量针对不同视觉任务的迁移学习方法,最后我和加利福尼亚大学伯克利分校Trevor Darrell教授,波士顿大学Kate Saenko教授(当时是Darrell教授的博士后)以及约翰霍普金斯大学Rama Chellappa等教授一起开创了一个名为视觉领域自适应(Visual Domain Adaptation)的新研究领域。
除此之外,2018 年开始,我们团队开始做端到端优化的深度视频压缩网络DVC(Deep Video Compression),现在这个领域的研究人员会普遍将 DVC 这项工作认为是世界上第一个端到端优化的深度视频压缩框架。
论文链接:https://arxiv.org/pdf/1812.00101
过去做视频压缩的方式是人为设计新的模块,来更好的去除视频数据空间和时间维度上的冗余,这种方式延续了几十年。我们做的时候就把所有的模块都替换成神经网络。这时候面临的第一个难题就是没有可供训练的数据集,反复尝试以后我们采用了麻省理工团队收集的数据库Vimeo-90k。麻省理工团队的成员告诉我们他们收集这个数据集的时候也没有意识到这个数据库可以被用来做深度视频压缩。但是由于我们首先采用了这个数据库,Vimeo-90k 数据集就成了做深度视频压缩方向的训练数据库。经过几年的研究,我们在视频压缩标注数据集上的结果从和20多年前的压缩标准 H.264 相当到超过最新的压缩标准 H.266,在相当长的一段时间内,我们团队都是这个领域在世界范围内最前沿的研究团队。
AI 科技评论:当下文生视频的发展处于什么样的阶段?
徐东:其实当下文生视频还处在科研和产品中间,坦言来讲它和产品之间还有不小的距离,研发的比重会更多一点。如果技术已经没有什么发展空间,大家都准备做工程化了,这样的节点我们肯定没有优势。但现在是只知道大概的方向,具体细节尚未可知,而且说不定未来还需换成另外的技术路线,这个时候科研团队的优势就体现了出来。这种优势和 0—1 的 research 能力,是即使有钱也买不到的。
AI 科技评论:目前文生视频创业团队,一部分是之前大厂出来的业界大咖,另一部分是高校学者,两者各有什么优势?谁更有可能跑出来?
徐东:互联网时代,在视频领域有现象级的 APP 抖音、快手, 而在学术界,高校学者确实并不擅长做 APP,也不擅长做工程化太强的东西。即使是在 AI 1.0 时代,在视频领域能够真正落地且对人们的生活方式有实质改变的东西也相当比较少,也许只能做一些 tools,但无法真的靠 AI 来做出一家现象级的平台型公司。
但是在 AI 2.0 时代, 做一家平台型公司的难度和过去互联网时代是不一样。AI 2.0 是技术驱动的团队更擅长的事,因为现在就是模型即产品、模型即平台的时代,因此模型质量就是最关键的因素,而模型质量跟科研水平十分挂钩,几乎是你的研究成果就是模型。而模型本身又离产品又很近,基本上不需要做太多其他的步骤就是产品。也就是说,做研究的 output 恰好就是产品,这个时候教授带队的创业反而会有一定优势。
而且可以看到,OpenAI 这帮人中,虽然有工程化能力很强的人,但能够驱动这个项目的还是顶尖的 researcher。
二、深度压缩——对应 LLM 的长文本能力
AI 科技评论:你认为做文生视频的关键技术问题是什么?
徐东:对于文生视频,其实最难的还不只是 DiT,视频压缩也重要。如果做不好时间和空间这两个维度的压缩你就生成不了长视频。
压缩是文生视频中很关键的步骤,它决定了生成视频的时长。在保证同等生成质量的情况下,假设视频压缩算法能够多去除50%的信息冗余,那可能别人能生成10秒的视频,压缩效率提高后就能生成 15 秒的视频。
Pika 和Runway 的问题就是,他们只做了空间维度的压缩,而没有做时空维度同时的数据压缩,导致模型在训练的时候也只能用一个时长较短的视频做训练。如果他只能用 4 秒的视频做训练的话,最终也不能生成一个 20 秒的视频。
Sora 目前能把一个空间分辨率高、时长也很长的视频同时进行时空数据压缩,那这个视频的空间时间维度都变小,在这个小的空间上再去做 DiT 路线是可行的。DiT路线只是一个加噪和去噪的过程,它本身只是把文本的信息引入到去噪的过程当中,通过把文本信息跟视觉信息有效地融合来实现文生视频。因此,用长视频去训练,推理的时候也能生成长视频。更重要的是,完成DiT路线之后,还要经过一个 decoder 过程来重建原始高分辨率的视频,将低分辨率的特征还原到高分辨率的视频上去。压缩压得不好的话,重建视频的质量也有问题,比如出现抖动现象。
AI 科技评论:如果用大语言模型做对比的话,深度压缩相当于哪一个技术关键点?
徐东:深度视频压缩算法,有点相当于大语言模型的长文本,大家其实没有意识到它的重要性,其实它意味着,同等情况下我压得比你狠,那就一定能做到生成视频时长比你长。
AI 科技评论:除了压缩以外,还有什么关键技术能拉开各家文生视频模型的差距?
徐东:更多的在于 DiT 实现的细节,其中scaling up非常重要。另外从数据角度来讲,需要准备高质量的数据,我们花了一年多的时间收集数据,有上亿个 video clip。
AI 科技评论:行业内有一种说法是,相比于视频生成能力,先做好语言生成能力会更重要,认为只做视频生成模型,不做基础语言模型的公司会处于劣势。你是否认同?
徐东:语言能力确实决定了多模态能力,多模态模型肯定要依赖于语言模型,如果语言做不好,多模态也就做不好。当然,语言模型或者多模态模型对文生视频模型的一些数据准备工作是有帮助的。
但整体来讲,文生视频主要的 DiT 架构和语言大模型的路线不一样,视频能力相对会独立一些。我认为,视频能力还是挺重要的,主要是视频这种载体的受众面广,传播得也很快。虽然目前仍然是语言模型更成熟、离商业化更近,文生视频模型离商业化稍微远一点。确实我们不做语言模型,也不擅长做离商业化很近的东西,但两者仍然各有优劣,我们擅长做创新科研,这也是我们这种高校科研团队创业的原因和存在的理由。
三、视频模型是原子弹,不是茶叶蛋
AI 科技评论:周鸿祎说过,2023年,看大模型像原子弹,现在再看大模型像茶叶蛋。文生视频的赛道是否会出现相同的情况?
徐东:这个赛道不像大语言模型那样,能很快融资、变现,和大语言模型的发展路径其实是不太一样的,很大程度上是因为大语言模型中有 LLaMA 开源,国内进行微调之后会瞬间涌现上百个模型。
文生视频模型落地的节奏会更长一些,现在也没有高质量的开源模型,不是随便做一下就能做出来的。如果没有高质量开源模型的话,它就永远还是原子弹,而不是茶叶蛋。
AI 科技评论:现在 MiniMax 等大模型独角兽、字节等互联网大厂都在做文生视频模型,那么专门做文生视频的创业公司如何与他们竞争?
徐东:其实我觉得做文生视频最重要的是要有信仰的,因为这件事并不是很容易,尤其是在没有高质量开源模型而且 OpenAI 也没有提供太多技术细节的情况下,技术还处于研究和产品中间,没有信仰的团队很难 All In 做这个事情,并将其做出来。
对大模型创业公司来说,如果只是想通过这个亮点来抬抬估值,估计是不行的。真的需要去相信它能做出来并且不管多么困难都愿意投入资源去做,真的需要有一个顶尖人才的团队 All In 去做这件事,并且 All In 之后还有可能打水漂。做个效果差强人意的模型是可能的,真的做得像 Sora 效果那么好还是很难。
于大厂而言,文生视频是件 fomo 的事情,所以他们肯定会做。只不过抱着害怕错过的心态和坚定的技术信仰去做事是完全不同的,并且大厂要想专门组建一个顶尖人才的团队去做这件事情还是很困难的。从侧面也说明了,大厂也给技术较强的文生视频创业公司提供了一些收购的机会。
AI 科技评论:什么样的才是顶尖人才?
徐东:中国的 AI 人才数量比美国是多的,但从结果上来看,国内在技术水平上和美国相比可能还是有一定的差距,我猜测主要原因是顶尖人才比较稀缺。至于,怎么衡量是不是顶尖人才?其中很重要的一个指标就是,不能等OpenAI 研究完之后告诉你该做哪个你就做哪个,而是在 OpenAI 告诉你之前就在做这个事情,甚至有外界的声音指责你做错了,但仍会一直坚持做你相信的。
AI 科技评论:最近 OpenAI 发布了ChatGPT-4o,这预示了多模态大模型的那些趋势?
徐东:其实 ChatGPT-4o 目前的突破点就是,把语音识别、文字生成、语音合成这三个独立的模块给它合并成了一个模块。以此为基础,之后从多模态 in 到多模态 out 会是进化的方向,也就是说输入可以是文字、语音或者图像/视频,输出也可以是语音、文字和图像。但这个体系中,还没有把视频生成的能力加进去,可能是因为 Sora 本身或者文生视频还不是很成熟。
AI 科技评论:国内距离 ChatGPT-4o 是否有很大差距?
徐东:ChatGPT-4o 里面包括很多工程化的事情,更像是一个成熟的产品,但他并不是一个breakthrough。 ChatGPT-4o 包含的这几个模块之前都是相对成熟的,只是各部分之间相对独立、语音交互反应的延迟又很大,而ChatGPT-4o 则是把对图像 high level 的理解能力和 low level 的生成能力结合在一起了,可以把他做成一个端到端的模型,可以做到较低的时延,做到实时语音聊天。所以,国内如果想追的话可能不是那么难。
AI 科技评论:从技术路线的角度来讲,您认为 ChatGPT-4o 有什么突破的地方吗?
徐东:它可能涉及到了路线之争,ChatGPT-4o 这一点是很厉害的。因为之前 DALL·E3 系列用的是 Diffusion 模型,但 ChatGPT-4o 是一个新的端到端训练的Single模型,我们猜测似乎是文生图部分走回到了最早 DALL·E 的自回归路线。虽然之前大家会认为 Diffusion 模型效果好,而自回归路线是 DALL·E 的老路线,但GPT-4o 证明了, 自回归路线能实现的结果也不差,也就是说 Diffusion 路线不一定比自回归路线好很多,两者可能是半斤八两、各有优势。
AI 科技评论:在 2024 年剩下的时间里,你认为文生视频赛道可见的竞争点是什么?
徐东:得开放出来用,让各种类型的用户能测试到,这个是比较重要的。不能说公开的这一个效果惊艳的 demo 是从大量的结果里面挑出来的,不至于说要求百发百中,但至少抽卡不能抽得太凶,稳定性和可控性十分重要。其中,如何提升可控性,即如何更好地按照用户的意图来生成视频,迄今为止任然是一个非常难的开放课题,这个问题在图片领域都没有被很好的解决。当然效率也很重要,因为其直接决定了文生视频系统的推理成本。
AI 科技评论:文生视频赛道中,仍处于从技术到产品的阶段,但各厂商也在技术不是很成熟的阶段做出了一些商业化,这是一种健康的状态吗?
徐东:早点做商业化还是有必要的,并且目前投资环境不是很好,不能一直烧投资人的钱。并且尽早做商业化,有一些数据和用户反馈进来后,也有利于模型的迭代,之后别人要是追赶的话也比较难。
AI 科技评论:文生视频需要哪些条件、发展到什么程度才可以大范围 To C?
徐东:具体的时间点可能很难去预测,但一个关键问题会取决于端侧推理能力的发展。最开始肯定是 AIPC 的发展,现在微软、联想、戴尔等 PC 厂商都在做。然后慢慢地考虑高端手机到中端手机。除了端侧推理能力的发展之外,也会取决于模型压缩,如何把一个性能优异的模型压缩后能够部署在端上。
如果有一天,在能够把这两件事做到的基础上,至少还能生成一个哪怕分辨率不是那么高、20 秒左右的视频,那么 To C 这件事就是真的可行的。那时候可以达到,对手机说一段话就能产生一个视频,如果不满意还可以就再接着说一句话进行修改,这才真正是「人人都是视频创作者的时代」。
AI 科技评论:你认为对于文生视频这个领域而言, To C 会早于 To B 吗?
徐东:走在前面的可能还是 To B,从大 B 的影视公司,到中 B 的游戏工作室、短剧工作室、广告工作室,再到小 B 的专业用户比如 up 主这类,这时候切实能为他们的工作降本增效,付费意愿自然会强烈。
如果真的做到 To C,像抖音一样达到老人和小朋友随时随地都能用的程度, 一定需要模型的推理都到端上。