今年 4 月宣布创办爱诗科技,加入视频生成赛道后,王长虎就消失在舆论场中了。他在抖音的职业经历,让爱诗科技在视频生成的牌桌上拥有一席重要位置。
2017 年,王长虎加入字节跳动开始担任 AI Lab 总监,在这个岗位上,他为抖音和 Tiktok 从 0-1 构建了视频AI能力。用王长虎本人的话说,为抖音所做的工作,让他的团队涉猎了几乎所有与视频智能相关的范围,包括且不限于数据处理、实质生成、安全题目处理、视频实质精准理解以及全方位广告场景。
近期,王长虎接受了机械之心的独家专访。在采访中,王长虎详细介绍了抖音的视频智能化经历是如何被他复用到视频生成范围的,所积累的这些经历为他的新公司构建了数据、算法以及工程上的竞争优势。
爱诗科技在近期上线的视频生成工具 PixVerse,能够生成免费 4K 分辨率的高清视频,在光影细节和疏通准确性等方面取得了进展。王长虎告诉机械之心,PixVerse 的性能在某些方面曾经达到了 Pika 的水平,甚至在多项评测中超越了它们
自媒体 KOL 歸藏在一次对比评测中,从物品特写、写实风景、写实人像、皮克斯 2.5D 风格、 2D 动画风格五种风格对 PixVerse、Pika 以及 Runway 三大模型从事比较,为这三者评分 74.5 分、 73.5 分、 64.5 分,PixVerse 位居第一。
歸藏以为,“PixVerse 的模型是这三者最为平衡的,可以有比较强的疏通幅度,同时可以维持较好的一致性。Pika 在动漫和 2.5D 风格上的优势巨大,但图像质量以及一致性相对差一些。
王长虎以为,现在视频生成范围存在的两个最关键的技巧题目是准确性和一致性,而在这两个核心维度上,Pika 和 Runway 还有提升空间。“在现在的实测中,PixVerse 欢迎投资人和同行以及用户来从事随机大样本量的对比,对比越多,越能发现我们的优势”。
王长虎表示,视频生成技巧上的累进和商业化的运行曾经可以同步开展。爱诗科技内部正在大量孵化基于视频生成技巧的轻量应用,这些应用将面向使用抖音、快手等短视频平台的 C 端视频消费者,借助这些应用扩充产物影响力。
“产物成效超越 Pika”
机械之心:能否请您介绍下现在公司最新的情况?
王长虎:我们核心团队成员从 2017 年开始参与抖音从零到一的发展,负责抖音背后的视频人工智能能力构建,在视频 AI 范围积累了很多独特的实战经历。随着 AI 时代的到来,我们认识到 AI 视频生成的巨大潜力,而我们的经历让我们有信心(比别人)做得更快更好。
2023 年 4 月份,我们获得首轮数千万人民币的融资,6 月份核心团队基本成型。我们只用了 3-4 个月的时间就完成了重大进展,在某些方面超越了全球最大的竞争对手像 Pika 这样的公司。之前在抖音积累的视频处理经历,被成功应用在现在我们的 AI 视频生成项目上。
整体上,我们的产物发展分为两个阶段:
第一阶段:TO 创作者,提供更好的视频生成服务,更好地理解创作者动机。同时,也支持直接面向用户,接受用户反馈从事迭代。我们现在曾经推出的产物 PixVerse,用户曾经可以在网页端和 Discord 社区使用,利用文字或者图片生成 4K 高清视频。
在第二阶段,我们希望直接面向消费者,不仅仅是提供工具,而是要打通创作和消费的整个流程,直接提供 AI 原生的可消费实质。
机械之心:横向对比,现在,PixVerse 在哪些方面做得比较好?
王长虎:现在,我们以为在视频生成范围最关键的两个题目是准确性和一致性。准确性要求每一帧都能精确地反映用户需求,一致性要求在时间轴上,视频中物体的疏通符合客观规律。
只有在这两方面上完成进步,让 AI 生成的视频准确反映用户需求,并且保证动态实质符合规律,疏通具有连贯性,这样的视频才能应用于实际场景。就现在而言,我们发现在这两个核心维度上,Pika 和 Runway 各有明显的不足。
现在,在这两方面,我们曾经取得了重大进展。我们曾经可以生成 4K 高清的动态视频,并且在可用性上完成了提升。
举个例子,这是我们海外的一些创作者所完成的成效,一位创作者利用 PixVerse 制作的宣传片,其中每个素材都运用了我们的技巧。此外,我们还能制作一些基于电影、游戏素材的创新场景,比如钢铁侠在黄浦江游泳、让《原神》角色在其他游戏场景里跳舞等等。
机械之心:你提到说在成效上曾经 “超过了 Pika 和 Runway”,这个标准是什么?我们可以怎么感受到?
王长虎:我们可以用同一个 Prompt,对比一下 PixVerse 和 Pika 1.0、Runway 的成效。
比如,柯基跳舞的 Prompt(a corgi is dancing_一只柯基在跳舞)
在 Pika 1.0 的表现里,柯基主体非常精确且吸引人,但是它只从事了微小幅度的疏通。观察它的画面,虽然每一帧单独看起来都不错,但当它们连在一起时,就不再呈现出视频的信息量。而Runway在柯基的表现上很好,但是基本没有跳舞的动作。
这本质上,是刚才我提到的 “疏通一致性” 的题目,因为现在对于要让一个物体在时间轴上去做疏通,本身是一个非常难的技巧。
总之,整个行业在模型视频生成方面面临的最基础题目,就是准确率和疏通一致性。如果我们制作的视频素材既不准确又缺乏一致性,就无法在任何场景中有效使用。因此,我以为这是全球这个行业首要解决的题目。在这方面,我们技巧上可能走在了前列。
我们欢迎对我们的模型从事及时尝试,事实上,尝试的案例越多,我们的优势就越明显。现在视频生成范围还没有形成统一的竞争格局,我们以为在这个方向上,我们有机会在全球范围内取得领先地位。
机械之心:你们内部视频生成实质评价的标准是什么?
王长虎:现在我们内部已有一个评价标准,可以用于评价视频生成产物准确性和一致性。现在整个行业缺乏一个明确的判断标准,所以我们也在不断完善过程中,未来可能会发布出来。
我们将评价标准分为三个部分:主体动作风格、一致性(包括主体和背景),以及主体疏通的合理性。我们还考虑了运镜技巧、创新瓶颈,以及丰富性,后者主要涉及画质和帧率。这些都是比较客观的维度。我们还评价信息量,即单位时间内的信息量。很多同行在研发时缺乏这样的逻辑。我们有一套体系来支持我们的迭代进程。
在成效评定上,除了主观与客观的标准,我们还采用盲测的方法做尝试。向多个模型输入随机 Prompt,抹去水印,让足够样本的人做成效排序,来判断谁更优秀。
机械之心:你以为这种评价方式相对客观吗?
王长虎:是的,这种方法相对客观。虽然图片生成和视频生成的成效判断比较主观,但我们之所以能在市场上迅速崛起,是因为我们使用的模型和整个系统支持我们从数据角度快速作出评价。
机械之心:你们最近从事的盲测评价结果如何?
王长虎:根据我们最近的评价结果,我们的性能在某些方面曾经达到了 Pika 平台的水平,甚至在多项评测中超越了它们。我们的产物在视觉成效、分辨率、画质上明显优于竞品。此外,在模型准确性、一致性和丰富性方面,我们的表现也更好。
通常情况下,如果有投资人或同行要从事尝试,我们会建议他们出至少 20 个题目,以确保样本量足够大。我们会根据他们以为重要的方面来从事尝试。在所有这些尝试中,我们通常可以明显地看出我们的产物比竞品更优秀,这是肉眼可见的。
但最终判断哪个产物更好,很多时候并不仅仅是基于技巧性的因素,而是主观上的偏好。如果大家普遍以为某个产物好,那么这个产物就被视为更优秀。
用抖音经历解决准确性与一致性题目
机械之心:再聊聊 “准确性” 以及 “一致性” 的题目,和其他公司比,你们是怎么做到这两方面表现得更好?
王长虎:影响视频生成最后结果的因素有很多,但最重要的是:数据、算法和工程能力,而我们在过往经历中,这几方面都有自己的优势。
我们从 0 到 1 建立过抖音背后的视频平台能力,这里面包括了数据处理、实质生成、安全题目处理、对视频实质的精准理解甚至全方位的广告场景,几乎所有与视频相关范围我们都有所涉猎。
数据层面,我们的关键能力是,能够从海量数据中筛选出一小部分高质量数据来训练更优秀的模型,并且在安全题目上足够有经历。在抖音和 TikTok,每天都有海量视频上传,我们需要利用 AI 技巧有效地整合和剔除低质量和重复性实质,并且防止用户生成不适当实质。处理这些题目的经历,让我们能够用更少的整体数据量训练模型,同时降低模型大小和 GPU 资源。
算法层面,我们在多模态对齐、视频特征表示、时空建模以及主体控制上都有自己的创新。在多模态建模上,我们从事了大量自监督学习,更充分利用动作型数据,特别是在处理未标注的视频数据方面,我们尝试了多种方法来建模那些标注噪声较大的数据集,这些尝试直接帮助我们解决动态建模的题目。
特征表示上,我们在文字和视频实质的向量化做了很多尝试。时空建模方面,我们努力在训练过程中生成局部实质,同时让模型能够把握整体视野。生成中间某一帧时,模型应能够记住之前和之后的实质。在最优关键帧选择和动作建模质量上取得平衡。主体控制上,我们在关键帧生成、视频实质分割等方从事优化,帮助我们对视频性能控制更精准。
工程方面,我们参考了之前在抖音操盘上万块 GPU 的经历,帮助在大规模集群训练和推理时的稳定性提升,并且复用了自动化的能力去应对数据分布变化题目。
机械之心:基于 “数据、算法和工程” 这三个要素,你以为你们完成了 “用更少资源取得了更优成效” 的成就,有没有具体数字可以说明这一点?
王长虎:我们的研发效率极高、迭代速度极快,Runway 成立了 5 年多时间,融资几亿美金,Pika 成立了近一年,融资大几千万美金。我们正式训练模型是在 2023 年下半年,花了 3 个月左右的时间就做到了全球第一梯队的水平,资源资金的消耗比 Runway、Pika 至少小了一个数量级。
未来计划通过轻量产物吸引用户
机械之心:现在 PixVerse 的策略是通过加速技巧进步来取得优势,还是更多侧重于提高市场曝光度?
王长虎:我们现在观察到,像用户用 Pika、Runway 这些平台制作的视频在 YouTube 或 TikTok 等主流社交媒体上并没有太多播放量,很多 AI 视频生成厂商现在的受众更多在服务一小部分 AI 发烧友。
但我们的目标是希望技巧能去找到具体的消费场景,满足实际需求,这里面需要用户对我们的技巧信心,所以我们需要展示我们的技巧能力,让用户愿意去使用。
机械之心:你的意思是你们计划首先找到一个适合你们平台的应用场景,然后与创作者合作,优化这个场景,并通过这种方式吸引用户吗?
王长虎:我们首先确定的是,我们的平台不仅会提供技巧,还会推出产物。技巧只是起点,我们要解决的核心题目是如何利用这些技巧创造的实质。我们曾经有一些思路了。比如,帮创作者用《原神》中的人物从事高质量的二次创作。类似的场景尝试内部还有很多,我们在积极尝试,这部分产物主要面向 C 端用户。
机械之心:你以为当前整体的视频生成赛道竞争局势如何?
王长虎:现在的竞争虽然曾经开始,但真正激烈的阶段还未到来。我们发现现在大部分的用户只是停留在了解 AI 视频产物的阶段,并没有真正在使用产物去创作,这表明市场的增量仍然很大。
不过,我们以为并非只有在技巧完全成熟时才有商业化机会。即便我们现在的技巧仅支持生成数秒的视频,但曾经有用户在此基础上做出了大片级的作品。在这个阶段,我们正考虑哪些特性能更广泛地吸引 C 端消费者,使他们觉得产物既有趣又实用,并愿意去传播。这部分工作是现在我们的战略核心。
机械之心:你们对公司半年或者一年后的预期是什么?
王长虎:在未来 6-12 个月里,我们希望用 AI 制作出 15 秒长的可消费短视频。实际上,抖音刚开始时就是从 15 秒的视频开始的,所以我以为这样的长度足以承载丰富的信息供用户消费。我们希望这些实质是由 AI 生成的,同时也是用户感兴趣、愿意传播和浏览的。这些实质可能是单镜头拍摄,也可能是多个镜头组合的,但都能讲述故事并承载信息。
未来,我们希望完成视频的及时秒级生成。我相信一旦做到这一点,将会对整个实质行业、视频行业带来巨大的颠覆。因为我们现在想到的都是存量的场景,而这将是一个全新的物种,带来许多增量的新体验和玩法,这些都是我们和同行未来需要一起探索和理解的。
机械之心:要达到这个 6-12 个月的目标,公司还需要哪些方面的进步?
王长虎:首先是视频生产的基础能力,继续提升准确性和一致性,现在的技巧仍然存在一些瑕疵,我们希望继续改进。另外,我们希望能支持生成更长时间的视频。
机械之心:视频实质如果完成秒级及时生成了,可能会发生什么?
王长虎:现在人们消费视频的方式是在电影院观看相同的电影,或者在网上观看相同的剧集。但是 AI 视频生成技巧意味着未来我们可能完成秒级甚至及时的视频生成。
这种及时生成允许我们在视频播放时改变其某些元素,比如让观众成为视频中的主角,并且可以及时变化。这使得每个观看者都能与视频互动,参与到视频的发展过程中,每个人看到的实质都是不同的。这种技巧能够理解每个人的喜好,并根据这些喜好定制化视频实质,就像创造一个平行宇宙一样。
未来,我们获取信息的方式可能会变为推荐加生成结合的方式,每个人看到的视觉实质都会不一样。由于互联网上的信息曾经高度视频化,这个范围的未来想象空间非常大,但这需要逐步完成,从一个模型应用开始,慢慢发展到更远大的目标。