独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

人类正在迎来人工智能领域的爆炸式更新，技巧向未知拓展的每一步，几乎都引起惊人的关注度。在人工智能边界扩张的过程中，重要赛道的技巧路线创新与分歧并存。技巧先锋者的判断和选择，影响着众多跟随者的脚步。过去一年，呆板之心独家率先将月之暗面、生数科技、爱诗科技、无问芯穹等优秀公司介绍给各人，为他们在互联网世界留下了第一份 “万字访谈底稿”。在技巧路线尚未收敛的阶段，我们看到了到真正拥有信念、勇气以及系统化认知的 AI 创业者的引领力量。因此，我们推出 “AI Pioneers” 的专栏，进展继续寻找和纪录 AGI 时代人工

人类正在迎来人工智能领域的爆炸式更新，技巧向未知拓展的每一步，几乎都引起惊人的关注度。

在人工智能边界扩张的过程中，重要赛道的技巧路线创新与分歧并存。技巧先锋者的判断和选择，影响着众多跟随者的脚步。

过去一年，呆板之心独家率先将月之暗面、生数科技、爱诗科技、无问芯穹等优秀公司介绍给各人，为他们在互联网世界留下了第一份 “万字访谈底稿”。在技巧路线尚未收敛的阶段，我们看到了到真正拥有信念、勇气以及系统化认知的 AI 创业者的引领力量。

因此，我们推出 “AI Pioneers” 的专栏，进展继续寻找和纪录 AGI 时代人工智能各细分赛道具有领袖气质的创业者，介绍 AI 赛道最出众、高潜的创业公司，分享他们在 AI 领域最前沿、鲜明的认知。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

作者：姜菁玲

呆板之心报道

即使Sora已经强势“炸”过场，Pika还是再次带着硅谷一众明星资方的投票回到了舆论中心。

6月5日，Pika宣布已完成8000万美元（约合人民币5.8亿元）的B轮融资，总融资额达到1.35亿美元，较2023年末，公司投后估值兑现翻倍至4.7亿美元。

“我们会更aggressive地做视频大模型”，这家刚刚度过一周年生日的视频生成创业公司，计划在这轮融资之后快速扩张研究和工程师团队。

四个月前，来自OpenAI的Sora重新洗牌了视频生成赛道。Sora以长达60秒的连贯视频、高清画面质感、连贯的镜头移动、运动方式等优点，拉高了整个视频生成赛道的技巧水平，引发了全球对视频生成的狂热。像LLM领域一样，视频生成貌似也开始变成追赶OpenAI的游戏。

同样是在掌声中出道，去年11月，Pika1.0产物由于出色、令人惊艳的视频生成结果，以及支持用户实时进行视频编辑和修改的突破性功能，快速走红。一路斩获众多硅谷科技界明星人物的背书和投资。成立5个月，pika仅有3人的团队一举成为彼时视频生成赛道龙头Runway最大的竞争对手。独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

Pika 1.0产物视频

今年4月，Adobe在自己的视频编辑工具 Premiere中嵌入了三大外部合作商，分别是Pika、Runway以及OpenAI。视频生成赛道已是三足鼎立局面。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

在OpenAI的暴力美学下，Pika如何评估Sora带来的竞争压力，如何找到自己的超越路径，成为一个值得期待的问题。伴随着这次融资的敲定，Pika在风投界显然已经拿出了足够有说服力的答案。但是，这个答案会是什么？

在融资正式敲定后，Pika团队接受了呆板之心的独家专访。在这场访谈中，呆板之心对谈了Pika团队的多名核心成员，包括两位联合创始人郭文景（Demi Guo）和孟辰霖（Chenlin Meng），创始工程师陈思禹（Karli Chen）、以及Pika算法工程师王熠鹏。

如果你用AI来总结下面的访谈，企图回答这个问题。他或许会用结构化的回答告诉你，Pika拥有的是强大的团队、高效的算法、明确的目标以及产物力。

同时，Pika团队对我们透露，在今年年底之前，Pika将发布最新一代产物更新，新产物将展现Pika在可控性上的进步。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

Sora is not very hard to beat

呆板之心：首先恭喜Pika时隔半年再次完成新的融资，我们先来聊聊这轮融资的情况，用途主要是什么？

Pika：好。这轮融资我们融了8000万美元，估值相比于上次融资（2023年12月）翻了一倍，未来是4.7亿美元。之后我们要训练自己的视频大模型了，融资是为了帮我们去加速这件事发展，一方面是获取更多模型须要的资源，另一方面我们也进展能招更多的人去加入我们视频大模型的团队，不论是算法研究还是工程师。

呆板之心：能否介绍下你们目前的团队，以及进展扩张的规模和具体方向？

Pika：过去一年以来，Pika团队从3人扩张到了13人。人才是我们重要的优势。

工程方面，我们拥有6个IOI国际信息学奥赛⾦牌获得者，超过AI工程师Devin的幕后公司cognition AI （5个⾦牌获得者，10个⾦牌），⼀共有9块国际奥赛⾦牌，3个 IOI世界第⼀，2个putnam fellow (美国⼤学最⾼的数学奖项）。创始团队Demi Guo是IOI银牌，是美国队⼗⼏年来唯⼀的⼥国家队队员。

科研方面，创始人孟辰霖是DDIM、Img2Img、Model Distillation的作者，这些要领能将扩散模型的推理速度提高几十到上百倍不等。同时，谷歌视频大模型Lumiere项目的一作Omer Bar-Tal，在sora发布第二周选择加入Pika。

另外，斯坦福AI实验室主任Chris Manning、最有名的扩散模型研究教授之⼀Stefano Ermon、以及两次奥斯卡获得者，曾参与过加勒比海盗、星球大战等电影特效制作的Ron Fedkiw，都是Pika公司的顾问团队。

我们目前open to 不同背景的聪明人，base地不限，不论是数据、系统、模型算法研究、应用算法研究等方面的人才，都十分欢迎。（[email protected] https://pika.art/careers）

呆板之心：今年2月份，OpenAI推出的Sora改变了视频生成赛道的格局，你们是怎样看待Sora的？

Pika：对于Sora，我觉得虽然各人第一眼看上去觉得好像确实印象特别好，因为好像确实从来没有见过这样的视频生成质量。

但是我们仔细分析了一下，本来它并不是一个十分novel（新颖）的东西，包括它的模型、算法、结构，本来都是现有的。那对于它的结果（结果更好），本来就是告诉了我们一个道理：用更多的呆板、更多的数据，暴力地去Scale up，就可以达到更好的结果。

在此之前，能够大部分的人在说，我要去不断提高我的算法，调优模型，但是实际上各人低估了这个Scaling up的重要性。这个本来对各人来说是一个十分积极的信号，也就等于告诉各人，你只要用相同数量的卡、相同好的数据，理论你就可以达到Sora的结果。

呆板之心：那你们会怎样理解自己跟Sora之间的差距？

Pika：我的感觉就是，Sora is not hard to beat。只是说scaling确实很重要。

呆板之心：对于因为Sora而备受关注的DIT架构，你们会觉得这就是视频生成的确定性路线了吗？

Pika：我们认为还没有到DIT就是确定性路线的时候。这是一个很开放的问题，或者换句话说，我认为以目前视频生成的行业阶段来看，还没有到说一种架构，一定不妨比另一种架构有更清晰优势的时候。因为我觉得格局也没有发生本质的改变。

呆板之心：也就是说，你们用的不是DIT架构，对吗？

Pika：我们内部会有不同方向的探索，但细节不便透露。不过我们考虑这个问题，角度不会那么单一。因为我们须要从系统性的方面衡量这个问题。但在科研上，我们会对结构的效劳做进一步研究，这也是未来的一个潜在研究方向。目前我认为，重要的点，一是可控性，其次是效劳问题，这是容易被忽略的，任何结构它须要将效劳摆在第一位。

呆板之心：效劳具体指的是，训练还是推理，还是一起？

Pika：指的是用户的使用成本效劳，基本可以等同于推理效劳。当然，训练效劳也包括其中，也很重要。

呆板之心：也有观点认为，Sora的结果一部分须要归功于它背后调用了自己的GPT系列模型去做用户语言理解，这个方面Pika怎样看？

Pika：文字理解的准确性是十分重要的，但是否调用GPT系列模型，这个本来在视频生成赛道不构成一个竞争点。市面上也有很多开源或闭源的模型可以兑现跟它差不多的结果。本来，从竞争看，OpenAI在视频生成上所拥有的所有东西，都不是绝对性的优势。

呆板之心：这轮融资里，是否也有投资人会问，跟OpenAI相比的话，你们公司的一些优势是什么？你们是怎样想的？

Pika：对，我觉得我们跟OpenAI还是有差异的，我们公司的目标并不是做AGI，而是说做一个服务创作者的产物。这是本质的区别。我们的目标是帮助各人兑现自己的创意。

那在视频生成模型上，我们之间是有相似性的，我们认为自己是不会让步的。我们肯定要对标、超越，然后在产物上做自己的努力。

呆板之心：对标、超过Sora，会有一个大概时间表吗？

Pika：Later this year.对，今年晚些时候。

Pika的路径：Smart、高效、Not only 「text」based

呆板之心：如果说你们要兑现更好的结果，会意味着说就是要去做更大的Scaling吗？

Pika：Scaling是有上限的。我们不能够一下子从几百张卡scale到几万张卡，这个很不现实。另外，GPU本身在内存等硬件方面也都是有上限的。所以如果说各人scale到一定程度了，是无法一直scale下去的，接下来须要看各人其他方面的技巧实力。

如果我们参考一下OpenAI和Anthropic这两家公司，我们会发现，Open AI肯定是资源最多、数据最多的，但是这并不妨碍别人用更加smart的要领，用稍微少一点的数据达到更好的结果。

呆板之心：在sora出现之后，你们有去买更多的卡吗？

Pika：我们本来有十分多的卡，到目前为止，我们的卡也是十分充足的。

呆板之心：未来你们想要做的更好的话，采取的要领是什么？

Pika：我们内部有一套自己的要领，十分重视研究和创新，我们的文化是重视各人的智慧，然后要把东西做到最Smart。所以我们的核心点是要用十分前沿和可靠的算法去打造我们的模型，让它不妨做到，第一十分Scalable、第二可以以小胜大，用更少一点的资源，得到更好的结果。

呆板之心：具体在视频生成上，你们会怎样做，兑现以小胜大，有明确的技巧要领了吗？

Pika：我们有明确的技巧要领去兑现它，我可以分享一下high level的想法：

因为视频是一种高维的数据，比如说对于每秒24帧的1080p视频，它的分辨率是1920×1080，这个数据每秒的维度是：

1920×1080×3×24 = 155520000。

这个维度十分大，对于AI来说处理起来十分困难。如果说再乘上时间，60秒，就更大了。所以这个dimension是十分高的。

但是你知道，在AI中各人都知道的，curse of dimensionality（维度诅咒，指随着数据维度的增加，数据变得越来越稀疏，从而导致模型的训练和预测变得更加困难），就是说你的维度越高，你须要的数据量就越大。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

那随着1080p视频时间的增加，所须要的数据量就会指数增长，因为视频中的每一帧都包括了大量的信息，而随着时间的推移，帧的数量也会增加，从而导致所需数据量的指数级别增加。

然而，在现实中，这是不切实际的。因为一个高清视频，你视频越长，它（存在）的数量就越少，所以这是一个十分有趣的dilemma（困境）。

但是好处在于，实际上视频有点像一个“low dimensional manifold”（低维流形，一种数学概念，指维度较低的特殊空间结构），嵌入在高维空间中，也就是说它的每一个维度实际上是相互关联的。

比如，我们想生成一个人在路上走路了10秒的视频。实际上，我们只须要知道第一个帧的信息，比如这个人走路的背景、他的穿着等细节，后面的帧你就不再须要完整的画面，你能够只须要一些很小的信息，比如这个人走路的姿势、或者说是背景当中汽车在移动。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

这个是我们这边的一个insight，就是说，有一种成功的算法，可以让这个高维数据投影到一个低维空间。用这个要领，首先你可以绕过the curse of dimensionality，其次，可以让你生成视频的结果变得更好。以及，由于你的维度变低了，所以你训练模型的效劳和成本就大大降低了。

这个是我们花了很多精力的一种高效架构和数据压缩要领。这种算法不妨去掉90%的冗余信息，进而帮助降低数据的维度。比如你原本有几百页的文档，经过处理后，未来须要处理的数据只有几十万，这样就大大节省了算力。这是一种更加紧凑的表达方式，因为维度越大须要的参数越多，难度就更大，而我们使用这个要领所须要的参数应该是比较低的，所以不管是从数据效劳、训练效劳、推理效劳上，都兑现了更加高效。

呆板之心：这个算法的底层思路能够是怎样的？

Pika：本质上，我们是进展让我们的模型不妨像人类一样思考。比如说人看这个视频，能够只须要很少的信息，第一比如只须要第一帧中的这个人的背景、周围环境、穿着等各方面细节。然后第二，能够须要一个动作的引导，比如这个人是以这样的姿态、这样的速度在走路。

然后我们这边发现的一个情况就是，实际上在应用场景下，虽然市场上有很多Text to video（文生视频），但真正运用起来没人在乎是不是「Text」to video。因为核心是各人更进展不妨生成一个不妨可控的视频。

比如有人说想生成一个人以这样的姿势走路，这本来很难用语言来描述，但如果给他提供一个引导，比如一个参考视频，说这个人是这样的姿势走路。或者说，进展这人穿这样的衣服，也不知道怎样描述，能够那就给他提供第一帧。

总之就是我们想建立一个模型，让它不妨像人类一样思考，我们也想超越文本的交互形式，让人类可以很好地去控制它。

当我们不妨把那些motion prior（运动先验，表示对常见运动模式或行为的先验理解，这些先验信息可以帮助模型更好地理解和预测视频中的运动）、image prior（图像先验）嵌入到我们的模型里，那么自然而然，这个模型可以更好地理解人类，同时会学到更好的连续表示。

呆板之心：你的意思是，能够更高效的视频生成指令不一定是「text」这种形式？

Pika：是的。因为我们发现，用户本来并不在乎是不是「text」to video这种形式。另外我们也发现，text based会让我们的模型受到更多约束。所以我们打算用来自不同形式的Prior（先验），比如运动、风格，去帮助用户表达，这也体现了我们比较以用户为中心的理念。

呆板之心：我看你们已经上线了「style」「lipstick」这些组件，之后会拓展更多类似这样的组件是吗？

Pika：对，这样也不妨反过来使我们的模型更能像人类一样思考。本来主要就是因为这些动作或者说信息，它是很难用语言去描述的，像我们该怎样去告诉AI说我进展它的嘴唇是怎样运动的呢？很难。所以我们就采用这种Prior的形式，它是有效的。之后我们还会有更多的这方面的更新。独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

呆板之心：你们之前提到过，产物的最终目标是进展做一个interface for creator，听起来这些组件像是对这个界面的完善。

Pika：我们把interface理解成人类和呆板交流的语言，人类和呆板不能直接交流，而经过训练后的interface可以让人类向呆板传达想法。这个界面可以让系统串联起来，为目标服务，我们的产物会解释模型，模型促进产物兑现。我们不会局限于一种表达方式，如果用户须要一种应用，我们就会去调整模型，调整表达方式，然后推荐给用户。我们跟自己的用户走的很近，像今天上线的「style」「lipstick」也都是在充分吸收了用户的建议下上线的。

视频生成行业仍在70分阶段可用性还没有得到本质解决

呆板之心：开年以来各人一直在说，2024年是视频生成的爆发之年。你们认同吗？

Pika：从关注度来讲，是认同的。事实上在sora发布之后，确实得到了很多的关注。所以我觉得OpenAI的产物发布让更多的人认识到了这样一个领域的存在，本来也是一件十分好的事情，所以行业知名度上确实是爆发的。

不过从技巧上来讲，是否是今年爆发，很难预测。各家都在做努力，我们还是相信量变会引起质变。

从应用上来看，我认为未来有点像LLM领域ChatGPT出现之前的爆火，比如GPT-3出现的时候，各人也是很兴奋的，但是它没有一个很好的落地场景，未来的视频生成也在这个阶段，能够还是须要在模型迭代之后，被更多人用起来，各人兑现了观念上的转变，这个能够是一个真正的爆发。

就像我们已经很习惯掏出手机，用一些应用来修图，未来几年，我们可以相信，生成和编辑视频也是跟未来用手机P图一样简单。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

我相信就是在未来的一个时刻，就肯定视频这样的一个模态，是会有它十分重要的使用场景，我相信它是可以兑现一个真正的爆发，但能够未必是今年会有一个十分确定的一个时间线。

呆板之心：如果说，评价视频生成行业技巧阶段，从不成熟到成熟对应0-100分，你认为行业未来处于几分？

Pika：我认为是70分左右。拿Sora来讲，未来它更多是一个概念验证产物，并没有真正解决问题。

我们从别人分享的使用过程里看到，比如当时有个关于气球的生成视频，它的作者写了一篇很长的帖子，讲它的历史表现并不是特别好，能够要试几百个视频，才能兑现生成一个满意的视频，而且如果直接生成高清视频，分辨率还是十分低，所以他们能够是生成一个低清的，然后再用那些人工的超分辨率要领去做超分辨率处理后放上去。

另外它的效劳也十分低，须要很长时间，比如 12 分钟才能做出一个成品。这个距离真正不妨毫无压力商用，还是有一定差距的，所以我认为整个行业应该差不多在 60 到 70 分左右的范围。

呆板之心：在6、70分的阶段，要迈向100分，能够中间比较重要的待解决问题是什么？

Pika：第一是准确性，怎样可以把用户的意图准确地表达出来；第二是可控性，怎样按照用户的意图对视频进行控制，你可以看到未来即使在图片领域，也没有做的很好；其次就是效劳的问题，怎样迅速地去生成视频。

呆板之心：那在这几个方面你们会横向去对比其他公司吗？标准能够是怎样的？

Pika：因为我的感觉就是这个行业能够就像我说的，各人都差不多六七十分。能够未来有些人稍微领先有一两分。但各人都没有本质地解决这些问题。

所以能够未来的这个对比能够不是特别的有价值。最核心的这个可用性方面，以及刚刚提到这几个点都还没有得到本质的解决。未来去谈一些很细致的对比，能够就没有特别大的意义。

尤其是从用户的层面，就能够从技巧的层面，你可以提出各种各样的指标来评价一个模型的好坏。但是我们想我们公司想做的不仅仅只是停留在技巧层面的。

我们还是进展这样AI是真的不妨为为Creator所用，进展用户觉得这是一个可以使用的产物。所以这个角度看，我认为，目前阶段能够还是在内部把模型和产物打磨地更加完善，才是第一要义。

呆板之心：像这些问题，会因为scaling而逐步解决吗？

Pika：因为像可控性这个点，以后不会仅仅停留在文本控制生成视频的层面，会须要更加精细的控制。所以这也不是只做Scale就可以解决的。就像Sora本来也有可控性的问题。

所以这个能够不能仅仅从AGI的角度去看，而是要从真正的产物角度去想。

所以你可以看到，我们新发布的很多功能，基本都是从实际用例出发，而不是仅仅从模型进展。

呆板之心：Pika在这几个问题上的思路和优势是什么？

Pika：我们的团队十分有优势，团队很多成员有对应的专业背景，他们的很多工作也是当前这个领域最核心的一些相关工作之一。具体到在可控性方面也是，我们有一部分成员之前的就是专业做这方面研究的，他们的论文也是这个领域的。基础模型上，我们既有资深的人，也有新生代有想法的人。所以这些方面的问题我们从人才上看，是十分有信心去攻克的。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

至于可控性的具体思路，我们之前谈到的，去丰富和拓展更多元的交互方式，本来就是模拟人类思考的过程，这种要领也是增强可控性的有效手段。至于更细节的思路，能够今年年底之前，我们会有一个产物出来，在用户交互界面上有一个比较大的升级，到那个时候我们可以全部公布。

将更aggressive做视频大模型

呆板之心：去年年底的时候你们立过一个flag说，进展今年的技巧不妨达到一个商业上的标准，这个标准是什么？进度如何？

Pika：我觉得这个领域很显然还有很多东西是没有定义的。就是说，未来AI到底是怎样样？用户到底该怎样跟AI模型做交互，交互方式本来都还是待定义的。我们进展自己可以去参与定义这个商业板块，进展我们能在今年取得进展。

这个标准我认为能够也不仅仅是技巧上的标准，不仅仅是说这个模型生成的分辨率有多高或者说结果有多好，最终还是要回到用户的可用性有多强。

呆板之心：对于产物力，你们怎样构建它？

Pika：我们是想做最好的模型，但是不仅仅是做视频模型，而是想做最有用的视频模型，这个就是我们所认为的产物力。

我们不仅是要做一个技巧载体，比如技巧极客之类的会感兴趣，更重要的是做一个有用的视频模型，不一定是技巧上最强势，但是给到创作者，你不妨去编辑视频、定义场景和人物，不仅能用文字、还能用声音、视频、图片去交互。然后让这个用户不妨真正意义上去控制这个视频的生成和编辑。

呆板之心：那现阶段来看的话，像模型能力的提升和产物力的提升，对你们来说这两件事哪件是更重要的？

Pika：模型是产物的基石，我们对界面的定义也是须要基于一个成功的模型，所以我觉得能够模型研发目前是稍微更重要的一点的。

呆板之心：在模型层面的提升上，哪些性能是最关注的？

Pika：还是回到那三点，准确性、可控性以及效劳。

呆板之心：时长会是一个重点吗？

Pika：会是一个重点，在我们下一个新版本中，我们会做提升，但提升多少，我们未来还无法公布。

呆板之心：我看到你们说，自己会更aggressive地去做模型层面的研究和工程，这具体会表未来？

Pika：第一就是加大力度的招人，另外就是未来的团队会往这方面倾注更多的精力。

呆板之心：目前商业化上的探索情况是怎样的？

Pika：我们未来是已经在赚钱的，主要来自C端的订阅费用，在B端，我们会跟一些演唱会或者企业在创意上做合作，也会对外提供API，目前都在探索的路上。

独家专访Pika：Sora is not very hard to beat，我们的算法不妨以小胜大｜AI Pioneers

More：

AI Pioneers 系列人物专访（点击跳转）：杨植麟｜唐家渝｜梅涛｜王长虎｜夏立雪 | 高继扬

联系作者：jjingl- （添加请注明姓名-公司-职位）

{{userData.name}}已认证