人类正在迎来人工智能领域的爆炸式更新,技巧向未知拓展的每一步,几乎都引起惊人的关注度。
在人工智能边界扩张的过程中,重要赛道的技巧路线创新与分歧并存。技巧先锋者的判断和选择,影响着众多跟随者的脚步。
过去一年,呆板之心独家率先将月之暗面、生数科技、爱诗科技、无问芯穹等优秀公司介绍给各人,为他们在互联网世界留下了第一份 “万字访谈底稿”。在技巧路线尚未收敛的阶段,我们看到了到真正拥有信念、勇气以及系统化认知的 AI 创业者的引领力量。
因此,我们推出 “AI Pioneers” 的专栏,进展继续寻找和纪录 AGI 时代人工智能各细分赛道具有领袖气质的创业者,介绍 AI 赛道最出众、高潜的创业公司,分享他们在 AI 领域最前沿、鲜明的认知。
作者:姜菁玲
呆板之心报道
即使Sora已经强势“炸”过场,Pika还是再次带着硅谷一众明星资方的投票回到了舆论中心。
6月5日,Pika宣布已完成8000万美元(约合人民币5.8亿元)的B轮融资,总融资额达到1.35亿美元,较2023年末,公司投后估值兑现翻倍至4.7亿美元。
“我们会更aggressive地做视频大模型”,这家刚刚度过一周年生日的视频生成创业公司,计划在这轮融资之后快速扩张研究和工程师团队。
四个月前,来自OpenAI的Sora重新洗牌了视频生成赛道。Sora以长达60秒的连贯视频、高清画面质感、连贯的镜头移动、运动方式等优点,拉高了整个视频生成赛道的技巧水平,引发了全球对视频生成的狂热。像LLM领域一样,视频生成貌似也开始变成追赶OpenAI的游戏。
同样是在掌声中出道,去年11月,Pika1.0产物由于出色、令人惊艳的视频生成结果,以及支持用户实时进行视频编辑和修改的突破性功能,快速走红。一路斩获众多硅谷科技界明星人物的背书和投资。成立5个月,pika仅有3人的团队一举成为彼时视频生成赛道龙头Runway最大的竞争对手。
Pika 1.0产物视频
今年4月,Adobe在自己的视频编辑工具 Premiere中嵌入了三大外部合作商,分别是Pika、Runway以及OpenAI。视频生成赛道已是三足鼎立局面。
在OpenAI的暴力美学下,Pika如何评估Sora带来的竞争压力,如何找到自己的超越路径,成为一个值得期待的问题。伴随着这次融资的敲定,Pika在风投界显然已经拿出了足够有说服力的答案。但是,这个答案会是什么?
在融资正式敲定后,Pika团队接受了呆板之心的独家专访。在这场访谈中,呆板之心对谈了Pika团队的多名核心成员,包括两位联合创始人郭文景(Demi Guo)和孟辰霖(Chenlin Meng),创始工程师陈思禹(Karli Chen)、以及Pika算法工程师王熠鹏。
如果你用AI来总结下面的访谈,企图回答这个问题。他或许会用结构化的回答告诉你,Pika拥有的是强大的团队、高效的算法、明确的目标以及产物力。
同时,Pika团队对我们透露,在今年年底之前,Pika将发布最新一代产物更新,新产物将展现Pika在可控性上的进步。
Sora is not very hard to beat
呆板之心:首先恭喜Pika时隔半年再次完成新的融资,我们先来聊聊这轮融资的情况,用途主要是什么?
Pika:好。这轮融资我们融了8000万美元,估值相比于上次融资(2023年12月)翻了一倍,未来是4.7亿美元。之后我们要训练自己的视频大模型了,融资是为了帮我们去加速这件事发展,一方面是获取更多模型须要的资源,另一方面我们也进展能招更多的人去加入我们视频大模型的团队,不论是算法研究还是工程师。
呆板之心:能否介绍下你们目前的团队,以及进展扩张的规模和具体方向?
Pika:过去一年以来,Pika团队从3人扩张到了13人。人才是我们重要的优势。
工程方面,我们拥有6个IOI国际信息学奥赛⾦牌获得者,超过AI工程师Devin的幕后公司cognition AI (5个⾦牌获得者,10个⾦牌),⼀共有9块国际奥赛⾦牌,3个 IOI世界第⼀,2个putnam fellow (美国⼤学最⾼的数学奖项) 。创始团队Demi Guo是IOI银牌,是美国队⼗⼏年来唯⼀的⼥国家队队员。
科研方面,创始人孟辰霖是DDIM、Img2Img、Model Distillation的作者,这些要领能将扩散模型的推理速度提高几十到上百倍不等。同时,谷歌视频大模型Lumiere项目的一作Omer Bar-Tal,在sora发布第二周选择加入Pika。
另外,斯坦福AI实验室主任Chris Manning、最有名的扩散模型研究教授之⼀Stefano Ermon、以及两次奥斯卡获得者,曾参与过加勒比海盗、星球大战等电影特效制作的Ron Fedkiw,都是Pika公司的顾问团队。
我们目前open to 不同背景的聪明人,base地不限,不论是数据、系统、模型算法研究、应用算法研究等方面的人才,都十分欢迎。([email protected] https://pika.art/careers)
呆板之心:今年2月份,OpenAI推出的Sora改变了视频生成赛道的格局,你们是怎样看待Sora的?
Pika:对于Sora,我觉得虽然各人第一眼看上去觉得好像确实印象特别好,因为好像确实从来没有见过这样的视频生成质量。
但是我们仔细分析了一下,本来它并不是一个十分novel(新颖)的东西,包括它的模型、算法、结构,本来都是现有的。那对于它的结果(结果更好),本来就是告诉了我们一个道理:用更多的呆板、更多的数据,暴力地去Scale up,就可以达到更好的结果。
在此之前,能够大部分的人在说,我要去不断提高我的算法,调优模型,但是实际上各人低估了这个Scaling up的重要性。这个本来对各人来说是一个十分积极的信号,也就等于告诉各人,你只要用相同数量的卡、相同好的数据,理论你就可以达到Sora的结果。
呆板之心:那你们会怎样理解自己跟Sora之间的差距?
Pika:我的感觉就是,Sora is not hard to beat。只是说scaling确实很重要。
呆板之心:对于因为Sora而备受关注的DIT架构,你们会觉得这就是视频生成的确定性路线了吗?
Pika:我们认为还没有到DIT就是确定性路线的时候。这是一个很开放的问题,或者换句话说,我认为以目前视频生成的行业阶段来看,还没有到说一种架构,一定不妨比另一种架构有更清晰优势的时候。因为我觉得格局也没有发生本质的改变。
呆板之心:也就是说,你们用的不是DIT架构,对吗?
Pika:我们内部会有不同方向的探索,但细节不便透露。不过我们考虑这个问题,角度不会那么单一。因为我们须要从系统性的方面衡量这个问题。但在科研上,我们会对结构的效劳做进一步研究,这也是未来的一个潜在研究方向。目前我认为,重要的点,一是可控性,其次是效劳问题,这是容易被忽略的,任何结构它须要将效劳摆在第一位。
呆板之心:效劳具体指的是,训练还是推理,还是一起?
Pika:指的是用户的使用成本效劳,基本可以等同于推理效劳。当然,训练效劳也包括其中,也很重要。
呆板之心:也有观点认为,Sora的结果一部分须要归功于它背后调用了自己的GPT系列模型去做用户语言理解,这个方面Pika怎样看?
Pika:文字理解的准确性是十分重要的,但是否调用GPT系列模型,这个本来在视频生成赛道不构成一个竞争点。市面上也有很多开源或闭源的模型可以兑现跟它差不多的结果。本来,从竞争看,OpenAI在视频生成上所拥有的所有东西,都不是绝对性的优势。
呆板之心:这轮融资里,是否也有投资人会问,跟OpenAI相比的话,你们公司的一些优势是什么?你们是怎样想的?
Pika:对,我觉得我们跟OpenAI还是有差异的,我们公司的目标并不是做AGI,而是说做一个服务创作者的产物。这是本质的区别。我们的目标是帮助各人兑现自己的创意。
那在视频生成模型上,我们之间是有相似性的,我们认为自己是不会让步的。我们肯定要对标、超越,然后在产物上做自己的努力。
呆板之心:对标、超过Sora,会有一个大概时间表吗?
Pika:Later this year.对,今年晚些时候。
Pika的路径:Smart、高效、Not only 「text」based
呆板之心:如果说你们要兑现更好的结果,会意味着说就是要去做更大的Scaling吗?
Pika:Scaling是有上限的。我们不能够一下子从几百张卡scale到几万张卡,这个很不现实。另外,GPU本身在内存等硬件方面也都是有上限的。所以如果说各人scale到一定程度了,是无法一直scale下去的,接下来须要看各人其他方面的技巧实力。
如果我们参考一下OpenAI和Anthropic这两家公司,我们会发现,Open AI肯定是资源最多、数据最多的,但是这并不妨碍别人用更加smart的要领,用稍微少一点的数据达到更好的结果。
呆板之心:在sora出现之后,你们有去买更多的卡吗?
Pika:我们本来有十分多的卡,到目前为止,我们的卡也是十分充足的。
呆板之心:未来你们想要做的更好的话,采取的要领是什么?
Pika:我们内部有一套自己的要领,十分重视研究和创新,我们的文化是重视各人的智慧,然后要把东西做到最Smart。所以我们的核心点是要用十分前沿和可靠的算法去打造我们的模型,让它不妨做到,第一十分Scalable、第二可以以小胜大,用更少一点的资源,得到更好的结果。
呆板之心:具体在视频生成上,你们会怎样做,兑现以小胜大,有明确的技巧要领了吗?
Pika:我们有明确的技巧要领去兑现它,我可以分享一下high level的想法:
因为视频是一种高维的数据,比如说对于每秒24帧的1080p视频,它的分辨率是1920×1080,这个数据每秒的维度是:
1920×1080×3×24 = 155520000。
这个维度十分大,对于AI来说处理起来十分困难。如果说再乘上时间,60秒,就更大了。所以这个dimension是十分高的。
但是你知道,在AI中各人都知道的,curse of dimensionality(维度诅咒,指随着数据维度的增加,数据变得越来越稀疏,从而导致模型的训练和预测变得更加困难),就是说你的维度越高,你须要的数据量就越大。
那随着1080p视频时间的增加,所须要的数据量就会指数增长,因为视频中的每一帧都包括了大量的信息,而随着时间的推移,帧的数量也会增加,从而导致所需数据量的指数级别增加。
然而,在现实中,这是不切实际的。因为一个高清视频,你视频越长,它(存在)的数量就越少,所以这是一个十分有趣的dilemma(困境)。
但是好处在于,实际上视频有点像一个“low dimensional manifold”(低维流形,一种数学概念,指维度较低的特殊空间结构),嵌入在高维空间中,也就是说它的每一个维度实际上是相互关联的。
比如,我们想生成一个人在路上走路了10秒的视频。实际上,我们只须要知道第一个帧的信息,比如这个人走路的背景、他的穿着等细节,后面的帧你就不再须要完整的画面,你能够只须要一些很小的信息,比如这个人走路的姿势、或者说是背景当中汽车在移动。
这个是我们这边的一个insight,就是说,有一种成功的算法,可以让这个高维数据投影到一个低维空间。用这个要领,首先你可以绕过the curse of dimensionality,其次,可以让你生成视频的结果变得更好。以及,由于你的维度变低了,所以你训练模型的效劳和成本就大大降低了。
这个是我们花了很多精力的一种高效架构和数据压缩要领。这种算法不妨去掉90%的冗余信息,进而帮助降低数据的维度。比如你原本有几百页的文档,经过处理后,未来须要处理的数据只有几十万,这样就大大节省了算力。这是一种更加紧凑的表达方式,因为维度越大须要的参数越多,难度就更大,而我们使用这个要领所须要的参数应该是比较低的,所以不管是从数据效劳、训练效劳、推理效劳上,都兑现了更加高效。
呆板之心:这个算法的底层思路能够是怎样的?
Pika:本质上,我们是进展让我们的模型不妨像人类一样思考。比如说人看这个视频,能够只须要很少的信息,第一比如只须要第一帧中的这个人的背景、周围环境、穿着等各方面细节。然后第二,能够须要一个动作的引导,比如这个人是以这样的姿态、这样的速度在走路。
然后我们这边发现的一个情况就是,实际上在应用场景下,虽然市场上有很多Text to video(文生视频),但真正运用起来没人在乎是不是「Text」to video。因为核心是各人更进展不妨生成一个不妨可控的视频。
比如有人说想生成一个人以这样的姿势走路,这本来很难用语言来描述,但如果给他提供一个引导,比如一个参考视频,说这个人是这样的姿势走路。或者说,进展这人穿这样的衣服,也不知道怎样描述,能够那就给他提供第一帧。
总之就是我们想建立一个模型,让它不妨像人类一样思考,我们也想超越文本的交互形式,让人类可以很好地去控制它。
当我们不妨把那些motion prior(运动先验,表示对常见运动模式或行为的先验理解,这些先验信息可以帮助模型更好地理解和预测视频中的运动)、image prior(图像先验)嵌入到我们的模型里,那么自然而然,这个模型可以更好地理解人类,同时会学到更好的连续表示。
呆板之心:你的意思是,能够更高效的视频生成指令不一定是「text」这种形式?
Pika:是的。因为我们发现,用户本来并不在乎是不是「text」to video这种形式。另外我们也发现,text based会让我们的模型受到更多约束。所以我们打算用来自不同形式的Prior(先验),比如运动、风格,去帮助用户表达,这也体现了我们比较以用户为中心的理念。
呆板之心:我看你们已经上线了「style」「lipstick」这些组件,之后会拓展更多类似这样的组件是吗?
Pika:对,这样也不妨反过来使我们的模型更能像人类一样思考。本来主要就是因为这些动作或者说信息,它是很难用语言去描述的,像我们该怎样去告诉AI说我进展它的嘴唇是怎样运动的呢?很难。所以我们就采用这种Prior的形式,它是有效的。之后我们还会有更多的这方面的更新。
呆板之心:你们之前提到过,产物的最终目标是进展做一个interface for creator,听起来这些组件像是对这个界面的完善。
Pika:我们把interface理解成人类和呆板交流的语言,人类和呆板不能直接交流,而经过训练后的interface可以让人类向呆板传达想法。这个界面可以让系统串联起来,为目标服务,我们的产物会解释模型,模型促进产物兑现。我们不会局限于一种表达方式,如果用户须要一种应用,我们就会去调整模型,调整表达方式,然后推荐给用户。我们跟自己的用户走的很近,像今天上线的「style」「lipstick」也都是在充分吸收了用户的建议下上线的。
视频生成行业仍在70分阶段 可用性还没有得到本质解决
呆板之心:开年以来各人一直在说,2024年是视频生成的爆发之年。你们认同吗?
Pika:从关注度来讲,是认同的。事实上在sora发布之后,确实得到了很多的关注。所以我觉得OpenAI的产物发布让更多的人认识到了这样一个领域的存在,本来也是一件十分好的事情,所以行业知名度上确实是爆发的。
不过从技巧上来讲,是否是今年爆发,很难预测。各家都在做努力,我们还是相信量变会引起质变。
从应用上来看,我认为未来有点像LLM领域ChatGPT出现之前的爆火,比如GPT-3出现的时候,各人也是很兴奋的,但是它没有一个很好的落地场景,未来的视频生成也在这个阶段,能够还是须要在模型迭代之后,被更多人用起来,各人兑现了观念上的转变,这个能够是一个真正的爆发。
就像我们已经很习惯掏出手机,用一些应用来修图,未来几年,我们可以相信,生成和编辑视频也是跟未来用手机P图一样简单。
我相信就是在未来的一个时刻,就肯定视频这样的一个模态,是会有它十分重要的使用场景,我相信它是可以兑现一个真正的爆发,但能够未必是今年会有一个十分确定的一个时间线。
呆板之心:如果说,评价视频生成行业技巧阶段,从不成熟到成熟对应0-100分,你认为行业未来处于几分?
Pika:我认为是70分左右。拿Sora来讲,未来它更多是一个概念验证产物,并没有真正解决问题。
我们从别人分享的使用过程里看到,比如当时有个关于气球的生成视频,它的作者写了一篇很长的帖子,讲它的历史表现并不是特别好,能够要试几百个视频,才能兑现生成一个满意的视频,而且如果直接生成高清视频,分辨率还是十分低,所以他们能够是生成一个低清的,然后再用那些人工的超分辨率要领去做超分辨率处理后放上去。
另外它的效劳也十分低,须要很长时间,比如 12 分钟才能做出一个成品。这个距离真正不妨毫无压力商用,还是有一定差距的,所以我认为整个行业应该差不多在 60 到 70 分左右的范围。
呆板之心:在6、70分的阶段,要迈向100分,能够中间比较重要的待解决问题是什么?
Pika:第一是准确性,怎样可以把用户的意图准确地表达出来;第二是可控性,怎样按照用户的意图对视频进行控制,你可以看到未来即使在图片领域,也没有做的很好;其次就是效劳的问题,怎样迅速地去生成视频。
呆板之心:那在这几个方面你们会横向去对比其他公司吗?标准能够是怎样的?
Pika:因为我的感觉就是这个行业能够就像我说的,各人都差不多六七十分。能够未来有些人稍微领先有一两分。但各人都没有本质地解决这些问题。
所以能够未来的这个对比能够不是特别的有价值。最核心的这个可用性方面,以及刚刚提到这几个点都还没有得到本质的解决。未来去谈一些很细致的对比,能够就没有特别大的意义。
尤其是从用户的层面,就能够从技巧的层面,你可以提出各种各样的指标来评价一个模型的好坏。但是我们想我们公司想做的不仅仅只是停留在技巧层面的。
我们还是进展这样AI是真的不妨为为Creator所用,进展用户觉得这是一个可以使用的产物。所以这个角度看,我认为,目前阶段能够还是在内部把模型和产物打磨地更加完善,才是第一要义。
呆板之心:像这些问题,会因为scaling而逐步解决吗?
Pika:因为像可控性这个点,以后不会仅仅停留在文本控制生成视频的层面,会须要更加精细的控制。所以这也不是只做Scale就可以解决的。就像Sora本来也有可控性的问题。
所以这个能够不能仅仅从AGI的角度去看,而是要从真正的产物角度去想。
所以你可以看到,我们新发布的很多功能,基本都是从实际用例出发,而不是仅仅从模型进展。
呆板之心:Pika在这几个问题上的思路和优势是什么?
Pika:我们的团队十分有优势,团队很多成员有对应的专业背景,他们的很多工作也是当前这个领域最核心的一些相关工作之一。具体到在可控性方面也是,我们有一部分成员之前的就是专业做这方面研究的,他们的论文也是这个领域的。基础模型上,我们既有资深的人,也有新生代有想法的人。所以这些方面的问题我们从人才上看,是十分有信心去攻克的。
至于可控性的具体思路,我们之前谈到的,去丰富和拓展更多元的交互方式,本来就是模拟人类思考的过程,这种要领也是增强可控性的有效手段。至于更细节的思路,能够今年年底之前,我们会有一个产物出来,在用户交互界面上有一个比较大的升级,到那个时候我们可以全部公布。
将更aggressive做视频大模型
呆板之心:去年年底的时候你们立过一个flag说,进展今年的技巧不妨达到一个商业上的标准,这个标准是什么?进度如何?
Pika:我觉得这个领域很显然还有很多东西是没有定义的。就是说,未来AI到底是怎样样?用户到底该怎样跟AI模型做交互,交互方式本来都还是待定义的。我们进展自己可以去参与定义这个商业板块,进展我们能在今年取得进展。
这个标准我认为能够也不仅仅是技巧上的标准,不仅仅是说这个模型生成的分辨率有多高或者说结果有多好,最终还是要回到用户的可用性有多强。
呆板之心:对于产物力,你们怎样构建它?
Pika:我们是想做最好的模型,但是不仅仅是做视频模型,而是想做最有用的视频模型,这个就是我们所认为的产物力。
我们不仅是要做一个技巧载体,比如技巧极客之类的会感兴趣,更重要的是做一个有用的视频模型,不一定是技巧上最强势,但是给到创作者,你不妨去编辑视频、定义场景和人物,不仅能用文字、还能用声音、视频、图片去交互。然后让这个用户不妨真正意义上去控制这个视频的生成和编辑。
呆板之心:那现阶段来看的话,像模型能力的提升和产物力的提升,对你们来说这两件事哪件是更重要的?
Pika:模型是产物的基石,我们对界面的定义也是须要基于一个成功的模型,所以我觉得能够模型研发目前是稍微更重要的一点的。
呆板之心:在模型层面的提升上,哪些性能是最关注的?
Pika:还是回到那三点,准确性、可控性以及效劳。
呆板之心:时长会是一个重点吗?
Pika:会是一个重点,在我们下一个新版本中,我们会做提升,但提升多少,我们未来还无法公布。
呆板之心:我看到你们说,自己会更aggressive地去做模型层面的研究和工程,这具体会表未来?
Pika:第一就是加大力度的招人,另外就是未来的团队会往这方面倾注更多的精力。
呆板之心:目前商业化上的探索情况是怎样的?
Pika:我们未来是已经在赚钱的,主要来自C端的订阅费用,在B端,我们会跟一些演唱会或者企业在创意上做合作,也会对外提供API,目前都在探索的路上。
More:
AI Pioneers 系列人物专访(点击跳转):杨植麟|唐家渝|梅涛|王长虎|夏立雪 | 高继扬
联系作者:jjingl- (添加请注明姓名-公司-职位)