对话杨植麟:Moonshot AI即将完成超10亿元融资,公司最终目标并非逾越OpenAI

“大模型公司最重要的人材与组织。”

今年年初,杨植麟手机里来自投资人的微信好友验证请求开始爆发。急迫寻找人工智能标的的众多投资人听闻了一个消息——杨植麟,开始大模型守业了。

在GPT守业群星中,拥有清华系背景以及广泛学术影响力的杨植麟无疑是耀眼的一颗,拥有漂亮且合适的履历:2015年从清华计算机系毕业后,杨植麟前往美国卡内基梅隆大学攻读博士,师从苹果AI研究负责人Ruslan Salakhutdinov 和谷歌首席科学家 William Cohen,常规六年的博士之路被缩短至四年完成。

博士期间,先后以一作身份,发表 Transformer-XL 和 XLNet两项工作,谷歌学术被引次数近两万。Transformer-XL成为首个全面逾越 RNN 的注意力语言模型,论文成为NeurIPS 2019与ACL 2019的最高引论文之一;XLNet则在20项任务上逾越谷歌BERT模型,一鸣惊人。

杨植麟从2020年开始确定“大模型是未来”这个观点。当时,OpenAI推出GPT3。这个拥有超过1750亿个参数的模型,在当时成为人类历史上最大的神经网络模型。斯坦福大学的研究以为它已经拥有大约7岁儿童的心智水平。

而这更重要的意义在于,GPT3的出现,让AI的第一性道理逐渐清晰——“足够多的证据证明,只要下一个token预测越来越准确,就会有更多的智能产生。”

“第一性道理”源自古希腊哲学家亚里士多德的观点,指的是用来回归事物基本条件,将其拆分成各要素解构分析,最终得出完成目标的最优路径。

在这一年之前,杨植麟的论文Transformer-XL曾一度被ICLR 2019拒绝,理由是评审不以为大语言模型的提升在实际场景会有更多的价值。

共识的形成必要花费大量的时间。

回到中国,2020年之后,坚信自己已经看到AI的第一性道理的杨植麟,开始希望在做尝试。但此地距离风投机构向大模型频繁开枪,高端人材向大模型公司聚集的场景,还有三年时间。

杨植麟选择了一个折中的方案——寻找合作,自己团队提供技巧,对方提供算力资源。但这条路大概要比想象地难走。在一个非共识的环境下,他发现必要重投入的大模型事业运行效率很低,十分坎坷。这一点对大厂、对研究院、对守业公司都是一个很大的挑战。

转机直到去年年底ChatGPT的爆发才开始出现,太平洋的两岸在很短的时间里相继被点燃。在内心回答“此地此时究竟有没有机会”这个成绩前,杨植麟去海外考察了两个月,彼岸的“疯狂”让他坚信:很快,在亚洲做一个大模型公司,有机会了。

杨植麟终于开始单独守业了,一切进展地很快。呆板之心得到的最新消息显示,杨植麟成立的大模型公司Moonshot AI已经组建了超过40人的团队,即将完成第二轮融资,累计融资金额有望超过2亿美元。在呆板之心的专访中,杨植麟首次向外界披露了Moonshot AI的工作目标和未来愿景。

时隔多年,道路上的冰山开始瓦解,布道多年的“天才AI科学家”终于迎来了他的magic moment。

时机到来

呆板之心:公司名为什么是“Moonshot”?

杨植麟:我们今年3月1日正式成立,正好是Pink Floyd专辑Dark Side of the Moon发行50周年。月之暗面意味着神秘,令人好奇和向往,但登月又是一件难度很大很有挑战的事情,这是我们名字的来源。

同时我以为摇滚精神也是我们公司一个很重要的底色。我一直觉得搞研究是歌剧,阳春白雪,很高大上,很纯粹,但不太好规模化,而技巧守业是摇滚,从零到一,从最小的状态开始做起,不断革新自我,不给自己设置边界,最终做出很好的音乐改变世界,给一代人带来能量。

呆板之心:目前公司最新情况是怎样的?

杨植麟:我从去年年底开始基本明确要单独做一个大模型公司。

目前Moonshot AI已经完成首轮融资,公司技巧团队已有数十人规模,拥有2位联合创始人,公司在中国和海外各设立了一个办公点。我们预期,Moonshot AI的团队将持续补充技巧、产物、运营等方面的人材。

我们的当前的工作重点是研发下一代跨模态大模型。我们即将完成的第二轮融资将用于以保证有足够的资金进行GPT-4以及下一代模型的研发。

呆板之心:能否详细介绍一下你们目前的团队?

杨植麟:目前我们整个团队人数超过了四十人,绝大部分是拥有世界级影响力工作的大模型专家。

两位联合创始人,周昕宇和吴育昕,也都是清华背景,五位数的Google Scholar引用,在大模型方面有异常丰富的工程和算法经验。

我们半数以上的成员拥有海外经历,从海外吸收了先进的人材和认知,团队核心成员也参与了Google Gemini、Bard、盘古、悟道等多个大模型的开发。

整体团队包括了NLP, CV, RL, Infra方面新生代人材,有良多有世界影响力的工作都是我们团队成员主导的:

在大模型方向,我们的团队成员发明了RoPE相对位置编码,是Meta LLaMa和Google PALM等大多数主流模型的重要组成部分;我们发明了group normalization,是Stable Diffusion等AI模型成功的关键组件;同时,我的工作Transformer-XL,是历史上第一个在词级别和字级别都全面逾越RNN的注意力语言模型,解决了语言建模上下文长度的关键成绩,定义了语言建模的新标准;我们曾与DeepMind和CMU合作研究,首次完成小样本性能逼近全监督进修的高效对齐方法。

在视觉领域,我们团队成员包括发明了MoCo,引爆了基于对比进修的视觉预训练范式,也是过去三年CVPR引用量最高的工作;发明了ShuffleNet,最高效的视觉网络结构之一;主导开发了detectron2,一个被广泛使用的视觉开源项目并被集成到Meta全线VR/AR产物中。

在基础设施方面,团队核心成员曾带领数十人从零开发世界领先的深度进修框架,也具备数千卡集群全自动化硬件运维告警、数百亿特征检索、大规模(数十PB数据、百万台呆板)分布式系统数量级性能优化的经验。

在强化进修方面,团队成员作为一作提出了基于关系进修的少样本方法,得到斯坦福大学、Google、MIT、Amazon等团队的使用和扩展,并获得过OpenAI RL联创及负责人John Schulman亲自邀请加盟。

呆板之心:下定决心守业的时机是什么?

杨植麟:本质上我以为,今年以前,亚洲大概并不存在做大模型公司的机会。

如果更早之前开始做的话,在资本和人材方面很难说有足够的资源去支持。

不过,去年年底,我的判断开始发生很大变化。当时,GPT已经在美国市场引起了很大的关注,一般来说美国以外的市场会有一点时间差,但是肯定会跟上。果不其然,到了第二年春节,美国以外的市场也开始爆发,几乎所有VC开始关注(这个赛道)。所以我们发现,果然是有机会的。

呆板之心:我们知道那个时候你去海外考察了两个月,你给自己的任务是什么?

杨植麟:对,我是在去年12月份去的海外。当时我给自己的任务是,一是尽大概多的提升认知,二是为后续的招聘储备一部分人材。

当时在国外,我觉得情况大概比我想的还要疯狂。除了在推特在讨论,无论是不是技巧人员,餐厅、咖啡馆你处处都能听到人们在讨论GPT。当时大概是美国最狂热的时候,有点类似处于Gartner Hype Cycle(技巧成熟度曲线)的上升阶段,公众对这项技巧的预期异常高,似乎一夜之间大家觉得通用人工智能已经可以完成了的感觉。这是远远超出我预期的部分。

整体上这趟行程是比较顺利的,这一趟应该说坚定了我们以为现在是个合适时机的信念。

所以我们加速了融资和招人的节奏。我们在一个月之内敲定了首轮融资,拿到了来自红杉等头部机构6000万美元的启动资金。并且在三个月内组建起了大约四十人的极高人材密度的技巧研发团队,虽然在海外招聘的难度比较大,也成功招募到了一些核心研发人材,在海外设立了一个办公点。目前我们也即将完成第二轮融资。

呆板之心:在这之前的几年,你怎么做大模型的工作?

杨植麟: 我们选择了一种折中的方式去做这件事,找一些合作方,我们提供技巧,他们提供算力。我以为这种形式大概是当时的最佳选择。因为在那个时期,单独成立一家公司来做这个事情并不能获得足够的资金支持。

2020年下半年,我们开始与华为合作,为其中一个版本的盘古大模型做了核心的技巧研发。2021年,我带领团队一起参与了智源研究院的悟道大模型研发。

这两段经历,让我了解了大模型研发过程中各种大概的成绩,并且积累了经验。但是这种合作方式也让我意识到,你大概只有自己创建一家公司才能真正意义上去完成这个目标。

呆板之心:为什么说自己单独做一家公司才能真正去完成这个目标?

杨植麟:在大组织当中,如果公司对这个项目的投入不够,那么你项目的优先级会被放低,而且组织中的多方合作如果在KPI上没有足够对齐,就无法取得合力,效率很低。

我们意识到,在大模型的研发中,只有正确的组织才能完成这项工作。也就是说,这所有人都高度集中,人材密度很高,工作效率异常高,并且目标完全一致。

在之前的合作中,完成这些异常困难,所以在很大程度上阻碍了我们的翻新。因此,我以为翻新必要找到正确的人并找到正确的组织方式,这是大概成功的唯一方法。这也是为什么我以为必须创立一家公司的原因。

大模型公司最重要的是人材与组织

呆板之心:今年年初开始良多VC找你,你都没有见。为什么?

杨植麟:实质上我们以为,直到6月前,我们最核心的任务是招人,组建团队。

今年以来,我们看到市场上大模型相关的人材异常稀缺,真正有相关经验、有计划有认知、愿意守业且在合适的年龄的人其实并没有那么多。

至少在这个阶段,我以为人材的稀缺性比资本稀缺性更高。因为一个这个团队到底能不能达到GPT 4这个里程碑以及做出来下一代模型,大概关键的指标就是你的团队是不是一个对的团队。

我们了解到,其他一些公司,其实过去几个月并没有怎么进人,公司的人材结构并没有变化,我以为这本身是有成绩的,因为人材市场已经产生了很大的流动性,我以为我们是应该抓住这个机会的。

这里必要规避两种情况,一是低效的团队结构,比如说设置了十个合伙人又缺少能够真正拍板的人,因此合作的效率会很低。另一种情况,是你完全不补人,大概你仍然完全按照传统AI公司的组织结构,没有抓住人材市场这一波流动性,那么你大概后面的发展也会有良多成绩。

所以我们是想尽量避免这两种,在一个合理的组织结构下,然后去把人材密度去做到很高,去抓住这一波的红利。

呆板之心:人材流动性指的是什么?

杨植麟:人材从从细分的AI技巧领域NLP、CV、RL等开始向大模型公司集中。

呆板之心:你说大模型人材目前很稀缺,算法以及工程两个方面的人材稀缺程度是否有所不同?

杨植麟:整体上来讲,行业人材确实异常稀缺。全世界范围内,有大模型训练经验的人材很少。这意味着,在工程完成方面,比如能够在开源框架上去做优化和提升的人并不多,能应对超大规模集群的人材也很稀缺。

而在算法翻新方面的人材稀缺程度则比之更甚。比如在强化进修方面,能够做强化进修的人异常少,但是对于一个大模型公司来说,强化进修能够让AI自主去探索,没有强化进修就无法完成更高水平的技巧跃升。我们除了有在短期内要去超过GPT4这个目标,还必要去思考更前沿的技巧方向,比如GPT5大概是怎样的,我们的机会在哪里,这些都必要算法翻新。

这两方面的人对我们都异常重要,我们都有所储备。我们以为,工程完成能力决定了你技巧能力的下限,而算法翻新能力决定了技巧上限。

呆板之心:在招聘过程里,你用什么来吸引前面提到的这些人材?

杨植麟:核心包括三点,极大的上升空间、长远的愿景以及人材密度。

我们希望早期团队中的人认可我们长期的Vision,不论是具体的技巧路线,还是AI带来的社会价值。另外,顶尖的技巧人材会带来“滚雪球”效应。良多人是知道了我们团队中的一些很强的人,他会觉得“哎?这几个人竟然都在那!我确实也蛮想跟他们一起工作的”,这是一种很大的激励。在早期加入守业公司,他们的主动性和实际上升空间都很大。

呆板之心:创造一个大模型公司,组织上你以为最重要的是什么?

杨植麟:我以为最重要的是人材密度和文化。你必要有优秀的人材,然后给他们一个好的文化环境,让他们在一个既定的目标和方向下能够自由翻新。

大模型有点类似登月计划,本身必要自顶向下的规划和统筹,但同时,我们必要鼓励自下而上的翻新,保持一定程度的开放性和组织的扁平化,这样翻新就更容易发生。

所以我觉得,本质上就是要招最好的人,然后给他们提供一个好的系统,让他们在这个系统里面能够去翻新,并且他们的良多翻新能够成为系统的一部分,这样你的系统就能继续前进,我觉得这大概是我们现在想做的事情。

呆板之心:所以你们的Vision是什么?

杨植麟:我以为每项技巧基本都会历经道理探索期、技巧翻新期以及纯产物应用阶段三个阶段。

第一阶段意味着公众对于技巧的第一性道理还不清晰,一切刚刚开始萌芽;第二阶段则指的是第一性道理已经清晰,但是仍然存在技巧翻新的空间,领先的公司会有显著的技巧优势;最后一个阶段,当技巧已经足够成熟了,可获得性很高了,就是纯产物的机会,网络效应建立。

两三年前,NLP、CV这些技巧都处于第一阶段。如今,我们已经来到第二阶段,AI的第一性道理已经被大量证据所证明——从GPT1到GPT4,我们会发现,人类文明的总和,数字化之后都可以变成硬盘上的数据,无论是文字、语音还是视频,只要我们有合适的办法,去对这些数据做最大限度的规模化无损压缩,就能完成异常高程度的“智能”。

我最喜欢的例子是等差数列。假设说目前我有1万个数字要去压缩,在我一无所知的情况下,我所能做的仅仅只是把这1万个数字存下来。但是,如果我能够知道这些数的底层运行规律,我知道等差数列,那我就只必要存两个数字,其他9998个数字就能被还原出来。

这就是AI的第一性道理。在第二阶段,第一性道理已经清晰的情况下,理论上我们只必要一条道走到黑,去想更好的办法尽大概地去对整个人类文明进行压缩,然后就能在技巧上完成较高程度的智能化。

而“更好的办法”也是第二阶段与第三阶段的分野。在这个方向上,我们看到大约5年的窗口期之中,我们必要去解决目前看到的成绩,不断技巧翻新,让技巧变得更加通用和低门槛,最终推动大规模的产物化。

在这个阶段,更好的模型质量通常会直接带来更好的用户体验,通过技巧驱动的公司会拥有更大的产物优势。如果我们去看美国市场,目前领先的公司例如OpenAI, Anthropic, Inflection, Character AI, Midjourney,无一不是通过Model as an application的方式,通过技巧优势来形成产物上的体验优势。

我们本身是一个技巧很强的团队,也拥有很强的翻新文化。对于我们来讲,我们看清楚了当下AI所处的技巧阶段。在这个阶段当中,我们可以用一个技巧驱动方式,完成产物上的优势,最终完成网络效应。所以这对于我们来说,就是一个合适的时机。

呆板之心:想要去解决的“目前看到的成绩”指的是什么?

杨植麟:我们看到,即使对于OpenAI本身来说,现在GPT必要解决的成绩仍有良多。比如怎么训练出一个好的视频模型,能够让文本和视频完成真正意义上的跨模态交互。当下的跨模态模型更像是一个单任务模型,它只知道怎么去生成这个图像,但是大脑部分异常薄弱。

基于Diffusion Model的技巧路径,一个重大成绩是你没有办法去做真正的跨模态建模,只能基于很简单的文本向量去做decoding。本质上,它并没有对不同模态的联合概率去做一个可规模化的建模,这制约着这些模型去发挥更大的价值。从可规模化这个点上,我个人以为,长期来看,大概Autoregressive model(自回归模型)能够更通用得对不同模态去建模,长期会有更大的上升空间。

除了跨模态成绩,另一个很关键的成绩是,未来的大模型肯定不会停留在压缩现有的数据,而是会自主进行探索、在探索过程中生成和筛选数据、并进行压缩。一个很典型的例子是围棋,如果AI通过压缩已有的棋谱,很难在围棋水平上逾越最顶尖的人类棋手。

相同地,如果是我们想训练一个能达到IOI金牌水平的编程AI,那么仅仅通过压缩现有的题解也是很难做到的。我们必要让编程AI自己去搜索不同的解法,在搜索的过程中评判解法的可行性,从而对解空间进行更全面的探索。

在科学领域也是一样,如果AI可以自主探索解空间,那么就可以发现人类还未发现的新知识。长期来说,通用地解决这个成绩会产生超级智能(super intelligence)。

呆板之心:如果说是AI技巧的发展要经历上述三个阶段。我们看到ChatGPT的成功应该是技巧和产物并行的一次尝试。

杨植麟:对于ChatGPT而言,确实是在技巧的翻新和产生网络效应两个阶段是一个并行的过程。在技巧翻新阶段,它占据了优势并形成了壁垒,然后在尽大概早的时候,将技巧转变为具有网络效应的产物。

所以我刚刚虽然提到会有三个阶段,但是并不是说这一定是线性的。如果能够利用好自己技巧优势,那么越早将它变成一个具有网络效应的产物越好。这之后,因为用户反馈和生态系统建设等方面会给你带来巨大的提升。因此,并不是要等待技巧完全普适化才去产物化,而是要尽早地放出有用的产物让用户去投票。

最终目标不是逾越OpenAI

呆板之心:你们目前的初始目标是完成GPT4的开发,现在进展如何?

杨植麟: 我们首先要做的是预测,然后才能做规模化。在投入大量的资金去规模化前,我们必要知道规模化后会发生什么。通过良多预测工作,总结规律,然后预测规模化后的情况。这样可以涵盖大概主要的影响因素,剩下的少部分可以通过一些经验和试错来推断。

目前我们前期已经验证完,开始去用更大的数据集去训练,以使训练更稳定,保证代码的正确性,以及优化损失函数,训练大模型。

呆板之心:良多大模型守业公司的初期目标都是超过GPT4,“达到或者逾越”的标准会是什么?

杨植麟:我以为最重要的标准其实是模型的压缩比。

如果基于第一性原则来思考,智能的首要任务就是优化压缩,那么提升压缩比就意味着智能的增强。在一个足够大的数据集上,模型的压缩比有多大就能衡量出模型的优劣。例如,OpenAI的GPT-4大概在某些领域已经达到了30多的压缩比,而一些开源的模型的压缩比大概只有10出头,所以空间还是异常大的。

至于用户眼中的模型在应用里的表现,实际上也是由你的模型压缩比所决定的。模型的压缩比如果异常好,剩下的成绩就是工作量成绩,时间允许你肯定能把它调地很好。

所以我觉得压缩比是最关键的指标。例如,我们现在去监测我们的模型的进展,我最主要看的指标也是压缩比,我可以通过算出来的压缩比去预测它的趋势,什么时候能达到GPT-4的压缩比,这是可以被预测出来的。

呆板之心:和如今在守业的公司一样,OpenAI也在往前走、快速迭代自己的模型。如果说目标是追赶GPT4的话,你以为逾越OpenAI的大概性大吗?

杨植麟:有大概,但这个过程必要时间和技巧翻新。

对于我们来说,一方面,后发优势可以节省时间,即利用OpenAI等先行者已经做出的工作和探索成果。比如我们不用再像他们之前一样,花几年的时间去确认AI的第一性道理,而是可以直接沿着这条路往前走。

但客观上,确实目前的差距很大。短期来看,我们要看到这个差距,而不是说现在就说要马上“赶英超美”。我以为如果真的能够完成“逾越”这个目标的,应该必要依靠接下来还没有出现的模型,要去思考下一代模型怎么做。

长期来看,我是比较乐观的。因为和电力不一样,AI是异质化的。全世界各国的电力都是一样的,都可以用来给手机充电。但是对于一个记者、一个程序员以及一个画家,这三者所面向的人工智能的智能维度完全不一样。

因此,最后大概人工智能模型不会存在一个逾越与不逾越的成绩。比如虽然OpenAI在某些智能领域做得很好,但大概在某些特定场景中,比如生成图片的美学价值上,它暂时还无法超过Midjourney。即使OpenAI在某些领域超过了,大概还会有其他领域存在差距。因此,有良多维度可以用来定义智能水平。

由于人工智能的异质化,每个公司大概都有自己擅长的部分。通用能力上做得很好是一个前提,但在每个细分领域里,还是存在专业化的差异。例如,character.ai在角色扮演这个场景中,大概会做得比GPT-4更好,这就是专业化的体现。虽然它们的训练路径和OpenAI很接近,但产物的出发点大概会决定了它在这个领域里专业化的位置。

通用人工智能会存在技巧门槛,这个世界上只会有少数的通用人工智能公司,但每个跨过一定技巧门槛的公司可以在某些具体的场景或类型的智能上有专业化优势,并在这些领域做得比其他公司更好,最终形成一些网络效应。因此,未来并不会只有一家AI公司能包办所有的智能。

呆板之心: 你有没有想过,大概我们永远无法追赶上

杨植麟:就像上面所说的,追赶大概并不是我们的最终目标,总体上这个领域有良多维度必要探索,必要良多公司一起。

爬楼梯,而不是看风景

呆板之心:大模型是个异常新的技巧方向,从你接触的情况看,投资人对这件事的理解程度怎样?

杨植麟:我觉得一个关键必要理解的点是AI-native产物跟传统产物的区别。

在大模型时代,以往基于移动互联网的产物逻辑和交互方式已经在发生巨大改变。以往,用户使用移动互联网产物的使用路径异常确定和清晰。但对于Chat-based UX来说,所有交互都基于对话,是完全开放性的,用户大概看到的结果出现了指数级的增长。这对产物经理的能力提出了新的要求,必要在无限的大概性中去通过有限的评测来定义产物。UX有两个重要的维度,一个是灵活度,一个是直观度,chat-based UX相比于传统的GUI显得异常灵活,但直观度相对下降,所以怎么在保持灵活度的前提下提升直观度,也是一个重要命题。

良多人比较在意公司的商业模式,我以为商业模式不会成为特别大的成绩。目前有良多可以借鉴成熟经验的地方,比如可以做订阅,或者通过聊天方式推荐商品或广告,以一种更自然且精准的方式来完成。又比如,类似游戏的商业模式也可以借鉴,比如抽卡等等。

相比于商业模式,我以为现阶段的核心议题还是产物翻新,重要性远大于商业模式。

我们必要通过技巧翻新来完成出色的产物,而一旦我们拥有产物,就能将流量和用户关联起来,产生良好的数据去驱动模型更加智能。

因此,理解这个事情必要大量的进修。在这个时代变化异常快的情况下,我以为每个人都必要快速进修,吸收新知识,持续更新自己的认知是异常重要的。

呆板之心:整体来看,在大语言模型的研究中,比较难的是什么?

杨植麟:整体上都很难。你可以看到美国不少大厂投入了良多资金,但还没有做出能看的东西,因为这里面本身难度确实异常大。如果我们仔细去拆分,或许包括三个方面:

首先,算法翻新是必需的,这必要大量的投入与研发;其次,很大一部分情况是算法并不是新的,但是你要怎么调,让它更有效地工作,这是一个很具体的成绩。

第三,工程完成是不是正确的,这个难度也很大。良多时候你搞了良多bug,异常容易你的loss就炸了。

所有这些挑战最后都反映到一个核心指标——人材密度。

人材密度决定了以上提到的各个成绩的解决程度,能做到多好。这里的人材密度大概又分为几个方面:

第一,团队有没有训练过这些东西的经验。因为经验本身就是一个踩坑的过程,你可以从你以前的经验里面去进修。

其次,团队有没有信息,比如说你跟这个圈子离得比较近一点,可以更及时地获得一些有价值的信息。

第三,团队有没有面对未知的成绩的翻新能力。因为你不大概说所有东西都是已知的,所有东西都被你的经验或者信息覆盖,这个基本不大概。那么面对新的情况的时候,你这个团队有没有能力去针对这些新的情况去做良多调整?比如说,你发现你大概把模型的batch size加大之后,它的loss就特别差,那么你的团队有没有办法去解决这个成绩?

对于一个公司来说,最难的是在爬楼梯和看风景之间做出取舍。大概有的人爬了一两层楼之后就快速选择看风景,用能力比较基础的模型去做大肆宣传,去做商业化,对于我们来说,更重要的是以终为始,坚持爬楼梯,攀登高峰。即便中间也会看看风景,最终也是为了爬楼梯服务的。

呆板之心: 你在学术界最广为人知的成就是Transformer-XL与XLnet这两篇论文,产生了很大的影响。不过,2019年你提到一个故事——XLnet这篇论文曾经被ICLR 2019大会拒绝,理由是评委不以为大语言模型的效果提升在应用上会有很大的影响。现在从大模型行业整个发展阶段来看,这件事大概代表了什么?

杨植麟:现在看这个观察挺有意思。

当时,我觉得就是大模型的第一性道理还没有清晰,或者说第一性道理还没有真正成为共识。因为现在的第一性道理就是,只要你有更好的压缩比,你就会有更好的智能,这个其实对应的就是大语言模型的目标函数。所以当时(提出Transformer-XL),我们其实是在原模型的基础上取得了一个比较大的提升,让它的智能程度提升了良多。但当时,对于这件事情是有用的,显然还没有出现一个共识。

那其实,本质上,我们可以看到一般共识是要落后于非共识的思维的。正因为这样,非共识可以产生很大的价值。比如我们现在正在做的事情,虽然是非共识,但是我一点都不care。我直接做工业化,把这个东西做出来效果之后,那么良多人就会来跟进和关注。

OpenAI通过工业化的方式,而不是一个纯研究的方式去证明了第一性原则是对的。我觉得这见证了时代的变迁,一共有三个阶段。第一阶段是2018年之前,所有人不知道大语言模型有什么用,到第二个阶段是18到19年,BERT时代,大语言模型可以提升各种任务,到第三个阶段,20年往后,只剩下一个任务就是语言模型。

GPT3的发布为第一性道理提供了足够多的证据,虽然距离真正形成共识还必要一段时间,但是它给出了一个底层依据,明确了优化的目标。因为方向很清楚,所以它适合做工业化,而不仅仅是学术研究。这也标志着从学术研究阶段向工业化阶段的过渡。在工业化阶段,目前还处于一个必要翻新的阶段,因为如何让预测越来越准确,现在还有一些成绩没有完全解决。

呆板之心:在我们看来,最近几年在基础模型的架构上的研究似乎并不多。你以为Transformer架构将来会不会被替代?

杨植麟:我以为如果时间足够长,Transformer肯定会被替代。

但在短期三到五年内,更大的大概性是在Transformer的核心思想上进行优化。比如,如果你想处理10万的context,你肯定不能使用原始的Transformer。如果你想处理分钟级别的长视频,使用原始的Transformer大概不是最优方案。

所以,我以为在接下来的三到五年内,我们大概更倾向于针对特定成绩对Transformer结构进行优化,但核心的思想我以为应该还是比较通用的。

在这个过程中,量变产生质变,比transformer更好的模型会自然通过组合演进的方式产生。

呆板之心:现在许多公司在做行业大模型的研发,你的看法是什么?

杨植麟:我觉得行业大模型在短期内有其存在的道理,利用专有数据的优势,大概在某些异常封闭的行业有所作为。

但从长期看,当一个赛道开始接入更多来自B端和C端的参与方,再封闭的行业,都很难阻止数据的扩散,超级入口会变成数据黑洞把各种数据吸纳进来,行业模型的优势会消失。

另一个方面看,行业大模型的计算量本质上是一个能源转化成智能的过程。如果我投入了更多的能源,我就会有更多的智能,中间转化率取决于我的算法的有效性。如果我假设你算法是一样的,那么你有多少智能就完全取决于你有多少能源。

而客观上,这种行业大模型消耗的能源是要比通用的模型要少好几个数量级,长期来说这个差距还会扩大。这样的话它产生的智能最终提供的增量价值会趋近于0。

在一些超级封闭的行业,如果通用模型还没有触及,或者数据吸纳的效应还没有出现,这种情况下短期大概存在一些机会,但长期来看我觉得会回归到通用模型。

行业大模型的唯一优势也就是专有数据壁垒最终会被打破,因此我以为不是一个可持续性的东西,最终肯定不是靠专有数据壁垒,而是靠销售渠道或者提供更好的定制服务。

但不同的通用大模型之间的分化是有大概的。这由你的产物的起点决定,通过对不同类型的用户的吸引,吸收他们所供应的数据,让模型在哪些方面更强。

呆板之心:作为一个在业内评价较高的人,大家对你寄托的期望是否给你带来了压力?

杨植麟:我更多的是感到兴奋,因为我觉得能有机会做这个事情本身就很幸运,我对这个机会充满了感激。

并不是所有人都有机会去做这个我异常想做的事情,我会抓住这个机会并把它做好。所以,我觉得从心态上说,我并不感到过多的压力,更多的是珍惜这个机会。

Moonshot AI公司招聘邮箱:[email protected]

本文作者微信:jjingl- (欢迎交流)

题图来源:The Dark Side of the Moon Cover

给TA打赏
共{{data.count}}人
人已打赏
AI

用AI对齐AI?超等对齐团队领导人详解OpenAI对齐超等智能四年计划

2023-8-11 14:44:00

AI

论文与新视频来了,东南大学对「室温超导」LK-99奇特电阻行为的解释

2023-8-14 15:02:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索