Creator 面对面 | 大模型的末了一千米路“不太平”

自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的偏向演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

在即将到来的一年里,在大规模预训练模型的跨界之路上,又将出现哪些变数?

「基础模型(Foundation Model)」是否将成为下一个 AI 范式?

「基础模型(Foundation Model)」的出现是否意味着距离实现「通用模型」只剩末了一千米的路程的?

  针对细分利用畛域,例如生化畛域等,搞「专用模型」是否还有现在价值?「专用模型」又有哪些不一样的玩法?

2022 年 1 月,ICCV 2021 马尔奖(最佳论文奖)Swin Transformer 作者、微软亚洲研究院(MSRA)视觉计算组的主任研究员胡瀚博士,循环智能资深算法总监陈虞君,Autodesk AI Lab 研究科学家、Daily arXiv Radiostation 主持人楚航做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「模型专场」直播间,共同探讨了通用(大)模型的末了一千米」这一主题。

Creator 面对面 | 大模型的末了一千米路“不太平”

模型架构当前发展情况

在 2021 年模型架构方面的工作中,最让您印象深刻的是哪个?为什么?

首先是胡瀚博士的回答,他提到他所从事的计算机视觉畛域 2021 年的主旋律是 Transformer,但就更本质的影响而言,他会选择 Open AI 的 CLIP 和 DALL·E。他觉得,过去 10 年,视觉畛域的研究员都主要关注表征进修,希望预训练一个很强的表征,然后再用这个表征去某个具体义务上做微调(fine-tuning),而 CLIP 和 DALL·E 打开了一个新的维度,让预训练不仅可以进修表征还可以连接几乎所有语义,这对视觉畛域将是一个很本质的变化。另外他还提到他在微软亚研的同事提出的 BEiT,这一模型有望将掩码图像建模的自监视预训练方法推向主流,将畛域的研究重点从以 MOCO 为代表的对比进修方法,向和 NLP 更类似的预测建模方法靠齐。另外,他觉得稀疏 MoE 大模型方面的进展也很鼓舞人心,这一和人脑运行机制更像的稀疏模型正在变得真正 Work 起来。

之后,陈虞君博士谈到自己比拟关注工业落地,像 Google 的 FLAN  和 Hugging Face 的 T0 这种在 NLP 畛域利用更多的有监视进修的数据去做 zero shot 对比实践的义务去做 zero shot 的这种形式无比有意思。因为相比于大部分预训练的模型,BERT 和 GPT 都是使用通用的文本做预训练,然后使用 mlm loss 作为训练目标。但对实践的义务,依然需要进行 fine tune,这个 pipeline 会无比消耗算力和存储资源。此外,他还提到 Open AI 和 Github 发布的 Copilot, 印象深刻点和有趣点在于这个模型可以无比显著的提升大家的编程效率,并且这个偏向也是无比有意思和值得思考的,大多时候人们会考虑如何用 AI 去替代人,但如何用 AI 去提升人的能力,这种增强智能在现在可能是一个很好的发展偏向。

末了,楚航博士同样觉得 Open AI 的一系列工作是最让人印象深刻的,比如 CLIP、DALL·E 和 GLIDE,他觉得这种把语义、多模态和图像这块的融合是无比有意义的,这种多模态的模型对现在和将来都会起到一个无比大的 enabling 的作用。另外他还提到比拟感兴趣和印象深刻的是 Google 提出的 Pathways,这更像是一个对之后模型架构的一个愿望清单,包括多感知的、多义务的、稀疏性的,这也是他比拟认可的一个大的偏向。

通用(大)模型的末了一千米

用大模型还是小模型?为什么?大模型是否存在一些局限性?为什么在实践工作中一些场景没考虑用过?

陈虞君博士首先承认大模型在实践使用的时候的确存在局限性,预训练的训练目标和实践的落地义务之间存在 gap,在工业实践生产的时候,就依然会陷入先进行 pretrain 再进行 fine tune 的这样一个循环,如果模型越来越大,那么它的 fine tune 的速度就会变慢且需要无比大的资源,如果不进行 fine tune,它就可能无法直接处理下游的义务。

楚航博士则根据自己 Autodesk 的经验分享道,当有新的大模型出现,自己都会第一时间去测试并进行使用,但他发现他们少有在具体利用中使用到大模型,并总结了两点原因:第一,他们更偏向小巧精快的模型,尤其对于 Autodesk 的一些主要产品包括软件产品,并且在传统模式上可能需要在端上部署,虽然可以云端化,但部署成本过高。第二,目前 AI 利用还处于一个早期的摸索阶段,现阶段的急迫性在于从无到有,把业务跑通比把业务跑顺更为重要。

最近有些工作表明卷积的方法在采用适当的模型整体架构和数据增强技术后效果也能同样的好,例如 Meta 的 ConvNeXt,您对现在卷积和 Transformer 在视觉畛域的现在有什么看法?除了 NLP 和视觉,您怎么看其他畛域利用 Transformer 模型架构的前景?例如科学、因果推理等等?

胡瀚博士回答道:卷积和 Transformer 都挺好,关键是要满足能被 scale up 这个性质,能够通过扩大模型容量持续地给各种义务带来帮助。 Transformer 这方面的能力已经被证明,NLP 畛域大模型例子很多了,在 CV 畛域,他们组发布的 30 亿参数的 Swin V2 模型就是一个 Transformer 可以扩展容量的例子。 CNN 目前还没有工作去证明它的可扩展性,当然这不能说明卷积网络就不可以。当然,现在大家普遍还是更看好 Transformer 一点,但这倒不是一个谁就一定更好的科学问题,而更是一个生态问题。整个学界和产业界的生态会导致前进的偏向会有所偏向,目前看来,Transformer  还是更有可能一些,刚才提到的可扩展性是一方面的原因,Transformer 在扩展容量方面有先发优势,另一个原因是它更通用一点,因为 CNN 主要适用网格化的数据,而 Transformer 能适应更广泛的数据特点。

基于通用性的优点,他觉得 Transformer 除了在 NLP 和 CV 里的利用外,也有机会利用于 AI for science 和因果推断方面。关于这两个畛域,他觉得 Transformer 利用于 AI for science 是更直接和容易的,并且已经有了一些实践工作;对因果推断来说,目前还需要克服一些困难,因为目前的进修范式主要是在建模相关性而不是因果性。当然他也简要展开讲了讲最近他对因果推断的思考,他觉得也许和大家想的不一样,因果性并不一定是迈向通用人工智能过程中的重要问题,因为其实直到最近几百年,普通人才能理解稍微深刻一点的逻辑,“白马非马”这一自然语言带来的悖论很长一段时间大家都搞不清楚,但也不妨碍大家活得好好的。他提到也许通用智能的本质还在于相关性本身,人之所以能适应环境,在于适应和相关性自洽,而不是掌握了因果性。

NLP 大模型已经到了万亿参数规模,而 CV 大模型目前才到几十亿的规模,是什么原因,CV 大模型和NLP 大模型有什么异同之处,您对于 CV 大模型的现在有什么观点?

胡瀚博士提到,首先 NLP 的起步更早,过去的两三年里大家都在想如何去把模型变大,但现在 CV 的架构或是进修方法都逐渐与 NLP 相似,因此在现在达到更大的规模是比拟容易的。之所以目前没有达到,他觉得原因之一是 CV 畛域的一些基础还没有准备好。例如 CV 畛域的数据量还不是很支持训练很大的模型,谷歌训练 18 亿参数的视觉大模型就要依赖 30 亿的标注数据,而他们组的工作 Swin V2 通过自监视进修,将对数据量的需求降低了 40 倍,但还是用了近 7000 万标注数据才能做到那么好的效果。

另一个问题是,更大规模的 CV 大模型,例如达到上万亿参数规模的 CV 大模型,是否真正能对利用产生,如果不能带来全新的利用或者赋能从 0 到 1 的事情,而仅仅是某些义务里 80% 到 85% 的提升可能意义就不是很大了,但如果能催生出一个全新的利用或者全新的能力,那将会更有价值。当然大模型有望实现的极限精度提升对于无人驾驶这样对精度要求无比高的畛域也许是一个好的技术路线,如果大模型能真正解决达到小数点后 4 个 9 的识别精度,那无人驾驶也许就真的就实现了。

顺着大模型的路线走下去,是否有可能走完通用模型的末了一千米?专用模型是否还有存在的必要?

陈虞君博士觉得通用模型距离落地的末了一千米是将预训练和它实践利用的 gap 弥补起来。通过自己的一些实验,其实也验证了在预训练的阶段加入大量有监视的进修的文本,然后在下游的义务实践利用的时候,其实有很多时候是能够达到比拟好的效果的,甚至有一些会媲美利用监视进修得到的结果。顺着大模型目前这个路线,如果模型的容量足够大,就有可能预训练的义务就可以包含了更广泛的下游义务。因此,从这个角度看,他觉得走完通用模型的末了一千米是无比有希望的。

对于专用模型是否还有存在的必要,他觉得对于某些实践业务可能与大模型存在无比大的差异,这时专有模型就可以体现出它的价值。尤其是在新畛域,起初数据较少,那么用少量的标注数据得到在新畛域的合适的模型。并且这是一个迭代的过程,先通过专用模型处理新畛域的问题,然后将新畛域的数据收集起来再喂给大模型。

胡瀚博士则补充到,大模型的“大”这个路线很可能是对的,通过最近几年的观察,大家发现这个“大”确实能够 不断地提升模型性能,这些通过提升模型容量带来的提升往往比改进模型设计本身更显著,也更可持续。这个性质是无比令人振奋的。而在具体“大”到什么程度方面,我们现在大概到了万亿的参数规模,如果我们对应人脑的 100 万亿参数也就是连接的话,目前还有一些差距,但看起来很快就能达到。但即使参数到达了人脑的规模,进修方法上还需要突破,所以我们讲“末了一千米”,也许还很遥远,所谓“行百里者半九十”也许末了一千米所花的时间远超我们想象,还有很多基本问题和很困难的问题需要去探索和解决。

模型架构发展趋势现在展望

您觉得在通用模型畛域,下面进一步发展,存在的主要瓶颈是什么?以及下一年在通用模型方面,可能会有较大进展与突破的偏向是什么?有没有您觉得比拟值得关注和跟踪的团队或者项目?

陈虞君博士个人比拟关注 NLP 的通用模型,他觉得该模型的瓶颈之一是资源,该模型训练的成本无比高;除此之外还有数据的成本,通用模型在落地的时候往往面对海量的下游义务,它往往只预测见过的义务,因此面对海量的实践义务如果每一个义务都需要去 fine tune 和做标注,这时候的数据成本将无比的昂贵。那么如何利用尽可能少的数据量获得最优的模型,将是一个无比大的瓶颈,也是现在值得研究的一个偏向。另外,大模型的复杂描述方式如何在特定畛域上对特定义务有一个理想的效果也是一大瓶颈。末了陈虞君博士谈到自己比拟关注例如 Google、微软、百度和 Open AI 这类的团队,他们会致力于把大模型利用到实践的问题上。

楚航博士则将通用模型存在的瓶颈分为三类:第一类是利用瓶颈,思考大模型的用处和如何具体的去赋能;第二类是数据上的瓶颈,大量的数据难找,高质量的数据更加难找 ,针对特定场景的利用数据也是无比的昂贵;第三类是算法上的瓶颈,在比拟 noisy 的数据上如何高效的进修是一个需要突破的地方。对于现在一年的可能会有较大进展与突破的偏向,他提到了自监视和半监视的方面研究,此外他还比拟期待一个“一统江湖”的多模态的终极数据库。另外关于值得跟踪和关注的项目,他提到了 Open AI 、Google 和 Facebook 等。

末了,胡瀚博士补充了一点在 CV 偏向上的主要瓶颈,他觉得目前 CV 较 NLP 来说还是落后较多的,还没有把不同的 CV 义务统一起来。此外,他还推荐关注神经科学方面的进展。

Creator 面对面 | 大模型的末了一千米路“不太平”

给TA打赏
共{{data.count}}人
人已打赏
AI

google请印度标注员给Reddit谈论数据集打标签,差错率高达30%?

2022-7-19 14:32:00

AI

Creator 面对面 | 听「学长」唠唠读完博士后的故事

2022-7-19 17:43:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索