NLP 泛化钻研的分类与综述

编辑 | 白菜叶精良的泛化才能是自然语言处理(NLP)模型的主要需求之一,但「精良的泛化」意味着什么以及如何评价它还没有得到很好的明白。FAIR、阿姆斯特丹大学(University of Amsterdam)、爱丁堡大学(University of Edinburgh)的钻研职员提出了一种用于表征和明白 NLP 泛化钻研的分类法。该分类法基于宽泛的文献综述,包含五个轴,泛化钻研可能沿这些轴有所差别:他们的主要动机、他们想要解决的泛化类别、他们思考的数据变化类别、数据变化的来源以及 NLP 建模流程中变化的轨迹。该

NLP 泛化钻研的分类与综述

编辑 | 白菜叶

精良的泛化才能是自然语言处理(NLP)模型的主要需求之一,但「精良的泛化」意味着什么以及如何评价它还没有得到很好的明白。

FAIR、阿姆斯特丹大学(University of Amsterdam)、爱丁堡大学(University of Edinburgh)的钻研职员提出了一种用于表征和明白 NLP 泛化钻研的分类法。

该分类法基于宽泛的文献综述,包含五个轴,泛化钻研可能沿这些轴有所差别:他们的主要动机、他们想要解决的泛化类别、他们思考的数据变化类别、数据变化的来源以及 NLP 建模流程中变化的轨迹。

该团队应用分类法对 700 多个尝试从事分类,并应用结果从事深入分析,描绘出 NLP 泛化钻研的现状,并就未来值得关注的范畴提出恳求。

该钻研以「A taxonomy and review of generalization research in NLP」为题,于 2023 年 10 月 19 日发布在《Nature Machine Intelligence》。

NLP 泛化钻研的分类与综述

精良的泛化才能,大致定义为将表征、知识和策略从过去的经验成功变化到新经验的才能,是自然语言处理(NLP)模型以及更宽泛的机器学习范畴的模型的主要需求之一。对于某些人来说,泛化对于确保模型在对差别于训练数据的数据从事预测时表现稳健、可靠和公平至关重要,这在模型在现实世界中应用时至关重要。其他人认为精良的泛化本质上等同于精良的性能,并认为如果没有它,模型就无法真正执行钻研职员想要执行的任务。还有一些人则致力于精良的泛化,因为他们认为模型该当以类似于人类的方式行事,而众所周知,人类具有精良的泛化才能。尽管泛化的重要性几乎是无可争议的,但系统的泛化尝试并不是 NLP 范畴的现状。

这个课题的根源在于,对于什么是好的泛化、存在哪些类别的泛化、该当如何评价这些泛化以及在差别的场景中该当优先思考哪些类别,人们几乎没有明白和共识。从广义上讲,泛化是通过评价模型在尝试数据集上的表现来评价的,思考到该数据集与模型训练数据的关系。

几十年来,通常只对这种关系施加一个简单的约束:训练数据和尝试数据差别。通常,这是通过将可用数据随机划分为训练和尝试分区来实现的。因此,通过在差别但相似的采样数据上训练和尝试模型来评价泛化才能,假设这些数据是独立且同分布(i.i.d.)的。在过去的 20 年里,人们在一系列差别的应用中看到了这种随机训练-尝试肢解的巨大进步。

然而,随着这一进展,人们认识到,对于 NLP 模型来说,在 i.i.d. 上达到非常高的或人类水平的分数。尝试集并不意味着该模型可以稳健地推广到各种差别的场景。人们目睹了一系列差别的钻研指出神经模型的泛化失败,这些模型在随机训练-尝试肢解上取得了最先进的分数。

一些钻研表明,当模型在 i.i.d. 尝试肢解上表现精良时,它们可能依赖于简单的启发式方法,而这些启发式方法不能在宽泛的非 i.i.d. 场景中稳健地泛化,过度依赖刻板印象,或者依赖于记忆而不是泛化。

相反,另一些则展示了当评价数据在流派、范畴或主题方面与训练数据差别,或者当它们代表差别的子群体时,表现会下降的情况。然而其他钻研的重点是模型无法从成分、结构、更长的序列或同一课题的略有差别的表述中从事概括。

通过证明传统训练-尝试肢解的精良性能并不等于精良的泛化才能,这些例子引发了人们对最近的突破实际上反映了什么样的模型才能的质疑,他们认为,NLP 模型评价的钻研正在赶上架构和训练机制方面的快速进展。这项工作还表明,对于哪种泛化对于 NLP 模型很重要以及该当如何钻研,尚未达成真正的共识。

差别的钻研涵盖宽泛的与泛化相关的钻研课题,并应用宽泛的差别方法和尝试设置。到目前为止,尚不清楚差别钻研的结果如何相互关联,这就提出了一个课题:如果没有 i.i.d. 分裂,该当如何评价泛化?我们如何确定哪些类别的泛化已经得到很好的解决,哪些类别被忽略,或者哪些类别的泛化该当优先思考?最终,在元层面上,如果没有系统的方法来讨论 NLP 中的泛化,我们如何才能为这些重要课题提供答案?这些缺失的答案阻碍了更好的模型评价和模型开发——如果无法衡量,就无法改进。

在一项名为 GenBench 的计划中,FAIR、阿姆斯特丹大学以及爱丁堡大学的钻研团队引入了一个新的框架来系统化和明白泛化钻研,试图为上述课题提供答案。

NLP 泛化钻研的分类与综述

图示:所提出的 NLP 泛化分类法的图形表示。(来源:论文)

他们提出了一个系统化和明白泛化钻研的框架。该框架的核心包括泛化分类法,可用于表征五个维度的泛化钻研。该分类法是基于对 NLP 泛化论文的宽泛回顾而设计的,可用于批判性地分析现有的泛化钻研以及构建新的钻研。

分类法的五个标称轴描述了执行钻研的原因(钻研的主要动机)、钻研打算评价的内容(旨在解决的概括类别)以及如何从事评价(思考的数据偏移类别、数据偏移的来源以及钻研偏移的位置)。

为了说明该分类法的用途和有效性,钻研职员分析了 ACL 选集中有关泛化的 543 篇论文。通过宽泛分析,钻研职员证明了该分类法适用于宽泛的泛化钻研,并能够提供该范畴的全面地图,观察整体模式并为未来应优先思考的范畴提出恳求。得出的结论和恳求如下:

1、钻研的目标并不总是与其尝试设计完全一致。该团队恳求未来的工作该当更加明确动机,并应纳入深思熟虑的评价,以确保尝试设置与钻研目标相匹配(例如,应用 GenBench 评价卡)。

2、出于公平和包容性目标而从事的跨语言钻研和泛化钻研代表性不足。该团队恳求,在今后的工作中,要对这些方面给予更多的重视。

3、针对类似泛化课题的论文在应用的评价设置类别上差异很大。该范畴将受益于更多的元钻研,这些钻研思考差别尝试范式的尝试结果如何相互比较。

4、绝大多数泛化钻研仅关注建模流程的一个阶段。需要做更多的工作来思考训练所有阶段的泛化,以优先思考泛化行为在整个训练过程中持续存在的模型。

5、最近流行的 NLP 模型可以直接尝试其从预训练到尝试的泛化才能,通常在不思考(预)训练和尝试数据之间的关系的情况下从事评价。该团队恳求对此从事改进,并且可以从人类参与者尝试中如何评价泛化性中获得启发,其中无法控制和访问参与者的「预训练」数据。

除此之外,钻研职员还推出了一个网站,其中包含(1)一套可视化对象来进一步探索他们的结果;(2) 一个搜索对象,允许钻研职员查找具有特定特征的钻研;(3) 贡献页面,允许钻研职员注册新的泛化钻研;(4)生成GenBench评价卡的对象,作者可以在文章中应用该对象来全面总结他们的泛化尝试。

尽管该分析中提出的评论和结论必然是静态的,但钻研职员承诺在发表有关泛化的新论文时保持网站上的条目最新,并且他们鼓励钻研职员通过提交新钻研来参与在线动态审查。通过提供一个系统框架和一个对象集,可以对泛化从事结构化明白,该团队已经迈出了必要的第一步,使最先进的泛化尝试成为 NLP 的新现状。

在线网站:https://genbench.org

论文链接:https://www.nature.com/articles/s42256-023-00729-y 

给TA打赏
共{{data.count}}人
人已打赏
理论

仅根据卵白质序列便可展望相互作用界面,一种鉴于Transformer的卵白展望模型

2023-11-8 14:43:00

理论

谷歌科学家 Nature 评论:人工智能如何更好地理解大脑

2023-11-9 17:03:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索