自然说话生成(NLG)包括机器翻译、纲要生成、机器对话等自然说话处理 (NLP)义务。这些义务虽然都要求生成通顺的文本,但是最终的表达宗旨往往有很大的区别。比如说,翻译义务需要完整、精确地表达原文的含义;纲要生成需要简洁、准确地体现原文最重要的信息;对话系统则需要与用户进行生动、有用的对答。
过去几年间,研讨人员在这些义务的建模方面,取得了很大的进步。然而,评估说话生成的结果,却依旧比较困难。野生评估最准确,但是非常昂贵耗时。自动评估则反过来,规模化比较容易,但在如何评估方面比较模糊。
传统上的评估方式是比较模型生成的文本与人写的参考文本,但近年的研讨表明,随着模型的进步,这样的方式已经越来越难以区分文本的好坏。事实上,在AAAI 2021会议上的DSTC9对话系统比赛中,野生评分已经不再考虑参考文本,而是依靠评分员综合对话历史、知识情景和模型回答,作出评判。
同时,实际应用中的部署,也要求对生成模型作出多维度的评估,而这些是传统的单一宗旨做不到的。比如,2021年百度主办的「千言:面向事实一致性的生成评测比赛」中,除了传统的信息选择宗旨外,还考察了事实性宗旨,并为之安排了独立的评估流程。之前提到的DSTC9比赛的各个分赛也分别考察了3-8个不同的维度宗旨。
为了解决如上所述的新需求,相关工作提出了各种各样的评估方式和新宗旨,但是这些方式往往是针对具体的义务和宗旨而安排。对于日新月异的各类义务,要评估什么?如何评估?目前还缺乏系统的指导。
在这个方向上,CMU(卡耐基梅隆大学)、Petuum Inc.、MBZUAI(穆罕默德·本·扎耶德野生智能大学)和UCSD(加州大学圣迭戈分校)的研讨团队提出了一个自然说话生成评估的理论框架,为未来各种新义务和新要求,安排评估流程时,都提供了更加分裂的指导。
首先,研讨人员根据信息从输入到输入的变化方式,把说话生成义务分为三大类,每类义务对输入提出不同的评估需求。通过给新义务归类,就可以对「评估什么」有所启发。
其次,他们用一种称为「信息对齐」的运算符分裂了所有义务类别的评估方式,从信息对齐的角度出发安排评估宗旨,可以解决大量的「如何评估」问题。
论文中基于信息对齐,分裂安排了一系列评估宗旨,在评估多种义务(纲要生成、风格变换和知识对话)中与人类评分的类似度最高超过现有宗旨57.30%。
论文中安排的评估宗旨已经上传到Python库,用pip install就可以直接安装。研讨人员在GitHub上也公开了代码,并提供了数种训练好的信息对齐模型,欢迎各位同学在研讨中调用。
论文链接:https://arxiv.org/pdf/2109.06379.pdf
代码和API链接:https://github.com/tanyuqian/ctc-gen-eval
Python 安装:pip install ctc_score
评估什么:说话生成义务的分类
根据义务输入(X)和输入(Y)文本中,信息量的关系,研讨者认为可以把说话生成义务分为三大类:紧缩、变换和建立,分别对应输入大于、等于和小于输入。每一类义务的宗旨都有区别,也对输入文本提出了各自的要求。我们可以通过对新义务对分类,对「评估什么」有所启发。
紧缩类义务(Compression)
宗旨:把输入信息中重要的部分,呈现在输入中
举例:纲要生成(Summarization)、图像描述(Image Captioning)、结构文本生成(Data-to-Text)和问题生成(Question Generation)
评估重点:1)输入信息要完全来自输入;2)输入信息应该是输入中的重要信息
变换类义务(Transduction)
宗旨:把输入信息中的某一方面变换,其他保持不变
举例:机器翻译(Translation)、文本复述(Paraphrasing)、文本风格迁移(Style Transfer)和文本简化(Language Simplification)
评估重点:输入要尽量完整地保留输入的信息
建立类义务(Creation)
宗旨:基于输入和外部信息,输入新的信息
举例:机器对话(Dialog)、建议生成(Advice Generation)、故事生成(Story Generation)和诗歌生成(Poetry Generation)
评估重点:1)输入要充分回应输入;2)输入要正确地使用外部信息
这里可以看到,评估的重点取决于义务中输入输入的信息量变化,因此,如果能够测量输入输入信息重合度,就可以评估所有类别的生成义务。
如何评估:信息对齐
为了测量如上所述的重合度,研讨者引入了「信息对齐」这个运算符,这样就分裂了所有生成义务的评估方式。
信息对齐是说,对于文字A和任何数据B,可以对于A的每个词都算出一个置信度,这个词的信息有没有在B中反映出来。具体的数学形式为如下所示的向量:
在实际中,这个数据B不一定要是文字,也可以是任何模态的数据,只要有一个模型(Alignment Model)能算出这个对齐的置信度。A、B、模型和对齐向量的关系如下图所示:
下面,研讨者展示了如何分裂地用信息对齐这个算符,来定义各种说话生成义务的评估宗旨。
用信息对齐分裂安排评估宗旨
紧缩类义务
对于紧缩类义务,研讨者以纲要生成作为一个例子:
变换类义务
对于变换类义务,研讨者以文本风格迁移为例:
建立类义务
对于建立类义务,研讨者以知识对话为例:
现在已经用信息对齐运算符定义了这么多评估宗旨,下一步来看这个运算符是怎样实现的。
信息对齐的三种实现方式
研讨者把信息对齐当作一个预测问题建模,提出了三种基于预训练模型(Pretrained Language Models)的实现方式,普遍采用自监督学习。模型准确度可以通过与野生标注比较来评估。
词向量召回(Embedding Matching)
判别模型(Discriminative Model)
回归模型(Aggregated Regression)
实验结果
实验结果表明,研讨者的分裂安排的评估宗旨,与野生评分的类似度,超过之前的针对义务特别安排的宗旨,最高超过现有宗旨57.30%。另外,研讨者发现,对齐模型预测准确度越好,他们的宗旨就越接近人的评估。
超过现有宗旨最多57.30%
对齐模型准确度与野生评分类似度有直接关系
研讨者的对齐模型普遍使用自监督学习,但使用野生标注训练可以有效提升准确度和以此实现的评估宗旨。与野生评分的类似度如下图所示:
这说明了:只要能够改善对齐预测模型,就能改善一大批评估宗旨。我们可以把对齐预测作为一个单独的义务,这个义务的进步直接提升评估说话生成的准确度。
这项工作开启了可组合(Composable)的文本评估流程。像软件工程一样,研讨者表示可以把这个系统分为若干模块,这些模块可以独立地改进、规模化、和诊断,未来期待有更多的探索。
封面来源:https://soa.cmu.edu/