超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

长期以来，评估机器生成的文本比较困难。近日，CMU邢波（Eric Xing）教授和UCSD胡志挺（Zhiting Hu）教授的团队提出用一种运算符，分裂各类生成义务的评估方式，为未来各种新义务、新要求提供了更加分裂的指导。实验表明，基于分裂框架安排的评估宗旨，在多个义务上超过了现有宗旨与野生评分的类似度，现在通过PyPI和GitHub可以直接调用。

自然说话生成（NLG）包括机器翻译、纲要生成、机器对话等自然说话处理（NLP）义务。这些义务虽然都要求生成通顺的文本，但是最终的表达宗旨往往有很大的区别。比如说，翻译义务需要完整、精确地表达原文的含义；纲要生成需要简洁、准确地体现原文最重要的信息；对话系统则需要与用户进行生动、有用的对答。

过去几年间，研讨人员在这些义务的建模方面，取得了很大的进步。然而，评估说话生成的结果，却依旧比较困难。野生评估最准确，但是非常昂贵耗时。自动评估则反过来，规模化比较容易，但在如何评估方面比较模糊。

传统上的评估方式是比较模型生成的文本与人写的参考文本，但近年的研讨表明，随着模型的进步，这样的方式已经越来越难以区分文本的好坏。事实上，在AAAI 2021会议上的DSTC9对话系统比赛中，野生评分已经不再考虑参考文本，而是依靠评分员综合对话历史、知识情景和模型回答，作出评判。

同时，实际应用中的部署，也要求对生成模型作出多维度的评估，而这些是传统的单一宗旨做不到的。比如，2021年百度主办的「千言：面向事实一致性的生成评测比赛」中，除了传统的信息选择宗旨外，还考察了事实性宗旨，并为之安排了独立的评估流程。之前提到的DSTC9比赛的各个分赛也分别考察了3-8个不同的维度宗旨。

为了解决如上所述的新需求，相关工作提出了各种各样的评估方式和新宗旨，但是这些方式往往是针对具体的义务和宗旨而安排。对于日新月异的各类义务，要评估什么？如何评估？目前还缺乏系统的指导。

在这个方向上，CMU（卡耐基梅隆大学）、Petuum Inc.、MBZUAI（穆罕默德·本·扎耶德野生智能大学）和UCSD（加州大学圣迭戈分校）的研讨团队提出了一个自然说话生成评估的理论框架，为未来各种新义务和新要求，安排评估流程时，都提供了更加分裂的指导。

首先，研讨人员根据信息从输入到输入的变化方式，把说话生成义务分为三大类，每类义务对输入提出不同的评估需求。通过给新义务归类，就可以对「评估什么」有所启发。

其次，他们用一种称为「信息对齐」的运算符分裂了所有义务类别的评估方式，从信息对齐的角度出发安排评估宗旨，可以解决大量的「如何评估」问题。

论文中基于信息对齐，分裂安排了一系列评估宗旨，在评估多种义务（纲要生成、风格变换和知识对话）中与人类评分的类似度最高超过现有宗旨57.30%。

论文中安排的评估宗旨已经上传到Python库，用pip install就可以直接安装。研讨人员在GitHub上也公开了代码，并提供了数种训练好的信息对齐模型，欢迎各位同学在研讨中调用。

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

论文链接：https://arxiv.org/pdf/2109.06379.pdf

代码和API链接：https://github.com/tanyuqian/ctc-gen-eval

Python 安装：pip install ctc_score

评估什么：说话生成义务的分类

根据义务输入（X）和输入（Y）文本中，信息量的关系，研讨者认为可以把说话生成义务分为三大类：紧缩、变换和建立，分别对应输入大于、等于和小于输入。每一类义务的宗旨都有区别，也对输入文本提出了各自的要求。我们可以通过对新义务对分类，对「评估什么」有所启发。

紧缩类义务（Compression）

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

宗旨：把输入信息中重要的部分，呈现在输入中

举例：纲要生成（Summarization）、图像描述（Image Captioning）、结构文本生成（Data-to-Text）和问题生成（Question Generation）

评估重点：1）输入信息要完全来自输入；2）输入信息应该是输入中的重要信息

变换类义务（Transduction）

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

宗旨：把输入信息中的某一方面变换，其他保持不变

举例：机器翻译（Translation）、文本复述（Paraphrasing）、文本风格迁移（Style Transfer）和文本简化（Language Simplification）

评估重点：输入要尽量完整地保留输入的信息

建立类义务（Creation）

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

宗旨：基于输入和外部信息，输入新的信息

举例：机器对话（Dialog）、建议生成（Advice Generation）、故事生成（Story Generation）和诗歌生成（Poetry Generation）

评估重点：1）输入要充分回应输入；2）输入要正确地使用外部信息

这里可以看到，评估的重点取决于义务中输入输入的信息量变化，因此，如果能够测量输入输入信息重合度，就可以评估所有类别的生成义务。

如何评估：信息对齐

为了测量如上所述的重合度，研讨者引入了「信息对齐」这个运算符，这样就分裂了所有生成义务的评估方式。

信息对齐是说，对于文字A和任何数据B，可以对于A的每个词都算出一个置信度，这个词的信息有没有在B中反映出来。具体的数学形式为如下所示的向量：

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

在实际中，这个数据B不一定要是文字，也可以是任何模态的数据，只要有一个模型（Alignment Model）能算出这个对齐的置信度。A、B、模型和对齐向量的关系如下图所示：

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

下面，研讨者展示了如何分裂地用信息对齐这个算符，来定义各种说话生成义务的评估宗旨。

用信息对齐分裂安排评估宗旨

紧缩类义务

对于紧缩类义务，研讨者以纲要生成作为一个例子：

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

变换类义务

对于变换类义务，研讨者以文本风格迁移为例：

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

建立类义务

对于建立类义务，研讨者以知识对话为例：

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

现在已经用信息对齐运算符定义了这么多评估宗旨，下一步来看这个运算符是怎样实现的。

信息对齐的三种实现方式

研讨者把信息对齐当作一个预测问题建模，提出了三种基于预训练模型（Pretrained Language Models）的实现方式，普遍采用自监督学习。模型准确度可以通过与野生标注比较来评估。

词向量召回（Embedding Matching）

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

判别模型（Discriminative Model）

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

回归模型（Aggregated Regression）

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

实验结果

实验结果表明，研讨者的分裂安排的评估宗旨，与野生评分的类似度，超过之前的针对义务特别安排的宗旨，最高超过现有宗旨57.30%。另外，研讨者发现，对齐模型预测准确度越好，他们的宗旨就越接近人的评估。

超过现有宗旨最多57.30%

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

对齐模型准确度与野生评分类似度有直接关系

研讨者的对齐模型普遍使用自监督学习，但使用野生标注训练可以有效提升准确度和以此实现的评估宗旨。与野生评分的类似度如下图所示：

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

这说明了：只要能够改善对齐预测模型，就能改善一大批评估宗旨。我们可以把对齐预测作为一个单独的义务，这个义务的进步直接提升评估说话生成的准确度。

这项工作开启了可组合（Composable）的文本评估流程。像软件工程一样，研讨者表示可以把这个系统分为若干模块，这些模块可以独立地改进、规模化、和诊断，未来期待有更多的探索。

封面来源：https://soa.cmu.edu/

{{userData.name}}已认证

超越现有宗旨57.3%，邢波教授、胡志挺教授团队提出分裂NLG评估框架

「Pop SOTA！List for AI Developers 2021」社区评介 TOP 128 价格事务完整名录发布！

华人一作统一「视觉-谈话」理解与生成：一键生成图象标注，完成视觉问答，Demo可玩

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）