在 ACL 2021 的一篇杰出论文中,钻研者提出了一种基于单语数据的模型,机能却优于应用双语 TM 的「TM-augmented NMT」基线方式。
自然语言处理(NLP)领域顶级会议 ACL 2021 于 8 月 2 日至 5 日在线上举行。据官方数据, 本届 ACL 共收到 3350 篇论文投稿,其中主会论文录用率为 21.3%。腾讯 AI Lab 共入选 25 篇论文(含 9 篇 findings)。
在不久之前公布的获奖论文中,腾讯 AI Lab 与香港中文大学合作完成的《Neural Machine Translation with Monolingual Translation Memory》得到杰出论文。本文作者也受邀参与机器之心举办的 ACL 2021 论文分享会,感兴趣的同学可以点击阅读原文查看回顾视频。
下面我们来看一下这篇论文的具体内容。
论文地址:https://arxiv.org/abs/2105.11269
先前的一些工作已经证明翻译影象库(TM)可以提高神经机器翻译 (NMT) 的机能。与应用双语语料库作为 TM 并采用源端相似性搜索进行影象检索的现有工作相比,该钻研提出了一种新框架,该框架应用单语影象并以跨语言方式执行可学习的影象检索。该框架具有一些独特的优势:
首先,跨语言影象检索器允许大量的单语数据作为 TM;
其次,影象检索器和 NMT 模型可以联合优化以达到最终的翻译方针。
实验表明,该钻研提出的方式得到了实质性的改进。值得注意的是,即使不应用额外单语数据,这种方式也要优于应用双语TM的 「TM-augmented NMT」基线方式。由于能够利用单语数据,该钻研还证明了所提模型在低资源和领域适应场景中的有效性。
方式
该钻研首先将翻译任务转化为两步过程:检索和生成,并在论文中描述了跨语言影象检索模型和影象增强型(memory-augmented)翻译模型的模型设计。最后,该论文展示了如何应用标准最大似然训练联合优化这两个组件,并通过穿插对齐预训练解决了冷启动(cold-start)问题。
该方式的整体框架如图 1 所示,其中 TM 是方针语言中句子的集合。给定源语言中的输入 x,检索模型首先会根据相关函数,选择一些来自 Z 的可能有用的句子,其中。然后,翻译模型以检索到的集合和原始输入 x 为条件,应用概率模型来生成输出 y。
值得注意的是,相关性分数也是翻译模型输入的一部分,它能够鼓励翻译模型更多地关注更相关的句子。在训练期间,该钻研借助翻译参考的最大似然改进了翻译模型和检索模型。
检索模型
检索模型负责从大型单语 TM 中为源语句选出最相关的语句。这可能涉及测量源语句和数百万个候选方针语句之间的相关性分数,带来了严重的计算挑战。为了解决这个问题,该钻研应用一个简单的双编码器框架(Bromley 等, 1993)来实现检索模型,这样最相关句子选择可以利用最大内积搜索实现(MIPS, Maximum Inner Product Search)。借助高机能数据结构和搜索算法(例如 Shrivastava 和 Li,2014;Malkov 和 Yashunin,2018),可以高效地进行检索。具体来说,该钻研将源语句 x 和候选语句 z 之间的相关性分数 f(x, z) 定义为它们的密集向量表征的点积:
翻译模型
给定一个源语句 x、相关 TM 的小型集合、相关性分数,翻译模型会定义一个如下形式的条件概率
该翻译模型建立在标准的编码器 – 解码器 NMT 模型上:(源)编码器将源语句 x 转换为密集向量表征,解码器以自回归方式生成输出序列 y。在每一个时间步(time step)t,解码器都会处理先前生成的序列和源编码器的输出,生成隐藏状态 h_t。然后隐藏状态 h_t 通过线性投影转换为 next-token 概率,接着会有一个 softmax 函数操作,即
为了容纳额外的影象输入,该钻研应用影象编码器扩展了标准的编码器 – 解码器 NMT 框架,并允许应用从解码器到影象编码器的穿插注意力机制。具体来说,影象编码器对每个 TM 语句 z_i 单独进行编码,从而产生一组上下文 token 嵌入,其中 L_i 是 token 序列 z_i 的长度。钻研者计算了一起 TM 语句的穿插注意力:
为了使从翻译输出到检索模型的梯度流有效,该钻研将注意力分数与相关性分数进行了偏置处理,重写了等式(1)如下所示:
训练
该钻研在负对数似然损失函数中应用随机梯度下降来优化模型参数 θ 和 φ,其中指参考翻译。
然而,如果检索模型从随机初始化开始,那么一起 top TM 语句 z_i 可能都与 x 无关(或无用)。这导致检索模型无法接收有意义的梯度并进行改进,翻译模型将学会完全忽略 TM 输入。为了避免这种冷启动问题,该钻研提出了两个穿插对齐任务来热启动检索模型。
第一个任务是句子级的穿插对齐。具体来说,该钻研在每个训练 step 上对训练语料库采样 B 个源 – 方针对。设 X 和 Z 分别对应由 E_src 和 E_tgt 编码的源向量和方针向量的 (B×d) 矩阵。是一个相关性分数的 (B×B) 矩阵 ,其中每一行对应一个源语句,每列对应一个方针语句。当 i = j 时,任何对都应该对齐。方针是最大化矩阵对角线上的分数,然后减小矩阵中其他元素的值。损失函数可以写成:
第二个任务是 token 级穿插对齐,其目的是在给定源语句表征的情况下预测方针语言中的 token,反之亦然。该钻研应用词袋损失:
其中表示第 i 个源(方针)语句中的 token 集,token 概率由线性投影和 softmax 函数计算。
实验结果
该钻研在三种设置下进行了实验:
(1)可用的 TM 仅限于双语训练语料库的常规设置;
(2)双语训练对很少,但用单语数据作为额外 TM 的低资源设置;
(3)基于单语 TM 的非参数域自适应设置。
常规设置
为了钻研每个模型组件的效果,钻研人员实现了一系列的模型变体(如表 2 中的 #1 – #5):
如上表 2 所示,可以观察到:
(1)该钻研应用异步索引刷新训练的完整模型(模型 #5),在四个翻译任务的测试集上得到了最佳机能,比 non-TM 基线(模型 #1)平均高出 3.26 个 BLEU 点,最高可达 3.86 个 BLEU 点( De⇒En)。这一结果证实了单语 TM 可以提高 NMT 的机能。
(2)端到端学习检索器模型是大幅提高机能的关键,应用预训练的固定跨语言检索器只能提供中等的测试机能,微调 E_src 和固定 E_tgt 显著提高了机能,同时微调 E_src 和 E_tgt 则能得到最强的机能(模型 #5 > 模型 # 4 > 模型 #3)。
(3)跨语言检索(模型 #4 和模型 #5)可以得到比源相似性搜索(模型 #2)更好的结果。
低资源设置
图 2 为在测试集上的主要结果,一起实验的一般模式都是一致的,由结果可得:TM 越大,模型的翻译机能越好。当应用一起可用的单语数据 (4/4) 时,翻译质量显著提高。未经重新训练的模型的机能与经过重新训练的模型的机能相当,甚至更好。此外,该钻研还观察到,当训练对非常少时(只有 1/4 的双语对可用),小型 TM 甚至会影响模型的机能,这可能是出于过拟合的原因。该钻研推测,根据不同的 TM 大小调整模型超参数将得到更好的结果。
该钻研还与反向翻译 (BT)进行了比较,这是一种将单语数据用于 NMT 的流行方式。该钻研应用双语对训练方针到源的 Transformer Base 模型,并应用得到的模型翻译单语语句以得到额外的合成并行数据。如表 3 所示,该钻研所用方式在 2/4 双语对上比 BT 表现得更好,但在 1/4 双语对上表现较差。 最令人惊喜的是,结果表明两种方式是互补的,他们的结合使翻译机能取得了进一步的巨大提升。
非参数领域自适应
由下表 4 可得,当仅应用双语数据时,与 non-TM 基线相比,TM 增强模型在数据较少的域中得到更高的 BLEU 分数,但在其他域中的分数略低。然而,当钻研者将 TM 切换到特定域的 TM 时,一起域的翻译质量都得到了显著提升,将 non-TM 基线平均提高了 1.85 个 BLEU 点,在 Law 上提高了 2.57 个 BLEU 点,在 Medical 上提高了 2.51 个 BLEU 点。
该钻研还尝试将一起特定领域的 TM 合并成一个 TM,并将其用于一起域(如表 4 最后一行所示),但实验结果并没有得到明显的改进。这表明域外数据不能提供帮助,因此较小的域内 TM 就足够了。
运行速度
FAISS in-GPU 索引能够让搜索数百万个向量变得非常高效(通常在几十毫秒内完成)。在该钻研中,影象搜索的执行速度甚至比原生的 BM25 还要快。对于表 2 中的结果,以普通的 Transformer Base 模型(模型 #1)为基线模型,该钻研模型(包括模型 #4 和模型 #5)的推断延迟大约是基线的 1.36 倍(一起模型都应用一个 Nvidia V100 GPU)。
至于训练成本,模型 #4 和模型 #5 每个训练 step 的平均时间成本分别是基线的 2.62 倍和 2.76 倍,与传统的 TM-augmented 基线相当(模型 #2 是 2.59 倍)( 全部应用两个 Nvidia V100 GPU),实验结果如下表 5 所示。此外,该钻研还观察到,就训练 step 而言,影象增强型模型的收敛速度比普通模型快得多。