为了给国内 NLP 社区的从业人员搭建一个自由轻松的学术交流平台,2022 年 5 月 21 日,机器之心举办了「ACL 2022 论文分享会」线上学术交流活动。
本次 ACL 论文分享设置了 Keynote、 论文分享、企业招聘等环节,就业内关注的 Transformer、大规模预训练模型等 NLP 热门主题邀请顶级专家、论文作者与观众做学术交流。
全程回放:https://jmq.xet.tech/s/2yGuAy
Keynote
在上午的 Keynote 环节,哈尔滨工业大学长聘教授、博士生导师秦兵以《大模型背景下可信自然语言理解》为主题进行了分享。
哈尔滨工业大学长聘教授、博士生导师秦兵。
当前,以 BERT、GPT 为代表的、数据驱动的大规模预训练自然语言理解模型已经在多个自然语言理解任务上取得了令人印象深刻的性能,成为自然语言理解的新范式。然而,当前大模型给出的自然语言处理结果在可信程度上还比较薄弱,主要体现在三个方面:模型的稳定性差、可解释性弱、泛化能力不足。
在本次演讲中,秦兵介绍了如何在大模型背景下进行可信自然语言理解的问题。首先,针对大模型稳定性差的问题,介绍因果机制引导的稳定自然语言理解方法;其次,针对大模型可解释性弱的问题,介绍基于神经符号的可解释自然语言理解方法。最后,针对大模型泛化性不足的问题,介绍面向低资源的可泛化大模型训练架构。
随后,加州大学圣巴巴拉分校计算机科学系助理教授李磊分享了《大规模多语言翻译:挑战与机遇》主题演讲。
加州大学圣巴巴拉分校计算机科学系助理教授李磊。
李磊认为,可翻译很多语言的大一统翻译模型已经成为最新热点。大一统多语言翻译模型具有翻译性能强、工程部署便利等好处,但要让一个模型在几十到上百种语言上都能翻译较好仍有很大挑战。
在本次演讲中,李磊介绍了大规模多语言翻译的几个核心挑战,包括大语种性能下降、参数冲突、数据高度不平衡等;同时,他也概述了解决这些挑战的方法,以及未来研究的机遇。
下午 Keynote 环节的嘉宾是复旦大学计算机学院教授邱锡鹏与西湖大学工学院文本智能实验室特聘研究员张岳。
复旦大学计算机学院教授邱锡鹏。
邱锡鹏教授的演讲主题是《迈向大规模高效自然语言处理》。近期超大规模预训练模型将很多 NLP 任务的准确率提升到了前所未有的高度,但是大模型的主要缺点是在参数、训练、推理、部署方面都存在效率问题。在本次演讲中,他主要关注模型效率,并介绍如何通过模型设计、早退、标签学习、统一模型、黑箱优化等维度来提升模型效率。
张岳的分享主题是《人在闭环的自然语言处》。随着深度学习的发展,自然语言处理取得显著进步,在许多标准测试集上接近或超越了人类的水平。然而,深度学习模型也展现出鲁棒性和逻辑推理等方面的局限。近期研究显示,这些局限的重要原因是模型没有学到关键特征,而是依赖伪特征进行判断。
西湖大学工学院文本智能实验室特聘研究员张岳。
为解决上述问题,张岳在本次演讲中介绍了两个人工介入干预的办法,提升关键特征把握。实验证明,对于情感分类问题,关键特征可以让模型通过 50 个样本达到 3000 个样本的训练效果。对于机器翻译问题,人工干预不仅可以大幅提升性能,还给翻译产品提供了一个新的可能模式。
论文分享
论文分享环节也分为上、下午两场。在上午的分享中,腾讯 QQ 浏览器搜索技术部高级工程师唐萌、阿里达摩院算法工程师魏相鹏、清华交叉信息研究院博士生周璟、香港中文大学计算机系博士生 / 腾讯 AI Lab 研究员王文轩以及清华大学博士生泰禹嘉分享了他们的最新成果。
唐萌的分享主题是「基于区分开关键词和意图词的文本语义匹配」,主要围绕他们的 ACL 2022 接收论文《Divide and Conquer: Text Semantic Matching with Disentangled Keywords and Intents》展开。在这项工作中,他们提出了一种简单而有效的文本语义匹配训练策略,采用分而治之的方法将关键词和意图词区分开来。他们的方法可以很容易地与预训练语言模型结合在一起,而不会影响它们的推理效率。
魏相鹏的分享主题是「基于连续语义增强的神经机器翻译」,主要围绕他们的 ACL 2022 接收论文《Learning to Generalize to More: Continuous Semantic Augmentation for Neural Machine Translation》展开,该论文也获得了今年 ACL 杰出论文奖。在这篇论文中,他们提出了一种新的数据增强范式连续语义增强(CSANMT),它为每个训练实例增加一个邻接语义区域,该语义区域可以覆盖足够的相同含义下的文字表达变体。
周璟的分享主题是「面向小样本学习的高效、鲁棒的数据增强」,主要围绕他们的 ACL 2022 接收论文《FlipDA: Effective and Robust Data Augmentation for Few-Shot Learning》展开。在这篇论文中,他们提出了一种用于小样本学习的数据增强方法——FlipDA,它联合使用生成模型和分类器来生成标签翻转数据。FlipDA 的核心思想是发现生成标签翻转的数据比生成 label-preserved 的数据对性能更重要。
王文轩的分享主题是「理解和改进针对机器翻译任务的序列到序列预训练」,主要围绕他们的 ACL 2022 接收论文《Understanding and Improving Sequence-to-Sequence Pretraining for Neural Machine Translation》展开。在这篇论文中,他们提出了一个能够更好地理解神经机器翻译 SOTA Seq2Seq 预训练的实质性措施。通过对三种语言对的精心设计实验,他们发现 Seq2Seq 预训练是一把双刃剑:一方面,它有助于 NMT 模型产生更多样化的翻译,减少与 和忠实度(adequacy) 相关的翻译错误。另一方面,Seq2Seq 预训练和 NMT 微调之间的差异限制了翻译质量(即 domain discrepancy),并导致了高估问题(即 objective discrepancy)。基于这些观察结果,他们进一步提出了简单而有效的策略——in-domain 预训练和输入适应,以弥补 domain discrepancy 和 objective discrepancy。
泰禹嘉的分享主题是「面向新数据的语言模型持续高效预训练」,主要围绕他们的 ACL 2022 接收论文《ELLE: Efficient Lifelong Pre-training for Emerging Data》展开。在这篇论文中,他们提出了 ELLE,旨在利用新出现的数据对模型进行有效的终身预训练。具体而言,ELLE 包括:(1) function preserved model expansion,灵活扩展现有 PLM 的宽度和深度,提高知识获取效率;(2)pretrained domain prompts ,将预训练过程中学习到的通用知识进行分解,激发出适合下游任务的知识。
在下午的分享中,小米人工智能实验室高级算法工程师李嫣然、字节跳动 AI Lab 研究员鲍宇、西安大略大学 / 矢量人工智能研究所博士生王馨頔、中科院自动化所模式识别国家重点实验室博士生林海涛、北京航空航天大学博士生王冰分享了他们的最新成果。
李嫣然的分享主题是「基于混合策略和常识图谱的情绪疏导对话」,主要围绕他们的 ACL 2022 接收论文《MISC: A Mixed Strategy-Aware Model integrating COMET for Emotional Support Conversation》展开。在这篇论文中,他们提出了一种新的情绪疏导对话模型——MISC,该模型首先推断用户的细粒度情绪状态,然后使用混合策略巧妙地做出反应。
鲍宇的分享主题是「一种基于隐变量建模的并行文本生成模型」,主要围绕他们的 ACL 2022 接收论文《latent-GLAT: Glancing at Latent Variables for Parallel Text Generation》展开。在这篇论文中,他们提出了一种名为 latent-GLAT 的模型,它利用离散隐变量来捕获词的分类信息,并调用一种高级课程学习技术,缓解了多模态问题。
王馨頔的分享主题是《知识增强的端到端生物医学文本标签》,主要围绕他们的 ACL 2022 接收论文《KenMeSH: Knowledge-enhanced End-to-end Biomedical Text Labelling》展开。在这篇论文中,他们提出了一个端到端生物医学文本标签模型 KenMeSH,它结合了新的文本特性和一个动态的知识增强的掩蔽注意力,后者集成了文档特性、MeSH 标签层次结构和期刊相关特性来索引 MeSH 术语。
林海涛的分享主题是「基于角色交互的面向角色的对话摘要方法」,主要围绕他们的 ACL 2022 接收论文《Other Roles Matter! Enhancing Role-Oriented Dialogue Summarization via Role Interactions》展开。在这篇论文中,他们提出了一种新的角色交互增强方法,用于面向角色的对话摘要。它采用交叉注意力和解码器自注意力交互,交互获取其他角色的关键信息,这对提高摘要质量非常关键。
王冰的分享主题是「Text-to-SQL 模型对真实对抗性表格扰动的鲁棒性研究」,主要围绕他们的 ACL 2022 接收论文《Towards Robustness of Text-to-SQL Models Against Natural and Realistic Adversarial Table Perturbation》展开。在这篇论文中,他们提出用 Adversarial Table Perturbation (ATP) 作为一种新的攻击范式来衡量 Text-to-SQL 模型的鲁棒性。基于这一想法,他们策划了 ADVETA,这是第一个具有自然和真实 ATPs 的鲁棒性评估基准。
除了嘉宾 Keynote 和论文分享之外,本次 ACL 论文分享会还设置了两场企业招聘宣讲,包括百亿量化对冲基金佳期投资和深耕算法交易垂直领域的卡方科技,前者提供了量化策略研究员、深度学习研究员、高性能计算工程师、技术项目经理、执行交易员等职位,后者提供了初级量化分析师、量化实习生、强化学习专家等职位。感兴趣的同学可以点开以下文章了解详情:
佳期投资春季社招火热进行中!
招聘|实战 AI 量化,卡方科技邀你入局「算法交易」
最后预告一下,机器之心举办的下一场分享会——CVPR 2022 线上论文分享会将于 2022 年 6 月 18 日 9:00-17:00 在线上举办,上下午各设置 2 场 keynote 报告、5 篇论文分享,并将在机动组视频号直播,欢迎大家关注预约。
作为一场开放的学术交流活动,欢迎 CVPR 2022 的论文作者们作为嘉宾参与论文分享。
点击阅读原文,提交个人与论文信息,我们将与你联系沟通相关事宜。