近日,人工智能国际联合会议IJCAI2020受疫情影响延期后,顺利在线上举行。IJCAI(International Joint Conference on Artificial Intelligence)始于1969年,现为每年一次,学术水平和影响力极高,受到全球学术界和产业界高度关注。据知,IJCAI2020是史上最难的一届,论文接受率12.6%创历史最低;其中,baidu不仅贡献多篇优质论文,涵盖众多前沿领域,更有线上展台技术讲座,分享交流最新的学术突破。值得一提的是,baidu研究院量子估计研究所所长段润尧还在会上发表了以量子估计为主题的精彩演讲。baidu所取得的AI技术突破和创新将助力人机交互、对话智能、智慧医疗、智慧零售、搜寻告白等场景的落地应用,推动全球人工智能不断进步和发展,同时谱写属于中国的“AI乐章”。
以下为baiduIJCAI2020之行的亮点总结。
1、鉴于事件图谱的通顺开放域多轮对话内容规划
Enhancing Dialog Coherence with Event Graph Grounded Content Planning
论文链接:https://www.ijcai.org/Proceedings/2020/545
如何生成信息丰富、连贯且可持续的开放域对话是一项非常困难的任务。以往鉴于知识的对话生成的研究工作侧重于提高对话的信息丰富度,而对多轮对话的连贯性关注较少。为了增强多轮对话的连贯性,baidu提出利用叙事事件链来帮助确定多轮对话的框架/主干。具体而言,首先从叙事文本中提取事件链,并将它们连接成一个图,称之为事件图。然后,提出一种鉴于事件图的强化进修框架用于连贯的多轮对话生成。它通过进修遍历事件图来进行宏观回覆内容(简单地说是事件)规划,然后根据规划的内容生成回覆句。特别地,baidu设计了一种新颖的多策略计划机制,以促进多轮连贯的对话生成。实验结果表明,该框架可以有效提升多轮对话连贯性和信息丰富度。
2、ERNIE-GEN:一种增强的多流自然语言生成预训练和精调框架
ERNIE-GEN: An Enhanced Multi-Flow Pre-training and Fine-tuning Framework for Natural Language Generation
论文链接:https://www.ijcai.org/Proceedings/2020/553
2020年1月,baidu发布鉴于多流机制生成完整语言片段的 ERNIE-GEN 语言生成预训练技术。与传统 “encoder-decoder”生成框架采用逐字符生成不同,ERNIE-GEN 率先引入了 Span-by-Span 生成方式,可以在预测中一次生成完整的实体等语义片段,并通过创新的 Multi-flow Attention 机制进行多流联合进修。同时,针对传统序列生成中面临的曝光偏差课题,ERNIE-GEN 提出了 in-filling 填充式生成和噪音感知机制,以减少训练过程和解码生成的差异,提高了下游应用任务的生成效果。ERNIE-GEN 在较小训练数据规模下,在摘要生成(Gigaword、CNN/Daily Mail)、课题生成(SQuAD 1.1)、对话生成(Persona-Chat)、生成式问答(CoQA)等英文权威任务集合超越 Google、Facebook、微软等取得 SOTA。
3、鉴于图卷积网络和双向注意力机制的电子病历自动诊断算法
The Graph-based Mutual Attentive Network for Automatic Diagnosis
论文链接:https://www.ijcai.org/Proceedings/2020/469
鉴于电子病历(EMR)的自动诊断技术是近几年非常热门的自然语言处理研究方向之一。然而,传统的自动诊断算法大多采用时序模型,忽略掉了病历当中的实体之间所包含的非常重要的图结构信息。为此,baidu利用大规模高质量真实病历挖掘出了一个由医学实体节点和疾病节点所构成的医疗图谱,并在这个图谱基础之上利用图卷积神经网络(GCN)来建模病历当中的图结构信息。除此之外,还通过一个双向的注意力机制模拟医生看病的流程,按序分别强化了病历实体和文本当中的重要信息,提升了模型的准确率和可解释性。该模型已被应用至中国超过百家基层医疗机构的信息系统中,以提升医生看病的效率和降低漏诊和误诊的概率。
4、从知其然到知其所以然:用户计划画像助力到店行为的可解释推断
Why We Go Where We Go: Profiling User Decisions on Choosing POIs
论文链接:https://www.ijcai.org/Proceedings/2020/478
兴趣点(Point-of-Interest, POI)推荐一直是学术界和工业界的研究热点,但在理解用户到店计划的背后原因方面,取得的进展十分有限。针对该课题,baidu提出一种用户计划画像步骤ProUD,用于识别用户在选择要到访的POI时背后的关键驱动因素。在此基础上,将用户计划用集合表征的方式进行建模,通过最大化所有关联计划因素在关键因素表征向量上的标量投影和,从而在有效保留了完整计划结构信息的同时,达到识别关键计划因素的目的。实验结果证实ProUD在推断用户到店任务上显著优于传统步骤。同时,案例分析也表明了识别到的关键因素能够帮助提升推断结果的可解释性。
5、利用内部记忆力机制来辅助无监督场景迁移
Unsupervised Scene Adaptation with Memory Regularization in vivo
论文链接:https://www.ijcai.org/Proceedings/2020/0150
实际场景中有很多source domain的数据(比如游戏生成的模拟数据)有着标签,但是拿去实际场景预测,往往模型由于domain gap表现得不好。Domain Gap是多方面的,有因为不同天气、不同城市、不同光照等等影响。所以大多数domain adaptation 步骤研究的是如何尽可能挖掘常识,采用了很多特征对齐的步骤,但是忽略了本身域内部的信息。本文中,baidu提出一个即插即用的memory regularization 正则项来让模型学intra-domain knowledge,在三个benchmark上都有了明显提升。
6、样例指导的神经对话生成
Exemplar Guided Neural Dialogue Generation
论文链接:https://www.ijcai.org/Proceedings/2020/498
人类往往可以从过往的经验中受益,类似地,在对话生成任务中,训练集中的样例信息也能够帮助模型生成更有意义的对话回覆。然而,如何有效地挖掘并利用此类样例信息仍是一个亟待解决的课题。有效的对话样例不仅要求其在字面上与当前给定的输入上文相似,而且应该在内容主题上也与给定的对话保持一致。训练集中存在的噪声样例不仅妨碍模型正确地理解上下文,也会误导对话回覆的生成。baidu提出一种样例指导的对话模型以更为有效地挖掘和利用训练集中隐含的样例信息。其中,对话样例经由两阶段的检索过程得到,以保证其在文本语义和对话主题这两方面均具有较高的相关性。为了使得对话生成模型更加有效地利用检索到的样例信息,baidu进一步提出了一种多源采样的回覆解码策略以充分融合所给定的样例信息。实验结果表明,该文步骤在对话回覆质量上相较以往模型有显著提升。
7、一种求解线性高维contextual bandits课题的高效鲁棒算法
Efficient and Robust High-Dimensional Linear Contextual Bandits
论文链接:https://www.ijcai.org/Proceedings/2020/588
Linear contextual bandits是一个经典的强化进修序列计划课题,其中agent不断在K个action中选择一个,和环境交互,并得到环境给与的奖励,这里假设奖励和状态向量之间是个线性的关系。该课题的目标是优化一段固定的时间周期之内的累积收益,这种建模步骤在个性化推荐和估计告白中都有非常广泛的应用。由于大型的数据集越来越普遍,baidu主要研究高维情形下的linear contextual bandits课题。当前已有的研究工作主要是使用matrix sketching的方式来加速课题求解,但是这样会在regret bound估计中带来额外的新的误差项。baidu提出一种新颖的鉴于高频谱补偿的matrix sketching步骤,并鉴于此步骤来近似bandits课题中的协方差矩阵来加速最终课题的求解。该步骤在每一轮估计中只需要O(md)的空间和更新时间,其中d是数据的维数,而m是sketching的大小。理论分析发现,在高维的情形下,我们的步骤比之前的步骤有更好的regret bound估计,我们的数值实验也印证了这一结论。
8、一种保持外貌特征的人像姿势编辑与生成模型
Generating Person Images with Appearance-aware Pose Stylizer
论文地址:https://www.ijcai.org/Proceedings/2020/87
在大规模图文内容生成任务中,市场需要机器进修算法和模型扮演一种媒体智能(Media Intelligence) 角色。在许多生成课题上,由于各种原因限制用户需求,需要将给定的人像变换一种形体姿势作为展示,并且保持人物形象、外貌特征、和穿着不变。baidu研究了在给定人物肖像图片、原始姿势标签、以及目标姿势标签的情况下,根据目标姿势标签,生成人像的深度进修模型。该模型拥有两个部分 (a)Appearance Encoder: 能够将人物肖像根据其姿势标签进行面向体貌、穿着的特征编码,以及 (b)Appearance-aware Pose Stylizer (APS): 能够将体貌、穿着特征重新根据目标姿势标签解码成为人像图片。该算法模型的核心难点是如何在训练中将体貌、穿着特征与人像的姿势分离 (disentangle)。本文提出的算法与模型在多个数据集上取得了优秀的成果。其姿势编辑出来的图片几乎人眼不可辨别真伪,并能够保有原始中人像的大量风格要素。
9、展台技术讲座:同义变换在搜寻告白婚配中的角色
主题:The Role of Synonymous Transformation in Sponsored Search
关键词婚配是整个搜寻告白系统中至关重要的一环,它和告白婚配产品直接相关,位于整个告白系统的最上游,负责将用户的query和告白主购买的拍卖词按照指定的婚配模式连接起来。一般的搜寻引擎提供了精确,短语和智能三种婚配模式。同义变换的第一个重要角色就是要完成精确婚配下的同义变体拍卖词的检索。由于query和拍卖词之间的同义关系极其稀少,传统的触发步骤在这种情形下非常低效。另外,极高的准确率要求和海量的拍卖词规模也是在现实工业环境中迫切需要克服的难题。这次讲座中,baidu讨论了如何将概念符号推理技术和深度进修模型相结合来做同义变换,如何将符号推理、对抗训练以及抗噪进修等技术引入到ERNIE模型的领域微调中来增强同义判别模型的效果。最后,baidu展示了一些同义变换在搜寻婚配告白中的典型应用,比如query的归一化、拍卖词的压缩、商索引等等。这些步骤在baidu的搜寻婚配告白中已经成功落地,在收入增长的同时,告白婚配质量也有了大幅的提升,希望这些步骤能够对工业界搜寻告白系统的设计带来新的思考。
10、 工业演讲:baidu量子平台:迈向量子人工智能
主题:Baidu Quantum Platform: Towards Quantum Artificial Intelligence
人工智能已是新一轮科技革命和产业变革的重要驱动力,量子估计成为备受瞩目的前沿技术领域,二者的融合孕育出新的研究方向:量子人工智能。baidu研究院量子估计研究所所长段润尧博士发表了题为“Baidu Quantum Platform: Towards Quantum Artificial Intelligence”的演讲。在演讲中,段润尧博士重点阐述了baidu量子的QAAA战略规划,包含三个核心研究方向:量子人工智能 (Quantum AI),量子算法 (Quantum Algorithm) 和量子架构 (Quantum Architecture)。
鉴于QAAA规划,baidu量子研发了以量脉、量桨、量易伏三个产品为主体的baidu量子平台。其中,量桨是鉴于baidu飞桨研发的量子机器进修工具集,建立起人工智能与量子估计之间的桥梁。量桨旨在探索量子人工智能的更多可能性,此次重点升级了自研高性能模拟器,支持常规电脑上模拟20+量子比特的运算,助力研发人员高效开发量子人工智能应用。此外,新上线的量桨官网qml.baidu.com提供了丰富的教程与案例助力开发者的入门与进修。围绕baidu量子平台,baidu旨在构建开放、可持续的baidu量子生态,为量子估计领域的发展和繁荣贡献力量,最终实现“人人皆可量子”的美好愿景。