达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

达观数据与同济大学联合共建的“学问图谱与语义计算联合实验室”,近期发布了围绕新冠肺炎的多跳问答数据集和智能问答体系,该数据集鉴于COVID-19的七个方面(即百科、防控、物资、诊疗、健康、流行病、英雄)进行数据集梳理并进一步生成1跳(1-hop)、2跳(2-hop)、3跳(3-hop)的问答数据集,智能问答的主题涉及病理、症状、药物等有关的成绩。其中论文成果《COKG-QA: Multi-hop Question Answering over COVID-19 Knowledge Graphs》发表于期刊《Data

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

达观数据与同济大学联合共建的“学问图谱与语义计算联合实验室”,近期发布了围绕新冠肺炎的多跳问答数据集和智能问答体系,该数据集鉴于COVID-19的七个方面(即百科、防控、物资、诊疗、健康、流行病、英雄)进行数据集梳理并进一步生成1跳(1-hop)、2跳(2-hop)、3跳(3-hop)的问答数据集,智能问答的主题涉及病理、症状、药物等有关的成绩。其中论文成果《COKG-QA: Multi-hop Question Answering over COVID-19 Knowledge Graphs》发表于期刊《Data Intelligence》。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图1 《Data Intelligence》及发表论文的部分技术展示

主要研究贡献如下:

很少存在针对COVID-19管理的全面的KGQA数据集,尤其是缺乏针对多跳成绩的数据集。受益于OpenKG-COVID19,我们推导出了一个大型多跳中文COVID-19 KGQA数据集COKG-DATA。它包含丰富的学问,为构建优质的问答体系提供了重要基础。

引入COKG-QA来证明在多跳KGQA任务中嵌入投影机制和形式信息的重要性。更准确地说,通过投影格式将来自不同空间的实体、形式和成绩的嵌入转移到一个共同的空间中,以对齐重要特征。此外,实体嵌入与其类型嵌入相结合,以预测指定类型的谜底。通过实验证明了COKG-QA是非常有效的,并且对于进一步推广到新领域学问也是值得借鉴的。

为了满足人们对COVID-19咨询服务的需求,鉴于COKG-QA开发了一个用户友好的交互式应用体系。该体系不仅提供准确和可解释的成绩谜底,而且易于使用,并具有智能提示和建议功能。

新冠肺炎多跳问答数据集COKG-DATA

我们根据OpenKG推出的OpenKG-COVID19的七个子KG(即百科、防控、物资、诊疗、流行病、英雄)来组织COKG-DATA,人们每天更容易问到这些子KG中的信息。COKG-DATA是一个新的具有挑战性的问答基准,包含有关疾病、症状、药物等有关的单跳成绩和多跳成绩。鉴于庞大而多样的COKG-DATA数据集,结合多跳KGQA技术,可以满足人们在大流行期间的复杂查问需求。我们花费大量时间鉴于OpenKG-COVID19清理数据并收集多跳成绩。

01七大子KG

百科KG,让我们对SARS-CoV-2和COVID-19有个大致了解,以及有关的病毒和疾病信息。

防控KG,为各地个人、团体提供政府发布的预防指南。

物资KG,围绕疫情期间的物资供应情况展开,涵盖日常防护用品、医疗器械、药品等。

诊疗KG和健康KG是互补的,以利用关于各种疾病、药物、症状、检查格式和治疗医院的COVID-19有关学问。

流行病KG,运用流行病学的一般技术,研究疾病的分布及影响因素,探究疾病的成因,阐明流行病的规律,以有效地控制和根除疾病。

英雄KG,以新冠病毒专家为核心延展至履历、成果、事件、战役等各类概念。

02数据清洗

为了确保QA数据集的质量,我们清理了OpenKG-COVID19中的一些异常情况的数据,并删除了对QA来说不实用的三元组,包括一些三元组包含空字符串、标点实体或无用数字;一些三元组组成的比较奇怪的成绩,例如,⟨新华医院的医生,在新华医院工作⟩;一些三元组中的头实体与尾实体相同的成绩,例如具有“别名”干系的三元组。此外,OpenKG-COVID19中还存在包括对称性和反转在内的干系形式。我们为OpenKG-COVID19的这些干系形式扩展了三元组。经过数据清洗和干系扩展后,学问图谱数据集包含112246个实体、209个干系和787056个三元组。

03数据构造

我们利用OpenKG-COVID19的选定子图中的事实三元组作为1-hop数据。此外,我们手动为2-hop成绩设计了47个干系,为3-hop成绩设计了23个干系,其中组合的干系必须合理自然。具体来说,在2-hop干系中,前干系的范围必须与后干系的域相同。例如,“selected drug”干系的范围是“drug”,必须与2-hop干系“Selected drug Usage and dosage”中的“usage and dosage”域一致。相同的规则适用于3-hop干系收集过程。与多跳数据集MetaQA类似,我们使用Helsinki-NLP Opus-MT项目中的神经翻译模型以引入具有相同含义的更多样化和自然的陈述。利用Opus-mt-zh-en模型将句子从中文翻译成英文,然后使用opus-mt-zh-en将句子翻译回中文。此外,为了从顶层创建一个大规模的统一学问库,完成了实体对齐和干系对齐,以消除不一致成绩。

04校验数据

为了确保COKG-DATA数据及中的成绩相对时自然且有意义,我们招募了四名志愿者来检查数据集的质量,他们的研究领域均为学问图谱和问答方向。经过清理后的OpenKG-COVID19数据,按照干系对成绩进行排序,然后成比例的随机抽取成绩样本。这四名志愿者被要求用三个选项对抽样成绩进行评分:1表示奇怪;2表示自然;3表示有意义。我们通过这个人工评分过程,删除或修改了奇怪的问答对,对COKG-DATA进行了四次优化。最后一轮的采样数为4000,志愿者的平均得分为2.8,证明了COKG-DATA是高质量的。

05数据集统计

COKG-DATA每个跳数成绩的最终统计结果如表1所示。COKG-DATA将会保持与OpenKG-COVID19的同步更新,为用户提供更充分的学问。达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系表1 COKG-DATA统计数据

新冠肺炎多跳问答技术COKG-QA

 IRQA& KGQA

在COVID-19有关信息的获取上,鉴于COVID-19 学问的问答体系作为一种便捷的交互方式受到越来越多的人的欢迎。COVID-19 QA现有两种范式:信息检索问答(Information Retrieval Question Answering,IRQA)和学问图谱问答(Knowledge Graph Question Answering,KGQA)。1. COVID-19 IRQA

COVID-19 IRQA 体系鉴于文本问答对,通过计算数据集中提出的成绩和成绩/谜底之间的相似性来获得谜底,如WULAI-QA、CAiRE-COVID、COVIDASK。IRQA体系可以自然地回答人们经常提出的简单成绩。WULAI-QA(Web Understanding and Learning with AI,WULAI)是一个动态的鉴于文档的问答体系,图2是其整体体系架构图。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图2 WULAI-QA整体架构图

WULAI-QA主要有四部分构成:

特征工程(Feature Engineering)部分可以使用自定义过滤器和多种强大的特征来快速过滤不有关的文档;

检索器(Retriever)部分可以分别对成绩𝑥和文档𝑧进行编码,并计算成绩与过滤后的文档集中每个文档的相似度分数𝑝(𝑧|𝑥)。然后选择TOP(𝑘)个文档作为候选文档;

阅读器(Reader)部分将成绩𝑥和文档𝑧连接在一起,并以概率𝑝(𝑦|𝑥,𝑧)从文本中抽取谜底𝑦;

用户反馈(User Feedback)部分包括三部分数据:正确谜底、有关文档和满意度分数。其中正确谜底和有关文档的注释可以更新阅读器和检索器模型,而满意度分数用于更新检索器模型。为了适应COVID-19有关信息的快速扩展,WULAI-QA 通过合并稳健和定制的特征来过滤掉不有关的文档。此外,将用户反馈输入到到检索器模型和阅读器模型中,以提高在线部署期间的性能。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图3 CAiRE-COVID体系架构图

CAiRE-COVID(Center for Artificial Intelligence Research,CAiRE)是香港科技大学开发的一个实时QA和多文档摘要体系,旨在通过回答社区的高优先级成绩并总结与成绩有关的重要信息,以应对在 COVID-19上发表的大量科学文章的挖掘挑战。

其架构图如图3所示,由三个主要模块组成:

文档检索器(Docement Retriever)

有关片段选择器(Relevant Snippet Selector)

以查问为中心的多文档摘要器(Query-focused Multi-Document Summarizer)

它将信息抽取与最先进的QA和以查问为中心的多文档摘要技术相结合,在给定查问的情况下从现有文献中查找和高亮显示检索到的片段。同时还提出了以查问为中心的抽象和提取多文档摘要格式,以提供与成绩有关的更多有关信息。达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图4 COVIDASK整体过程

COVIDASK一个结合了生物医学文本挖掘和QA技术来实时提供成绩谜底的QA体系,利用有监督和无监督的格式使用 DENSPI和 BEST提供信息丰富的谜底。图4是其整体流程图,首先预先索引了CORD-19中包含的研究论文中的所有短语,并使用它们来构建DENSPI 模型,还使用并高亮显示了PubMed中的生物医学命名实体来构建 BEST。

2. COVID-19 KGQA       

在KGQA方面目前已经有诸多研究成果,主要包括三种类型:鉴于逻辑的格式、鉴于路径的格式和鉴于嵌入的格式。

1)鉴于逻辑的格式

       该格式由于具有高精度和可解释性强的优点而被广泛讨论。GQE(Graph Query Embedding)、Query2Box 、BETAE将查问表示为有向无环计算图,以生成逻辑形式的查问嵌入。

GQE是一种鉴于嵌入的框架,可以有效地预测不完整学问图谱上的联合查问成绩。GQE 背后的关键思想是将图节点嵌入到低维空间中,并将逻辑运算符表示为该嵌入空间中学习的几何操作(例如,平移、旋转)。经过训练后,可以使用模型来预测哪些节点可能满足任何有效的联合查问,即使查问涉及的未观察到的边。而且这个预测是非常高校的,时间复杂度与查问中的边数成线性干系,并且与输入网络的大小成常量。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图5 GQE框架概览

如图5所示,GQE过程是,给定一个输入查问q,根据它的DAG结构表示这个查问,然后使用左侧的算法生成鉴于这个 DAG 的查问的嵌入。左侧的算法从查问锚节点的嵌入开始,迭代应用几何运算P和I生成与查问对应的嵌入q。最后,可以使用生成的查问嵌入来预测节点满足查问的可能性,例如,通过嵌入空间中的最近邻搜索。达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图6 Query2Box推理流程

Query2Box也是一个鉴于嵌入的框架,用于在大规模和不完整的学问图谱中使用∧、∨和∃运算符对任意查问进行推理。如图6是QueryBox的推理流程,(A)中,对于给定的联合查问语句“Where did Canadian citizens with Turing Award graduate?”,解析后使用依赖图进行表示;(B)中是计算图的示例,其指定了为(A)中的查问语句获取一组谜底的推理过程。(C)中是学问图谱空间的示例,其中绿色节点(实体)表示查问语句的谜底。粗体箭头表示与(A)中的查问图匹配的子图。D)中,KG的节点可以嵌入到向量空间中。然后根据计算图(B)获得查问嵌入的执行操作:从两个节点TuringAward和Canada开始,应用Win和Citizen投影运算符,然后是交集运算符(表示为黄色和橙色的阴影交集框)和另一个投影操作符,得到查问的最终嵌入,是一个绿色框,查问的谜底是框内的实体。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图7  BETAE回答一阶逻辑查问的过程

BETAE是一种概率嵌入框架,用于回答KG上的任意一阶逻辑(first-order logic, FOL)查问,也是第一个可以处理一整套FOL运算的格式,涵盖合取(∧)、析取(∨)和取反 (¬)操作。图8显示了查问语句“给定查问语句“List the presidents of European countries that have never held the World Cup”处理过程。该查问可以表示为三个术语的结合:(1)“位于(欧洲,V)”,查找所有欧洲国家;(2)“¬Held(World Cup, V)”,查找所有从未举办过世界杯的国家;(3)“总统(V,V?)”,它找到给定国家的总统。为了回答这个查问语句,首先定位实体“Europe”,然后通过干系“Located”遍历KG以识别一组欧洲国家。实体“World Cup”也需要类似的操作来获取主办世界杯的国家。然后需要对第二组进行补充,以确定从未举办过世界杯的国家,并将补充与欧洲国家组相交。最后一步是将干系“President”应用于生成的交集,以找到国家总统列表,从而给出查问谜底。

2)鉴于路径的格式

该格式将成绩中的主题实体沿着多个KG三元组搜索以找到谜底实体或干系。其中很重要的是路径排序算法(Path Ranking Algorithm,PRA),PRA旨在通过直接在KG上自动学习语义推理规则来提高KG的覆盖率。PRA使用鉴于重新启动的推理机制的随机游走来执行多个有界深度优先搜索过程以查找干系路径。结合鉴于弹性网络的学习,PRA然后使用监督学习选择更合理的路径。然而,PRA在完全离散的空间中运行,这使得评估和比较KG中的相似实体和干系变得困难。为了缓解PRA的搜索空间大的成绩,除了DeepPath、NSM的格式之外,还有其它一些研究工作围绕将KG推理视为顺序路径决策过程来展开。

DeepPath是一种KG推理的强化学习(Reinforcement Learning,RL)格式,使用鉴于翻译的学问嵌入格式来编码RL代理的连续状态,代理通过对干系进行采样,通过增量步骤的方式扩展其路径。为了更好地指导RL代理学习干系路径,DeepPath使用策略梯度训练和一个新颖的奖励函数,以提升准确性、多样性和效率。

NSM(Neural State Machine)采用师生网络来学习中间监督信号,主要思想是训练一个专注于多跳 KBQA 任务本身的学生网络,同时训练另一个教师网络在中间推理步骤提供(伪)监督信号(即我们任务中的推断实体分布) 改善学生网络。NSM主要由指令部分和推理部分组成。指令组件将指令向量发送到推理组件,而推理组件推断实体分布并学习实体表示。

3)鉴于嵌入的格式

该格式通过评估成绩嵌入和候选谜底嵌入之间的相似性以获得正确谜底。比较应用广泛的是EmbedKGQA格式,通过预训练模型表示成绩,并通过ComplEx表示学问图嵌入,并通过ComplEx的评分函数选择谜底。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图8 EmbedKGQA概览

如图8所示,EmbedKGQA具有三个模块:

KG嵌入模块学习输入KG中所有实体的嵌入;

成绩嵌入模块学习成绩的嵌入;

谜底选择模块通过结合成绩和干系相似性分数来选择最终谜底。

EmbedKGQA使用嵌入使其更有效地处理KG稀疏性。此外,由于EmbedKGQA将所有实体都视为候选谜底,因此它不会受到现有多跳KGQA格式的有限邻域无法访问成绩的影响。另外像干系图卷积网络格式聚合KG中特定多重干系的嵌入来预测谜底。当然,还有一些鉴于嵌入格式结合文本语料库的研究也备受关注。综上可以看出,KGQA相对于IRQA可以处理更复杂的QA成绩。同时,我们也看到,人们在日常信息获取过长中也不再满足于提出一些简单的成绩,例如“COVID-19患者的临床症状是什么?”。他们更倾向于表达复杂的多跳成绩,比如“有哪些有关疾病与COVID-19症状相似?”这样的2跳成绩,以及“如何检查与COVID-19症状相似的有关疾病?”的3跳成绩。引入KGQA,可以更大程度的满足人们的日常信息所求,提升人们获取信息的体验和效率,值得投入更多资源进行深入地探索研究。

COVID-19 & KGQA

鉴于COVID-19数据集,引入KGQA格式可以回答涵盖结构KG上的多个干系的复杂成绩。此外,KGQA技术可以推理QA任务中的新学问。研究人员在不同方向上开展了大量的研究工作,也取得了挺好的进展。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图9 COVID-19 KG的形式

中国科学技术信息研究所的Ding Kai等人研发了COVID-19 QA体系。首先是鉴于COVID-19数据集设计了KG的形式,如图9所示,并从文本中抽取学问。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图10 QA体系处理流程

然后设计了一个鉴于规则的分类器,以识别当用户输入一个成绩后的查问意图,接着,鉴于匹配模板的方式将成绩转化为Cypher查问,最终从KG中找到谜底并返回,整个过程如图10所示。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图11 Covid-on-the-Web概览

Covid-on-the-Web项目提供了较丰富的工具和数据,如图11所示,通过调整和组合工具来处理、分析和丰富“COVID-19 开放研究数据集”(CORD-19),让生物医学研究人员能够访问、查问和理解COVID-19有关文献。CORD-19语料库收集了50000多篇与冠状病毒有关的全文科学文章。该数据集包含两个主要学问图谱,除了展示CORD-19语料库中提到的命名实体,并链接到DBpedia、Wikidata和其他BioPortal词汇表,还可以展示从ACTA提取的参数,旨在帮助临床医生分析临床试验并做出决定。另外,在这个数据集上,还提供了几个鉴于Corese Semantic Web平台、MGExplorer可视化库以及Jupyter Notebook技术的可视化和探索工具。达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图12 处理流程图

北京林业大学的Sun Yuze等人研究并构建了一个鉴于学问图谱的COVID-19问答体系。其问答功能是通过鉴于朴素贝叶斯算法的模板匹配实现的。处理流程如图12所示,对于输入的成绩,体系首先进行实体识别,利用实体类型标注结合实体相似度匹配来识别用户成绩中的实体。然后体系预测用户的提问意图,并使用训练好的成绩分类器预测类别数。最后利用Cypher查问图数据库,生成并输出谜底。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图13 鉴于疾病学问图谱的问答体系优化框架

吉林大学的李贺等人提出了一种鉴于疾病学问图谱的自动问答体系优化策略,如图13所示,在疾病学问图谱构建的基础上,结合AC多形式匹配算法和语义相似度计算实现用户自然语言提问中实体识别,综合考虑构建学问图谱的疾病数据集和成绩语料的医疗高频词特征确定体系要回答的成绩类别,然后采用人工标注和AC多形式匹配算法实现用户成绩类别和体系成绩类别的匹配,最后通过将匹配的实体和成绩类别封装成分类字典方式转换成数据库查问语言,获取有关成绩谜底。其中COVID-19 学问图谱的可视化结果图14所示。 

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图14 COVID-19学问图谱(部分)

为了使框架不局限于预定义的规则,航天工程大学的Pei Zhongmin等人提出了一种鉴于学问嵌入格式TranE的相对通用的QA框架,如图15所示。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图15 中文领域KGQA框架

该框架由成绩分析、谜底推理和谜底生成三部分组成。首先,成绩分析模块通过屏蔽无效字符获得成绩实体和干系。然后,谜底推理模块结合时序逻辑和排列组合策略计算可能实体的TransE嵌入。最后,谜底生成模块计算学问图中候选谜底与实体的余弦相似度,将推理路径和谜底实体返回给用户。

在公共KG的基础上,鉴于自然语言处理技术,已有一些KGQA体系,以帮助人们方便地获取有关COVID-19的信息。尽管这些QA体系是为COVID-19开发的,但它们无法为用户的各种成绩提供最佳解决方案。

现有格式如GRAFT-Net、PullNet等通常使用单独的模型来表示学问图谱和成绩,带来的成绩是来自不同空间的异构嵌入需要适配到一个公共空间。此外,在当前的多跳KGQA任务中,如EmbedKGQA,表征KG结构特征的形式有关信息已被忽略。作为重要的先验学问的形式信息,有助于搜索指定类型的正确实体。更重要的是,公共COVID-19 KGs受到学问稀疏性的影响,尤其当这些学问是人们每天都希望获得的,会进一步影响下游QA任务的质量和用户体验。 

COKG-QA

为了减轻人们对COVID-19大流行引起的健康成绩咨询方面的焦虑,我们提出COKG-QA(multi-hop Question Answering over COVID-19 Knowledge Graphs),如图17所示,通过对EmbedKGQA模型的升级,以提高KGQA的性能。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图16 COKG-QA体系架构图 

1.COKG-QA总体介绍

KG中的实例三元组可以表示为⟨h, r, t⟩,其中h表示头实体,t表示由干系r链接的尾实体。给定一组实体E和干系R,G是一组三元组K,使得K ⊆ E × R × E。KGQA的任务是对于一个自然语言方式提问的成绩q,搜索KG中的谜底实体,包括鉴于KG上的多跳干系进行搜索。受EmbedKGQA的启发,在我们的格式中同样使用了KG嵌入模块(KG Embedding Module )、成绩嵌入模块(Question Embedding Module)和谜底选择模块(Answer Selection Module)。通过添加嵌入投影(Embedding Projection)和形式感知模块(Schema-Aware Module)在COKG-DATA上扩展EmbedKGQA。此外,在推理时添加了一个主题实体感知过滤器(Topic-Entity-Aware Filter)来预测仅与所讨论的主题实体有关的谜底实体。流程如图17所示。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图17 COKG-QA流程图

2.COKG-QA主要模块介绍

1)嵌入投影

将不同模型生成的嵌入视为异构的。与实例级别的三元组一样,⟨s h, r, s t⟩ 是形式级别的三元组,其中s h代表头类型,s t代表由干系r链接的尾类型。s h, s t ∈ E’的形式嵌入也通过ComplEx格式训练以强化搜索谜底,但形式模型和实例模型是分开训练的。更重要的是,成绩嵌入是由预训练模型RoBERTa产生的,它利用了另一种技术范式。因此,这三个嵌入是异构的。尽管通过单独的模型有助于保持形式、实例和成绩的特征,但很难在最终的 KGQA模型中对嵌入表示进行建模。全连接(Fully Connected, FC)线性层可以维护和投射迁移学习中的重要特征,尤其是当源域和目标域完全不同时。因此,在转移到一个公共空间之前对这些嵌入进行投影是合理的。我们分别定义了成绩嵌入、实体嵌入、形式嵌入如式(1)(2)(3)所示。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

其中eq是成绩嵌入,en是由实例三元组训练得到的实体嵌入,e‘s-n是由形式级别三元组产生的实体类型嵌入。

2)形式感知模块

现有的KGQA格式只关注KG中的实例事实,忽略了形式中构造良好的先验学问。形式包含一个学问图谱的有价值的结构信息,它定义了这些概念和概念的属性。KG中的实体通过实体类型链接到它们相应的概念。通过引入形式感知模块将实体嵌入与相应的实体类型嵌入相结合,这将有助于过滤指定类型的谜底实体。这足以让模型了解主题实体的类型以及谜底实体的类型。具体来说,成绩中的主题实体表示和作为谜底的尾部实体表示是通过添加相应的实体类型嵌入来构造的。使用RoBERTa嵌入的成绩表示不能对形式级别的干系嵌入进行编码,因为在实际应用中没有成绩的干系类型标签。但是我们将实体类型与给定的成绩连接起来,以暗示该成绩与某个实体类型有关,如图15中所示的输入,具体表述如式(4)和(5)所示。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

其中∅是ComplEx的评分函数,Eh是主题实体嵌入,E‘s-h是其对应的类型嵌入,Eâ表示正确的谜底实体,Eh表示负样的实体,σE是谜底实体集。所有这些嵌入都会通过嵌入投影模块进行转换。

3)主题实体感知过滤器

因为我们收集的COKG-DATA非常大,所以需要添加一个过滤器来获取主题实体有关的实体,包括像EmbedKGQA这样的在推理时的1-hop、2-hop和3-hop实体,以预测更有关的谜底实体。我们首先使用3-hop数在主题实体及其多跳实体之间进行映射,然后鉴于最佳训练模型预测多跳实体之间的谜底。

3.COKG-QA实验

在表2所示,在COKG-DATA数据集上将EmbedKGQA和TransferNet与COKG-QA进行了准确率数据对比。COKG-QA在1-hop、2-hop、3-hop成绩上的数据表现优于EmbedKGQA,而TransferNet在1-hop和2-hop成绩上的表现优于COKG-QA。但是TransferNet在3-hop成绩中的准确率最低。TransferNET关注成绩的不同部分,在每一步搜索对应的干系,这使得它对图中每一跳干系的质量和数量都很敏感。因此,我们假设COKG-DATA的少量3-hop数据导致TransferNET性能不佳。然而,EmbedKGQA和COKG-QA都将多跳KGQA任务视为链路预测,在KG嵌入模块中将多跳干系作为单个干系。例如,“并发症||常用药物||用法用量”、“药物||药物成分”和“注意事项”的每一个干系都被视为一个单一的干系,放在一个三元组中。因此COKG-QA避免了现实世界中非常普遍的数据不平衡成绩,并对神经模型提出了挑战。更重要的是,TransferNET计算复杂度高,内存存储成绩,因为它计算一个实体被多次激活为谜底实体的概率,这也会影响推理速度。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

表2 不同模型在COKG-DATA上的对比数据

 

新冠肺炎COKG-QA问答体系交互

通过大量实验表明COKG-QA技术的卓越性能,同时我们也设计了一个鉴于COKG-QA的交互式Web QA应用体系。通过友好的交互设计以改善用户体验。

 

01谜底的可解释性

与大多数直接给出谜底的KGQA体系不同,我们的体系将解释多跳成绩的中间上下文,以使多跳成绩的谜底具有可解释性。将通过计算ComplEx分数,根据最佳训练模型推断出谜底。但是鉴于EmbedKGQA模型的谜底是不可理解的。例如,2-hop成绩“小儿颅内肿瘤推荐的药物种类有哪些”的谜底是“工伤的化学药、处方药和医保药”,这会给用户带来类似“与上述谜底中提到的药物类型相对应的相应推荐药物是什么?”。换句话说,人们不仅想得到最终的谜底,还想弄清楚中间结果是什么。所以我们提供了一个可以解释的谜底“小儿颅内肿瘤甘油果糖注射液的推荐药物是化学药物;小儿颅内肿瘤推荐用药吡拉西坦葡萄糖注射液是医保工伤用药……”。

可解释响应的过程如下:

当QA体系收到多跳成绩时,首先识别主题实体

随后,根据成绩和识别出的头部对分数进行排名,得到非直接尾部谜底

为了得到一个可解释的最终谜底,我们需要寻找中间干系,得到中间实体。过滤掉数据集中标记的具有相同标题和谜底的成绩和相应的多跳干系。此外,我们选择与数据集中具有相同多跳干系或与用户成绩最相似的成绩对应的可解释谜底作为最终谜底

02谜底来源

我们用对应的URL给出谜底的来源,帮助用户追踪上下文,这也增加了体系的可信度。我们体系的谜底来源通过在选定的子图中提供图名来提供结果。如果用户的成绩涉及多个链接图,则会显示多个图名称。示例如图18所示。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系

图18 COKG-QA体系中的用户友好功能

03使用反馈

我们设计了点赞和点踩按钮来鼓励用户提供反馈,这些反馈将用于改进COKG-QA模型。当用户给予正面反馈时,体系会随机生成一个感谢句。当用户点踩时,会弹出一个气泡,并为用户显示三个选项:错误谜底、不完整谜底和自定义意见。自定义选项为用户提供了灵活提出建议的空间,并进一步受益于提高 QA 体系的有效性。 

04易用性

许多医学术语对于用户来说并不常见或难以记住,例如疾病名称和治疗格式。自动输入提示功能对于提高体系的可用性具有重要意义和实用性。我们的体系在很多场景下都支持自动补全。例如,用户可以只使用一个单词、拼音、多个单词的首字母,甚至是模糊搜索。输入框中的提示可以扩大用户查问的焦点,帮助完成用户想问的成绩,如图19所示。此外,我们的体系还可以推荐与主题实体有关的成绩,让用户可以探索更多关于原始成绩。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图19 COKG-QA体系的可用性 

以上是对围绕新冠肺炎的多跳问答数据集和智能问答技术的联合研究成果的介绍。除此以外,达观数据与同济大学以联合实验室为契机,依托双方产业与学术优势,围绕学问图谱与语义计算,在人才培养、学术研究、技术研发、科技成果转化等方面不断深入探索,联合申报了国家联合基金项目、上海市人工智能科技支撑专项等科研项目,联合发布了第二十一届中国计算语言学大会(CCL 2022)技术评测任务-汽车工业故障形式干系抽取,开展了多场前沿技术在产业化化应用的会议交流,实现多领域、多层级深入合作,共同引领学问图谱与语义计算领域技术创新以及产业化进程。

达观数据联合同济大学发布新冠肺炎学问图谱数据集及智能问答体系图20 左:著名学问图谱专家、同济大学百人计划、设计创意学院特聘研究员王昊奋教授 右:达观数据CEO陈运文

  参考文献:

[1] Du H, Le Z, Wang H, et al. COKG-QA: Multi-hop question answering over COVID-19 knowledge graphs[J]. Data Intelligence, 2022, 4(3): 471-492.

[2] Zhang Y, Zhang X, Hu Y, et al. Wulai-qa: Web understanding and learning with ai towards document-based question answering against covid-19[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 898-901.

[3] Su D, Xu Y, Yu T, et al. CAiRE-COVID: A question answering and query-focused multi-document summarization system for COVID-19 scholarly information management[J]. arXiv preprint arXiv:2005.03975, 2020.

[4] Lee J, Yi S S, Jeong M, et al. Answering questions on COVID-19 in real-time[J]. arXiv preprint arXiv:2006.15830, 2020.

[5] Ding K, Han H, Li L, et al. Research on question answering system for covid-19 based on knowledge graph[C]//2021 40th Chinese Control Conference (CCC). IEEE, 2021: 4659-4664.

[6] Michel F, Gandon F, Ah-Kane V, et al. Covid-on-the-Web: Knowledge graph and services to advance COVID-19 research[C]//International Semantic Web Conference. Springer, Cham, 2020: 294-310.

[7] Sun H, Dhingra B, Zaheer M, et al. Open domain question answering using early fusion of knowledge bases and text[J]. arXiv preprint arXiv:1809.00782, 2018.

[8] Li He, Liu Jiayu, Li Shiyu,et al. Optimizing Automatic Question Answering System Based on Disease Knowledge Graph[J]. Data Analysis and Knowledge Discovery, 2021, 5(5): 115-126.

[9] Saxena A, Tripathi A, Talukdar P. Improving multi-hop question answering over knowledge graphs using knowledge base embeddings[C]//Proceedings of the 58th annual meeting of the association for computational linguistics. 2020: 4498-4507.

[10] Reese J T, Unni D, Callahan T J, et al. KG-COVID-19: a framework to produce customized knowledge graphs for COVID-19 response[J]. Patterns, 2021, 2(1): 100155.

[11] Pei Z, Zhang J, Xiong W, et al. A General Framework for Chinese Domain Knowledge Graph Question Answering Based on TransE[C]//Journal of Physics: Conference Series. IOP Publishing, 2020, 1693(1): 012136.

[12] Hamilton W, Bajaj P, Zitnik M, et al. Embedding logical queries on knowledge graphs[J]. Advances in neural information processing systems, 2018, 31.

[13] Ren H, Hu W, Leskovec J. Query2box: Reasoning over knowledge graphs in vector space using box embeddings[J]. arXiv preprint arXiv:2002.05969, 2020.

[14] Ren H, Leskovec J. Beta embeddings for multi-hop logical reasoning in knowledge graphs[J]. Advances in Neural Information Processing Systems, 2020, 33: 19716-19726.

[15] He G, Lan Y, Jiang J, et al. Improving multi-hop knowledge base question answering by learning intermediate supervision signals[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 553-561.

[16] Xiong W, Hoang T, Wang W Y. Deeppath: A reinforcement learning method for knowledge graph reasoning[J]. arXiv preprint arXiv:1707.06690, 2017.

[17] Shi J, Cao S, Hou L, et al. TransferNet: An effective and transparent framework for multi-hop question answering over relation graph[J]. arXiv preprint arXiv:2104.07302, 2021.

[18] Trouillon T, Welbl J, Riedel S, et al. Complex embeddings for simple link prediction[C]//International conference on machine learning. PMLR, 2016: 2071-2080.

给TA打赏
共{{data.count}}人
人已打赏
AI

TVM 华文站正式上线!最全机械进修模型部署「参考书」它来了

2022-12-20 15:27:00

AI

RPA界面元素智能自适应定位与操控技巧-金克

2022-12-20 15:29:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索