2021 年 12 月 WebGPT 的横空出世标志了基于网页搜寻的问答新范式的诞生,在此之后,New Bing 首先将网页搜寻功能整合发布,随后 OpenAI 也发布了反对联网的插件 ChatGPT Plugins。大模型在联网功能的加持下,回答成绩的实时性和准确性都得到了飞跃式增强。
近期,来自清华、人大、腾讯的研究人员共同发布了华文领域首个基于交互式网页搜寻的问答开源模型框架 WebCPM,相干工作录用于自然语言处理顶级会议 ACL 2023。
论文地址:https://arxiv.org/abs/2305.06849
项目地址:https://github.com/thunlp/WebCPM
WebCPM 是开源大模型东西学习引擎 BMTools 的首个成功实践,其特点在于其信息检索基于交互式网页搜寻,能够像人类一样与搜寻引擎交互从而采集回答成绩所需要的现实性知识并生成谜底。WebCPM 背后的基础模型 CPM 是由面壁智能与 OpenBMB 开源社区开发的百亿参数华文语言模型,占据多个华文领域语言模型排行榜前列。
WebCPM 研究背景
在当今信息化时代,人们在日常生活和工作中,需要不断地获取各种知识和信息,而这些信息往往分散在互联网上的海量数据中。如何快速、准确地获取这些信息,并且对这些信息进行合理的整合,从而回答复杂、开放式成绩,是一个极具挑战性的成绩。长文本开放问答(Long-form Question Answering, LFQA)模型就是为了回答这种复杂的成绩而设计的。
目前的 LFQA 解决方案通常采用检索 – 综合范式,包括信息检索和信息综合两个核心环节。信息检索环节从外部知识源(如搜寻引擎)中搜寻多样化的相干反对现实,信息综合环节则将搜集到的现实整合成一个连贯的谜底。
然而,传统的 LFQA 范式存在一个缺陷:它通常依赖于非交互式的检索方法,即仅使用原始成绩作为盘问语句来检索信息。相反,人类能够通过与搜寻引擎 实时交互来进行网页搜寻而筛选高质量信息。对于复杂成绩,人类往往将其分解成多个子成绩并依次提问。通过识别和浏览相干信息,人类逐渐完善对原成绩的理解,并不断盘问新成绩来搜寻更多样的信息。这种迭代的搜寻过程有助于扩大搜寻范围,提高搜寻结果质量。总体而言,交互式网页搜寻不仅为我们提供了获取多样化信息来源的途径,同时也反映了人类解决成绩的认知过程,从而提高了可解释性。
微软整合 OpenAI ChatGPT 搭建新必应系统
2021 年 12 月 OpenAI 发布 WebGPT,这是反对 LFQA 的交互式网页搜寻的一项先驱性工作。作家首先构建了一个由微软必应搜寻(Bing)反对的网页搜寻界面,然后招募标注员使用该界面采集信息来回答成绩。然后微调 GPT-3 模型,让其模仿人类的搜寻举动,并将采集到的信息整理成谜底。实验结果显示,WebGPT 在 LFQA 任意具备出色的能力,甚至超过了人类专家。而 WebGPT 也正是微软近期推出的 New Bing 背后的新一代搜寻技术。
尽管效果十分惊人,但 WebGPT 、New Bing 对学术圈和工业界来说仍然充满神秘感。这是因为 WebGPT 的相干细节并未完全公开,其核心设计元素的工作原理也不透明。鉴于当前交互式网页搜寻的重要价值,我们迫切需要一个标准数据集与相干的开源模型以反对后续研究。
WebCPM 搜寻交互界面和数据集
WebCPM 搜寻交互界面。
为推动相干领域发展,这篇 ACL 论文的研究团队首先构建了一个 开源的交互式网页搜寻界面,用于记录人类为开放式成绩采集相干信息时的网页搜寻举动。该界面底层挪用必应搜寻 API 反对网页搜寻功能,囊括 10 种主流网页搜寻操作(如点击页面、返回等等)。在这个界面中,用户可以执行预定义的操作来进行多轮搜寻和浏览。在找到网页上的相干信息时,他们可以将其作为反对现实记录下来。当采集到足够的信息后,用户可以完成网页搜寻,并根据采集到的现实来回答成绩。同时,界面会自动记录用户的网页浏览举动,用于构建 WebCPM 数据集。
WebCPM 数据集与相干问答数据集的比较。
基于这个界面,作家构建了华文领域首个基于交互式网页搜寻的 LFQA 数据集。它包含 5,500 对高质量的成绩 – 谜底对以及十万多条真实用户网页搜寻举动。与现有的华文问答数据集相比,WebCPM 的成绩、反对现实和谜底都更长,体现了其成绩的复杂性和谜底内容的丰富性。
WebCPM 模型框架
作家提出了的 WebCPM 框架包括:搜寻模型与谜底综合模型。
WebCPM 模型框架
搜寻模型
该模型模仿人类网页搜寻举动、与搜寻引擎交互并进行信息检索。作家将网页搜寻任意划分为 3 个子任意:搜寻举动预测(action prediction)、盘问语句生成(search query generation)和 反对现实摘要(supporting fact extraction)。搜寻举动预测模块在每一步决定执行哪个具体的搜寻举动。该模块可以挪用其它两个模块来生成下一步盘问语句或摘录重要信息。每个子任意都基于生成式华文大模型来训练。通过组合 3 个训练得到的模块,该模型能够在搜寻引擎界面上执行一系列操作以采集与成绩相干的信息。每个模块在当前界面状态的条件下执行推理。包括原始成绩 、当前搜寻的盘问语句 、历史操作序列 ,上一个窗口和当前窗口中显示的内容 和 、当前已经摘录的反对现实 。
谜底综合模型
该模型根据原成绩与采集到的现实生成连贯的谜底。然而与人类不同,经过训练的搜寻模型偶尔会采集到不相干的噪声,这将影响生成谜底的质量。为了解决这一成绩,作家在谜底综合模型的训练数据中引入噪声,使其具备一定的去噪的能力,从而忽略不相干的现实,只关注重要的现实以生成谜底。
作家首先对每个子模块分别评估,然后,将所有模块组合起来形成整体的 pipeline,并测试其效果。最后,作家对每个模块的本能进行深入分析。
单个子任意的本能评估结果,作家测试了包括 CPM 模型在内的多个有代表性的华文大模型。
单个子任意评估
作家测试了多个有代表性的华文大模型,并得出以下结论(结果如上图所示):不同模型在四个子任意上的本能各有优劣。例如在搜寻举动预测、盘问语句生成和反对现实摘要中,mT0 的表现优于 mT5,但在综合信息方面表现较差。此外,CPM 系列模型的本能随着模型参数量的增加也不断提高。得益于 scaling law ,更大的模型通常拥有更强的理解和生成能力,能表现出更好的下游任意本能。
整体 pipeline 评测
对于每个测试成绩,作家比较了模型(CPM 10B 模型)和人类用户使用搜寻引擎回答成绩和做相同任意的表现,并进行人工评测。具体而言,给定一个成绩和模型与人类分别给出的谜底,标注员将根据多个因素(包括谜底整体实用性、连贯性和与成绩的相干性)决定哪个谜底更好。从下图 (a) 的结果可以得出以下结论:模型生成的谜底在 30%+ 的情况下与人写的谜底相当或更优。这个结果表明整个问答系统的本能在未来仍有巨大的提升空间(例如训练本能更加强大的基底模型);当将人工采集的现实应用于信息综合模型时,本能提高到了 45%,这可以归因于采集的现实质量的提高。
整体 pipeline 评测效果,作家测试了 WebCPM 数据集和 DuReader 数据集
此外,作家也将整体 pipeline 应用于 DuReader 华文 QA 数据集(包含 Zhidao 和 Search 两个子数据集),并比较了模型生成的谜底和人工标注的谜底,从上图 (b) 可以观察到模型生成的谜底比 DuReader 标注谜底更好的情况接近 50%,这反映了该模型强大的泛化能力,体现了 WebCPM 数据标注的高质量。
WebCPM 案例分析
为了探究盘问模块所学习到的人类举动,作家抽样不同测试成绩生成的盘问语句来进行案例分析。下图展示了部分结果,以研究盘问模块的本能。可以看出,该模块已经学会了复制原始成绩,将成绩分解为多个子成绩,用相干术语改写成绩等多种人类搜寻策略。这些策略使盘问语句更加多样化,有助于从更多的来源采集更丰富的信息。
WebCPM 成功实践 BMTools
近年来,大模型在诸多领域展现出惊人的应用价值,持续刷新各类下游任意的效果上限。尽管大模型在很多方面取得了显著的成果,但在特定领域的任意上,仍然存在一定的局限性。这些任意往往需要专业化的东西或领域知识才能有效解决。因此,大模型需要具备挪用各种专业化东西的能力,这样才能为现实世界任意提供更为全面的反对。最近,新的范式大模型东西学习(Tool Learning)应运而生。这一范式的核心在于将专业东西与基础模型的优势相融合,以在成绩解决方面达到更高的准确性、效率和自主性,东西学习极大地释放了大模型的潜力。
在应用方面,ChatGPT Plugins 的出现补充了 ChatGPT 最后的短板,使其可以反对连网、解决数学计算,被称为 OpenAI 的 “App Store” 时刻。然而直到现在,它仅反对部分 OpenAI Plus 用户,大多数开发者仍然无法使用。为此,东西学习引擎 BMTools 也应运而生,它是一个基于语言模型的开源可扩展东西学习平台。研发团队将各种各样的东西(例如文生图模型、搜寻引擎、股票盘问等)挪用流程都统一到一个框架上,使整个东西挪用流程标准化、自动化。开发者可以通过 BMTools,使用给定的模型(ChatGPT、GPT-4)挪用多种多样的东西接口,实现特定功能。此外,BMTools 东西包也已集成最近爆火的 Auto-GPT 与 BabyAGI。
BMTools 东西包 :https://github.com/OpenBMB/BMTools
东西学习综述链接 :https://arxiv.org/abs/2304.08354
东西学习论文列表 :https://github.com/thunlp/ToolLearningPapers
WebCPM 是 BMTools 的一次成功实践,相信在不断发展和完善大模型东西学习技术的过程中,大模型东西学习的范式将会有更加广泛的应用。