DeepMind 这篇论文一出,人类标注者的饭碗也要被砸了吗?
大模型的幻觉终于要终结了?
今日,社媒平台 reddit 上的一则帖子引起网友热议。帖子讨论的是谷歌 DeepMind 昨日提交的一篇论文《Long-form factuality in large language models》(大言语模型的长篇现实性),文中提出的方法和结果让人得出大胆的结论:对于负担得起的人来说,大言语模型幻觉不再是问题了。
我们知道,大言语模型在呼应开放式主题的 fact-seeking(现实寻求)提醒时,通常会生成包含现实错误的内容。DeepMind 针对这一现象进行了一些探索性研究。
首先,为了对一个模型在开放域的长篇现实性进行基准尝试,研究者运用 GPT-4 生成 LongFact,它是一个包含 38 个主题、数千个问题的提醒集。然后他们提出运用搜刮增强现实评价器(Search-Augmented Factuality Evaluator, SAFE)来将 LLM 智能体用作长篇现实性的自动评价器。
对于 SAFE,它利用 LLM 将长篇呼应分解为一组零丁的现实,并运用多步推理过程来评价每一个现实的准确性。这里多步推理过程包括将搜刮查询发送到 Google 搜刮并确定搜刮结果能否支撑某个现实 。
论文地址:https://arxiv.org/pdf/2403.18802.pdf
GitHub 地址:https://github.com/google-deepmind/long-form-factuality
此外,研究者提出将 F1 分数(F1@K)扩展为长篇现实性的聚合指标。他们平衡了呼应中支撑的现实的百分比(精度)和所提供现实相对于代表用户首选呼应长度的超参数的百分比(召回率)。
实证结果表明,LLM 智能体可以实现超越人类的评级性能。在一组约 16k 个零丁的现实上,SAFE 在 72% 的情况下与人类正文者一致,并且在 100 个分歧案例的随机子集上,SAFE 的赢率为 76%。同时,SAFE 的成本比人类正文者便宜 20 倍以上。
研究者还运用 LongFact,对四个大模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 种流行的言语模型进行了基准尝试,结果发现较大的言语模型通常可以实现更好的长篇现实性。
论文作者之一、谷歌研究科学家 Quoc V. Le 表示,这篇对长篇现实性进行评价和基准尝试的新工作提出了一个新数据集、 一种新评价方法以及一种兼顾精度和召回率的聚合指标。同时所有数据和代码将开源以供未来工作运用。
方法概览
LONGFACT:运用 LLM 生成长篇现实性的多主题基准
首先来看运用 GPT-4 生成的 LongFact 提醒集,包含了 2280 个现实寻求提醒,这些提醒要求跨 38 个手动选择主题的长篇呼应。研究者表示,LongFact 是第一个用于评价各个领域长篇现实性的提醒集。
LongFact 包含两个任务:LongFact-Concepts 和 LongFact-Objects,根据问题能否询问概念或对象来区分。研究者为每一个主题生成 30 个独特的提醒,每一个任务各有 1140 个提醒。
SAFE:LLM 智能体作为现实性自动评分者
研究者提出了搜刮增强现实评价器(SAFE),它的运行原理如下所示:
a)将长篇的呼应拆分为零丁的独立现实;
b)确定每一个零丁的现实能否与回答上下文中的提醒相关;
c) 对于每一个相关现实,在多步过程中迭代地发出 Google 搜刮查询,并推理搜刮结果能否支撑该现实。
他们认为 SAFE 的关键创新在于运用言语模型作为智能体,来生成多步 Google 搜刮查询,并仔细推理搜刮结果能否支撑现实。下图 3 为推理链示例。
为了将长篇呼应拆分为零丁的独立现实,研究者首先提醒言语模型将长篇呼应中的每一个句子拆分为零丁的现实,然后通过指示模型将模糊引用(如代词)替换为它们在呼应上下文中引用的正确实体,将每一个零丁的现实修改为独立的。
为了对每一个独立的现实进行评分,他们运用言语模型来推理该现实能否与在呼应上下文中回答的提醒相关,接着运用多步方法将每一个剩余的相关现实评级为「支撑」或「不支撑」。具体如下图 1 所示。
在每一个步骤中,模型都会根据要评分的现实和之前获得的搜刮结果来生成搜刮查询。经过一定数量的步骤后,模型执行推理以确定搜刮结果能否支撑该现实,如上图 3 所示。在对所有现实进行评级后,SAFE 针对给定提醒 – 呼应对的输出指标为 「支撑」现实的数量、「不相关」现实的数量以及「不支撑」现实的数量。
实验结果
LLM 智能体成为比人类更好的现实正文者
为了定量评价运用 SAFE 获得正文的质量,研究者运用了众包人类正文。这些数据包含 496 个提醒 – 呼应对,其中呼应被手动拆分为零丁的现实(总共 16011 个零丁的现实),并且每一个零丁的现实都被手动标记为支撑、不相关或不支撑。
他们直接比较每一个现实的 SAFE 正文和人类正文,结果发现 SAFE 在 72.0% 的零丁现实上与人类一致,如下图 4 所示。这表明 SAFE 在大多数零丁现实上都达到了人类水平的表现。然后检查随机采访的 100 个零丁现实的子集,其中 SAFE 的正文与人类评分者的正文不一致。
研究者手动重新正文每一个现实(允许访问 Google 搜刮,而不仅仅是维基百科,以获得更全面的正文),并运用这些标签作为基本现实。他们发现,在这些分歧案例中,SAFE 正文的正确率为 76%,而人工正文的正确率仅为 19%,这代表 SAFE 的胜率是 4 比 1。具体如下图 5 所示。
这里,两种正文方案的价格非常值得关注。运用人工正文对单个模型呼应进行评级的成本为 4 美元,而运用 GPT-3.5-Turbo 和 Serper API 的 SAFE 仅为 0.19 美元。
Gemini、GPT、Claude 和 PaLM-2 系列基准尝试
最后,研究者在 LongFact 上对下表 1 中四个模型系列(Gemini、GPT、Claude 和 PaLM-2)的 13 个大言语模型进行了广泛的基准尝试。
具体来讲,他们利用了 LongFact-Objects 中 250 个提醒组成的相同随机子集来评价每一个模型,然后运用 SAFE 获取每一个模型呼应的原始评价指标,并利用 F1@K 指标进行聚合。
结果发现,一般而言,较大的言语模型可以实现更好的长篇现实性。如下图 6 和下表 2 所示,GPT-4-Turbo 优于 GPT-4,GPT-4 优于 GPT-3.5-Turbo,Gemini-Ultra 优于 Gemini-Pro,PaLM-2-L-IT-RLHF 优于 PaLM- 2-L-IT。
更多技术细节和实验结果请参阅原论文。