大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉

理论证明!校准的说话模型必然涌现幻觉。大型说话模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员一直在努力分析和缓解幻觉问题,该问题让 LLM 很难广泛应用。现在,一项新研究得出结论:「经过校准的说话模型必然会涌现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh

理论证明!校准的说话模型必然涌现幻觉。

大型说话模型(LLM)虽然在诸多下游任务上展现出卓越的能力,但其实际应用还存在一些问题。其中,LLM 的「幻觉(hallucination)」问题是一个重要缺陷。

幻觉是指由人工智能算法生成看似合理但却虚假或有误导性的响应。自 LLM 爆火以来,研究人员一直在努力分析和缓解幻觉问题,该问题让 LLM 很难广泛应用。

现在,一项新研究得出结论:「经过校准的说话模型必然会涌现幻觉。」研究论文是微软研究院高级研究员 Adam Tauman Kalai 和佐治亚理工学院教授 Santosh S. Vempala 近日发表的《Calibrated Language Models Must Hallucinate》。该论文表明预训练说话模型对特定类型的究竟产生幻觉存在一个固有的统计学原因,而与 Transformer 架构或数据质量无关。

大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉

论文地址:https://arxiv.org/abs/2311.14648

一个说话模型其实就是在 token 序列(如词或其它字符序列)上的一个几率散布 D。每个散布 D 都可以等效地表示成其在整个序列上的对数几率或后续 token 鉴于之前 token 的条件对数几率大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉,这种数学等价性意味着任何说话模型都要么可用于生成文本,要么就能鉴于之前的 token 根据自然涌现的文本来猜测下一个 token。

举个例子,假如有以下句子:

Alexa Wilkins had a tuna sandwich at Salumeria for lunch last Tuesday because the reviews said that it was divine.

对于这样的句子,我们可以使用猜测式说话模型等技术来提供建议,从而减少输入时点击手机的次数。我们能够希望词 tuna 之后有 sandwich 这个选项,另外还有其它能够的词,比如 salad 和 roll。另一方面,如果使用一个生成式说话模型来随机生成,那么这类句子大部分都会是错误的。

这篇论文表明,具有优良猜测文本性能的说话模型必定会产生幻觉,即便在理想条件下也是如此。要注意的是,对于当今常见的生成式说话模型,猜测文本性能的优化工作位于「预训练」的第一个阶段。此外,它还能给出幻觉率的上限;幻觉率可反映不同类型的究竟产生幻觉的速率。

以上参考和示例和共同之处是它们是任务的,也就是说 5W(= Who-Ate-What-When-Where-Why 仿真究竟)中的每一项都无法通过规则来系统性地详情 —— 对于大多数不存在于训练数据中的此类究竟,人们无法详情其真实性。这与可系统性地详情真实性的究竟不同。即使在具有几个理想属性的简化环境中,我们也能量化说话模型涌现幻觉的能够性。

因为这篇论文要给出统计上限,因此更倾向于简朴而非普遍性,因为这里的上限的目标是详情说话模型幻觉的根本原因。类似于分类任务(寻找的是在无噪声环境中分类难度的上限),这里需要找到在最简朴的设置中也成立的幻觉上限,而最简朴的设置是指训练数据是独立同散布且没有究竟性错误。

对生成模型进行校准

对一个几率式猜测器来说,校准(Calibration)是很自然的需求,因为这意味着其几率可被解释成对其自身猜测结果的准确置信度。

Philip Dawid 在 1982 年引入了校准这一概念,他当时还给出了一个很多人都很熟悉的例子:当天气预报说未来几天降雨几率为 30% 时,其实是指大约 30% 的时间会下雨。

已经有不少研究者探究过说话模型的校准指标。图 1 给出了 GPT-4 在一个多选题测验上的多类别校准示例。

大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉

为了减少幻觉问题,人们常在训练后进行对齐操作,但研究发现对齐也会降低校准度。校准是有意义的(因为校准后的猜测器的几率可以解释为准确置信度),而且在统计学上也是可实现的。相较之下,完美准确的猜测器也可以校准,但能够无法学习。

然而,校准只是猜测器的最低要求,因为并非所有校准过的模型都是有用的猜测器:始终输出年平均降雨几率的猜测器很简朴就能校准。

研究者在这篇文章中为生成模型的校准提供了一种自然的泛化。他们的校准概念不同于之前的在 token 层面的说话模型校准。分析原始 token 几率的问题是用自然说话描述任何究竟的方式都有很多,因此校准过的 token 几率并不是很有意义。

这里举个例子说明一下。假如有一个三元组说话模型,其仅鉴于前两个 token 来猜测下一 token 的几率。三元组模型可以很自然地在 token 层面完成校准,而幻觉并非三元组模型的一个主要问题。这是因为他们基本上都是生成毫无意义的乱语。相对而言,语义层面的校准考虑的则是鉴于文本中所含信息(究竟或幻觉)的几率散布。

这里如何认定一个说话模型是否已经校准呢?对于任务几率 z ∈ [0, 1],在说话模型以大约 z 的几率生成的信息中,这样的信息平均涌现在自然表达的说话(理想情况下是训练数据所在的散布)中的大约 z 份额中。

说话模型涌现幻觉的原因

幻觉让说话模型用户和研究者都深感困惑。研究者调查了许多关于说话模型幻觉原因的假如,从不准确或过时的训练数据到训练中的下一 token 对数似然目标。

幻觉的原因还有对抗性或散布外的 prompt:为说话模型提供的使其补全已有上下文的文本前缀。而在这项新研究中,研究者发现即使是使用完美的训练数据,并且不使用 prompt,经过校准的说话模型也会涌现幻觉。

简化设置

在研究者的简化设置中,有一个鉴于文档(即文本字符串)x ∈ X 的静态说话散布 D_L ∈ ∆(X) 和一个学习算法 A。

学习算法 A 可以根据从 D_L 独立采样的 n 个文档组成的训练数据 x_train ∈ X^n,输出一个说话模型,即一个散布 D_LM = A (x_train) ∈ ∆(X)。

为了简朴,研究者在这里假如训练数据中仅有究竟,并且每个文档最多一个究竟,也就是没有训练幻觉。这里的究竟是任务究竟,也就是其真实性通常无法通过训练集本身详情;而不是系统性究竟(可通过学习定义正确性的基本规则而鉴于训练集猜测得出),比如 572 < 120523。没有统计学上的理由表明说话模型会在系统性究竟上产生幻觉。

此外,在系统性究竟上的错误能够根本不会被视为幻觉 —— 它们通常被归类为推理或算术错误。

这里假如每个文档 x ∈ X 至多包含一个仿真陈述(factoid) f (x) ∈ Y ,其中仿真陈述是指要么为真(究竟)要么为假(幻觉)的任务信息,并且其真实性很难根据训练数据从统计上详情。

研究者还采用了另一种简化方法:考虑无条件的生成,即采样说话模型生成文本时不使用任何 prompt(相当于无字符串前缀)。

当然,相较于简化设置,更现实的情况更能够涌现幻觉现象,即 prompt 中包含来自不同于训练数据的散布的上下文。

结果

假如在包含大量任务仿真究竟的一个未知散布上采样了 n 个独立同散布样本,比如 5W 样本和索引。缺失质量(missing mass)(在这里即为缺失的究竟 p (U))是来自该究竟散布 p 的未来样本中未在 n 个训练样本中观察到的部分,其中 U 是在训练数据中未观察到的究竟的子集。

缺失质量的 Good-Turing 估计是指在训练数据中仅涌现一次的样本(在这里即为究竟)的比例。研究者将其称之为 MonoFacts estimator,即单究竟估计器:

大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉

研究表明,对于任务散布 p,这个 Good-Turing 估计器有很高的几率位于缺失质量的大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉范围内。

如果训练中不包含的任务仿真究竟的正确性无法被详情,则缺失究竟率可以提供一个幻觉率的上限。这反过来就能提供一个接近大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉的上限。特别是,在仿真究竟散布的「正则性」假如下,最简朴的界限(论文中的推论 1)意味着:对于任何算法,在训练集上有 ≥ 99% 的几率会有:

大模型幻觉问题无解?理论证明校准的LM必然会涌现幻觉

其中幻觉率(Hallucination rate)是指说话模型产生幻觉的速率,下一项是缺失究竟的「单究竟」估计器。再后一项是「误校准率」,它量化了散布与校准的接近程度。下一项则涉及任务究竟与错误的类似信息的数量之比,对许多类型的信息来说,该比值非常小。最后一项很小,因为当今说话模型的训练集规模 n 都很大。

「正则性(regularity)」假如的意思是:平均而言,所有未观察过的仿真究竟为真的几率相等。

更一般而言,该界限成立的几率 ≥ 1 − δ,其中常数 60 可以用与 δ 成反比且与仿真究竟散布上的正则项成正比的项替换。这个正则项衡量的是最能够的仿真究竟(在训练数据中未观察到)与平均未观察到的仿真究竟几率的比。对于对称散布和其它类型的简朴散布,该常数为 1。

为了考虑有界的正则性,研究者放宽了它,这样就能允许存在一定的负相关性(比如一个人不能同一天在 1000 个不同地方吃 1000 顿午餐),并允许某些仿真究竟的条件几率为 0,但它不允许未观察过的仿真究竟具有非常大的几率。

相关的证明过程请参看原论文。

解释

对于上面的上限,研究者给出了如下解释。

第一,应当详情大量仿真究竟:任务的、合理的、正则的仿真究竟。它们能够是有关 5W 的文章和合理的科研文章引用。直观上讲,不正确的仿真究竟(幻觉)比究竟多得多。然后再考虑这些仿真究竟中有多大比例能够在训练数据中刚好涌现一次。对于 5W 的情况,可以想象有一半的文章刚好涌现一次。这表明,经过校准的仿真究竟模型在 5W 仿真究竟上的生成结果中大约有一半会有幻觉问题。

另一方面,可以想象文章的数量远远少于 n,因为出版的目标是广告宣传,每一个引用都能够在训练数据中多次涌现(即几率远大于 1/n),能够只有非常近期的除外(比如在其它引用涌现之前)。这表明文章的缺失质量很低,并且在引用标题上产生幻觉方面没有内在的统计必然性。

还有其它一些原因能够会导致涌现这种幻觉,比如模型能力有限(即便说话模型的参数数量远大于文章数量,这些参数也必然会编码文章标题之外的许多其它类型的信息)。这也证明:为了缓解幻觉问题,一种合理做法是在生成时咨询究竟数据库,即便该究竟数据库完全鉴于训练数据。

尽管究竟性和猜测准确度之间存在这种紧张关系,但这两种类型的说话模型的训练或「预训练」目标通常都是最大化在语料库上的能够性,也就相当于最小化「KL 散度」,这是说话模型和其训练所用的数据散布之间的一个强大的统计差异指标。

给TA打赏
共{{data.count}}人
人已打赏
应用

美图视觉大模型MiracleVision(奇想智能)将向公众开放

2024-1-2 15:15:00

应用

给3D资产生成高清纹理,腾讯让AI扩充游戏皮肤

2024-1-2 15:27:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索