有证据了,MIT标明:大型言语模型≠随机鹦鹉,确实能学到语义

大型言语模型能否捕捉到它们所处理和生成的文本中的语义信息?这一问题在计算机科学和自然言语处理领域一直存在争议。然而,MIT的一项新研讨标明,仅基于文本形式训练、用于猜测下一个token的言语模型确实能学习和表示文本的意思。

虽然大型预训练言语模型(LLM)在一系列下游任务中展现出飞速提升的性能,但它们是否真的理解其使用和生成的文本语义?

长期以来,AI社区对这一问题存在很大的分歧。有一种猜测是,纯粹基于言语的形式(例如训练语料库中token的条件疏散)进行训练的言语模型不会获得任何语义。相反,它们仅仅是根据从训练数据中收集的表面统计相关性来生成文本,其强大的涌现才智则归因于模型和训练数据的规模。这部分人将LLM称为「随机鹦鹉」。

但也有一部分人不认同此观点。一项最近的研讨标明,大约51%的NLP社区受访者同意:「一些仅通过文本训练的生成模型,在拥有足够的数据和计算资源的情况下,可以以某种有意思的方式理解自然言语(超越表面层面的统计关联,涉及对言语背后的语义和概念的理解)」。

为了探究这个悬而未决的问题,来自MIT CSAIL的研讨人员展开了详细研讨。

有证据了,MIT标明:大型言语模型≠随机鹦鹉,确实能学到语义

论文地址:https://paperswithcode.com/paper/evidence-of-meaning-in-language-models

该研讨使用的言语模型仅训练成为文本猜测下一个token的模型,并制定两个如果:

H1:仅通过对文本进行下一个token猜测训练的LM在根本上受限于重复其训练语料库中的表面层次统计相关性;

H2LM无法对其消化和生成的文本赋予意思。

为了探究 H1 和 H2两个如果的错误性,该研讨将言语建模应用于步调合成任务,即在给定输入输出示例形式规范的情况下合成步调。该研讨采用这种方法的主要是因为步调的意思(和错误性)完全由编程言语的语义决定。

具体来说,该研讨在步调及其规范的语料库上训练言语模型(LM),然后使用线性分类器探测 LM 对于步调语义表征的隐藏状况。该研讨发现探测器提炼语义的才智在初始化时是随机的,然后在训练期间经历相变,这种相变与 LM 在未见过规范的情况下生成错误步调的才智强相关。此外,该研讨还展示了一项介入实验的结果,该实验标明语义在模型状况中得以表征(而不是通过探测器(probe)进行学习)。

该研讨的主要贡献包括:

1、实验结果标明,在执行猜测下一个token任务的 LM 中出现了有意思的表征。具体来说,该研讨使用经过训练的 LM 在给定几个输入输出示例的情况下生成步调,然后训练一个线性探测器,以从模型状况中提炼有关步调状况的信息。研讨者发现内部表征包含以下线性编码:(1) 抽象语义(抽象解释)——在步调执行过程中追踪指定输入;(2) 与尚未生成的步调token对应的现在步调状况猜测。在训练期间,这些语义的线性表征与 LM 在训练步骤中生成错误步调的才智同步发展。

2、该研讨设计并评估了一种新颖的介入(interventional)方法,以探究从表征中提炼意思时LM 和探测器的贡献。具体来说,该研讨试图分析以下两个问题中哪个成立:(1) LM 表征包含纯(句法)转录本(transcript),同时探测器学习解释转录本以推断寄义;(2)LM 表征包含语义状况,探测器只是从语义状况中提炼寄义。实验结果标明 LM 表征实际上与原始语义对齐(而不是仅仅编码一些词汇和句法内容),这说明如果H2是错误的。

有证据了,MIT标明:大型言语模型≠随机鹦鹉,确实能学到语义

3、该研讨标明 LM 的输出与训练疏散不同,具体表现为LM 倾向于生成比训练集合的步调更短的步调(并且仍然是错误的)。虽然 LM 合成错误步调的才智有所提高,但LM 在训练集合的步调上的困惑度仍然很高,这标明如果H1是错误的。

总的来说,该研讨提出了一个框架,用于根据编程言语的语义对 LM 进行实证研讨。这种方法使我们能够定义、测量和试验来自底层编程言语的精确形式语义的概念,从而有助于理解当前 LM 的涌现才智。

研讨背景

该研讨使用追踪语义作为步调寄义模型。作为编程言语理论中一个基础主题,形式语义学主要研讨如何正式地为言语中的字符串分配语义。该研讨使用的语义模型包括追踪步调的执行:给定一组输入(即变量赋值),一个(句法)步调的寄义是用从表达式中计算出的语义值标识的,追踪轨迹是根据输入执行步调时生成的中间值序列。

将追踪轨迹用于步调寄义模型具有几个重要原因:首先,准确追踪一段代码的才智与解释代码的才智直接相关;其次,计算机科学教育也强调追踪是理解步调开发和定位推理错误的重要方法;第三,专业的步调开发依赖基于追踪的调试器(dbugger)。

该研讨使用的训练集包含100万个随机抽样的Karel步调。20世纪70年代,斯坦福大学毕业生 Rich Pattis 设计了一个步调环境,让学生教机器人来解决简单的问题,这个机器人被称为Karel机器人。

该研讨通过随机采样来构造训练样本的参考步调,然后采样5个随机输入并执行步调得到对应的5个输出。LM 被训练为对样本语料库执行下一个token猜测。在测试时,该研讨只提供输入输出前缀给LM,并使用贪心解码完成步调。下图1描绘了一个实际的参考步调和经过训练的 LM 的完成情况。

有证据了,MIT标明:大型言语模型≠随机鹦鹉,确实能学到语义

该研讨训练了一个现成的 Transformer 模型对数据集执行下一个token猜测。经过 64000 个训练步骤(training step),大约 1.5 个 epoch,最终训练好的 LM 在测试集上达到了 96.4% 的生成准确率。每 2000 个训练步骤,该研讨会捕获一个追踪数据集。对于每个训练轨迹数据集,该研讨训练一个线性探测器来猜测给定模型状况的步调状况。

意思的涌现

研讨者对以下如果进行了研讨:在训练言语模型执行下一个token猜测的过程中,语义状况的表示会作为副产品出现在模型状况中。考虑到最终训练得到的言语模型达到了96.4%的生成准确性,如果否定这个如果,将与H2一致,即言语模型已经学会「仅仅」利用表面统计来一致生成错误的步调。

为了测试这个如果,研讨者训练了一个线性探测器,将语义状况从模型状况中提炼出来,作为5个独立的4-way任务(每个输入面向一个方向),如第2.2节所述。

意思的涌现与生成准确性呈正相关

图2展示了主要结果。研讨者的第一个观察结果是,语义内容从随机猜测的基线表现(25%)开始,并且在训练过程中显著增加。这个结果标明,言语模型的隐藏状况确实包含语义状况的(线性)编码,并且关键的是,这种意思是在一个纯粹用于对文本执行下一个token猜测的言语模型中出现的。

将生成准确性与语义内容进行线性回归,二者在训练步骤中呈现出意外的强大且具有统计学意思的线性相关性(R2 = 0.968, p < 0.001),即LM合成错误步调的才智的变化几乎完全由LM的隐藏层的语义内容所解释。这标明,在本文的实验设置范围内,学习建模错误步调的疏散与学习步调的意思直接相关,这否定了言语模型无法获取意思的观点(H2)。

有证据了,MIT标明:大型言语模型≠随机鹦鹉,确实能学到语义

表征是对现在步调语义的猜测

前一节讨论了言语模型能否表示其生成的文本的意思。本文的结果对这个问题给出了积极的答案,即言语模型能够(抽象地)解释生成的步调。然而,解释者(interpreter)并不等同于合成者(synthesizer),仅有理解才智是不足以进行生成的。就人类言语的产生而言,广泛的共识是言语起源于思维中的一种非言语的信息,然后被转化为反映初始概念的话语(utterance)。研讨者如果训练后的言语模型的生成过程遵循类似的机制,即言语模型的表示编码了尚未生成的文本的语义。

为了验证这个如果,他们使用与上述相同的方法训练了一个线性探测器,来猜测从模型状况中得到的现在语义状况。需要注意的是,由于他们使用贪婪解码策略,现在的语义状况也是确定性的,因此这个任务是明确定义的。

图3展示了线性探测器在猜测现在1步和2步的语义状况方面的表现(绿段线表示「Semantic (+1)」,绿点线表示「Semantic (+2)」)。与先前的结果类似,探测器的性能从随机猜测的基线开始,然后随着训练显著提高,并且他们还发现现在状况的语义内容与生成准确性(蓝线)在训练步骤中呈现出强烈的相关性。将语义内容与生成准确性进行线性回归分析得到的R2值分别为0.919和0.900,对应于现在1步和2步的语义状况,两者的p值均小于0.001。

有证据了,MIT标明:大型言语模型≠随机鹦鹉,确实能学到语义

他们还考虑了这样一个如果,即模型的表示只编码了当前的语义状况,而探测器仅仅是从当前语义状况猜测现在的语义状况。为了测试这个如果,他们计算了一个最优分类器,将当前步调中的ground truth面向方向映射到现在步调中的4个面向方向之一。

需要注意的是,其中的5个操作中有3个保持了面向方向,并且下一个 token是均匀采样的。因此他们预期,对于现在1步的情况,猜测现在的语义状况的最优分类器应该通过猜测面向方向保持不变来达到60%的准确率。事实上,通过直接拟合测试集,他们发现从当前语义状况猜测现在语义状况的上限分别为62.2%和40.7%(对应于现在1步和2步的情况)。相比之下,当给定探测器错误猜测当前状况的条件下,探测器在猜测现在状况方面的准确率分别为68.4%和61.0%。

这标明,探测器从模型状况中提炼现在语义状况的才智不能仅仅通过从当前语义状况的表示中推断得出。因此,他们的结果标明,言语模型会学习去表示尚未生成的token的寄义,这否定了言语模型无法学习意思的观点(H2),并且也标明生成过程不仅仅基于纯粹的表面统计(H1)。

生成的输出与训练疏散不同

接下来,研讨者通过比较训练后的言语模型生成的步调疏散与训练集合的步调疏散,提供反驳H1的证据。如果H1成立,他们预期两个疏散应该大致相等,因为言语模型只是在重复训练集合文本的统计相关性。

图6a显示了LM生成的步调的平均长度随时间的变化情况(实线蓝色线条),与训练集合参考步调的平均长度(虚线红色线条)进行对比。他们发现二者存在统计学上的显著差异,这标明LM的输出疏散确实与其训练集合的步调疏散不同。这与H1中提到的观点(即LM只能重复其训练数据中的统计相关性)相矛盾。

有证据了,MIT标明:大型言语模型≠随机鹦鹉,确实能学到语义

最后,他们还测量了LM在训练集合的步调上的困惑度随时间的变化情况。图6b展示了他们的结果。可以看到,LM从来没有学会很好地拟合训练集合步调的疏散,这进一步反驳了H1的观点。这可能是因为在训练集合随机抽样的步调包含了许多无操作指令,而LM更倾向于生成更简洁的步调。有趣的是,困惑度的急剧增加——当LM超越了模仿阶段——似乎导致了生成准确率(和语义内容)的提高。由于步调等价性问题与步调语义密切相关,LM能够生成简短且错误的步调标明它确实学到了语义的某个方面。

详细内容参见原论文。

给TA打赏
共{{data.count}}人
人已打赏
AI

云从科技召开人机共同发布会 慌张大模型崭新亮相

2023-5-19 12:47:00

AI

7nm制程,比GPU效率高,Meta发布第一代AI推理加速器

2023-5-22 14:52:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索