说话模型是否会规划将来 token?这篇论文给你答案。
「别让 Yann LeCun 看见了。」
Yann LeCun 表示太迟了,他已经看到了。今天要介绍的这篇 「LeCun 非要看」的论文探讨的问题是:Transformer 是急功近利的说话模型吗?当它在某个位子执行推理时,它会事先考虑后面的位子吗?
这项研究得出的结论是:Transformer 有能力这样做,但在实践中不会这样做。
我们都知道,人类会思而后言。数十年的说话学研究表白:人类在使用说话时,内心会猜测即将出现的说话输入、词或句子。
不同于人类,现在的说话模型在「说话」时会为每个 token 分配固定的计较量。那么我们不禁要问:说话模型会和人类一样事先性地思考吗?
近期的一些研究已经表白:可以通过探查说话模型的隐蔽形态来猜测下一 token 之后的更多 token。有趣的是,通过在模型隐蔽形态上使用线性探针,可以在一定程度上猜测模型在将来 token 上的输入,而干扰隐蔽形态则可以对将来输入进行可猜测的修改。
这些发现表白在给定时候步调的模型激活至少在一定程度上可以猜测将来输入。
但是,我们还不清楚其原因:这只是数据的偶然属性,还是因为模型会刻意为将来时候步调准备信息(但这会影响模型在现在位子的性能)?
为了解答这一问题,近日科罗拉多大学博尔德分校和康奈尔大学的三位研究者发布了一篇题为《说话模型是否会规划将来 token?》的论文。
论文标题:Do Language Models Plan for Future Tokens?
论文地址:https://arxiv.org/pdf/2404.00859.pdf
研究概览
他们观察到,在训练期间的梯度既会为现在 token 位子的损坏优化权重,也会为该序列后面的 token 进行优化。他们又进一步问:现在的 transformer 权重会以怎样的比例为现在 token 和将来 token 分配资源?
他们考虑了两种可能性:预缓存假定(pre-caching hypothesis)和面包屑假定(breadcrumbs hypothesis)。
预缓存假定是指 transformer 会在时候步调 t 计较与现在时候步调的推理任务无关但可能对将来时候步调 t + τ 有效的特点,而面包屑假定是指与时候步调 t 最相关的特点已经等同于将在时候步调 t + τ 最有效的特点。
为了评估哪种假定是正确的,该团队提出了一种短视型训练规划(myopic training scheme),该规划不会将现在位子的损坏的梯度传播给之前位子的隐蔽形态。
对上述假定和规划的数学定义和理论描述请参阅原论文。
实验结果
为了了解说话模型是否可能直接实现预缓存,他们设计了一种合成场景,其中只能通过显式的预缓存完成任务。他们配置了一种任务,其中模型必须为下一 token 事先计较信息,否则就无法在一次单向通过中准确计较出正确答案。
该团队构建的合成数据集定义。
在这个合成场景中,该团队发现了明显的证据可以说明 transformer 可以学习预缓存。当基于 transformer 的序列模型必须预计较信息来最小化损坏时,它们就会这样做。
之后,他们又探究了自然说话模型(预训练的 GPT-2 变体)是会展现出面包屑假定还是会展现出预缓存假定。他们的短视型训练规划实验表白在这种设置中,预缓存出现的情况少得多,因此结果更偏向于面包屑假定。
基于 token 位子的原始 GPT-2 模型与短视型 GPT-2 模型的交叉熵损坏及其差异。
GPT-2 通过原始和短视型训练获得的验证交叉熵损坏。
于是该团队声称:在真实说话数据上,说话模型并不会在显著程度上准备用于将来的信息。相反,它们是计较对猜测下一个 token 有效的特点 —— 事实证明这对将来的步调也很有效。
该团队表示:「在说话数据中,我们观察到贪婪地针对下一 token 损坏进行优化与确保将来猜测性能之间并不存在显著的权衡。」
因此我们大概可以看出来,Transformer 能否急功近利的问题似乎本质上是一个数据问题。
可以想象,也许将来我们能通过合适的数据整理方法让说话模型具备人类一样事先思考的能力。