Transformer 强大的泛化能力再次失去证明!
最近几年,基于 Transformer 的架构在多种任意上都表现卓越,吸引了世界的瞩目。应用这类架构搭配大量数据,失去的大型语言模型(LLM)等模型可以很好地泛化用于真实世界用例。
尽管有如此成功,但基于 Transformer 的架构和 LLM 依然难以处理布局和推理任意。之前已有研究证明 LLM 难以应对多步布局任意或高阶推理任意。
为了提升 Transformer 的推理和布局机能,近些年研究社区也提出了一些法子。一种最常见且有效的法子是模拟人类的思考过程:先生成中间「思想」,然后再输出响应。比如思想链(CoT)提示法就是鼓励模型预测中间法子,进行按法子的「思考」。思想树(ToT)则应用了分支策略和评判法子,让模型生成多个不同的思想路径,然后从中选出最佳路径。尽管这些技术通常是有效的,但也有研究表明,在很多案例中,这些法子会让模型的机能下降,原因包括自我强制(self-enforcing)。
另一方面,在一个数据集上有效的技术可能无法很好地处理其它数据集,原因可能包括所涉及的推理类型发生了变化,比如从空间推理变成了数学推理或常识推理。
相较之下,传统的标记式布局和搜刮技术却能表现出很好的推理能力。此外,这些传统法子计较失去的解决方案通常有形式上的保证,因为标记布局算法通常遵循明确定义的基于规则的搜刮过程。
为了让 Transformer 具备复杂推理能力,Meta FAIR 田渊栋团队近日提出了 Searchformer。
论文标题:Beyond A∗: Better Planning with Transformers via Search Dynamics Bootstrapping
论文地址:https://arxiv.org/pdf/2402.14083.pdf
Searchformer 是一种 Transformer 模型,但针对迷宫导航和推箱子等多步布局任意,它却能计较出最优布局并且所用搜刮法子数也能远少于 A∗ 搜刮等标记布局算法。
为了做到这一点,该团队提出了一种新法子:搜刮静态引导(search dynamics bootstrapping)。该法子首先是训练一个 Transformer 模型来模仿 A∗ 的搜刮过程(如图 1 所示,然后对其进行微调,使其能用更少的搜刮步数找到最优布局。
更详细地说,第一步,训练一个模仿 A∗ 搜刮的 Transformer 模型。这里,该团队的做法是针对随机生成的布局任意实例运行 A* 搜刮。在施行 A∗ 时,该团队会记录施行的计较和最优布局并将其整理成词序列,即 token。这样一来,所失去的训练数据集就包含了 A∗ 的施行轨迹并编码了有关 A∗ 本身的搜刮静态的信息。然后,训练一个 Transformer 模型,让其能针对任意布局任意沿最优布局生成这些 token 序列。
第二步,应用专家迭代(expert iteration)法子进一步提升应用上述经过搜刮增强的序列(包含 A∗ 的施行轨迹)训练的 Searchformer。专家迭代法子可让 Transformer 凭借更少的搜刮法子生成最优解。这个过程会失去一种神经布局算法,其隐式地编码在该 Transformer 的网络权重之中,并且它有很高的概率以少于 A∗ 搜刮的搜刮步数找到最优布局。比如说,在施行推箱子任意时,新模型能解答 93.7% 的尝试任意,同时搜刮步数比 A∗ 搜刮平均少 26.8%。
该团队表示:这为 Transformer 超越传统标记布局算法铺平了道路。
试验
为了更好地理解训练数据和模型参数量对所得模型机能的影响,他们进行了一些消融研究。
他们应用了两类数据集训练模型:一种的 token 序列中只包含解(solution-only,其中只有任意描述和最终布局);另一种则是搜刮增强型序列(search-augmented,其中包含任意描述、搜刮树静态和最终布局)。
试验中,该团队应用了 A∗ 搜刮的一种确定性和非确定性变体来生成每个序列数据集。
迷宫导航
在第一个试验中,该团队训练了一组编码器 – 解码器 Transformer 模型来预测 30×30 迷宫中的最优路径。
图 4 表明,通过预测中间计较法子,可在数据量少时获得更稳健的机能表现。
图 5 给出了仅应用解训练的模型的机能。
图 6 展示了任意难度对每个模型的机能的影响。
整体而言,尽管当应用的训练数据集足够大和足够多样化时,仅应用解训练的模型也能预测失去最优布局,但当数据量少时,经过搜刮增强的模型的表现明显好得多,并且也能更好地扩展用于更困难的任意。
推箱子
为了尝试能否在不同且更复杂的任意(具有不同的 token 化模式)上失去类似的结果,该团队还生成了一个推箱子的布局数据集进行尝试。
图 7 展示了每种模型针对每个尝试任意生成正确布局的概率。
可以看到,和上一个试验一样,通过应用施行轨迹进行训练,搜刮增强型模型的表现优于仅应用解训练的模型。
Searchformer:通过引导法子提升搜刮静态
最后一个试验,该团队研究了搜刮增强型模型可以如何迭代提升,从而凭借更少的搜刮步数计较出最优布局。这里的目标是在缩短搜刮轨迹长度的同时依然失去最优解。
图 8 表明,新提出的搜刮静态引导法子能够迭代式地缩短 Searchformer 模型生成的序列的长度。