模型越大,本能越好?苹果自返回视觉模型AIM:没错

视觉模型,同样遵循「参数越多本能越强」的规律?刚刚,一项来自苹果公司的研究考证了这个猜想。过去几年,大规模预训练模型在 NLP 领域取得了成功,这类模型可以通过几个示例解决复杂的推理义务,也可以按照指令从事推理。众所周知的是,预训练模型能取得成功的一个理论基础是,随着容量(即参数量)或预训练数据量的增加,模型能够不断提升本能。这很自然地引发了研究者们的联想:应用自返回标的对 Transformers 从事缩放的成功是否仅限于文本?在最新的一篇论文《Scalable Pre-training of Large Aut

视觉模型,同样遵循「参数越多本能越强」的规律?刚刚,一项来自苹果公司的研究考证了这个猜想。

过去几年,大规模预训练模型在 NLP 领域取得了成功,这类模型可以通过几个示例解决复杂的推理义务,也可以按照指令从事推理。

众所周知的是,预训练模型能取得成功的一个理论基础是,随着容量(即参数量)或预训练数据量的增加,模型能够不断提升本能。

这很自然地引发了研究者们的联想:应用自返回标的对 Transformers 从事缩放的成功是否仅限于文本?

在最新的一篇论文《Scalable Pre-training of Large Autoregressive Image Models》中,苹果的研究者提出了自返回图象模型(AIM),探讨了用自返回标的训练 ViT 模型是否能在学习表征方面获得与 LLMs 相同的扩大能力。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

论文链接:https://arxiv.org/pdf/2401.08541.pdf

项目地址:https://github.com/apple/ml-aim

先说结论:研究者发现,模型容量可以轻松扩大到数十亿个参数,并且 AIM 能够有效利用大量未经整理的图象数据。

他们利用包括 ViT、大规模网络数据集和 LLM 预训练最新进展在内的工具集,重新审视了 iGPT 等自返回表征学习方面的前期工作,此外还引入了两处架构修改,以适应视觉特性的自返回预训练。

首先,研究者并没有像 LLM 通常那样将自注意力限制为完全因果关系,而是采用了 T5 中的前缀注意力。这一选择使得能够在卑鄙义务中转向完全双向的注意力。其次,研究者应用了参数化程度较高的 token-level 预测头,其灵感来自对比学习中应用的预测头。他们窥察到,这种修改大大提高了后续特性的质量,而在训练过程中的开销却很小。总体来说,AIM 的训练与最近的 LLM 训练类似,而且不依赖于监督式或自监督式方式所需的任何 stability-inducing 技术。

随后,研究者对一系列模型展开了研究,这些模型的参数从 600M 到 7B 不等,都是应用 20 亿带许可的未编辑图象从事预训练的。如图 1 所示,以 15 个图象识别基准的平均准确率来衡量,AIM 模型在与模型规模的关系上表现出很强的扩大性,容量越大的模型卑鄙本能越好。更重要的是,考证集上的标的函数值与后续冻结特性的质量之间存在相关性。这一窥察结果证明,自返回标的足以满足视觉特性的训练要求。此外,随着对更多图象从事训练,研究者还窥察到了卑鄙本能的持续改善,且没有饱和的迹象。总体而言,这些窥察结果与之前关于扩大大型语言模型的研究结果是一致的。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

但同时引起注意的是,本文试验所应用的模型规模有限,是否能在更大参数量级的模型上考证此规律,有待进一步探索。

方式概览

本文的训练标的遵循应用于图象 patch 序列的标准自返回模型。更准确地说,图象 x 被分割为 K 个不重叠 patch x_k 组成的网格 k ∈ [1, K],这些 patch 共同形成 token 序列。

研究者假设所有图象的序列顺序是固定的,因此除非另有说明,他们默认应用光栅(行优先)排序。给定上述顺序,一张图象的概率可以被分解为 patch 条件概率的乘积。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

预测受益。研究者的训练标的自然会产生某些受益变体,每个变体对应分布 P (x_k | x_<k) 的选择。他们还考虑通过应用离线 tokenizer,将带有 patch 的交叉熵受益转换为离散 token。消融试验表明,这些设计是有效的,尽管不会产生像像素级受益那样显著的特性。

架构

在骨干选择上,研究者采用了 Vision Transformer(ViT)架构。为了扩大模型容量,他们遵循语言建模中的常见做法,优先考虑扩大宽度而不是深度。下表 1 展现了 AIM 的设计参数,包括它的宽度和深度以及数据量、每个模型容量的优化方案。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

AIM 整体模型架构如下图 2 所示。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

在预训练期间,研究者将因果掩码用于自注意力层,以对给定先前 patch 的 patch 从事概率建模。更准确地说,给定一个自注意力层,patch i 的嵌入被计算如下:

模型越大,本能越好?苹果自返回视觉模型AIM:没错

前缀 Transformer。预训练中的自返回标的需要在自注意力操作中应用因果掩码,不过这与 ViT 模型在卑鄙义务中的标准应用方式不同,后者要部署双向自注意力。下图 3 说明了因果和前缀注意力之间的差别。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

MLP 预测头。应用这些头的目的是防止主干(trunk)特性在预训练标的中变得过于专门化,从而增强对卑鄙义务的迁移能力。研究者选择了一种简单设计,在最终 transformer 层顶部应用 N 个多层感知机(MLP)块,从而独立地对每个 patch 从事处理。

直接实现。研究者窥察到,AIM 应用相同的优化超参数集来扩大模型大小,无需进一步调整。

卑鄙适应。研究者专注的场景中,所有模型权重对卑鄙义务都是固定的。在这种情况下,他们只训练一个分类头,这可以减轻小型卑鄙数据集过拟合的风险,并显著降低适应成本。

试验结果

首先,研究者从参数和训练数据的角度衡量了扩大本文方式所产生的影响。特别是,他们研究了预训练标的和卑鄙本能在不同基准之间是否存在相关性;还研究了缩放对受益函数值的影响。所有这些试验都报告了在 IN-1k 考证集上的受益函数值。

从图 4 可以看出,在整个训练过程中,两个探针都得到了相应的改善,这表明优化标的会直接带来更好的卑鄙本能。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

他们同时发现,随着模型容量的增加,受益值和卑鄙义务的准确性都有所提高。这一窥察结果与在 LLMs 中窥察到的趋势一致,可直接归因于标的函数的优化,这反过来又会导致学习到更强的表征。

图 5 中展现了在由 100 万张图象组成的小型数据集(即 IN-1k)或由 20 亿 张图象组成的大型数据集(即 DFN-2B+)上从事预训练时考证受益的变化情况。

在 IN-1k 上从事的训练很快就会带来较低的考证受益,然而这种受益在训练结束时会恶化,这表明了对训练数据的过拟合。当在未经整理的 DFN-2B 数据集上从事训练时,模型开始时的考证受益较高,但受益持续减少,没有过拟合的迹象。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

当在同一数据集上添加少量 IN-1k 数据,可以窥察到本能进一步提高,最终超过了在 IN-1k 数据集上的预训练。表 2 证实了这一点。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

由于在应用 DFN-2B+ 数据集从事训练时没有窥察到过拟合的迹象,因此研究者继续研究延长预训练计划长度的影响。图 6 展现了将预训练时间表的长度从 50 万次迭代增加到 120 万次迭代的影响。可以窥察到,应用更长计划从事预训练的模型的考证受益明显降低。这表明可以通过增加模型容量或应用更长的时间表从事预训练来提高 AIM 的本能。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

同时,研究者讨论了模型和训练标的的一些变化所产生的影响。这些消融试验应用 AIM-0.6B 模型从事,该模型已在 IN-1k 数据集上从事了预训练和评估。表 3 展现了消融试验的结果。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

研究者还应用自返回标的训练的架构与 BERT 在语言领域以及 BEiT 和 MAE 在视觉领域流行的掩蔽标的从事了比较。他们在与 AIM 相同的设置中应用了掩蔽标的,从而将预训练标的对本能的影响与 AIM 和其他方式之间的其他设计选择的不同之处隔离开来。表 5 显示,AIM 在应用自返回标的时比应用掩蔽标的时表现更好。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

表 6 展现了 AIM 与其他 SOTA 方式在 15 种不同基准中的 Attentive Probing 本能。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

除此之外,研究者还探索了 LoRA 这种高效的微调方式,表 8 展现了对 AIM 从事 LoRA 微调的结果。LoRA 与 AIM 兼容,与冻结主干评估相比,本能有了很大提升。例如,AIM-7B 提高了 3.9%(与上一层本能相比),而微调的主干参数只提升 0.1%。

模型越大,本能越好?苹果自返回视觉模型AIM:没错

更多技术细节和试验结果请参阅原论文。

给TA打赏
共{{data.count}}人
人已打赏
工程

三个臭皮匠顶个诸葛亮?可能是真的,已证实混杂多个小模型机能比肩GPT3.5

2024-1-18 11:45:00

工程

吞吐量提升5倍,联合设计后端体系和前端说话的LLM接口来了

2024-1-19 11:27:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索