全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。沿袭 ViT 的研究思路,我们能否借助创新性的 LLaMA 架构,真正实现语言和图象的架构统一?在这一命题上,最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图象生成(包含 Sora 依赖的底层的 DIT)和理解(分类、分割、检测、自监督)等多个主流使命上相较于原 ViT 类法子提升显著。论文标题:VisionLLaMA: A Unified LLaMA Interfac

半年多来,Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功(训练稳定、容易做 scaling)。

沿袭 ViT 的研究思路,我们能否借助创新性的 LLaMA 架构,真正实现语言和图象的架构统一?

在这一命题上,最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图象生成(包含 Sora 依赖的底层的 DIT)和理解(分类、分割、检测、自监督)等多个主流使命上相较于原 ViT 类法子提升显著。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

论文标题:VisionLLaMA: A Unified LLaMA Interface for Vision Tasks

论文地址:https://arxiv.org/abs/2403.00522

代码地址:https://github.com/Meituan-AutoML/VisionLLaMA

该研究在统一图象和语言架构方面的尝试,可以复用 LLM 社区在 LLaMA 上的训练(稳定且有效的 scaling)、部署等一系列成果。

研究背景

大语言模型是当前学术界研究的热点,其中,LLaMA 是最具影响力和代表性的工作之一,许多最新的研究工作都基于该架构开展,各种应用的解决方案大都建立在该系列的开源模型之上。在多模态模型的进展中,其中许多法子都依赖 LLaMA 从事文本处理、并依赖类似 CLIP 的视觉 transformer 从事视觉感知。同时,许多工作致力于加快 LLaMA 的推理速度、降低 LLaMA 的存储成本。总而言之,LLaMA 现在是事实上最通用、最重要的大语言模型架构。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

LLaMA 架构的成功使得本文作者提出了一个简单而有趣的设想:该架构是否可以在视觉模态上同样成功?如果答案是肯定的,那么视觉模型和语言模型都可以运用相同的统一架构,并从为 LLaMA 设计的各种动态部署技术中受益。然而,这是一个复杂的问题,因为这两种模态之间存在一些明显的差异。

首先存在维度差异:文本序列是一维的,而视觉使命需要处理两个或更多维度的数据;其次存在构造差异:许多视觉使命依赖于金字塔构造的骨干网络以获得更好的功能,而 LLaMA 是一个构造上朴素的编码器;第三,需要有效处理不同分辨率的图象和视频输入。

本文旨在解决这些挑战,并弥合不同模态之间的架构差距,具体为提出适应视觉使命的 LLaMA 架构,解决与模态差异相关的难题,并实现通过一种统一的法子对视觉和语言数据从事处理。

本文主要贡献如下:

1. 本文提出 VisionLLaMA,一种类似于 LLaMA 的视觉 transformer 架构,以减少语言和视觉之间的架构差异。

2. 本文研究了使 VisionLLaMA 适应常见视觉使命的法子,包括图象理解和创建(图 1)。本文研究了两种广为人知的视觉架构方案(常规构造和金字塔构造),并评价它们在监督和自监督学习场景下的功能。此外,本文还提出了 AS2DRoPE(即自动缩放 2D RoPE),它将旋转位子编码从 1D 扩展到 2D,并利用插值缩放来适应任意分辨率。

3. 在精确的评价下,VisionLLaMA 在图象生成、分类、语义分割和目标检测等许多代表性使命中明显优于当前主流且被精确微调过的视觉 transformer。大量实验表明,VisionLLaMA 与现有视觉 transformer 相比具有更快的收敛速度和更好的功能。

VisionLLaMA 总体架构设计

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

常规 Transformer

本文提出的常规 VisionLLaMA 遵循 ViT 的流程,并且尽可能保留 LLaMA 的架构设计。对于一张图象,首先将其变换并展平为一个序列,然后在序列的开头添加一个类别 token,整个序列通过 L 个 VisionLLaMA block 从事处理。与 ViT 不同,VisionLLaMA 不向输入序列添加位子编码,因为 VisionLLaMA 的 block 包含位子编码。具体来说,该 block 与标准的 ViT block 有两点不同:具有位子编码(RoPE)的自注意力和 SwiGLU 激活。本文仍然运用 LayerNorm 而不是 RMSNorm,因为本文通过实验发现前者表现更好(参见表 11g)。block 的构造如图 2 (a) 所示。本文发现在视觉使命中直接应用 1D RoPE 不能很好地推广到不同的分辨率上,因此将其扩展到二维形式:

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

金字塔构造 Transformer

将 VisionLLaMA 应用于类似 Swin 的基于窗口的 transformer 非常简单,因此本文选择在更强的基线 Twins 上探索如何构建强大的金字塔构造 transformer。Twins 的原始架构利用了条件位子编码、以局部 – 全局注意力的形式从事交错的局部 – 全局信息交换。这些组件在各种 transformer 中十分常见,这意味着在各类 transformer 变体中应用 VisionLLaMA 并不困难。

本文的目标不是发明一种全新金字塔构造的视觉 transformer ,而是如何在现有设计的基础上调整 VisionLLaMA 的基本设计,因此本文遵循对架构和超参数从事最少修改的原则。遵循 ViT 的命名方式,两个连续的 block 可以写为:

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

其中 LSA 是组内的局部自注意力操作,GSA 是通过与每个子窗口中的代表性键值交互而从事的全局子采样的注意力。本文移除了金字塔构造 VisionLLaMA 中的条件位子编码,因为 AS2DRoPE 中已经包含了位子信息。此外,还移除了类别 token,并在分类头之前运用 GAP(全局平均池化),该配置下的 block 构造如图 2 (b) 所示。

超越序列长度限制的训练或推理

将一维 RoPE 拓展到二维:对不同的输入分辨率从事处理是视觉使命中的常见需求。卷积神经网络运用滑动窗口机制来处理可变长度。与之相比,大多数视觉 transformer 应用局部窗口操作或插值,例如 DeiT 在不同分辨率上训练时采用双三次插值;CPVT 运用基于卷积的位子编码。本文中评价了 1D RoPE 的功能,发现其在 224×224 分辨率上拥有最高的精度,然而当分辨率上升到 448×448 时,精度急剧下降甚至为 0。因此,本文将一维 RoPE 扩展到二维。对于多头自注意力机制,二维 RoPE 在不同头之间共享。

位子插值有助于二维 RoPE 更好地泛化:受一些运用插值来扩展 LLaMA 的上下文窗口的工作启发,在更高分辨率的参与下,VisionLLaMA 采用类似方式扩展二维上下文窗口。与具有扩大的固定上下文长度的语言使命不同,目标检测等视觉使命通常在不同的迭代中处理不同的采样分辨率。本文运用 224×224 的输入分辨率对小模型从事训练,并在不重新训练的情况下评价更大分辨率的功能,指引本文能够更好的应用内插值或外差值策略。经过实验,本文选择应用基于 “锚点分辨率” 的自动缩放插值(AS2DRoPE)。对 H × H 的方形图象和 B × B 的锚点分辨率从事处理的计算方式如下:

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

这种计算方式效率高并且不会引入额外的成本。如果训练分辨率保持不变,AS2DRoPE 会退化为 2 维 RoPE。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

由于需要将位子信息添加到汇总的键值中,本文对于金字塔构造配置下的 GSA 从事了特殊处理。这些子采样的键值是通过特征图上的抽象生成的。本文运用内核大小为 k×k 且步长为 k 的卷积。如图 3 所示,生成的键值的坐标可以表示为采样特征的平均值。

实验结果

本文全面评价了 VisionLLaMA 在图象生成、分类、分割和检测等使命上的有效性。默认情况下,本文所有模型均在 8 个 NVIDIA Tesla A100 GPU 上从事训练。

图象生成

基于 DiT 框架的图象生成:本文选择在 DiT 框架下应用 VisionLLaMA,因为 DiT 是运用视觉 Transformer 和 DDPM 从事图象生成的代表性工作。本文用 VisionLLaMA 替换了 DiT 原来的视觉 transformer,同时保持其他组件与超参数不变。该实验证明了 VisionLLaMA 在图象生成使命上的通用性。与 DiT 相同,本文配置 DDPM 的 sample steps 为 250,实验结果如表 1 所示。与大多数法子保持一致,FID 被视为主要指标,并在其他次要指标上例如 sFID、Precision/Recall、Inception Score 从事评价。结果表明,VisionLLaMA 在各种模型尺寸上都显着优于 DiT。本文还将 XL 模型的训练步数扩展到 2352k,以评价本文的模型是否具有更快的收敛优势,或者在更长的训练周期配置下仍然表现更好。DiT-LLaMA-XL/2 的 FID 比 DiT-XL/2 低 0.83,表明 VisionLLaMA 不仅具有更好的计算效率,而且比 DiT 具有更高的功能。图 1 中展示了运用 XL 模型生成的一些示例。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

基于 SiT 框架的图象生成:SiT 框架显著提高了运用视觉 transformer 生成图象的功能。本文用 VisionLLaMA 替换 SiT 中的视觉 transformer,以评价更好的模型架构带来的收益,本文将其称为 SiT-LLaMA。实验保留了 SiT 中其余所有配置与超参数,所有模型都运用相同数量的步骤从事训练,在所有实验中都运用线性插值(linear interpolant)和快速模型(velocity model)。为了从事公平比较,本文还重新运行已发布的代码,并运用 250 steps 的 SDE 采样器(Euler)对 50k 256×256 图象从事采样,结果如表 2 中所示。SiT-LLaMA 在各种容量级别的模型中均优于 SiT。与 SiT-L/2 相比,SiT-LLaMA-L/2 降低了 5.0 FID,其幅度大于新框架带来的提升(4.0 FID)。本文还在表 13 中展示了更高效的 ODE 采样器 (dopri5),与本文法子的功能差距仍然存在。可以得出与与 SiT 论文中的类似的结论:SDE 比其对应的 ODE 具有更好的功能。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

ImageNet 上的图象分类

全监督训练

本节重点关注模型在 ImageNet-1K 数据集上的全监督训练,排除其他数据集或蒸馏技巧的影响,所有模型均运用 ImageNet-1K 训练集从事训练,并在表 3 中展示了在验证集上的准确性结果。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

常规视觉 Transformer 的比较:DeiT3 是当前最先进的常规视觉 transformer,它提出了一种特殊的数据增强并执行广泛的超参数搜索以提高功能。DeiT3 对超参数敏感并且容易出现过拟合,用 GAP(全局平均池化)替换类别 token 会导致 DeiT3-Large 模型在经过 800 个 epoch 训练后准确率下降 0.7%。因此,本文在常规 transformer 中运用类别 token 而不是 GAP。结果如表 3 中所示,其中 VisionLLaMA 取得了与 DeiT3 相当的 top-1 精度。单一分辨率上的准确性并不能提供全面的比较,本文还评价了不同图象分辨率的功能,结果如表 4 所示。对于 DeiT3,本文运用双三次插值来从事可学习的位子编码。尽管这两个模型在 224×224 分辨率下具有相当的功能,但当分辨率增加时,差距会扩大,这意味着本文的法子在不同分辨率下具有更好的泛化能力,这对于目标检测等许多下游使命来说至关重要。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

金字塔构造的视觉 transformer 比较:本文运用与 Twins-SVT 相同的架构,详细配置列于表 17。本文移除了条件位子编码,因为 VisionLLaMA 已经包含一种旋转位子编码。因此,VisionLLaMA 是一种无卷积架构。本文沿用 Twins-SVT 中的包含超参数在内的所有配置,与 Twins-SVT 保持一致,本文不运用类别 token,而是应用 GAP。结果如表 3 所示,本文的法子在各个模型级别上都实现了与 Twins 相当的功能,并且始终优于 Swin。

自监督训练

本文运用 ImageNet 数据集评价自监督视觉 transformer 的两种常见法子,同时将训练数据限制为 ImageNet-1K,移除了任何运用 CLIP、DALLE 或蒸馏等可以提高功能的组件,本文的实现基于 MMPretrain 框架,利用 MAE 框架并运用 VisionLLaMA 替换编码器,同时保持其他组件不变。该对照实验能够评价本文法子的有效性。此外,本文运用与所比较法子相同的超参数配置,在这种配置下,与强大的基线相比依然实现了显着的功能提升。

Full fine-tuning 配置:在当前配置下,模型首先运用预训练的权重从事初始化,然后运用完全可训练的参数从事额外的训练。VisionLLaMA-Base 在 ImageNet 上经过 800 个 epoch 的训练,达到了 84.0% 的 top-1 准确率,比 ViT-Base 提高了 0.8%。本文的法子训练速度比 SimMIM 快约 3 倍。本文还将训练周期增加到 1600,以验证 VisionLLaMA 能否在足够的训练资源下保持优势。VisionLLaMA-Base 在 MAE 变体中取得了新的 SOTA 结果,top-1 准确率达到 84.3%,比 ViT-Base 提高了 0.9%。考虑到 full fine-tuning 具有功能饱和风险,本文法子的提升十分显着。

Linear probing:最近的一项工作认为线性探测度量(linear probing metric)是对表示性学习更加可靠的评价。在当前配置下,模型由 SSL 阶段的预训练权重初始化。然后,在训练过程中,除了分类器头之外,整个骨干网络都被冻结。结果如表 5 所示:在训练成本为 800 个 epoch 的情况下,VisionLLaMA-Base 的功能优于 ViTBase-MAE 4.6%。它还超过了训练了 1600 个 epoch 的 ViT-Base-MAE。当 VisionLLaMA 训练 1600 个 epoch 时,VisionLLaMA-Base 达到了 71.7% 的 top1 准确率。本文法子还扩展到 VisionLLaMA-Large,相比 ViT-Large 提高了 3.6%。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

ADE20K 数据集上的语义分割

全监督训练

按照 Swin 的配置,本文在 ADE20K 数据集上运用语义分割来评价本文法子的有效性。为了从事公平比较,本文限制基线模型仅运用 ImageNet-1K 从事预训练。本文运用 UperNet 框架,并用金字塔构造 VisionLLaMA 替换主干网络。本文的实现基于 MMSegmentation 框架。模型训练步数配置为 160k,全局 batch size 为 16。结果如表 6 中所示,在相近的 FLOP 下,本文的法子比 Swin 和 Twins 的功能高出 1.2% mIoU 以上。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

自监督训练

本文运用 UperNet 框架在 ADE20K 数据集上从事语义分割,用 VisionLLaMA 替换 ViT 主干,同时保持其他组件和超参数不变。本文的实现基于 MMSegmentation,结果如表 7 所示。对于 800 个 epoch 的预训练组,VisionLLaMA-B 将 ViT-Base 显着提升了 2.8% mIoU。本文法子还明显优于其他一些改进,例如引入额外的训练目标或特征,这些法子会给训练过程带来额外的开销并降低训练速度。相比之下,VisionLLaMA 仅涉及基础模型的替换,并且具有快速的训练速度。本文进一步评价了 1600 个较长预训练 epoch 的功能,VisionLLaMA-B 在 ADE20K 验证集上实现了 50.2% mIoU,这使得 ViT-B 的功能提高了 2.1% mIoU。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

COCO 数据集上的目标检测

全监督训练

本文评价了金字塔构造 VisionLLaMA 在 COCO 数据集上的目标检测使命的功能。本文运用 Mask RCNN 框架并用金字塔构造 VisionLLaMA 替换主干网络,类似于 Swin 的配置,该金字塔构造 VisionLLaMA 在 ImageNet-1K 数据集上预训练了 300 个 epoch。因此,本文的模型具有与 Twins 相同数量的参数和 FLOP。该实验能够用于验证本文法子在目标检测使命上的有效性。本文的实现基于 MMDetection 框架,表 8 中展示了标准的 36 个 epoch 训练周期 (3×) 的结果,本文的模型优于 Swin 和 Twins。具体来说,VisionLLaMA-B 比 Swin-S 高出 1.5% 的 box mAP 和 1.0% mask mAP。与更强的基线 Twins-B 相比,本文的法子具有在 box mAP 上高出 1.1% ,在 mask mAP 上高出 0.8% 的优势。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

自监督训练

本文应用基于 ViTDet 框架的 VisionLLaMA,该框架利用常规视觉 transformer 来实现与对应金字塔构造视觉 transformer 相当的功能。本文运用 Mask RCNN 检测器,并用 VisionLLaMA-Base 模型替换 vit-Base 主干网络,该模型运用 MAE 预训练 800 轮。原始的 ViTDet 收敛缓慢,需要专门的训练策略,例如更长的训练周期才能实现最佳功能。在训练过程中,本文发现 VisionLLaMA 在 30 个 epoch 后达到了相似的功能,因此,本文直接应用标准的 3x 训练策略。本文法子的训练成本仅为基线的 36%。与所比较法子不同,本文法子不从事最佳超参数搜索。结果如表 9 所示,VisionLLaMA 在 Box mAP 上优于 ViT-B 0.6%,在 mask mAP 上优于 ViT-B 0.8%。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

消融实验与讨论

消融实验

本文默认选择在 ViT-Large 模型上从事消融实验,因为本文观察到该模型在多次运行中产生的方差较小。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

FFN 和 SwiGLU 的消融:本文用 SwiGLU 替换 FFN ,结果如表 11a 中所示。由于明显功能差距,本文选择运用 SwiGLU 以避免对 LLaMA 架构引入额外的修改。

归一化策略的消融:本文对 transformer 中两种广泛运用的归一化法子 RMSNorm 和 LayerNorm 从事了比较,结果如表 11g 中所示。后者具有更好的最终功能,这表明重新居中不变性(re-centering invariance)在视觉使命中也很重要。本文还计算了每次迭代花费的平均时间用来衡量训练速度,其中 LayerNorm 仅比 RMSNorm 慢 2%。因此,本文选择 LayerNorm 而不是 RMSNorm 以获得更均衡的功能。

部分位子编码:本文运用 RoPE 调整全部 channel 的比率,结果如表 11b 中所示,结果表明将比率配置在小阈值上即可获得良好的功能,不同的配置之间没有观察到存在显着的功能差异。因此,本文保留 LLaMA 中的默认配置。 

基础频率:本文对基础频率从事更改与比较,结果如表 11c 中所示,结果表明,功能对于大范围的频率来说是稳健的。因此,本文保留 LLaMA 中的默认值以避免部署时的额外特殊处理。 

每个注意力头之间共享位子编码:本文发现,在不同头之间共享相同的 PE(每个头中的频率从 1 到 10000 变化)比独立的 PE(所有通道中的频率从 1 到 10000 变化)要好,结果如表 11d 所示。 

特征抽象策略:本文在大参数规模的模型(-L)上比较了两种常见的特征提取策略:类别 token 和 GAP ,结果如表 11e 中所示,运用类别 token 比 GAP 更好,这与 PEG [13] 中所得到的结论不同。然而,两种法子的训练配置截然不同。本文还运用 DeiT3-L 从事了额外的实验,得到了类似的结论。本文进一步评价 “小型”(-S)和 “基础”(-B)模型的功能。有趣的是,在小模型中观察到了相反的结论,有理由怀疑 DeiT3 中运用的较高丢弃路径率(drop-path rate)使得诸如 GAP 之类的无参数抽象法子(parameter-free abstraction)难以达到应有的效果。 

位子编码策略:本文还在金字塔构造 VisionLLaMA-S 上评价了其他绝对位子编码策略,例如可学习位子编码 和 PEG。由于存在强大的基线,本文运用 “小” 模型,结果显示在表 11f 中:可学习的 PE 不会提高功能,PEG 将基线从 81.6% 略微提高到 81.8%。出于三个原因,本文并没有将 PEG 作为基本组成部分。首先,本文尝试对 LLaMA 从事最小程度的修改。其次,本文的目标是为 ViT 等各种使命提出一种通用法子。对于像 MAE 这样的屏蔽图象框架(masked image frameworks),PEG 增加训练成本,并可能损害下游使命上的功能。原则上,可以在 MAE 框架下应用稀疏 PEG,但会引入部署不友好的算子。稀疏卷积是否与其密集版本一样包含足够的位子信息仍然是一个未解决的问题。第三,无模态束缚的设计为进一步研究涵盖文本和视觉之外的其他模态铺平了道路。 

对输入尺寸的敏感性:在未训练的前提下,本文进一步比较了增大分辨率和常用分辨率的功能,结果如表 12 中所示。这里运用了金字塔构造 transformer,因为其在下游使命中比对应的非层次构造版本更受欢迎。1D-RoPE 的功能因分辨率变化而受到严重影响并不奇怪。α = 2 的 NTK-Aware 插值实现了与 2D-RoPE 类似的功能,2D-RoPE 实际上是 NTKAware (α = 1)。AS2DRoPE 展示出了在较大分辨率上的最佳功能。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

讨论

收敛速度:对于图象生成,本文研究了不同训练步数下的表现,分别在 100k、200k、300k 和 400k 次迭代时存储权重来计算保真度指标。由于 SDE 明显慢于 ODE,因此本文选择运用 ODE 采样器。表 10 中的结果表明 VisionLLaMA 在所有模型上的收敛速度都比 ViT 快得多。具有 30 万次训练迭代的 SiT-LLaMA 功能甚至优于具有 40 万次训练次数的的基线模型。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

本文还与图 4 中 ImageNet 上运用 DeiT3-Large 全监督训练 800 个 epoch 的 top-1 精度从事了比较,表明 VisionLLaMA 比 DeiT3-L 收敛得更快。本文进一步比较了 MAE 框架下 ViT-Base 模型的 800 个 epoch 的训练损失,并在图 5 中从事了说明。VisionLLaMA 在开始时具有较低的训练损失,并将该趋势保持到最后。

全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA全面超越ViT,美团、浙大等提出视觉使命统一架构VisionLLAMA

给TA打赏
共{{data.count}}人
人已打赏
应用

毫末Cam4DOcc当选CVPR2024:仅用摄像头做4D占领搜集展望,让主动驾驭拥有时空展望能力

2024-3-7 10:51:00

应用

Midjourney封禁Stability AI:恶意爬取数据,致效劳器瘫痪24小时

2024-3-7 14:57:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索