太全了!苹果上新视觉模型4M-21,搞定21种模态

当前的多模态和多恣意基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受分歧输入和施行分歧恣意的开箱即用能力,受到它们接受训练的模态和恣意的数量(通常很少)的限制。基于此,来自洛桑联邦理工学院(EPFL)和苹果的研讨者联合开发了一个恣意到恣意模态单一模型,该模型在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。训练过程中一个关键步骤是对各种模态施行团圆 tokenization,无论它们是类似图像的神经网络特征图、向量、实例分割或人体姿势等结构化数据,还是

当前的多模态和多恣意基础模型,如 4M 或 UnifiedIO,显示出有希望的结果。然而,它们接受分歧输入和施行分歧恣意的开箱即用能力,受到它们接受训练的模态和恣意的数量(通常很少)的限制。

基于此,来自洛桑联邦理工学院(EPFL)和苹果的研讨者联合开发了一个恣意到恣意模态单一模型,该模型在数十种高度多样化的模态上进行训练,并对大规模多模态数据集和文本语料库进行协同训练。

训练过程中一个关键步骤是对各种模态施行团圆 tokenization,无论它们是类似图像的神经网络特征图、向量、实例分割或人体姿势等结构化数据,还是可以表征为文本的数据。

太全了!苹果上新视觉模型4M-21,搞定21种模态

论文地址:https://arxiv.org/pdf/2406.09406

论文主页 https://4m.epfl.ch/

论文标题:4M-21: An Any-to-Any Vision Model for Tens of Tasks and Modalities

该研讨展示了训练单一模型,也能完成现有模型至少 3 倍多的恣意 / 模态,并且不会损失机能。此外,该研讨还实现了更细粒度和更可控的多模态生成能力。

该研讨建立在多模态掩码预训练方案的基础上,并通过在数十种高度多样化的模态上进行训练来提高模型能力。通过使用特定于模态的团圆分词器对其进行编码,该研讨实现了在分歧模态上训练单个统一模型。

简单来说,该研讨在几个关键维度上扩大了现有模型的功能:

模态:从现有最佳恣意到恣意模型的 7 种模态增加到 21 种分歧模态,从而实现跨模态检索、可控生成和强大的开箱即用机能。这是第一次单个视觉模型可以以恣意到恣意的方式解决数十个分歧的恣意,而不会损害机能,并且没有任何传统的多恣意学习。

多样性:添加对更多结构化数据的支持,例如人体姿势、SAM 实例、元数据等等。 

tokenization:使用特定于模态的办法研讨分歧模态的团圆 tokenization,例如全局图像嵌入、人体姿势和语义实例。

扩大:将模型大小扩大至 3B 参数,将数据集扩大至 0.5B 样本。 

协同训练:同时在视觉和语言上协同训练。

办法介绍

该研讨采用 4M 预训练方案(该研讨同样来自 EPFL 和苹果,在去年发布),其被证明是一种通用办法,可以有效扩大到多模态。

具体而言,本文保持架构和多模态掩码训练目标不变,通过扩大模型和数据集的规模、增加训练模型所涉及的模态类型和数量,并且在多个数据集上进行联合训练,可以提升模型的机能和适应性。

模态分为以下几大类别:RGB、几何、语义、边缘、特征图、元数据和文本,如下图所示。

太全了!苹果上新视觉模型4M-21,搞定21种模态

Tokenization

Tokenization 主要包括将分歧模态和恣意转换为序列或团圆 token,从而统一它们的表示空间。研讨者使用分歧的 tokenization 办法来团圆具有分歧特征的模态,如图 3 所示。总而言之,本文采用了三种 tokenizer,包括 ViT tokenizer、MLP tokenizer 以及文本 tokenizer。

太全了!苹果上新视觉模型4M-21,搞定21种模态

在架构选择上,本文采用基于 Transformer 的 4M 编码器 – 解码器架构,并添加额外的模态嵌入以适应新模态。

实验结果

接下来,论文展示了 4M-21 多模态能力。

多模态生成

基于迭代解码 token ,4M-21 可以用来预测恣意训练模态。如图 2 所示,本文可以从给定的输入模态以一致的方式生成所有模态。太全了!苹果上新视觉模型4M-21,搞定21种模态

此外,由于该研讨可以有条件和无条件地从其他模态的任何子集生成任何训练模态,因此它支持几种办法来施行细粒度和多模态生成,如图 4 所示,例如施行多模态编辑。此外,4M-21 表现出改进的文本理解能力,无论是在 T5-XXL 嵌入上还是在常规字幕上,都可以实现几何和语义上合理的生成(图 4,右上)。

太全了!苹果上新视觉模型4M-21,搞定21种模态

多模态检索

如图 5 所示,4M-21 解锁了原始 DINOv2 和 ImageBind 模型无法实现的检索功能,例如通过使用其他模态作为查询来检索 RGB 图像或其他模态。此外,4M-21 还可以组合多种模态来预测全局嵌入,从而更好地控制检索,如右图所示。

太全了!苹果上新视觉模型4M-21,搞定21种模态

开箱即用

4M-21 能够开箱即用地施行一系列常见的视觉恣意,如图 6 所示。

太全了!苹果上新视觉模型4M-21,搞定21种模态

表 1 评估了 DIODE 表面法线和深度估计、COCO 语义和实例分割、3DPW  3D 人体姿势估计等。

太全了!苹果上新视觉模型4M-21,搞定21种模态

迁移实验

此外,本文还训练了三种分歧尺寸的模型:B、L 和 XL。然后,将其编码器迁移到下游恣意,并在单模态 (RGB) 和多模态 (RGB + 深度) 设置上进行评估。所有迁移实验均丢弃解码器,而是训练特定恣意的头部。结果如表 2 所示:

太全了!苹果上新视觉模型4M-21,搞定21种模态

最后,本文在 NYUv2、Hypersim 语义分割和 ARKitScenes 上的 3D 对象检测上施行多模态传输。如表 3 所示,4M-21 充分利用了可选的深度输入,并显著改进了基线。

太全了!苹果上新视觉模型4M-21,搞定21种模态

给TA打赏
共{{data.count}}人
人已打赏
工程

奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

2024-6-24 14:42:00

工程

昆仑万维携手南洋理工大学抢发Q*算法:百倍晋升7B模型推理才能

2024-6-25 14:54:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索