ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

动静视觉分词同一图文默示,快手与北大合作提出基座模型 LaVIT 刷榜多模态明白与生成任务。当前的大型说话模型如 GPT、LLaMA 等在自然说话处理领域取得了显著进展,不妨明白和生成复杂的文本实质。但你是否想过,如果不妨将大说话模型这强大的明白和生成才能迁移到多模态数据上,就可以轻松明白海量的图象与视频,并辅助创作图文并茂的实质。近期,来自快手和北大合作的最新多模态大模型 LaVIT, 正在让这个想法逐步变为现实。论文标题:Unified Language-Vision Pretraining in LLM wi

动静视觉分词同一图文默示,快手与北大合作提出基座模型 LaVIT 刷榜多模态明白与生成任务。

当前的大型说话模型如 GPT、LLaMA 等在自然说话处理领域取得了显著进展,不妨明白和生成复杂的文本实质。但你是否想过,如果不妨将大说话模型这强大的明白和生成才能迁移到多模态数据上,就可以轻松明白海量的图象与视频,并辅助创作图文并茂的实质。近期,来自快手和北大合作的最新多模态大模型 LaVIT, 正在让这个想法逐步变为现实。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

论文标题:Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization

论文地址:https://arxiv.org/abs/2309.04669

代码模型地址:https://github.com/jy0205/LaVIT

模型总览

LaVIT 作为一个新型的通用多模态基础模型,可以像说话模型那样,既不妨明白也能生成视觉实质。LaVIT 继承了大说话模型成功的训练范式,即以自返回的方式预测下一个图象或文本 token。在训练完成后,其可以充当一个多模态通用接口,无需进一步的微调,就可以执行多模态明白和生成任务。例如,LaVIT 具有以下的才能:

实现高质量文本到图象的生成:LaVIT 不妨根据给定的文本提醒生成高质量、多种纵横比和高美感的图象。其图象生成才能与最先进的图象生成模型(如 Parti、SDXL 和 DALLE-3)相媲美。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

根据多模态提醒从事图象生成:由于在 LaVIT 中,图象和文本都被同一默示为失散化的 token,因此其可以接受多种模态组合(例如文本、图象 + 文本、图象 + 图象)作为提醒,生成相应的图象,而无需从事任何微调。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

明白图象实质并回答问题:在给定输出图象的情况下,LaVIT 不妨阅读图象实质并明白其语义。例如,模型可以为输出的图象提供 caption 并回答相应的问题。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

方法概览

LaVIT 的模型结构如下图所示,其整个优化过程包括两个阶段:

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

图:LaVIT 模型的整体架构

阶段 1: 动静视觉分词器

为了不妨像自然说话一样明白和生成视觉实质,LaVIT 引入了一个设计良好的视觉分词器,用于将视觉实质(连续信号)转换为像文本一样的 token 序列,就像 LLM 不妨明白的外语一样。作者认为,为了实现同一视觉和说话的建模,该视觉分词器 (Tokenizer) 应该具有以下两个特性:

失散化:视觉 token 应该被默示为像文本一样的失散化形式。这样对于两种模态采用同一的默示形式,有利于 LaVIT 在一个同一的自返回生成式训练框架下,使用相同的分类损失从事多模态建模优化。

动静:与文本 token 不同的是,图象 patch 之间有着显著的相互依赖性,这使得从其他图象 patch 中推断另一个 patch 相对简单。因此,这种依赖性会降低原本 LLM 的 next-token prediction 优化目标的有效性。LaVIT 提出通过使用 token merging 来降低视觉 patch 之间的冗余性,其根据不同图象语义复杂度的不同,编码出动静的视觉 token 数量。这样对于复杂程度不同的图象,采用动静的 token 编码也进一步提高了预训练的效率,避免了冗余的 token 计算。

下图是 LaVIT 所提出的视觉分词器结构:

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

图:(a) 动静视觉 token 生成器 (b) token 分开器

该动静视觉分词器包括 token 选择器和 token 分开器。如图所示, token 选择器用来选择最具信息的图象区块,而 token 分开器则将那些 uninformative 的视觉块的信息压缩到保持下的 token 上,实现对冗余 token 的 merging。整个动静视觉分词器则通过最大限度地重构输出图象的语义从事训练。

Token 选择器

Token 选择器接收 N 个图象区块级的特征作为输出,其目标是评估每个图象区块的重要性并选择信息量最高的区块,以充分代表整个图象的语义。为实现这一目标,采用轻量级模块,由多个 MLP 层组成,用于预测分布 π。通过从分布 π 中采样,生成一个二进制决策 mask,用于指示是否保持相应的图象区块。

Token 分开器

Token 分开器据生成的决策掩码,将 N 个图象区块划分为保持 X_r 和舍弃 X_d 两组。与直接丢弃 X_d 不同,token 分开器可以最大限度地保持输出图象的详细语义。token 分开器由 L 个堆叠的块组成,每个块包括因果自注意力层、交叉注意力层和前馈层。因果自注意力层中, X_r 中的每个 token 只关注其前面的 token,以确保与 LLM 中的文本 token 形式一致。与双向自注意相比,这种策略表现更好。交叉注意力层将保持的 token X_r 作为 query,并根据它们在语义上的相似性分开 X_d 中的 token。

阶段 2: 同一的生成式预训练

经过视觉分词器处理后的视觉 token 与文本 token 相连接形成多模态序列作为训练时的输出。为了区分两种模态,作者在图象 token 序列的开头和结尾插入了特殊 token :[IMG] 和 [/IMG],用于默示视觉实质的开始和结束。为了不妨生成文本和图象,LaVIT 采用两种图文连接形式:[image, text] 和 [text; image]。

对于这些多模态输出序列,LaVIT 采用同一的、自返回方式来直接最大化每个多模态序列的似然性从事预训练。这样在默示空间和训练方式上的完全同一,有助于 LLM 更好地学习多模态交互和对齐。在预训练完成后,LaVIT 具有感知图象的才能,可以像处理文本一样明白和生成图象。

实验

零样本多模态明白

LaVIT 在图象字幕生成(NoCaps、Flickr30k)和视觉问答(VQAv2、OKVQA、GQA、VizWiz)等零样本多模态明白任务上取得了领先的性能。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

表 1 零样本的多模态明白任务评估

零样本多模态生成

在这个实验中,由于所提出的视觉 tokenizer 不妨将图象默示为失散化 token,LaVIT 具有通过自返回生成类似文本的视觉 token 来合成图象的才能。作者对模型从事了零样本文本条件下的图象合成性能的定量评估,比较结果如表 2 所示。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

表 2 不同模型的零样本文本到图象生成性能

从表中可以看出,LaVIT 的表现优于所有其他多模态说话模型。与 Emu 相比,LaVIT 在更小的 LLM 模型上取得了进一步改进,展现了出色的视觉 – 说话对齐才能。此外,LaVIT 在使用更少的训练数据的情况下,实现了与最先进的文本到图象专家 Parti 可比的性能。

多模态提醒图象生成

LaVIT 不妨在无需从事任何微调的情况下,无缝地接受多种模态组合作为提醒,生成相应的图象,而无需从事任何微调。LaVIT 生成的图象不妨准确反映给定多模态提醒的风格和语义。而且它可以通过输出的多模态提醒修改原始输出图象。在没有额外微调的下游数据的情况下,传统的图象生成模型如 Stable Diffusion 无法达到这种才能。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

多模态图象生成结果的示例

定性分析

如下图所示,LaVIT 的动静分词器可以根据图象实质动静选择最具信息量的图象块,学习到的代码本可以产生具有高层语义的视觉编码。

ICLR 2024|把图象视为外语,快手、北大多模态大模型媲美DALLE-3

动静视觉分词器(左)和学习到的 codebook(右)的可视化

总结

LaVIT 的出现为多模态任务的处理又提供了一种创新范式,通过使用动静视觉分词器将视觉和说话默示为同一的失散 token 默示,继承了 LLM 成功的自返回生成学习范式。通过在同一生成目标下从事优化,LaVIT 可以将图象视为一种外语,像文本一样明白和生成它们。这一方法的成功为未来多模态研究的发展方向提供了新的启示,利用 LLM 强大的推理才能,实现更智能、更全面的多模态明白和生成打开新的可能性。

给TA打赏
共{{data.count}}人
人已打赏
应用

AI Infra 往事之异构计算篇:吴韧与他的学生们

2024-1-30 14:35:00

应用

小扎官宣Code Llama重量级更新,新增70B版本,但还有能力限制

2024-1-30 14:52:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索