走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

最近，有人在社交媒体上发布了一张有关 GPT4.5 更新的截图。图中内容显示，和 GPT 系列之前推出的模型相比，GPT4.5 最大的惊喜可能就是处理 3D 和视频的本领。至于 3D 本领到底是指看得懂 3D 图象，还是能输出 3D 模型，目前只能靠猜。OpenAI CEO Sam Altman 随后否认了该截图的真实性，GPT4.5 的具体本领依然是一个谜。不过，在众多研究中，确实已经有大模型实现了多个模态同时处理，甚至连视频、3D 模型也囊括了进来。给你一首曲子的音频和一件乐器的 3D 模型，然后问你这件乐器能

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理给你一首曲子的音频和一件乐器的 3D 模型，然后问你这件乐器能否演奏出这首曲子。你可以通过听觉来辨认这首曲子的音色，看它是钢琴曲还是小提琴曲又或是来自吉他；同时用视觉识别那是件什么乐器。然后你就能得到问题的答案。但说话模型有本领办到这一点吗？

实际上，这个工作所需的本领名为跨模态推理，也是当今多模态大模型研究热潮中一个重要的研究主题。近日，宾夕法尼亚大学、Salesforce 研究院和斯坦福大学的一个研究团队给出了一个解决方案 X-InstructBLIP，能以较低的成本让说话模型掌握跨模态推理。

人类天生就会利用多种感官来解读周围环境并和制定决策。通过让人工智能体具备跨模态推理本领，我们可以促进系统的开发，让其能更全面地理解环境，从而能应对仅有单个模态导致难以辨别模式和执行推理的情况。这就催生了多模态说话模型（MLM），其可将大型说话模型（LLM）的出色本领迁移到静态视觉领域。

近期一些研究进展的目标是通过整合音频和视频来扩展 MLM 的推理本领，其用的方法要么是引入预训练的跨模态表征来在多个模态上训练基础模型，要么是训练一个投影模型来将多模态与 LLM 的表征空间对齐。这些方法虽然有效，但前者往往需要针对具体工作从事微调，而后者则需要在联合模态数据上微调模型，这样一来就需要很多数据收集和计算资源成本。

该研究团队提出的 X-InstructBLIP 是一个可扩展框架，让模型可以在学习单模态数据的同时不受预训练的跨模态嵌入空间或与解冻 LLM 参数相关的计算成本和潜在过拟合风险的限制。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

论文地址：https://arxiv.org/pdf/2311.18799.pdf

GitHub 地址：https://github.com/salesforce/LAVIS/

X-InstructBLIP 无缝地整合了多种模态并且这些模态各自独立，从而不必再应用联合模态数据集，同时还能保留执行跨模态工作的本领。

据介绍，这种方法应用了 Q-Former 模块，应用来自 BLIP-2 的图象 – 文本预训练权重从事了初始化，并在单模态数据集上从事了微调以将来自不同模态嵌入空间的输出映射到一个解冻的 LLM。

由于某些模态缺乏指令微调数据，该团队又提出了一个简单又有效的方法：一种三阶段查问数据增强技术，能应用开源 LLM 来从字幕描写数据集提取指令微调数据。

图 2 给出的结果凸显了这个框架的多功能性。定量分析表明，X-InstructBLIP 的表现与现有的单模态模型相当，并且能在跨模态工作上表现出涌现本领。而为了量化和检验这种涌现本领，该团队又构建了 DisCRn。这是一个自动收集和调整的判别式跨模态推理挑战数据集，其需要模型分辨不同的模态组合，比如「音频 – 视频」和「3D – 图象」。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

方法

图 1 展示了该模型架构的总体概况：其扩展了 Dai et al. 在 InstructBLIP 项目中提出的指令感知型投影方法，通过独立微调具体模态的 Q-Former 到一个解冻 LLM 的映射，使其可用于任意数量的模态。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

图 3 展示了这个模态到 LLM 的对齐过程，其中突出强调了与每个模态相关的所有组件。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

算法 1 概述了 X-InstructBLIP 对齐框架。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

本质上讲，对于每一对文本指令和非说话输出样本：(1) 应用一个解冻的预训练编码器对文本指令从事 token 化，对非文本输出从事嵌入化。(2) 将非说话输出的归一化编码和 token 化的指令输出 Q-Former 模块，并附带上一组可学习的查问嵌入。(3) 通过 Q-Former 对这些查问嵌入从事变换，通过 transformer 模块的交替层中的跨注意力层来条件式地适应这些输出。(4) 通过一个可训练的线性层将修改后的查问嵌入投影到解冻 LLM 的嵌入空间。

数据集

X-InstructBLIP 的优化和评估应用了之前已有的数据集和自动生成的数据集，如图 4 所示。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

对数据集从事微调

对于已有的数据集，研究者对它们从事了一些微调，详见原论文。

此外，他们还对指令数据从事了增强。由于他们尤其需要 3D 和音频模态的数据，于是他们应用开源大型说话模型 google/flan-t5-xxl 基于相应的字幕描写自动生成了 3D 和音频模态的问答对。这个过程最终从 Cap3D 的 3D 数据得到了大约 25 万个示例，从 AudioCaps 的音频数据得到了大约 2.4 万个示例。

判别式跨模态推理

X-InstructBLIP 明显展现出了一个涌现本领：尽管训练是分模态从事的，但它却能跨模态推理。这凸显了该模型的多功能性以及潜在的跨大量模态的可扩展性。为了研究这种跨模态推理本领，该团队构建了一个判别式跨模态推理挑战数据集 DisCRn。

如图 5 所示，该工作需要模型跨模态分辨两个实体的性质，做法是选出哪个模态满足查问的性质。该工作要求模型不仅能分辨所涉模态的内在特征，而且还要考虑它们在输出中的相对位置。这一策略有助于让模型不再依赖于简单的文本匹配启发式特征、顺序偏差或潜在的欺骗性相关性。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

为了生成这个数据集，研究者再次应用了增强指令数据时用过的 google/flan-t5-xxl 模型。

在生成过程中，首先是通过思维链方式为说话模型提供 prompt，从而为每个数据集实例生成一组属性。然后，通过三个上下文示例应用说话模型，使之能利用上下文学习，让每个实例都与数据集中的一个随机实例配对，以构建一个 (问题，答案，解释) 三元组。

在这个数据集创建过程中，一个关键步骤是反复从事的一致性检查：给定字幕说明上，只有当模型对生成问题的预测结果与示例答案匹配时（Levenshtein 距离超过 0.9），该示例才会被加入到最终数据集中。

这个优化调整后的数据集包含 8802 个来自 AudioCaps 验证集的音频 – 视频样本以及来自 Cap3D 的包含 5k 点云数据的留存子集的 29072 个图象 – 点云实例。该数据集中每个实例都组合了两个对应于字幕说明的表征：来自 AudioCaps 的 (音频，视频) 和来自 Cap3D 的 (点云，图象)。

实验

该团队研究了能否将 X-InstructBLIP 有效地用作将跨模态整合进预训练解冻 LLM 的综合解决方案。

实现细节

X-InstructBLIP 的构建应用了 LAVIS 软件库的框架，基于 Vicuna v1.1 7b 和 13b 模型。每个 Q-Former 优化 188M 个可训练参数并学习 K=32 个隐藏维度大小为 768 的查问 token。表 1 列出了用于每种模态的解冻预训练编码器。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

优化模型的硬件是 8 台 A100 40GB GPU，应用了 AdamW。

结果

在展示的结果中，加下划线的数值表示领域内的评估结果。粗体数值表示最佳的零样本本能。蓝色数值表示第二好的零样本本能。

对各个模态的理解

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

该团队在一系列单模态到文本工作上评估了 X-InstructBLIP 的本能，结果展现了其多功能性，即能有效应对实验中的所有四种模态。表 2、3、4 和 6 总结了 X-InstructBLIP 在 3D、音频、图象和无声视频模态上的领域外本能。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

跨模态联合推理

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

尽管 X-InstructBLIP 的每个模态投影都是分开训练的，但它却展现出了很强的联合模态推理本领。表 7 展示了 X-InstructBLIP 在视频 (V) 和音频 (A) 上执行联合推理的本领。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

值得注意的是，X-InstructBLIP 具备协调统筹输出的本领，因为当同时应用 MusicAVQA 和 VATEX Captioning 中的不同模态作为线索时，模型在应用多模态时的表现胜过应用单模态。但是，这个行为与模型没有前缀提示的模型不一致。

一开始的时候，理论上认为模型没有本领区分对应每种模态的 token，而是将它们看作是连续流。这可能是原因。但是，来自图象 – 3D 跨模态推理工作的结果却对这一看法构成了挑战 —— 其中没有前缀的模型超过有前缀的模型 10 个点。似乎包含线索可能会让模型对特定于模态的信息从事编码，这在联合推理场景中是有益的。

但是，这种针对性的编码并不能让模型识别和处理通常与其它模态相关的特征，而这些特征却是增强对比工作本能所需的。其根本原因是：说话模型已经过调整，就是为了生成与模态相关的输出，这就导致 Q-Former 在训练期间主要接收与特定于模态的生成相关的反馈。这一机制还可以解释模型在单模态工作上出人意料的本能提升。

跨模态判别式推理

该团队应用新提出的 DisCRn 基准评估了 X-InstructBLIP 在不同模态上执行判别式推理的本领。他们将该问题描写成了一个现实的开放式生成问题。在给 LLM 的 prompt 中会加上如下前缀：

在向 X-InstructBLIP (7b) 输出 prompt 时，该团队发现：应用 Q-Former 字幕描写 prompt（这不同于提供给 LLM 模型的比较式 prompt）会导致得到一种更适用于比较工作的更通用的表征，因此他们采用这种方法得到了表 8 的结果。其原因很可能是微调过程中缺乏比较数据，因为每个模态的 Q-Former 都是分开训练的。

走在GPT 4.5前面？3D、视频直接扔进对话框，大模型掌握跨模态推理

为了对新提出的模型从事基准测试，该团队整合了一个稳健的字幕描写基准，其做法是应用 Vicuna 7b 模型用对应于各模态的字幕描写来替换查问输出。对于图象、3D 和视频模态，他们的做法是向 InstructBLIP 输出 prompt 使其描写图象 / 视频，从而得出字幕描写。对于 3D 输出，输出给 InstructBLIP 的是其点云的一个随机选取的渲染视图。

结果可以看到，在准确度方面，X-InstructBLIP 分别优于音频 – 视频和图象 – 3D 基准模型 3.2 和 7.7 个百分点。用等价的线性投影模块替换其中一个 Q-Former 后，图象 – 3D 的本能会下降一半以上，音频 – 视频的本能会下降超过 10 个点。