多模态LLM多到看不过来？先看这26个SOTA模型吧

多模态大型谈话模型进展如何？盘点 26 个当前最佳多模态大型谈话模型。当前 AI 领域的关注重心正从大型谈话模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态威力的多模态大型谈话模型（MM-LLM）就成了一个备受关注的钻研主题。近日，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个钻研团队发布了一份综述报告，全面梳理了 MM-LLM 的近期进展。文中不仅总结了 MM-LLM 的模型架构和训练流程，而且还梳理了 26 个当前最佳的 MM-LLM。如果你正考虑钻研或运用 MM-LLM，不妨考

多模态大型谈话模型进展如何？盘点 26 个当前最佳多模态大型谈话模型。

当前 AI 领域的关注重心正从大型谈话模型（LLM）向多模态转移，于是乎，让 LLM 具备多模态威力的多模态大型谈话模型（MM-LLM）就成了一个备受关注的钻研主题。

近日，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的一个钻研团队发布了一份综述报告，全面梳理了 MM-LLM 的近期进展。文中不仅总结了 MM-LLM 的模型架构和训练流程，而且还梳理了 26 个当前最佳的 MM-LLM。如果你正考虑钻研或运用 MM-LLM，不妨考虑从这份报告开始钻研，找到最符合你需求的模型。

多模态LLM多到看不过来？先看这26个SOTA模型吧

论文标题：MM-LLMs: Recent Advances in MultiModal Large Language Models

论文地址：https://arxiv.org/abs/2401.13601

报告概览

近些年来，多模态（MM）预训练钻研进展迅速，让许多下游使命的性能不断突破到新的边界。但是，随着模型和数据集规模不断扩大，传统多模态模型也遭遇了计算成本过高的问题，尤其是当从头开始训练时。考虑到多模态钻研位于多种模态的交叉领域，一种合乎逻辑的方法是充分利用现成的预训练单模态基础模型，尤其是强大的大型谈话模型（LLM）。

这一策略的目标是降低多模态预训练的计算成本并提升其效率，这样一来就催生出了一个全新领域：MM-LLM，即多模态大型谈话模型。

MM-LLM 运用 LLM 提供认知功能，让其处理各种多模态使命。LLM 能提供多种所需威力，比如稳健的谈话泛化威力、零样本迁移威力和上下文进修（ICL）。与此同时，其它模态的基础模型却能提供高质量的表征。考虑到不同模态的基础模型都是分开预训练的，因此 MM-LLM 面临的核心挑战是如何有效地将 LLM 与其它模态的模型连接起来以实现协作推理。

在这个领域内，人们关注的主要焦点是优化提升模态之间的对齐（alignment）以及让模型与人类意图对齐。这方面运用的主要工作流程是多模态预训练（MM PT）+ 多模态指令微调（MM IT）。

2023 年发布的 GPT-4 (Vision) 和 Gemini 展现出了出色的多模态了解和生成威力；由此激发了人们对 MM-LLM 的钻研热情。

一开始，钻研社区主要关注的是多模态内容了解和文本生成，此类模型包括 (Open) Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT-4、MultiModal-GPT、VideoChat、Video-LLaMA、IDEFICS、Fuyu-8B、Qwen-Audio。

为了创造出能同时支持多模态输入和输入的 MM-LLM，还有一些钻研工作探索了特定模态的生成，比如 Kosmos-2 和 MiniGPT-5 钻研的是图象生成，SpeechGPT 则聚焦于语音生成。

近期人们关注的重点是模仿类似人类的使命模态到使命模态的转换，而这或许是一条通往通用人工智能（AGI）之路。

一些钻研的目标是将 LLM 与外部工具合并，以达到近似的使命到使命的多模态了解和生成；这类钻研包括 Visual-ChatGPT、ViperGPT、MM-REACT、HuggingGPT、AudioGPT。

反过来，为了减少级联系统中传播的错误，也有一些钻研团队想要打造出端到端式的使命模态 MM-LLM；这类钻研包括 NExT-GPT 和 CoDi-2。

图 1 给出了 MM-LLM 的时间线。

多模态LLM多到看不过来？先看这26个SOTA模型吧

为了促进 MM-LLM 的钻研发展，腾讯 AI Lab、京都大学和穆罕默德・本・扎耶德人工智能大学的这个团队整理出了这份综述报告。机器之心整理了该报告的主干部分，尤其是其中对 26 个当前最佳（SOTA）MM-LLM 的介绍。

模型架构

这一节，该团队详细梳理了一般模型架构的五大组件，另外还会介绍每个组件的实现选择，如图 2 所示。

多模态LLM多到看不过来？先看这26个SOTA模型吧

专注于多模态了解的 MM-LLM 仅包含前三个组件。

在训练阶段，模态编码器、LLM 骨干和模态生成器通常保持在冻结状态。其优化的要点是输入和输入投影器。由于投影器是轻量级的组件，因此相比于总参数量，MM-LLM 中可训练参数的占比非常小（通常约为 2%）。总参数量取决于 MM-LLM 中运用的核心 LLM 的规模。因此，在针对各种多模态使命训练 MM-LLM 时，可以取得很高的训练效率。

模态编码器（Modality Encoder/ME）：编码不同模态的输入，以得到相应的特征。

输入投影器（Input Projector）：将已编码的其它模态的特征与文本特征空间对齐。

LLM 骨干：MM-LLM 运用 LLM 作为核心智能体，因此也继承了 LLM 的一些重要特性，比如零样本泛化、少样本上下文进修、思维链（CoT）和指令遵从。LLM 骨干的使命是处理各种模态的表征，其中涉及到与输入相关的语义了解、推理和决策。它的输入包括 (1) 直接的文本输入，(2) 其它模态的信号 token（如果有的话）。这些信号 token 可用作引导生成器的指令 —— 是否生成多模态内容，如果是，则指定所要生成的内容。

MM-LLM 中常用的 LLM 包括 Flan-T5、ChatGLM、UL2、Qwen、Chinchilla、OPT、PaLM、LLaMA、LLaMA-2、Vicuna。

输入投影器：将来自 LLM 骨干的信号 token 表征映射成可被后续模态生成器了解的特征。

模态生成器：生成不同对应模态的输入。目前的钻研工作通常是运用现有的隐扩散模型（LDM），即运用 Stable Diffusion 来合成图象、运用 Zeroscope 来合成视频、运用 AudioLDM-2 来合成音频。

训练流程

MM-LLM 的训练流程可以分为两个主要阶段：MM PT（多模态预训练）和 MM IT（多模态指令微调）。

MM PT

在预训练阶段（通常是利用 XText 数据集），通过优化预定义的目标来训练输入和输入投影器，使其对齐不同的模态。（有时候也会将参数高效型微调（PEFT）技术用于 LLM 骨干。）

MM IT

MM IT 这种方法需要运用一组指令格式的数据集对预训练的 MM-LLM 进行微调。通过这个微调过程，MM-LLM 可以泛化到未曾见过的使命，执行新指令，从而增强零样本性能。

MM IT 包含监督式微调（SFT）和根据人类反馈的强化进修（RLHF），目标是与人类意图或偏好对齐并提升 MM-LLM 的交互威力。

SFT 可将预训练阶段的部分数据转换成指令感知型的格式。

SFT 之后，RLHF 会对模型进行进一步的微调，这需要有关 MM-LLM 所给响应的反馈信息（比如由人类或 AI 标注的自然谈话反馈（NLF））。这个过程采用了一种强化进修算法来有效整合不可微分的 NLF。模型的训练目标是根据 NLF 生成对应的响应。

现有的 MM-LLM 在 MM PT 和 MM IT 阶段运用的数据集有很多，但它们都是表 3 和表 4 中数据集的子集。

当前最佳的 MM-LLM

该团队比较了 26 个当前最佳（SOTA）MM-LLM 的架构和训练数据集规模，如表 1 所示。另外他们还简单总结了每种模型的核心贡献和发展趋势。

多模态LLM多到看不过来？先看这26个SOTA模型吧

(1) Flamingo：一系列设计用于处理交织融合的视觉数据和文本的视觉谈话（VL）模型，可输入自由形式的文本。

(2) BLIP-2：提出了一种能更高效利用资源的框架，其中运用了轻量级的 Q-Former 来连接不同模态，还运用了冻结的 LLM。运用 LLM，可通过自然谈话 prompt 引导 BLIP-2 执行零样本图象到文本生成。

(3) LLaVA：率先将指令微调技术迁移到多模态领域。为了解决数据稀疏性问题，LLaVA 运用 ChatGPT/GPT-4 创建了一个全新的开源多模态指令遵从数据集和一个多模态指令遵从基准 LLaVA-Bench

(4) MiniGPT-4：提出了一种经过精简的方法，其中仅训练一个线性层来对齐预训练视觉编码器与 LLM。这种高效方法展现出的威力能媲美 GPT-4。

(5) mPLUG-Owl：提出了一种全新的用于 MM-LLM 的模块化训练框架，并整合了视觉上下文。为了评估不同模型在多模态使命上的性能，该框架还包含一个指示性的评估数据集 OwlEval。

(6) X-LLM：扩展到了包括音频在内的多个模态，展现出了强大的可扩展性。利用了 QFormer 的谈话可迁移威力，X-LLM 成功在汉藏语系汉语语境中得到了应用。

(7) VideoChat：开创了一种高效的以聊天为中心的 MM-LLM 可用于进行视频了解对话。这项钻研为该领域的未来钻研设定了标准，并为学术界和产业界提供了协议。

(8) InstructBLIP：该模型是基于 BLIP-2 模型训练得到的，在 MM IT 阶段仅更新了 Q-Former。通过引入指令感知型的视觉特征提取和对应的指令，该模型可以提取灵活且多样化的特征。

(9) PandaGPT 是一种开创性的通用模型，有威力了解 6 种不同模态的指令并遵照行事：文本、图象 / 视频、音频、热量、深度和惯性测量单位。

(10) PaLIX：其训练过程运用了混合的视觉谈话目标和单模态目标，包括前缀补全和掩码 token 补全。钻研表明，这种方法可以有效用于下游使命，并在微调设置中到达了帕累托边界。

(11) Video-LLaMA：提出了一种多分支跨模态预训练框架，让 LLM 可以在与人类对话的同时处理给定视频的视觉和音频内容。该框架对齐了视觉与谈话以及音频与谈话。

(12) Video-ChatGPT：该模型是专门针对视频对话使命设计的，可以通过整合时空视觉表征来生成有关视频的讨论。

(13) Shikra：提出了一种简单但统一的预训练 MM-LLM，并且专门针对参考对话（Referential Dialogue）使命进行了调整。参考对话使命涉及到讨论图象中的区域和目标。该模型表现出了值得称道的泛化威力，可有效处理未曾见过的情况。

(14) DLP：提出了用于预测理想 prompt 的 P-Former，并在一个单模态语句的数据集上完成了训练。这表明单模态训练可以用于增强多模态进修。

(15) BuboGPT：为了全面了解多模态内容，该模型在构建时进修了一个共享式语义空间。其探索了图象、文本和音频等不同模态之间的细粒度关系。

(16) ChatSpot：提出了一种简单却有效的方法，可为 MM-LLM 精细化调整精确引用指令，从而促进细粒度的交互。通过集成精确引用指令（由图象级和区域级指令构成），多粒度视觉谈话使命描述得以增强。

(17) Qwen-VL：一种支持英语和汉语的多谈话 MM-LLM。Qwen-VL 还允许在训练阶段输入多张图象，这能提高其了解视觉上下文的威力。

(18) NExT-GPT：这是一种端到端、通用且支持使命模态到使命模态的 MM-LLM，支持自由输入和输入图象、视频、音频和文本。其采用了一种轻量的对齐策略 —— 在编码阶段运用以 LLM 为中心的对齐，在解码阶段运用指令遵从对齐。

(19) MiniGPT-5：这种 MM-LLM 整合了转化成生成式 voken 的技术，并集成了 Stable Diffusion。它擅长执行交织融合了视觉谈话输入的多模态生成使命。其在训练阶段加入了无分类器指导，以提升生成质量。

(20) LLaVA-1.5：该模型基于 LLaVA 框架并进行了简单的修改，包括运用一种 MLP 投影，引入针对学术使命调整过的 VQA 数据，以及运用响应格式简单的 prompt。这些调整让模型的多模态了解威力得到了提升。

(21) MiniGPT-v2：这种 MM-LLM 的设计目标是作为多样化视觉谈话多使命进修的一个统一接口。为了打造出能熟练处理多种视觉谈话使命的单一模型，每个使命的训练和推理阶段都整合了标识符（identifier）。这有助于明确的使命区分，并最终提升进修效率。

(22) CogVLM：一种开源 MM-LLM，其通过一种用在注意力和前馈层中的可训练视觉专家模块搭建了不同模态之间的桥梁。这能让多模态特征深度融合，同时不会损害在下游 NLP 使命上的性能。

(23) DRESS：提出了一种运用自然谈话反馈提升与人类偏好的对齐效果的方法。DRESS 扩展了条件式强化进修算法以整合不可微分的自然谈话反馈，并以此训练模型根据反馈生成适当的响应。

(24) X-InstructBLIP：提出了一种运用指令感知型表征的跨模态框架，足以扩展用于助力 LLM 处理跨多模态（包括图象 / 视频、音频和 3D）的多样化使命。值得注意的是，它不需要特定模态的预训练就能做到这一点。

(25) CoDi-2：这是一种多模态生成模型，可以出色地执行多模态融合的指令遵从、上下文生成以及多轮对话形式的用户 – 模型交互。它是对 CoDi 的增强，使其可以处理复杂的模态交织的输入和指令，以自回归的方式生成隐含特征。

(26) VILA：该模型在视觉使命上的性能出色，并能在保持纯文本威力的同时表现出卓越的推理威力。VILA 之所以性能优异，是因为其充分利用了 LLM 的进修威力，运用了图象 – 文本对的融合属性并实现了精细的文本数据重新混合。

当前 MM-LLM 的发展趋势：

(1) 从专注于多模态了解向特定模态生成发展，并进一步向使命模态到使命模态转换发展（比如 MiniGPT-4 → MiniGPT-5 → NExT-GPT）。

(2) 从 MM PT 到 SFT 再到 RLHF，训练流程持续不断优化，力求更好地与人类意图对齐并增强模型的对话互动威力（比如 BLIP-2 → InstructBLIP → DRESS）。

(3) 拥抱多样化的模态扩展（比如 BLIP-2 → X-LLM 和 InstructBLIP → X-InstructBLIP）。

(4) 整合质量更高的训练数据集（比如 LLaVA → LLaVA-1.5）。

(5) 采用更高效的模型架构，从 BLIP-2 和 DLP 中复杂的 Q-Former 和 P-Former 输入投射器模块到 VILA 中更简单却有效的线性投影器。

基准和性能

为了全面比较各模型的性能，该团队编制了一个表格，其中包含从多篇论文中收集的主要 MM-LLM 的数据，涉及 18 个视觉谈话基准，见表 2。

多模态LLM多到看不过来？先看这26个SOTA模型吧

未来方向

该团队最后讨论了 MM-LLM 领域比较有前景的一些未来钻研方向：

更强大的模型：增强 MM-LLM 的威力，其中主要通过这四个关键途径：扩展模态、实现 LLM 多样化、提升多模态指令微调的数据集质量、增强多模态生成威力。

难度更大的基准

移动 / 轻量级部署

具身智能

持续指令微调

{{userData.name}}已认证

多模态LLM多到看不过来？先看这26个SOTA模型吧

伯克利开源高质量大型机器人操控基准，面对简单自主操控使命不再犯难

将多模态大模型稀薄化，3B模型MoE-LLaVA媲美LLaVA-1.5-7B

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！