北京大学和中山大学等机构钻研者提出了对立的视觉言语大模型 ——Chat-UniVi。通过建立图片和视频对立表征,该框架使得一个 LLM 能够在图片和视频的混合数据下训练,并同时完成图片和视频懂得工作。更重要的是,该框架极大降低了视觉言语模型训练和推理的开销,使得在三天以内即可训练出具有 130 亿参数的通用视觉言语大模型。Chat-UniVi 模型在图片和视频的下游工作中都取得了卓越的本能。所有代码、数据集和模型权重均已开源。
论文地点:https://arxiv.org/pdf/2311.08046.pdf
GitHub 地点:https://github.com/PKU-YuanGroup/Chat-UniVi
Huggingface 地点:https://huggingface.co/Chat-UniVi
Demo 地点:https://huggingface.co/spaces/Chat-UniVi/Chat-UniVi
图 1 Chat-UniVi 在图片、视频上的 17 个基准上达到先进的本能
具体来说,北京大学和中山大学的钻研职员提出了一种名为 Chat-UniVi 的对立的视觉言语方案,其能通过对立的视觉表征同时处理图片工作和视频工作。作为一个对立的视觉懂得模型,Chat-UniVi 以更少的视觉 token 数量,超过了特意针对图片设计的多模态大模型和特意针对视频设计的多模态大模型。更值得注意的是,所提出的对立的视觉表征极大减少了输入视觉 token 的数量,大大降低了模型的训练和推理成本,使得训练一个具有 130 亿参数的通用视觉言语大模型只需要三天。在介绍本文法子之前,我们先看一下 Demo 展示:法子介绍
现有的多模态言语模型通常只专注于图片或视频输入。其中,专注于图片懂得的法子通常运用大量的视觉 token 来获得更精细的空间分辨率。而专注于视频懂得的法子往往会牺牲每帧的空间分辨率,以输入更多帧建立更精细的时间懂得能力。
对此,钻研职员提出运用一组动态视觉 token 对立表示图片和视频。如图 2 所示,图片可以通过不同大小的视觉 token 来建模。例如,主要对象 (即图 2 中的羊) 需要运用更多视觉 token 从事细粒度表示,而背景 (即雪山) 只需运用一个视觉 token 即可充分建模。对于视频来说,视频首先会被分成多个关键事件,随后视觉 token 会在事件内部从事拓展。这种图片和视频的对立表示大大减少了视觉 token 的数量,同时保持了模型的表达能力。值得注意的是,在该法子中,较长的视频被分配了更多的视觉 token。因此,比现有的法子更适合于具有可变长度视频的懂得。
图 2 Chat-UniVi 提出的对立视觉表征
为了获得这些动态的视觉 token,钻研职员基于最近邻的密度峰聚类算法,逐步对视觉 token 从事分组和合并。当涉及视频时,同样应用最近邻的密度峰聚类算法来获取事件的帧集合。为了进一步提升模型的本能,钻研职员为 LLM 提供了一个多标准表征,其中多标准表征的上层特征表示高级语义概念,而下层特征强调视觉细节表示。
图 3 Chat-UniVi 整体框架图
Chat-UniVi 框架具有两个引人注目的优点:首先,其对立的图片和视频建模法子允许在图片和视频混合数据集上从事训练,而无需任何修改即可直接应用于图片和视频工作。其次,多标准表征有助于对图片和视频的全面懂得,使 Chat-UniVi 能够适应各种工作,包括运用高层次特征从事语义懂得,运用低层次特征生成详细描述。
Chat-UniVi 的训练分为两个阶段:
(1)多模态预训练。在第一阶段,钻研职员冻结 LLM 和视觉编码器的同时只训练投影矩阵。这种训练策略使模型能够有效地捕获视觉信息,而不会对 LLM 的本能造成任何明显的损害。
(2)联合指令微调。在第二阶段,钻研职员在一个包含图片和视频的混合数据集上对整个模型从事了全参数微调。通过在混合数据集上的联合训练,Chat-UniVi 实现了对大量指令的卓越懂得,并产生了更自然、更可靠的输出。
试验
图片懂得试验。Chat-UniVi 运用更少的视觉 token,同时实现卓越的本能。值得注意的是,Chat-UniVi 模型在 7B 参数下,也能达到 LLaVA 模型 13B 参数下的本能水平,证明了该法子的有效性。
视频懂得试验。Chat-UniVi 作为一个对立的视觉言语模型,超过了特意针对视频设计的法子,例如 VideoChat 和 Video-ChatGPT。
图片问答试验。Chat-UniVi 在 ScienceQA 数据集上获得了有竞争力的本能。值得注意的是,Chat-UniVi 优于特意针对科学问答从事优化的 LLaMA-SciTune 模型,充分体现了该法子的优越性。
视频问答试验。在所有数据集上,Chat-UniVi 都优于最先进的法子,例如 VideoChat 和 Video-ChatGPT。
幻觉试验。在幻觉评估上,Chat-UniVi 优于最近提出的最先进的法子。此外,钻研职员发现多标准表征提高了抵抗幻觉的能力。值得注意的是,作为 7B 模型,Chat-UniVi 甚至优于 13B 模型,如 MiniGPT4。钻研职员将这一成功归功于多标准表征,多标准表征使模型能够同时感知高级语义概念和低级视觉外观。
人工评测试验。同时,钻研职员也从事了人工评估试验。钻研职员发现基于 Flamingo 的法子在懂得视频的能力上存在局限性。这种限制归因于它们运用 Q-Former 从不同长度的视频中提取固定数量的视觉 token,这阻碍了它们在建模时间懂得方面的有效性。相比之下,Chat-UniVi 作为一个对立的模型,不仅优于基于 Flamingo 建立的法子,而且超过了特意为图片和视频设计的模型。
可视化。Chat-UniVi 所运用的动态视觉 token 有效地概括了对象和背景。这使 Chat-UniVi 能够运用有限数量视觉 token 的同时建立图片懂得所需的细粒度的空间分辨率和视频懂得所需的细粒度时间分辨率。