性能优于规模更大的模型。
多模态进修面临的主要挑战之一是需要融合文本、音频、视频等异构的模态,多模态模型需要拉拢不同来源的旌旗灯号。然而,这些模态具有不同的特性,很难通过单一模型来拉拢。例如,视频和文本具有不同的采样率。
最近,来自 Google DeepMind 的钻研团队将多模态模型解耦成多个独立的、专门的自返回模型,根据各种模态的特性来处置惩罚输出。
具体来说,该钻研提出了多模态模型 Mirasol3B。Mirasol3B 由空儿同步模态(音频和视频)自返回组件,以及用于上下文模态的自返回组件组成。这些模态不一定在空儿上对齐,但是按顺序排列的。
论文地址:https://arxiv.org/abs/2311.05698
Mirasol3B 在多模态基准尝试中达到了 SOTA 水平,优于规模更大的模型。通过进修更紧凑的表征,控制音频 – 视频特性表征的序列长度,并根据空儿对应关系进行建模,Mirasol3B 能够有效满足多模态输出的高计算要求。
方法简介
Mirasol3B 是一个音频 – 视频 – 文本多模态模型,其中将自返回建模解耦成空儿对齐模态(例如音频、视频)的自返回组件,以及针对非空儿对齐的上下文模态(例如文本)的自返回组件。Mirasol3B 使用交叉注意力权重来协调这些组件的进修进程。这种解耦使得模型内部的参数分布更合理,也为模态(视频和音频)分配了足够的容量,并使得整体模型更加轻量。
以下图 1 所示,Mirasol3B 主要由两个进修组件组成:自返回组件,旨在处置惩罚(几乎)同步的多模态输出,例如视频 + 音频,并及时拉拢输出。
该钻研还提出将空儿对齐的模态分割成空儿段,在空儿段中进修音频 – 视频联合表征。具体来说,该钻研提出了一种名为「Combiner」的模态联合特性进修机制。「Combiner」融合了同一空儿段中的模态特性,产生了更紧凑的表征。
「Combiner」从原始的模态输出中提取初级的时空表示,捕捉视频的动态特性,并结合与其共时的音频特性,模型可以在不同的速率接收多模态输出,在处置惩罚较长的视频时表现良好。
「Combiner」有效地满足了模态表征既要高效又要信息量丰富的需求。它可以充分涵盖视频与其他同时发生的模态中的事件和活动,并能够用于后续的自返回模型,进修长期依赖关系。
为了处置惩罚视频和音频旌旗灯号,并适应更长的视频 / 音频输出,它们被分割成(在空儿上大致同步)的小块,再通过「Combiner」进修联合视听表示。第二个组件处置惩罚上下文,或空儿上未对齐的旌旗灯号,如全局文本信息,这些信息通常仍然是连续的。它也是自返回的,并使用拉拢的潜在空间作为交叉注意力输出。
视频 + 音频进修组件有 3B 参数;没有音频的组件是 2.9B。多半参数用于音频 + 视频自返回模型。Mirasol3B 通常处置惩罚 128 帧的视频,也可以处置惩罚更长(例如 512 帧)的视频。
由于设计了分区和「Combiner」的模型架构,增加更多帧,或增加块的大小、数目等,只会使参数略有增加,解决了更长视频需要更多参数、更大的内存的问题。
实验及结果
该钻研在标准 VideoQA 基准、长视频 VideoQA 基准和音频 + 视频基准上对 Mirasol3B 进行了尝试评价。
在 VideoQA 数据集 MSRVTTQA 上的尝试结果以下表 1 所示,Mirasol3B 超越了目前的 SOTA 模型,以及规模更大的模型,如 PaLI-X、Flamingo。
在长视频问答方面,该钻研在 ActivityNet-QA、NExTQA 数据集上对 Mirasol3B 进行了尝试评价,结果以下表 2 所示:
最后,该钻研选择使用 KineticsSound、VGG-Sound、Epic-Sound 进行音频 – 视频基准尝试,采用开放式生成评价,实验结果以下表 3 所示:
感兴趣的读者可以阅读论文原文,了解更多钻研内容。