北京大学与腾讯等机构的研究者们提出了多模态对齐框架 ——LanguageBind。该框架在视频、音频、文本、深度图和热图象等五种分歧模态的下游任意中取得了卓越的机能,刷榜多项评估榜单,这标志着多模态进修规模向着「大一统」理念迈进了重要一步。
在现代社会,信息传递和交流不再局限于单一模态。我们生活在一个多模态的世界里,声音、视频、文字和深度图等模态信息相互交织,共同构成了我们丰富的感知体验。这类多模态的信息交互不仅存在于人类社会的沟通中,同样也是机器了解世界所必须面对的挑战。
如何让机器像人类一样了解和处理这类多模态的数据,成为了人工智能规模研究的前沿问题。
在过去的十年里,随着互联网和智能设备的普及,视频内容的数量呈爆炸式增长。视频平台如 YouTube、TikTok 和 Bilibili 等汇聚了亿万用户上传和分享的视频内容,涵盖了娱乐、教育、新闻报道、个人日志等各个方面。如此庞大的视频数据量为人类提供了前所未有的信息和知识。为了解决这些视频了解任意,人们采用了视频 – 说话(VL)预训练方式,将计算机视觉和自然说话处理结合起来,这些模型能够捕捉视频语义并解决下游任意。
然而,目前的 VL 预训练方式通常仅适用于视觉和说话模态,而现实世界中的应用场景往往包含更多的模态信息,如深度图、热图象等。如何整合和分析分歧模态的信息,并且能够在多个模态之间建立准确的语义对应关系,成为了多模态规模的一个新的挑战。
为了应对这一难题,北大与腾讯的研究人员提出了一种新颖的多模态对齐框架 ——LanguageBind。与以往依赖图象作为主导模态的方式分歧,LanguageBind 采用说话作为多模态信息对齐的纽带。
论文地址:https://arxiv.org/pdf/2310.01852.pdf
GitHub 地址:https://github.com/PKU-YuanGroup/LanguageBind
Huggingface 地址:https://huggingface.co/LanguageBind
说话因其内在的语义丰富性和表现力,被赋予了整合和引导其他模态信息对齐的能力。在这个框架下,说话不再是附属于视觉信息的标注或说明,而是成为了联合视觉、音频和其他模态的中心通道。
LanguageBind 通过将所有模态的信息映照到一个统一的说话导向的嵌入空间,实现了分歧模态之间的语义对齐。这类对齐方式避免了通过图象中介可能引入的信息损失,提高了多模态信息处理的准确性和效率。更重要的是,这类方式为未来的扩展提供了灵活性,允许简单地添加新的模态,而无需重新设计整个系统。
此外,该研究团队建立了 VIDAL-10M 数据集,这是一个大规模、包含多模态数据对的数据集。
VIDAL-10M 涵盖了视频 – 说话、红外 – 说话、深度 – 说话和音频 – 说话配对,以确保跨模态的信息是完整且一致的。通过在该数据集上进行训练,LanguageBind 在视频、音频、深度和红外等 15 个广泛的基准测试中取得了卓越的机能表现。
方式介绍
在多模态信息处理规模,主流的对齐技术,如 ImageBind,主要依赖图象作为桥梁来实现分歧模态之间的间接对齐。这类方式在对其他模态和说话模态的对齐上可能会导致机能次优化,因为它需要两步转换过程 —— 首先是从目标模态到图象模态,然后是从图象模态到说话模态。这类间接对齐可能导致语义信息在转换过程中的衰减,从而影响最终的机能表现。
针对这一问题,该团队提出了一种名为 LanguageBind 的多模态语义对齐预训练框架。该框架摒弃了依赖图象作为中介的传统模式,而是直接利用说话模态作为分歧模态之间的纽带。说话模态因其天然的语义丰富性,成为连接视觉、音频、深度等模态的理想选择。LanguageBind 框架通过利用对比进修机制,将分歧模态的数据映照到一个共享的语义嵌入空间中。在这个空间里,分歧模态的信息可以直接进行语义层面的了解与对齐。
LanguageBind 概览图
具体而言,LanguageBind 通过锚定说话模态,采用一系列优化的对比进修策略,对多模态数据进行预训练。这一过程中,模型进修将来自分歧模态的数据编码到与说话模态相兼容的表征中,确保了模态间的语义一致性。这类直接的跨模态语义对齐避免了传统方式中的机能损失,同时提高了模型在下游多模态任意中的泛化能力和适用性。
LanguageBind 框架的另一个优点是其扩展性。由于直接使用说话作为核心对齐模态,当引入新的模态时,无需重构整个对齐机制,只需通过相同的对比进修过程,将新模态的数据映照到已经建立的说话导向嵌入空间。这使得 LanguageBind 不仅适用于现有的模态,也能轻松适应未来可能出现的新模态,为多模态预训练技术的发展奠定了坚实基础。
数据集介绍
在跨模态预训练规模,数据集的建立及其质量对于预训练模型的机能与应用效能具有决定性影响。传统的多模态数据集大多局限于二模态或三模态的配对数据,这类限制导致了对更丰富模态对齐数据集的需求。
因而,该团队开发了 VIDAL-10M 数据集,这是一个创新的五模态数据集,包含了视频 – 说话(VL)、红外 – 说话(IL)、深度 – 说话(DL)、音频 – 说话(AL)等数据对。每个数据对都经过了精心的质量筛选,旨在为跨模态预训练规模提供一个高品质、高完整性的训练基础。
VIDAL-10M 数据集示例
VIDAL-10M 数据集的建立主要包括三步:
视觉相关搜索词库建立。设计一种创新的搜索词获取策略,该策略综合利用了各类视觉任意数据集中的文本信息,如标签和标题,以建立一个丰富视觉概念且多样化的视频数据集,从而加强了数据多样性和覆盖度。
视频和音频数据的收集、清洗与筛选:在数据的收集过程中,该研究采取了基于文本、视觉和音频内容的多种过滤机制,这些机制确保收集到的视频和音频数据与搜索词高度相关,并且满足高标准的质量要求。这一步骤是确保数据集质量的关键环节,它直接影响模型训练的效果和后续任意的机能。
红外、深度模态数据生成与多视角文本加强。此阶段,利用多种先进的生成模型技术合成了红外和深度模态数据,并对文本内容进行了多角度的生成和加强。多视角文本加强包括了标题、标签、关键帧描述、视频概要等多个维度,它为视频内容提供了全面且细致的描述,加强了数据的语义丰富性和描述的细粒度。
VIDAL-10M 数据集的建立过程
实行
LanguageBind 框架被应用于多个模态的零样本分类任意,并与其他模型进行了机能比较。实行结果显示,LanguageBind 方式在包括视频、音频、深度图象、热成像等多模态数据上的 15 个零样本分类与检索任意中均展示了显著的机能提升。这些实行成果强调了 LanguageBind 方式在了解和处理分歧模态数据中的潜在能力,尤其是在没有先前样本可供进修的情况下。为了更深入地了解 LanguageBind 方式的机能,可以参照以下详细的实行结果。
表 2 显示,LanguageBind 的机能在 MSR-VTT 上超过 VideoCoca 和 OmniVL ,尽管仅使用 300 万个视频 – 文本对。
在两个经典数据集 MSR-VTT 和 MSVD 上进行的零样本视频 – 文本检索实行结果如表 3 所示:
该研究还将本文模型与 SOTA 多模态预训练模型 OpenCLIP、ImageBind 在多模态了解任意上进行了比较,结果如表 4 所示:
表 5 比较了在 Clotho 数据集和 Audiocaps 数据集上的零样本文本 – 音频检索机能: