多模态检索新突破！智源开源多模态向量模型BGE-VL

2025-03-06 02:46

2025年3月6日，北京智源人工智能研究院宣布开源多模态向量模型BGE-VL，这一成果标志着多模态检索领域的新突破。 BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果，显著提升了多模态检索的性能。 BGE-VL的开发基于大规模合成数据集MegaPairs，该数据集通过结合多模态表征模型、多模态大模型和大语言模型，从海量图文语料库中高效挖掘多模态三元组数据。

2025年3月6日，北京智源人工智能研究院宣布开源多模态向量模型BGE-VL，这一成果标志着多模态检索领域的新突破。BGE-VL模型在图文检索、组合图像检索等多模态检索任务中取得了最佳效果，显著提升了多模态检索的性能。

BGE-VL的开发基于大规模合成数据集MegaPairs，该数据集通过结合多模态表征模型、多模态大模型和大语言模型，从海量图文语料库中高效挖掘多模态三元组数据。这一方法不仅具备优异的可扩展性，能够以极低成本持续生成多样化且高质量的数据，还大幅提升了数据质量。与传统人工标注数据相比，MegaPairs仅需1/70的数据量即可实现更优的训练效果。

在技术实现上，MegaPairs的构造分为两个关键步骤:首先，使用多种相似度模型从图像数据集中挖掘多样的图像对;其次，利用开源的多模态大模型和大语言模型合成开放域检索指令。通过这一方法，MegaPairs无需人工参与，即可扩展性地生成大规模、高质量且多样化的多模态检索指令数据集。此次发布的版本涵盖了2600万条样本，为多模态检索模型的训练提供了丰富的数据支持。

微信截图_20250306144622.png

基于MegaPairs数据集，智源BGE团队训练了3款不同尺寸的多模态检索模型，包括BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在多个任务上展现了远超以往方法的领先性能。在Massive Multimodal Embedding Benchmark（MMEB）的36个多模态嵌入评测任务中，BGE-VL在零样本性能和有监督微调后的性能上均实现了最优表现，证明了其良好的任务泛化能力。

在组合图像检索任务中，BGE-VL在CIRCO评测集上刷新了现有基准，大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等对比基线。BGE-VL-MLLM较之前的SOTA模型提升了8.1个百分点，而BGE-VL-Base模型以不到1/50的参数量超越了其他大模型底座的多模态检索器。

此外，研究还表明，MegaPairs数据集具有良好的可扩展性和高效性。随着数据规模的增加，BGE-VL模型表现出一致的性能增长趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比，MegaPairs仅需1/70的数据规模（0.5M）即可实现显著的性能优势。

项目主页:

https://github.com/VectorSpaceLab/MegaPairs

模型地址:

https://huggingface.co/BAAI/BGE-VL-MLLM-S1

智源开源多模态向量模型BGE-VL，助力多模态检索！

智源研究院开源了多模态向量模型BGE-VL，助力主要多模态检索任务达到SOTA。论文地址：：：：现有的多模态检索模型大多基于预训练的视觉-语言模型，这些模型主要通过文本-图像匹配任务进行预训练，对于其他常见的多模态任务（如组合图像检索和多模态文档检索）表现不足。为了增强模型的多任务能力，研究者们开始采用指令微调的方法，但高质量的指令微调数据稀缺且难以大规模获取。

3/19/2025 9:30:00 AM

Glodma