2025年3月6日,北京智源人工智能研究院正式推出开源的多模态向量模型BGE-VL,这一创新成果在多模态检索领域取得了重大突破。BGE-VL模型在图文检索、组合图像检索等多样化的多模态检索任务中均取得了卓越成效,显著提高了多模态检索的整体性能。
BGE-VL模型的开发基于大规模合成数据集MegaPairs,该数据集通过融合多模态表征模型、多模态大模型以及大语言模型,从庞大的图文语料库中高效提取多模态三元组数据。这种方法不仅具有出色的可扩展性,可以以极低的成本持续生成丰富多样且高质量的数据,而且极大地提升了数据质量。与传统的手动标注数据相比,MegaPairs只需1/70的数据量就能达到更优的训练效果。
在技术实现方面,MegaPairs的构建分为两个关键步骤:首先,利用多种相似度模型从图像数据集中挖掘出多样的图像对;其次,利用开源的多模态大模型和大语言模型生成开放域检索指令。这种方法无需人工干预,即可实现大规模、高质量和多样化的多模态检索指令数据集的扩展性生成。此次发布的版本包含2600万条样本,为多模态检索模型的训练提供了充足的数据支持。
基于MegaPairs数据集,智源BGE团队培育了三款不同规模的多模态检索模型,分别是BGE-VL-Base、BGE-VL-Large和BGE-VL-MLLM。这些模型在众多任务中均表现出超越以往方法的优异性能。在Massive Multimodal Embedding Benchmark(MMEB)的36个多模态嵌入评估任务中,BGE-VL在零样本性能和有监督微调后的性能上都达到了最优,显示出其出色的任务泛化能力。
在组合图像检索任务中,BGE-VL在CIRCO评测集上打破了现有基准,大幅超越了谷歌的MagicLens系列和英伟达的MM-Embed等基准。BGE-VL-MLLM相较于之前的SOTA模型提升了8.1个百分点,而BGE-VL-Base模型以更少的参数量(不到1/50)超越了其他大模型底座的多模态检索器。
此外,研究还揭示了MegaPairs数据集的良好可扩展性和高效性。随着数据规模的增加,BGE-VL模型展现出稳定的性能提升趋势。与在37M闭源数据上训练的SOTA模型Google MagicLens相比,MegaPairs仅需1/70的数据规模(0.5M)就能展现出显著的性能优势。
项目主页:
https://github.com/VectorSpaceLab/MegaPairs
模型地址:
https://huggingface.co/BAAI/BGE-VL-MLLM-S1
暂无评论