vdr-2b-multi-v1视觉文档检索模型发布

本文于2025-01-11 16:35更新,部分内容具有时效性,如有失效,请留言

我们推出了vdr-2b-multi-v1,这是用于视觉文档检索的最佳多语言嵌入模型。我们还发布了它的纯英文版本vdr-2b-v1,并开源了新的vdr-multilingual-train数据集。该数据集包含50万个高质量样本,是用于视觉文档检索的最大开源多语言合成数据集。

LlamaIndex 团队推出新一代视觉文档检索模型 vdr-2b-multi-v1-1

隆重推出vdr-2b-multi-v1(🤗),这是一款专为跨多种语言和领域的视觉文档检索设计的多语言嵌入模型。该模型旨在将文档页面截图编码为密集的单向量表示,这将有效地允许搜索和查询视觉丰富的多语言文档,而无需任何OCR、数据提取管道、分块...


(adsbygoogle=window.adsbygoogle||[]).push({});

vdr-2b-multi-v1模型基于MrLight/dse-qwen2-2b-mrl-v1,并在大量自制的多语言查询-图像对数据集上进行训练。此模型是与LlamaIndex合作构建的,是mcdse-2b-v1的下一个迭代版本。我们的vdr-2b-multi-v1扩展并改进了用于训练它的学习和方法,从而产生了一个更强大、更好的模型。

  • 在🇮🇹意大利语、🇪🇸西班牙语、🇬🇧英语、🇫🇷法语和🇩🇪德语上进行训练:它们共同构成了一个新的大型开源多语言训练数据集,包含50万个高质量样本。
  • 低显存和更快的推理速度:在合成视觉文档检索(ViDoRe)基准测试中,我们使用768个图像块的纯英文模型比使用2560个图像块的基础模型表现更好。这使得推理速度提高了3倍,并大大降低了显存使用量。
  • 跨语言检索:在真实场景中明显更好。例如,您可以使用意大利语查询搜索德语文档。
  • Matryoshka 表示学习:您可以将向量大小缩小3倍,同时仍保持98%的嵌入质量。这可以在降低存储成本的同时显着提高检索速度。

 

用法

🎲 立即试用vdr-2b-multi-v1,可在Hugging Face Space上找到!</

相关推荐

暂无评论

发表评论