人工智能技术的快速发展使得视觉与文本数据的结合成为一大技术难题。传统模型在处理表格、图表、信息图等结构化视觉文档时往往难以准确解析,这限制了其在自动内容提取、信息检索和决策支持等领域的应用。为解决这一需求,IBM最新推出Granite-Vision-3.1-2B,一款专门针对文档理解的小型视觉语言模型。
Granite-Vision-3.1-2B可从多种视觉格式中提取内容,如表格、图表和图示。该模型基于精心挑选的数据集进行训练,数据来源包括公共和合成数据,能够应对多种文档处理任务。作为Granite大型语言模型的升级版,它将图像和文本两种模态整合,提高了模型的解读能力,适用于众多实际应用场景。
Granite-Vision-3.1-2B由三个关键组件构成:首先是视觉编码器,运用SigLIP技术高效处理和编码视觉数据;其次是视觉语言连接器,一个带有GELU激活函数的双层多层感知器(MLP),旨在连接视觉信息与文本信息;最后是大型语言模型,基于Granite-3.1-2B-Instruct,具备128k的上下文长度,可处理复杂和庞大的输入。
在训练过程中,Granite-Vision-3.1-2B借鉴了LlaVA,并结合了多层编码器的特性以及在AnyRes中更密集的网格分辨率。这些改进提升了模型对详细视觉内容理解的能力,使其能够更精确地执行视觉文档任务,如分析表格和图表、进行光学字符识别(OCR)以及回答基于文档的查询。
评估结果显示,Granite-Vision-3.1-2B在多个基准测试中表现出色,尤其在文档理解方面。在ChartQA基准测试中,该模型的得分达到0.86,超越1B-4B范围内其他模型。在TextVQA基准测试中,得分为0.76,显示出在解析和回答图像中嵌入的文本信息方面的强大能力。这些成果表明,该模型在精确视觉和文本数据处理方面具有强大的企业应用潜力。
IBM的Granite-Vision-3.1-2B标志着视觉语言模型的一次重要进步,提供了平衡的视觉文档理解方案。其架构和训练方法使其能够高效解析和分析复杂的视觉和文本数据。得益于对变换器和vLLM的原生支持,该模型可适应多种用例,并能在诸如Colab T4等云环境中部署,为研究人员和专业人士提供了一种增强AI驱动文档处理能力的实用工具。
模型:https://huggingface.co/ibm-granite/granite-vision-3.1-2b-preview
划重点:
🌟 Granite-Vision-3.1-2B是IBM推出的专为文档理解设计的小型视觉语言模型,能处理多种视觉格式的内容提取。
📊 模型由视觉编码器、视觉语言连接器和大型语言模型三部分组成,增强了复杂输入的理解能力。
🏆 在多个基准测试中表现出色,尤其在文档理解领域,展现了强大的企业应用潜力。
暂无评论