AIIDEMarsCode×Trae预约发布,高效PDF文本提取工具olmOCR

🚀预约:3月3日中国首个 AI IDE 发布 MarsCode × Trae,不限量使用 Claude 3.7 Sonnet 和
DeepSeek-R1!

在人工智能科技领域,语言模型成为创新的核心动力。从预训练到实际应用,语言模型依赖纯文本数据。文本数据质量对训练过程、模型性能及用户输出至关重要。低质量文本数据可能导致训练不稳定、模型性能下降,并产生不满意的输出结果。

然而,并非所有语言模型所需数据都以易于解析的格式存在,如网页。许多领域有价值信息存储在电子文档中,尤其是 PDF 格式。PDF 格式设计初衷是为了在固定尺寸页面上呈现内容,而非保留文本逻辑结构。例如,PDF 格式将文本存储为一系列字符编码,记录每个字符在页面上的位置和格式信息。虽然这种存储方式效率高,但从中恢复文本单元并按正确顺序排列变得困难。

(adsbygoogle = window.adsbygoogle || []).push({});

视觉语言模型高效 PDF 文本提取利器——olmOCR-1视觉语言模型高效 PDF 文本提取利器——olmOCR-1

为了更好地处理电子文档,我们推出 olmOCR,一款高性能工具包,将 PDF 和文档图像转换为清晰、结构化的纯文本。olmOCR 的独特之处在于:

卓越的性能

olmOCR 准确提取文本,开发团队使用 25 万个 PDF 页面进行模型微调,包括原生数字文档和公共领域书籍扫描副本。这保证了 olmOCR 在处理各种文档时都能保持出色性能。

极具成本效益

olmOCR 处理一百万页 PDF 文档的成本约为 190 美元,仅为 GPT-4o API 的 1/32,显著降低文档处理的经济门槛。

Markdown 格式输出

olmOCR 以 Markdown 格式输出文本,易于解析和处理。它能处理公式、表格甚至手写内容,并确保复杂文档布局按正确顺序输出。

功能完备,开箱即用

olmOCR 是一个经过优化的 pipeline,可与 SGLang 和 vLLM 推理引擎协同工作。它能从单 GPU 扩展到数百个 GPU,并内置启发式算法处理解析失败和元数据错误。

完全开源

olmOCR 基于 Qwen2-VL-7B-Instruct 构建。开发团队开源所有组件,包括模型权重、微调数据集、训练和推理代码。

想了解 olmOCR 与其他领先文档提取工具的对比结果及构建过程更多信息,请点击链接查看。若要试用 olmOCR,请访问 GitHub 仓库,在项目中使用 olmOCR。

 

交互式工具对比

通过对比示例文档,直观了解 olmOCR 相较于其他领先文档提取工具的性能表现。使用下方的标签页,查看不同工具的输出结果,并深入了解它们在处理质量上的关键差异。

视觉语言模型高效 PDF 文本提取利器——olmOCR-1视觉语言模型高效 PDF 文本提取利器——olmOCR-1

 

视觉语言模型高效 PDF 文本提取利器——olmOCR-1视觉语言模型高效 PDF 文本提取利器——olmOCR-1

 

视觉语言模型高效 PDF 文本提取利器——olmOCR-1视觉语言模型高效 PDF 文本提取利器——olmOCR-1

 

olmOCR 的构建之路

传统 OCR 技术在处理复杂布局的 PDF 文档时面临挑战。为了获得高质量数据训练 olmOCR,开发团队创新性地研发了文档锚定技术。该方法利用 PDF 文件中已有的文本和元数据,显著提升文本提取质量。

视觉语言模型高效 PDF 文本提取利器——olmOCR-2视觉语言模型高效 PDF 文本提取利器——olmOCR-2

图 1: 展示了文档锚定技术在一个典型页面上的工作原理。相关的图像位置和文本块被提取出来,连接在一起,并插入到模型 prompt 中。当向 VLM 请求文档的纯文本版本时,锚定的文本将与页面的栅格化图像结合使用。

借助文档锚定技术,开发团队使用 GPT-4o 标注了 25 万个页面。数据集来源广泛,包括公开 PDF 文档和互联网档案馆扫描的公共领域书籍。数据集类型多样,其中 60% 为学术论文,12% 为宣传册,11% 为法律文件,6% 为图表,5% 为幻灯片,以及 4% 为其他文档类型。

在模型训练方面,olmOCR 团队对 Qwen2-VL-7B-Instruct checkpoint 进行微调。为了实现大规模批量处理并优化推理 pipeline,他们使用了 SGLang。最终,olmOCR 仅需花费 190 美元即可转换一百万页 PDF 文档,成本仅为 GPT-4o API 的 1/32。实验结果表明,与其它流行的 OCR 工具相比,olmOCR 不仅显著降低了成本,而且在人工评估中也展现出更卓越的性能。

视觉语言模型高效 PDF 文本提取利器——olmOCR-3<img decoding="async" class="aligncenter size-full wp-image-27066"

相关推荐

暂无评论

发表评论