olmOCR:利用视觉语言模型解锁PDF中的数万亿Token
摘要
olmOCR 是一个开源工具包,使用微调的视觉语言模型从PDF中提取干净的文本,同时保留结构,并针对大规模批处理进行了优化。
查看缓存全文
缓存时间: 2026/06/28 05:21
论文页面 - olmOCR:利用视觉语言模型解锁PDF中的万亿级Token
来源:https://huggingface.co/papers/2502.18443
发布于 2025年2月25日
摘要
olmOCR 是一个开源工具包,利用微调后的视觉语言模型将PDF处理为干净文本,同时保留文档结构,专为大规模批量处理而优化。
PDF文档有潜力为语言模型训练提供数万亿个新颖、高质量的token。然而,这些文档类型多样,格式和视觉布局各异,在尝试提取并忠实呈现底层内容以供语言模型使用时带来挑战。我们提出 olmOCR,这是一个开源的Python工具包,用于将PDF转换为自然阅读顺序下的干净、线性化纯文本,同时保留章节、表格、列表、公式等结构化内容。我们的工具包运行一个经过微调的7B视觉语言模型(VLM),该模型在来自超10万个已爬取PDF的26万页样本上进行训练,这些PDF具有多样特性,包括图形、手写文本及低质量扫描件。olmOCR 专为大规模批量处理而优化,能够灵活扩展到不同的硬件配置,仅需190美元即可转换100万页PDF。我们开放 olmOCR 的所有组件,包括VLM权重、数据和训练代码,以及构建在 vLLM 和 SGLang 等推理框架上的推理代码。
查看 arXiv 页面 (https://arxiv.org/abs/2502.18443)
查看 PDF (https://arxiv.org/pdf/2502.18443)
项目页面 (https://olmocr.allenai.org/)
GitHub 17.5k auto (https://github.com/allenai/olmocr)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2502.18443)
在您的智能体中获取此论文:
hf papers read 2502.18443
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 0
暂无模型关联此论文
在模型 README.md 中引用 arxiv.org/abs/2502.18443 以在此页面建立链接。
引用此论文的数据集 12
allenai/olmOCR-bench 基准测试 • 更新于 Feb 19 • 6.3k • 248 (https://huggingface.co/datasets/allenai/olmOCR-bench)
shhdwi/olmocr-pre-rendered 查看器 • 更新于 Mar 2 • 1.34k • 2.02k (https://huggingface.co/datasets/shhdwi/olmocr-pre-rendered)
Voxel51/olmOCR_bench 查看器 • 更新于 Feb 24 • 1.4k • 1.99k (https://huggingface.co/datasets/Voxel51/olmOCR_bench)
introvoyz041/olmOCR-bench 预览 • 更新于 May 16 • 271 (https://huggingface.co/datasets/introvoyz041/olmOCR-bench)
浏览引用此论文的12个数据集 (https://huggingface.co/datasets?other=arxiv:2502.18443)
引用此论文的 Spaces 5
包含此论文的合集 4
相似文章
@hasantoxr: 我找到了为LLM时代打造的OCR工具。它叫olmOCR。olmOCR可以处理PDF、扫描件、PNG和JPEG,并将其转…
olmOCR 是来自Ai2的开源OCR工具,能够将PDF、扫描件和图像转换为干净的Markdown格式,旨在通过保留阅读顺序和处理复杂布局,为LLM流水线准备文档。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
具备视觉能力的LLM与OCR在长文档(包括图表、图片、表格等)问答中的对比
一项对比测试,将具备视觉能力的LLM(原生PDF阅读模式)与基于OCR的流程在30份长且图片密集的PDF上进行比较,发现带有布局提取的OCR在图表/表格密集的页面上仍优于视觉模型,且失败率为0%,而原生PDF为7%,尽管样本量较小且许多差距在噪声范围内。
@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。
本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。
PaddlePaddle/PaddleOCR
PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。