olmOCR：利用视觉语言模型解锁PDF中的数万亿Token

Papers with Code Trending 2025/02/25 18:38 论文

pdf-processing vision-language-model open-source document-extraction batch-processing ocr

摘要

olmOCR 是一个开源工具包，使用微调的视觉语言模型从PDF中提取干净的文本，同时保留结构，并针对大规模批处理进行了优化。

PDF文档有潜力为训练语言模型提供数万亿新颖、高质量的Token。然而，这些文档类型多样，格式和视觉布局各不相同，在尝试提取并准确呈现底层内容以供语言模型使用时带来了挑战。我们推出了olmOCR，一个开源Python工具包，可将PDF处理为干净、线性化的纯文本，保持自然阅读顺序，同时保留结构化内容，如章节、表格、列表、公式等。我们的工具包运行一个微调的7B视觉语言模型（VLM），该模型在来自超过10万个爬取PDF的26万页样本上训练，这些PDF具有多样化的属性，包括图形、手写文本和质量较差的扫描件。 olmOCR针对大规模批处理进行了优化，能够灵活扩展到不同的硬件设置，并且仅需190美元即可转换一百万PDF页面。我们发布了olmOCR的所有组件，包括VLM权重、数据和训练代码，以及基于vLLM和SGLang等服务框架构建的推理代码。

查看原文

查看缓存全文

缓存时间: 2026/06/28 05:21

论文页面 - olmOCR：利用视觉语言模型解锁PDF中的万亿级Token

来源：https://huggingface.co/papers/2502.18443
发布于 2025年2月25日

摘要

olmOCR 是一个开源工具包，利用微调后的视觉语言模型将PDF处理为干净文本，同时保留文档结构，专为大规模批量处理而优化。

PDF文档有潜力为语言模型训练提供数万亿个新颖、高质量的token。然而，这些文档类型多样，格式和视觉布局各异，在尝试提取并忠实呈现底层内容以供语言模型使用时带来挑战。我们提出 olmOCR，这是一个开源的Python工具包，用于将PDF转换为自然阅读顺序下的干净、线性化纯文本，同时保留章节、表格、列表、公式等结构化内容。我们的工具包运行一个经过微调的7B视觉语言模型（VLM），该模型在来自超10万个已爬取PDF的26万页样本上进行训练，这些PDF具有多样特性，包括图形、手写文本及低质量扫描件。olmOCR 专为大规模批量处理而优化，能够灵活扩展到不同的硬件配置，仅需190美元即可转换100万页PDF。我们开放 olmOCR 的所有组件，包括VLM权重、数据和训练代码，以及构建在 vLLM 和 SGLang 等推理框架上的推理代码。

查看 arXiv 页面 (https://arxiv.org/abs/2502.18443)
查看 PDF (https://arxiv.org/pdf/2502.18443)
项目页面 (https://olmocr.allenai.org/)
GitHub 17.5k auto (https://github.com/allenai/olmocr)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2502.18443)

在您的智能体中获取此论文：

hf papers read 2502.18443

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2502.18443 以在此页面建立链接。

引用此论文的数据集 12

allenai/olmOCR-bench 基准测试 • 更新于 Feb 19 • 6.3k • 248 (https://huggingface.co/datasets/allenai/olmOCR-bench)

shhdwi/olmocr-pre-rendered 查看器 • 更新于 Mar 2 • 1.34k • 2.02k (https://huggingface.co/datasets/shhdwi/olmocr-pre-rendered)

Voxel51/olmOCR_bench 查看器 • 更新于 Feb 24 • 1.4k • 1.99k (https://huggingface.co/datasets/Voxel51/olmOCR_bench)

introvoyz041/olmOCR-bench 预览 • 更新于 May 16 • 271 (https://huggingface.co/datasets/introvoyz041/olmOCR-bench)

浏览引用此论文的12个数据集 (https://huggingface.co/datasets?other=arxiv:2502.18443)

olmOCR：利用视觉语言模型解锁PDF中的数万亿Token

论文页面 - olmOCR：利用视觉语言模型解锁PDF中的万亿级Token

摘要

引用此论文的模型 0

引用此论文的数据集 12

allenai/olmOCR-bench 基准测试 • 更新于 Feb 19 • 6.3k • 248 (https://huggingface.co/datasets/allenai/olmOCR-bench)

shhdwi/olmocr-pre-rendered 查看器 • 更新于 Mar 2 • 1.34k • 2.02k (https://huggingface.co/datasets/shhdwi/olmocr-pre-rendered)

Voxel51/olmOCR_bench 查看器 • 更新于 Feb 24 • 1.4k • 1.99k (https://huggingface.co/datasets/Voxel51/olmOCR_bench)

introvoyz041/olmOCR-bench 预览 • 更新于 May 16 • 271 (https://huggingface.co/datasets/introvoyz041/olmOCR-bench)

引用此论文的 Spaces 5

包含此论文的合集 4

相似文章

@hasantoxr: 我找到了为LLM时代打造的OCR工具。它叫olmOCR。olmOCR可以处理PDF、扫描件、PNG和JPEG，并将其转…

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

具备视觉能力的LLM与OCR在长文档（包括图表、图片、表格等）问答中的对比

@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档，它就是 dots-ocr。一个处理文本、表格等的系统。

PaddlePaddle/PaddleOCR

提交意见反馈