olmOCR:利用视觉语言模型解锁PDF中的数万亿Token

Papers with Code Trending 论文

摘要

olmOCR 是一个开源工具包,使用微调的视觉语言模型从PDF中提取干净的文本,同时保留结构,并针对大规模批处理进行了优化。

PDF文档有潜力为训练语言模型提供数万亿新颖、高质量的Token。 然而,这些文档类型多样,格式和视觉布局各不相同,在尝试提取并准确呈现底层内容以供语言模型使用时带来了挑战。 我们推出了olmOCR,一个开源Python工具包,可将PDF处理为干净、线性化的纯文本,保持自然阅读顺序,同时保留结构化内容,如章节、表格、列表、公式等。 我们的工具包运行一个微调的7B视觉语言模型(VLM),该模型在来自超过10万个爬取PDF的26万页样本上训练,这些PDF具有多样化的属性,包括图形、手写文本和质量较差的扫描件。 olmOCR针对大规模批处理进行了优化,能够灵活扩展到不同的硬件设置,并且仅需190美元即可转换一百万PDF页面。 我们发布了olmOCR的所有组件,包括VLM权重、数据和训练代码,以及基于vLLM和SGLang等服务框架构建的推理代码。
查看原文
查看缓存全文

缓存时间: 2026/06/28 05:21

论文页面 - olmOCR:利用视觉语言模型解锁PDF中的万亿级Token

来源:https://huggingface.co/papers/2502.18443
发布于 2025年2月25日

摘要

olmOCR 是一个开源工具包,利用微调后的视觉语言模型将PDF处理为干净文本,同时保留文档结构,专为大规模批量处理而优化。

PDF文档有潜力为语言模型训练提供数万亿个新颖、高质量的token。然而,这些文档类型多样,格式和视觉布局各异,在尝试提取并忠实呈现底层内容以供语言模型使用时带来挑战。我们提出 olmOCR,这是一个开源的Python工具包,用于将PDF转换为自然阅读顺序下的干净、线性化纯文本,同时保留章节、表格、列表、公式等结构化内容。我们的工具包运行一个经过微调的7B视觉语言模型(VLM),该模型在来自超10万个已爬取PDF的26万页样本上进行训练,这些PDF具有多样特性,包括图形、手写文本及低质量扫描件。olmOCR 专为大规模批量处理而优化,能够灵活扩展到不同的硬件配置,仅需190美元即可转换100万页PDF。我们开放 olmOCR 的所有组件,包括VLM权重、数据和训练代码,以及构建在 vLLM 和 SGLang 等推理框架上的推理代码。

查看 arXiv 页面 (https://arxiv.org/abs/2502.18443)
查看 PDF (https://arxiv.org/pdf/2502.18443)
项目页面 (https://olmocr.allenai.org/)
GitHub 17.5k auto (https://github.com/allenai/olmocr)
添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2502.18443)

在您的智能体中获取此论文:

hf papers read 2502.18443

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 0

暂无模型关联此论文

在模型 README.md 中引用 arxiv.org/abs/2502.18443 以在此页面建立链接。

引用此论文的数据集 12

allenai/olmOCR-bench 基准测试 • 更新于 Feb 19 • 6.3k • 248 (https://huggingface.co/datasets/allenai/olmOCR-bench)

shhdwi/olmocr-pre-rendered 查看器 • 更新于 Mar 2 • 1.34k • 2.02k (https://huggingface.co/datasets/shhdwi/olmocr-pre-rendered)

Voxel51/olmOCR_bench 查看器 • 更新于 Feb 24 • 1.4k • 1.99k (https://huggingface.co/datasets/Voxel51/olmOCR_bench)

introvoyz041/olmOCR-bench 预览 • 更新于 May 16 • 271 (https://huggingface.co/datasets/introvoyz041/olmOCR-bench)

浏览引用此论文的12个数据集 (https://huggingface.co/datasets?other=arxiv:2502.18443)

引用此论文的 Spaces 5

包含此论文的合集 4

相似文章

PaddlePaddle/PaddleOCR

GitHub Trending (daily)

PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。