PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务

Hugging Face Blog 2026/05/18 15:12 工具

ocr document-parsing paddleocr transformers hugging-face inference-backend

摘要

PaddleOCR 3.5 新增了 Transformers 推理后端，使 PP-OCRv5 和 PaddleOCR-VL 1.5 等 OCR 及文档解析模型能够无缝运行于 Hugging Face 生态系统之中。

暂无内容

查看原文

查看缓存全文

缓存时间: 2026/05/18 18:32

PaddleOCR 3.5：使用 Transformers 后端运行 OCR 和文档解析任务

来源：https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers 返回文章列表 (https://huggingface.co/blog)

有什么变化？ (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#what-changed)
为何重要 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#why-this-matters)
快速开始 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#quick-start)
何时使用 Transformers 后端？ (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#when-should-you-use-the-transformers-backend)
立即尝试 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#try-it-now)
资源 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#resources)
致谢 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#acknowledgements)

PaddleOCR 3.5 将 OCR 和文档解析任务与 Hugging Face 生态更加紧密地结合。在此版本中，受支持的 PaddleOCR 模型可以通过设置以下参数，使用 Hugging Face Transformers 作为推理后端 运行：

engine="transformers"

PaddleOCR 继续提供如 PP-OCRv5 等 OCR 模型系列和如 PaddleOCR-VL 1.5 等文档解析模型系列，而 Transformers 成为运行这些模型的支持后端之一。

在 Hugging Face Spaces 上尝试在线演示：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#what-changed有什么变化？

PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端，并通过 engine_config 传递后端特定的选项。

实际上，这意味着：

这些任务背后的流程由 PaddleOCR 管理，因此开发者无需手动调用每个内部组件。
Transformers 成为运行受支持 PaddleOCR 模型的可选推理后端之一。
开发者可以通过 engine_config 配置与后端相关的选项，例如 dtype、设备分配和注意力实现。

对技术栈的简单理解：

层	含义	示例
应用层	使用 OCR 和文档解析输出的应用	RAG、智能体、文档 AI……
模型层	OCR 和文档解析能力	PP-OCRv5、PaddleOCR-VL 1.5……
推理后端层	用于运行受支持模型的运行时	Paddle 静态图、Paddle 动态图、Transformers

此版本主要针对推理后端层：PaddleOCR 继续提供 OCR 和文档解析能力，而 Transformers 为受支持的 PaddleOCR 模型提供了另一个后端选择，使其自然融入以 Hugging Face 为中心的环境。更大的文档 AI 工作流仍由开发者和应用构建者掌控。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#why-this-matters为何重要

对于 RAG、文档 AI 和文档智能体应用，困难的部分往往在 LLM 之前就开始了。

开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂的页面布局转化为可靠的结构化数据。如果这个数据摄入环节薄弱，下游的 LLM 工作流可能会遗漏关键信息、检索到错误的上下文，或产生不可靠的答案。

PaddleOCR 通过提供如 PP-OCRv5 等 OCR 模型系列和如 PaddleOCR-VL-1.5 等文档解析模型系列，帮助应对这一文档摄入挑战。

借助 PaddleOCR 3.5，这些能力现在更容易与以 Transformers 为中心的技术栈连接。受支持的 PaddleOCR 模型可以使用 Transformers 后端运行，而 PaddleOCR 继续在后台管理 OCR 或文档解析流程。

对开发者而言，这意味着更少的集成摩擦，以及从文档到下游 RAG、智能体、搜索、分析或自动化工作流更顺畅的路径。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#quick-start快速开始

安装 PaddleOCR 3.5、PaddleX、Transformers 以及适合您硬件环境的 PyTorch 版本。

例如，在 CUDA 12.6 环境下：

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126 python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

对于 CPU、ROCm 或其他环境，请安装与目标硬件匹配的 PyTorch 版本。

从命令行运行：

paddleocr ocr \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \ --device gpu:0 \ --engine transformers

或使用 Python API：

`` from paddleocr import PaddleOCR

pipeline = PaddleOCR( device=“gpu:0”, engine=“transformers”, use_doc_orientation_classify=False, use_doc_unwarping=False, use_textline_orientation=False, engine_config={ “dtype”: “float32”, }, )

results = pipeline.predict( “https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png” )

for result in results: print(result) ``

Hugging Face Space 使用 float32 以保持广泛兼容性。对于您自己的硬件，可以通过 engine_config 调整后端特定选项：

engine_config = { "dtype": "bfloat16", "device_type": "gpu", "device_id": 0, "attn_implementation": "sdpa", }

最佳配置取决于您的模型、硬件和部署环境。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#when-should-you-use-the-transformers-backend何时使用 Transformers 后端？

当您希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时，请使用 Transformers 后端。

如果您正在构建 RAG、文档 AI、搜索、分析或智能体应用，并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型工件管理，这将特别有用。

Transformers 后端适合以下场景：

为已经使用 Transformers 的团队提供更熟悉的开发体验；
对受支持的 PaddleOCR 模型进行 Hub 兼容的模型发现和分发；
更容易与现有的 PyTorch / Transformers 服务集成。

当最大化 OCR 或文档解析吞吐量是首要目标时，PaddleOCR 默认的 paddle_static 后端通常是推荐选择。

此版本并非要用一个后端替换另一个，而是为开发者提供更多灵活性：使用 PaddleOCR 获得 OCR 和文档解析能力，并选择最适合您技术栈的推理后端。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#try-it-now立即尝试

在 Hugging Face Spaces 上尝试 PaddleOCR 3.5 Transformers 演示：

https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

在 Hub 上探索 PaddleOCR 模型：

https://huggingface.co/PaddlePaddle/models

PaddleOCR 3.5 将 OCR 和文档解析能力更紧密地带入以 Transformers 为中心的工作流，同时给予开发者自由，围绕这些能力构建更庞大的文档 AI 应用。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#resources资源

PaddleOCR 文档：https://www.paddleocr.ai/
PaddleOCR 在 GitHub 上：https://github.com/PaddlePaddle/PaddleOCR
PaddlePaddle 在 Hugging Face 上的组织：https://huggingface.co/PaddlePaddle
PaddleOCR 3.5 Transformers 演示在 Spaces 上：https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#acknowledgements致谢

我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师们。

特别感谢 Anton Vlasjuk (https://huggingface.co/AntonV) 全程参与，包括审查和合并所有相关的拉取请求。

我们也感谢 Raushan Turganbay (https://huggingface.co/RaushanTurganbay) 和 Yoni Gozlan (https://huggingface.co/yonigozlan) 提供的宝贵 PR 审查和反馈。

他们的指导帮助提升了 Hugging Face 社区的集成质量、文档和开发者体验。

PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务

PaddleOCR 3.5：使用 Transformers 后端运行 OCR 和文档解析任务

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#what-changed有什么变化？

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#why-this-matters为何重要

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#quick-start快速开始

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#when-should-you-use-the-transformers-backend何时使用 Transformers 后端？

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#try-it-now立即尝试

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#resources资源

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#acknowledgements致谢

相似文章

@AdinaYakup: 来自 @Baidu_Inc @PaddlePaddle 的重大更新：百度的PaddleOCR现在支持Transformers作为推理后端，真的很酷…

PaddleOCR-VL-1.6：通过欠优化区域精炼与渐进式后训练拓展文档解析前沿

PaddlePaddle/PaddleOCR

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

🚀PP-OCRv6 正式发布！

提交意见反馈