PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务

Hugging Face Blog 工具

摘要

PaddleOCR 3.5 新增了 Transformers 推理后端,使 PP-OCRv5 和 PaddleOCR-VL 1.5 等 OCR 及文档解析模型能够无缝运行于 Hugging Face 生态系统之中。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/05/18 18:32

PaddleOCR 3.5:使用 Transformers 后端运行 OCR 和文档解析任务

来源:https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers 返回文章列表 (https://huggingface.co/blog)

  • 有什么变化? (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#what-changed)
  • 为何重要 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#why-this-matters)
  • 快速开始 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#quick-start)
  • 何时使用 Transformers 后端? (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#when-should-you-use-the-transformers-backend)
  • 立即尝试 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#try-it-now)
  • 资源 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#resources)
  • 致谢 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#acknowledgements)

PaddleOCR 3.5 将 OCR 和文档解析任务与 Hugging Face 生态更加紧密地结合。在此版本中,受支持的 PaddleOCR 模型可以通过设置以下参数,使用 Hugging Face Transformers 作为推理后端 运行:

engine="transformers"

PaddleOCR 继续提供如 PP-OCRv5 等 OCR 模型系列和如 PaddleOCR-VL 1.5 等文档解析模型系列,而 Transformers 成为运行这些模型的支持后端之一。

在 Hugging Face Spaces 上尝试在线演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#what-changed有什么变化?

PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端,并通过 engine_config 传递后端特定的选项。

实际上,这意味着:

  • 这些任务背后的流程由 PaddleOCR 管理,因此开发者无需手动调用每个内部组件。
  • Transformers 成为运行受支持 PaddleOCR 模型的可选推理后端之一。
  • 开发者可以通过 engine_config 配置与后端相关的选项,例如 dtype、设备分配和注意力实现。

对技术栈的简单理解:

含义示例
应用层使用 OCR 和文档解析输出的应用RAG、智能体、文档 AI……
模型层OCR 和文档解析能力PP-OCRv5、PaddleOCR-VL 1.5……
推理后端层用于运行受支持模型的运行时Paddle 静态图、Paddle 动态图、Transformers

此版本主要针对推理后端层:PaddleOCR 继续提供 OCR 和文档解析能力,而 Transformers 为受支持的 PaddleOCR 模型提供了另一个后端选择,使其自然融入以 Hugging Face 为中心的环境。更大的文档 AI 工作流仍由开发者和应用构建者掌控。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#why-this-matters为何重要

对于 RAG、文档 AI 和文档智能体应用,困难的部分往往在 LLM 之前就开始了。

开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂的页面布局转化为可靠的结构化数据。如果这个数据摄入环节薄弱,下游的 LLM 工作流可能会遗漏关键信息、检索到错误的上下文,或产生不可靠的答案。

PaddleOCR 通过提供如 PP-OCRv5 等 OCR 模型系列和如 PaddleOCR-VL-1.5 等文档解析模型系列,帮助应对这一文档摄入挑战。

借助 PaddleOCR 3.5,这些能力现在更容易与以 Transformers 为中心的技术栈连接。受支持的 PaddleOCR 模型可以使用 Transformers 后端运行,而 PaddleOCR 继续在后台管理 OCR 或文档解析流程。

对开发者而言,这意味着更少的集成摩擦,以及从文档到下游 RAG、智能体、搜索、分析或自动化工作流更顺畅的路径。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#quick-start快速开始

安装 PaddleOCR 3.5、PaddleX、Transformers 以及适合您硬件环境的 PyTorch 版本。

例如,在 CUDA 12.6 环境下:

python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126 python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"

对于 CPU、ROCm 或其他环境,请安装与目标硬件匹配的 PyTorch 版本。

从命令行运行:

paddleocr ocr \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \ --device gpu:0 \ --engine transformers

或使用 Python API:

`` from paddleocr import PaddleOCR

pipeline = PaddleOCR( device=“gpu:0”, engine=“transformers”, use_doc_orientation_classify=False, use_doc_unwarping=False, use_textline_orientation=False, engine_config={ “dtype”: “float32”, }, )

results = pipeline.predict( “https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png” )

for result in results: print(result) ``

Hugging Face Space 使用 float32 以保持广泛兼容性。对于您自己的硬件,可以通过 engine_config 调整后端特定选项:

engine_config = { "dtype": "bfloat16", "device_type": "gpu", "device_id": 0, "attn_implementation": "sdpa", }

最佳配置取决于您的模型、硬件和部署环境。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#when-should-you-use-the-transformers-backend何时使用 Transformers 后端?

当您希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时,请使用 Transformers 后端。

如果您正在构建 RAG、文档 AI、搜索、分析或智能体应用,并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型工件管理,这将特别有用。

Transformers 后端适合以下场景:

  • 为已经使用 Transformers 的团队提供更熟悉的开发体验;
  • 对受支持的 PaddleOCR 模型进行 Hub 兼容的模型发现和分发;
  • 更容易与现有的 PyTorch / Transformers 服务集成。

当最大化 OCR 或文档解析吞吐量是首要目标时,PaddleOCR 默认的 paddle_static 后端通常是推荐选择。

此版本并非要用一个后端替换另一个,而是为开发者提供更多灵活性:使用 PaddleOCR 获得 OCR 和文档解析能力,并选择最适合您技术栈的推理后端。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#try-it-now立即尝试

在 Hugging Face Spaces 上尝试 PaddleOCR 3.5 Transformers 演示:

https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

在 Hub 上探索 PaddleOCR 模型:

https://huggingface.co/PaddlePaddle/models

PaddleOCR 3.5 将 OCR 和文档解析能力更紧密地带入以 Transformers 为中心的工作流,同时给予开发者自由,围绕这些能力构建更庞大的文档 AI 应用。

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#resources资源

  • PaddleOCR 文档:https://www.paddleocr.ai/
  • PaddleOCR 在 GitHub 上:https://github.com/PaddlePaddle/PaddleOCR
  • PaddlePaddle 在 Hugging Face 上的组织:https://huggingface.co/PaddlePaddle
  • PaddleOCR 3.5 Transformers 演示在 Spaces 上:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo

https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#acknowledgements致谢

我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师们。

特别感谢 Anton Vlasjuk (https://huggingface.co/AntonV) 全程参与,包括审查和合并所有相关的拉取请求。

我们也感谢 Raushan Turganbay (https://huggingface.co/RaushanTurganbay) 和 Yoni Gozlan (https://huggingface.co/yonigozlan) 提供的宝贵 PR 审查和反馈。

他们的指导帮助提升了 Hugging Face 社区的集成质量、文档和开发者体验。

相似文章

PaddlePaddle/PaddleOCR

GitHub Trending (daily)

PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。

🚀PP-OCRv6 正式发布!

Reddit r/LocalLLaMA

PaddleOCR 发布 PP-OCRv6,全新的 OCR 模型系列,参数量从 1.5M 到 34.5M,提供更高的精度和更快的推理速度,支持 50 种语言以及 PCB、CAD 图纸等新场景,采用 Apache 2.0 开源许可证。