PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
摘要
PaddleOCR 3.5 新增了 Transformers 推理后端,使 PP-OCRv5 和 PaddleOCR-VL 1.5 等 OCR 及文档解析模型能够无缝运行于 Hugging Face 生态系统之中。
查看缓存全文
缓存时间: 2026/05/18 18:32
PaddleOCR 3.5:使用 Transformers 后端运行 OCR 和文档解析任务
来源:https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers 返回文章列表 (https://huggingface.co/blog)
- 有什么变化? (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#what-changed)
- 为何重要 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#why-this-matters)
- 快速开始 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#quick-start)
- 何时使用 Transformers 后端? (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#when-should-you-use-the-transformers-backend)
- 立即尝试 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#try-it-now)
- 资源 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#resources)
- 致谢 (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#acknowledgements)
PaddleOCR 3.5 将 OCR 和文档解析任务与 Hugging Face 生态更加紧密地结合。在此版本中,受支持的 PaddleOCR 模型可以通过设置以下参数,使用 Hugging Face Transformers 作为推理后端 运行:
engine="transformers"
PaddleOCR 继续提供如 PP-OCRv5 等 OCR 模型系列和如 PaddleOCR-VL 1.5 等文档解析模型系列,而 Transformers 成为运行这些模型的支持后端之一。
在 Hugging Face Spaces 上尝试在线演示:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#what-changed有什么变化?
PaddleOCR 3.5 引入了更灵活的推理引擎接口。开发者可以通过 engine 参数选择后端,并通过 engine_config 传递后端特定的选项。
实际上,这意味着:
- 这些任务背后的流程由 PaddleOCR 管理,因此开发者无需手动调用每个内部组件。
- Transformers 成为运行受支持 PaddleOCR 模型的可选推理后端之一。
- 开发者可以通过
engine_config配置与后端相关的选项,例如dtype、设备分配和注意力实现。
对技术栈的简单理解:
| 层 | 含义 | 示例 |
|---|---|---|
| 应用层 | 使用 OCR 和文档解析输出的应用 | RAG、智能体、文档 AI…… |
| 模型层 | OCR 和文档解析能力 | PP-OCRv5、PaddleOCR-VL 1.5…… |
| 推理后端层 | 用于运行受支持模型的运行时 | Paddle 静态图、Paddle 动态图、Transformers |
此版本主要针对推理后端层:PaddleOCR 继续提供 OCR 和文档解析能力,而 Transformers 为受支持的 PaddleOCR 模型提供了另一个后端选择,使其自然融入以 Hugging Face 为中心的环境。更大的文档 AI 工作流仍由开发者和应用构建者掌控。
https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#why-this-matters为何重要
对于 RAG、文档 AI 和文档智能体应用,困难的部分往往在 LLM 之前就开始了。
开发者首先需要将 PDF、扫描文档、截图、表格、图表、公式和复杂的页面布局转化为可靠的结构化数据。如果这个数据摄入环节薄弱,下游的 LLM 工作流可能会遗漏关键信息、检索到错误的上下文,或产生不可靠的答案。
PaddleOCR 通过提供如 PP-OCRv5 等 OCR 模型系列和如 PaddleOCR-VL-1.5 等文档解析模型系列,帮助应对这一文档摄入挑战。
借助 PaddleOCR 3.5,这些能力现在更容易与以 Transformers 为中心的技术栈连接。受支持的 PaddleOCR 模型可以使用 Transformers 后端运行,而 PaddleOCR 继续在后台管理 OCR 或文档解析流程。
对开发者而言,这意味着更少的集成摩擦,以及从文档到下游 RAG、智能体、搜索、分析或自动化工作流更顺畅的路径。
https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#quick-start快速开始
安装 PaddleOCR 3.5、PaddleX、Transformers 以及适合您硬件环境的 PyTorch 版本。
例如,在 CUDA 12.6 环境下:
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu126 python -m pip install "paddleocr==3.5.0" "paddlex==3.5.2" "transformers>=5.4.0"
对于 CPU、ROCm 或其他环境,请安装与目标硬件匹配的 PyTorch 版本。
从命令行运行:
paddleocr ocr \ -i https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png \ --device gpu:0 \ --engine transformers
或使用 Python API:
`` from paddleocr import PaddleOCR
pipeline = PaddleOCR( device=“gpu:0”, engine=“transformers”, use_doc_orientation_classify=False, use_doc_unwarping=False, use_textline_orientation=False, engine_config={ “dtype”: “float32”, }, )
results = pipeline.predict( “https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png” )
for result in results: print(result) ``
Hugging Face Space 使用 float32 以保持广泛兼容性。对于您自己的硬件,可以通过 engine_config 调整后端特定选项:
engine_config = { "dtype": "bfloat16", "device_type": "gpu", "device_id": 0, "attn_implementation": "sdpa", }
最佳配置取决于您的模型、硬件和部署环境。
https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#when-should-you-use-the-transformers-backend何时使用 Transformers 后端?
当您希望 PaddleOCR 的 OCR 和文档解析能力更自然地融入以 Hugging Face 为中心的技术栈时,请使用 Transformers 后端。
如果您正在构建 RAG、文档 AI、搜索、分析或智能体应用,并且已经依赖 PyTorch / Transformers 基础设施进行模型加载、实验、部署或模型工件管理,这将特别有用。
Transformers 后端适合以下场景:
- 为已经使用 Transformers 的团队提供更熟悉的开发体验;
- 对受支持的 PaddleOCR 模型进行 Hub 兼容的模型发现和分发;
- 更容易与现有的 PyTorch / Transformers 服务集成。
当最大化 OCR 或文档解析吞吐量是首要目标时,PaddleOCR 默认的 paddle_static 后端通常是推荐选择。
此版本并非要用一个后端替换另一个,而是为开发者提供更多灵活性:使用 PaddleOCR 获得 OCR 和文档解析能力,并选择最适合您技术栈的推理后端。
https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#try-it-now立即尝试
在 Hugging Face Spaces 上尝试 PaddleOCR 3.5 Transformers 演示:
https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
在 Hub 上探索 PaddleOCR 模型:
https://huggingface.co/PaddlePaddle/models
PaddleOCR 3.5 将 OCR 和文档解析能力更紧密地带入以 Transformers 为中心的工作流,同时给予开发者自由,围绕这些能力构建更庞大的文档 AI 应用。
https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#resources资源
- PaddleOCR 文档:https://www.paddleocr.ai/
- PaddleOCR 在 GitHub 上:https://github.com/PaddlePaddle/PaddleOCR
- PaddlePaddle 在 Hugging Face 上的组织:https://huggingface.co/PaddlePaddle
- PaddleOCR 3.5 Transformers 演示在 Spaces 上:https://huggingface.co/spaces/PaddlePaddle/paddleocr-3.5-transformers-demo
https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers#acknowledgements致谢
我们衷心感谢支持 PaddleOCR 3.5 Transformers 集成的 Hugging Face 工程师们。
特别感谢 Anton Vlasjuk (https://huggingface.co/AntonV) 全程参与,包括审查和合并所有相关的拉取请求。
我们也感谢 Raushan Turganbay (https://huggingface.co/RaushanTurganbay) 和 Yoni Gozlan (https://huggingface.co/yonigozlan) 提供的宝贵 PR 审查和反馈。
他们的指导帮助提升了 Hugging Face 社区的集成质量、文档和开发者体验。
相似文章
@AdinaYakup: 来自 @Baidu_Inc @PaddlePaddle 的重大更新:百度的PaddleOCR现在支持Transformers作为推理后端,真的很酷…
百度的PaddleOCR现在支持Transformers作为推理后端,使得与Hugging Face生态系统的集成更加容易。
PaddleOCR-VL-1.6:通过欠优化区域精炼与渐进式后训练拓展文档解析前沿
PaddleOCR-VL-1.6 通过识别并精炼欠优化区域,结合针对性的数据优化与渐进式后训练,提升了文档解析性能,在 OmniDocBench v1.6 上达到 96.33% 的最新最优水平。
PaddlePaddle/PaddleOCR
PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
🚀PP-OCRv6 正式发布!
PaddleOCR 发布 PP-OCRv6,全新的 OCR 模型系列,参数量从 1.5M 到 34.5M,提供更高的精度和更快的推理速度,支持 50 种语言以及 PCB、CAD 图纸等新场景,采用 Apache 2.0 开源许可证。