Hugging Face 上的 PP-OCRv6:支持 50 种语言、参数规模从 1.5M 到 34.5M 的 OCR 模型

Hugging Face Blog 模型

摘要

PP-OCRv6 是 PaddleOCR 通用 OCR 模型系列的最新版本,提供从 1.5M 到 34.5M 参数的三个档次,支持 50 种语言,并在准确率上较之前版本有显著提升。

暂无内容
查看原文
查看缓存全文

缓存时间: 2026/06/22 13:31

PP-OCRv6 登陆 Hugging Face:从 150 万到 3450 万参数,支持 50 种语言的 OCR

来源:https://huggingface.co/blog/PaddlePaddle/pp-ocrv6 返回文章列表 (https://huggingface.co/blog)

  • PP-OCRv6 的新特性 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#whats-new-in-pp-ocrv6)
  • 三种模型规模 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#three-model-tiers)
  • PPLCNetV4 骨干网络 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#pplcnetv4-backbone)
  • 文本检测中的 RepLKFPN (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#replkfpn-for-text-detection)
  • 文本识别中的 EncoderWithLightSVTR (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#encoderwithlightsvtr-for-recognition)
  • 统一多语言 OCR (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#unified-multilingual-ocr)
  • 使用 PaddleOCR 快速上手 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#quick-start-with-paddleocr)
  • 可用的推理后端 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#available-inference-backends)
  • 总结 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#conclusion)

在线评估 PP-OCRv6,然后使用 PaddlePaddle、Transformers 或 ONNX Runtime 后端集成轻量级、可用于生产的 OCR。

PP-OCRv6 是 PaddleOCR 通用 OCR 模型家族的最新版本。它专为真实场景中的文本检测与识别而设计,涵盖文档、截图、多语言图像、数码屏幕、工业标签以及场景文字。

ppocrv6_det_vis (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/BB9bToA0xHZ8Xu5cvBGx0.jpeg)

该模型家族参数规模从 150 万到 3450 万,提供三种规格:tinysmallmedium。其中 medium 和 small 版本支持 50 种语言,包括简体中文、繁体中文、英语、日语以及 46 种拉丁语系语言。快速在线体验 PP-OCRv6 请访问:PP-OCRv6 在线演示 (https://huggingface.co/spaces/PaddlePaddle/PP-OCRv6_Online_Demo)。

ocrv6_models (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/Rwhy6dk3g8xb6eyVFL9R_.jpeg)

在 PaddleOCR 官方内部多场景 OCR 基准测试中,PP-OCRv6_medium检测 Hmean 达到 86.2%识别准确率达到 83.2%。与 PP-OCRv5_server 相比,文本检测提升了 +4.6 个百分点,文本识别提升了 +5.1 个百分点

v6acc_opt (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/xYqS-wDYHDE7cUQQdkcqD.png)

PP-OCRv6 聚焦于实际 OCR 需求:使用小型模型和灵活的部署选项,生成准确、结构化的文本输出。关于为什么在 VLM 时代专用 OCR 模型仍然有用的深入讨论,请参阅我们之前的博客:PP-OCRv5 on Hugging Face: A Specialized Approach to OCR (https://huggingface.co/blog/baidu/ppocrv5)。


https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#whats-new-in-pp-ocrv6PP-OCRv6 的新特性

PP-OCRv6 在检测和识别方面引入了架构、训练和数据上的改进。主要设计目标是在保持模型大小适合不同部署场景的同时,提升 OCR 准确率。

https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#three-model-tiers三种模型规模

PP-OCRv6 提供三种模型规模,覆盖不同的模型大小和 OCR 准确率水平。

模型模型大小检测 Hmean识别准确率典型应用场景
PP-OCRv6_tiny150 万参数80.6%73.5%边缘设备、轻量级本地 OCR、延迟敏感型演示、受限环境
PP-OCRv6_small770 万参数84.1%81.3%移动端、桌面端、均衡 OCR 服务、低计算成本的多语言 OCR
PP-OCRv6_medium3450 万参数86.2%83.2%精度优先的 OCR、服务端流水线、工业 OCR、文档录入、多语言 OCR

https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#pplcnetv4-backbonePPLCNetV4 骨干网络

PP-OCRv6 使用 PPLCNetV4 作为文本检测和文本识别的统一骨干网络。

对开发者而言,主要好处是整个模型家族的一致性。tiny、small 和 medium 版本并非互不相关,它们属于同一个 OCR 家族,共享共同的架构方向。

Image (https://internal-api-drive-stream.feishu.cn/space/api/box/stream/download/authcode/?code=MzQ2ODgzNWViOTJhYjMzZDUxNTMyY2RlMzdhMDAwZmNfZWJmZGY5NTljOWJlY2YyODVhYzg0N2NhNTk3MjQwMTRfSUQ6NzY1MjcxNjg0NDE1OTMyMzA5N18xNzgxODE5MjkwOjE3ODE5MDU2OTBfVjM)

https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#replkfpn-for-text-detection文本检测中的 RepLKFPN

文本检测是 OCR 流水线的第一阶段。检测质量会影响送入识别器的裁剪区域,而质量差的裁剪常常导致识别效果下降。

PP-OCRv6 使用 RepLKFPN 升级了检测模块。RepLKFPN 是一个轻量级的大核特征金字塔网络,专为多尺度文本检测而设计,同时保持高效的推理。

这对于真实世界的 OCR 输入尤为重要,因为文本可能很小、密集、旋转、低分辨率或嵌入在复杂背景中。

ppocrv6_det_pip_ori (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/Unp8cz-s3c4jSMl71qIFf.png)

https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#encoderwithlightsvtr-for-recognition文本识别中的 EncoderWithLightSVTR

对于文本识别,PP-OCRv6 使用 EncoderWithLightSVTR。它结合了局部上下文建模与全局注意力机制,以提升对困难文本裁剪区域的识别质量。

这些识别改进对于多语言文本、屏幕文本、工业字符、特殊符号、密集文本以及噪声图像区域尤其有价值。

rec (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/YLhR7a1-BdP62o0o_zZl1.png)

https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#unified-multilingual-ocr统一多语言 OCR

medium 和 small 版本在同一个模型家族中支持 50 种语言,包括简体中文、繁体中文、英语、日语以及 46 种拉丁语系语言。

这有助于减少在常见多语言 OCR 场景中使用多个独立 OCR 模型的需求。


https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#quick-start-with-paddleocr使用 PaddleOCR 快速上手

安装 PaddleOCR:

pip install paddleocr

使用 Paddle Inference(默认后端)运行 OCR:

from paddleocr import PaddleOCR

# 模型:PP-OCRv6_medium(默认)
# 后端:Paddle Inference(默认)
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

for res in result:
    res.print()
    res.save_to_img("output")
    res.save_to_json("output")

OCR 结果可以保存为可视化图像和结构化的 JSON 输出。结构化输出随后可用于下游系统,如文档解析、搜索、提取、RAG、分析或智能体工作流。


https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#available-inference-backends可用的推理后端

通过 PaddleOCR,PP-OCRv6 可以使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口,其中 engine 参数选择底层运行时,相关配置可通过流水线或模块 API 传入。

后端描述
Transformers适用于支持模型的 Hugging Face / PyTorch 推理路径
ONNX Runtime适用于基于 ONNX 的部署环境的可移植推理路径
Paddle Inference原生 Paddle 推理格式

对于 Hugging Face 用户,PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。可以通过以下方式启用:

engine="transformers"

关于 Transformers 后端在 PaddleOCR 中如何工作的更多细节,请参阅:

PaddleOCR: Running OCR and Document Parsing Tasks with a Transformers Backend (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers)

使用 Transformers 后端运行 PP-OCRv6 示例:

from paddleocr import PaddleOCR

# 模型:PP-OCRv6_medium(默认)
# 后端:transformers
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

ONNX 变体也可在 PP-OCRv6 模型合集 (https://huggingface.co/collections/PaddlePaddle/pp-ocrv6) 中找到,适用于使用 ONNX Runtime 并通过 engine="onnxruntime" 运行的环境:

from paddleocr import PaddleOCR

# 模型:PP-OCRv6_medium(默认)
# 后端:ONNX Runtime
ocr = PaddleOCR(
    use_doc_orientation_classify=False,
    use_doc_unwarping=False,
    use_textline_orientation=False,
    engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")

这些后端选项共同使 PP-OCRv6 能够在不同的运行时环境中使用,同时保持相同的 OCR 模型家族托管在 Hugging Face Hub 上。


https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#conclusion总结

PP-OCRv6 为 PaddleOCR 扩展了一个轻量级、多语言 OCR 模型家族,用于真实场景中的文本检测与识别。

该版本包含三种模型规模,从 150 万到 3450 万参数,支持最多 50 种语言,相比 PP-OCRv5_server 在检测和识别准确率上有所提升,并在 Hugging Face Hub 上提供了多种模型格式,包括 safetensorsPaddle 推理模型ONNX 模型

结合托管的 Hugging Face Space 和可用的 PaddleOCR 推理后端,PP-OCRv6 为评估和集成提供了多个入口点:

  • 在线演示:PP-OCRv6 在线演示 (https://huggingface.co/spaces/PaddlePaddle/PP-OCRv6_Online_Demo)
  • 模型合集:PP-OCRv6 模型合集 (https://huggingface.co/collections/PaddlePaddle/pp-ocrv6)
  • Transformers 后端博客:PaddleOCR with Transformers Backend (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers)
  • PaddleOCR 文档:PP-OCRv6 文档 (https://www.paddleocr.ai/latest/version3.x/algorithm/PP-OCRv6/PP-OCRv6.html)
  • PaddleOCR 官方网站:https://www.paddleocr.com/

您可以通过在线演示评估 PP-OCRv6,浏览模型合集中的可用模型资源,并使用与您的 OCR 工作流相匹配的推理后端。

相似文章

🚀PP-OCRv6 正式发布!

Reddit r/LocalLLaMA

PaddleOCR 发布 PP-OCRv6,全新的 OCR 模型系列,参数量从 1.5M 到 34.5M,提供更高的精度和更快的推理速度,支持 50 种语言以及 PCB、CAD 图纸等新场景,采用 Apache 2.0 开源许可证。