Hugging Face 上的 PP-OCRv6:支持 50 种语言、参数规模从 1.5M 到 34.5M 的 OCR 模型
摘要
PP-OCRv6 是 PaddleOCR 通用 OCR 模型系列的最新版本,提供从 1.5M 到 34.5M 参数的三个档次,支持 50 种语言,并在准确率上较之前版本有显著提升。
查看缓存全文
缓存时间: 2026/06/22 13:31
PP-OCRv6 登陆 Hugging Face:从 150 万到 3450 万参数,支持 50 种语言的 OCR
来源:https://huggingface.co/blog/PaddlePaddle/pp-ocrv6 返回文章列表 (https://huggingface.co/blog)
- PP-OCRv6 的新特性 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#whats-new-in-pp-ocrv6)
- 三种模型规模 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#three-model-tiers)
- PPLCNetV4 骨干网络 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#pplcnetv4-backbone)
- 文本检测中的 RepLKFPN (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#replkfpn-for-text-detection)
- 文本识别中的 EncoderWithLightSVTR (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#encoderwithlightsvtr-for-recognition)
- 统一多语言 OCR (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#unified-multilingual-ocr)
- 使用 PaddleOCR 快速上手 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#quick-start-with-paddleocr)
- 可用的推理后端 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#available-inference-backends)
- 总结 (https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#conclusion)
在线评估 PP-OCRv6,然后使用 PaddlePaddle、Transformers 或 ONNX Runtime 后端集成轻量级、可用于生产的 OCR。
PP-OCRv6 是 PaddleOCR 通用 OCR 模型家族的最新版本。它专为真实场景中的文本检测与识别而设计,涵盖文档、截图、多语言图像、数码屏幕、工业标签以及场景文字。
ppocrv6_det_vis (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/BB9bToA0xHZ8Xu5cvBGx0.jpeg)
该模型家族参数规模从 150 万到 3450 万,提供三种规格:tiny、small 和 medium。其中 medium 和 small 版本支持 50 种语言,包括简体中文、繁体中文、英语、日语以及 46 种拉丁语系语言。快速在线体验 PP-OCRv6 请访问:PP-OCRv6 在线演示 (https://huggingface.co/spaces/PaddlePaddle/PP-OCRv6_Online_Demo)。
ocrv6_models (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/Rwhy6dk3g8xb6eyVFL9R_.jpeg)
在 PaddleOCR 官方内部多场景 OCR 基准测试中,PP-OCRv6_medium 的检测 Hmean 达到 86.2%,识别准确率达到 83.2%。与 PP-OCRv5_server 相比,文本检测提升了 +4.6 个百分点,文本识别提升了 +5.1 个百分点。
v6acc_opt (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/xYqS-wDYHDE7cUQQdkcqD.png)
PP-OCRv6 聚焦于实际 OCR 需求:使用小型模型和灵活的部署选项,生成准确、结构化的文本输出。关于为什么在 VLM 时代专用 OCR 模型仍然有用的深入讨论,请参阅我们之前的博客:PP-OCRv5 on Hugging Face: A Specialized Approach to OCR (https://huggingface.co/blog/baidu/ppocrv5)。
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#whats-new-in-pp-ocrv6PP-OCRv6 的新特性
PP-OCRv6 在检测和识别方面引入了架构、训练和数据上的改进。主要设计目标是在保持模型大小适合不同部署场景的同时,提升 OCR 准确率。
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#three-model-tiers三种模型规模
PP-OCRv6 提供三种模型规模,覆盖不同的模型大小和 OCR 准确率水平。
| 模型 | 模型大小 | 检测 Hmean | 识别准确率 | 典型应用场景 |
|---|---|---|---|---|
| PP-OCRv6_tiny | 150 万参数 | 80.6% | 73.5% | 边缘设备、轻量级本地 OCR、延迟敏感型演示、受限环境 |
| PP-OCRv6_small | 770 万参数 | 84.1% | 81.3% | 移动端、桌面端、均衡 OCR 服务、低计算成本的多语言 OCR |
| PP-OCRv6_medium | 3450 万参数 | 86.2% | 83.2% | 精度优先的 OCR、服务端流水线、工业 OCR、文档录入、多语言 OCR |
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#pplcnetv4-backbonePPLCNetV4 骨干网络
PP-OCRv6 使用 PPLCNetV4 作为文本检测和文本识别的统一骨干网络。
对开发者而言,主要好处是整个模型家族的一致性。tiny、small 和 medium 版本并非互不相关,它们属于同一个 OCR 家族,共享共同的架构方向。
Image (https://internal-api-drive-stream.feishu.cn/space/api/box/stream/download/authcode/?code=MzQ2ODgzNWViOTJhYjMzZDUxNTMyY2RlMzdhMDAwZmNfZWJmZGY5NTljOWJlY2YyODVhYzg0N2NhNTk3MjQwMTRfSUQ6NzY1MjcxNjg0NDE1OTMyMzA5N18xNzgxODE5MjkwOjE3ODE5MDU2OTBfVjM)
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#replkfpn-for-text-detection文本检测中的 RepLKFPN
文本检测是 OCR 流水线的第一阶段。检测质量会影响送入识别器的裁剪区域,而质量差的裁剪常常导致识别效果下降。
PP-OCRv6 使用 RepLKFPN 升级了检测模块。RepLKFPN 是一个轻量级的大核特征金字塔网络,专为多尺度文本检测而设计,同时保持高效的推理。
这对于真实世界的 OCR 输入尤为重要,因为文本可能很小、密集、旋转、低分辨率或嵌入在复杂背景中。
ppocrv6_det_pip_ori (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/Unp8cz-s3c4jSMl71qIFf.png)
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#encoderwithlightsvtr-for-recognition文本识别中的 EncoderWithLightSVTR
对于文本识别,PP-OCRv6 使用 EncoderWithLightSVTR。它结合了局部上下文建模与全局注意力机制,以提升对困难文本裁剪区域的识别质量。
这些识别改进对于多语言文本、屏幕文本、工业字符、特殊符号、密集文本以及噪声图像区域尤其有价值。
rec (https://cdn-uploads.huggingface.co/production/uploads/652b2e9166313ebb6197e706/YLhR7a1-BdP62o0o_zZl1.png)
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#unified-multilingual-ocr统一多语言 OCR
medium 和 small 版本在同一个模型家族中支持 50 种语言,包括简体中文、繁体中文、英语、日语以及 46 种拉丁语系语言。
这有助于减少在常见多语言 OCR 场景中使用多个独立 OCR 模型的需求。
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#quick-start-with-paddleocr使用 PaddleOCR 快速上手
安装 PaddleOCR:
pip install paddleocr
使用 Paddle Inference(默认后端)运行 OCR:
from paddleocr import PaddleOCR
# 模型:PP-OCRv6_medium(默认)
# 后端:Paddle Inference(默认)
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
for res in result:
res.print()
res.save_to_img("output")
res.save_to_json("output")
OCR 结果可以保存为可视化图像和结构化的 JSON 输出。结构化输出随后可用于下游系统,如文档解析、搜索、提取、RAG、分析或智能体工作流。
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#available-inference-backends可用的推理后端
通过 PaddleOCR,PP-OCRv6 可以使用多种推理后端。PaddleOCR 3.7 提供了统一的推理引擎接口,其中 engine 参数选择底层运行时,相关配置可通过流水线或模块 API 传入。
| 后端 | 描述 |
|---|---|
| Transformers | 适用于支持模型的 Hugging Face / PyTorch 推理路径 |
| ONNX Runtime | 适用于基于 ONNX 的部署环境的可移植推理路径 |
| Paddle Inference | 原生 Paddle 推理格式 |
对于 Hugging Face 用户,PaddleOCR 支持使用 Transformers 后端运行选定的 OCR 和文档解析模型。可以通过以下方式启用:
engine="transformers"
关于 Transformers 后端在 PaddleOCR 中如何工作的更多细节,请参阅:
PaddleOCR: Running OCR and Document Parsing Tasks with a Transformers Backend (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers)
使用 Transformers 后端运行 PP-OCRv6 示例:
from paddleocr import PaddleOCR
# 模型:PP-OCRv6_medium(默认)
# 后端:transformers
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="transformers",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
ONNX 变体也可在 PP-OCRv6 模型合集 (https://huggingface.co/collections/PaddlePaddle/pp-ocrv6) 中找到,适用于使用 ONNX Runtime 并通过 engine="onnxruntime" 运行的环境:
from paddleocr import PaddleOCR
# 模型:PP-OCRv6_medium(默认)
# 后端:ONNX Runtime
ocr = PaddleOCR(
use_doc_orientation_classify=False,
use_doc_unwarping=False,
use_textline_orientation=False,
engine="onnxruntime",
)
result = ocr.predict("https://paddle-model-ecology.bj.bcebos.com/paddlex/imgs/demo_image/general_ocr_002.png")
这些后端选项共同使 PP-OCRv6 能够在不同的运行时环境中使用,同时保持相同的 OCR 模型家族托管在 Hugging Face Hub 上。
https://huggingface.co/blog/PaddlePaddle/pp-ocrv6#conclusion总结
PP-OCRv6 为 PaddleOCR 扩展了一个轻量级、多语言 OCR 模型家族,用于真实场景中的文本检测与识别。
该版本包含三种模型规模,从 150 万到 3450 万参数,支持最多 50 种语言,相比 PP-OCRv5_server 在检测和识别准确率上有所提升,并在 Hugging Face Hub 上提供了多种模型格式,包括 safetensors、Paddle 推理模型 和 ONNX 模型。
结合托管的 Hugging Face Space 和可用的 PaddleOCR 推理后端,PP-OCRv6 为评估和集成提供了多个入口点:
- 在线演示:PP-OCRv6 在线演示 (https://huggingface.co/spaces/PaddlePaddle/PP-OCRv6_Online_Demo)
- 模型合集:PP-OCRv6 模型合集 (https://huggingface.co/collections/PaddlePaddle/pp-ocrv6)
- Transformers 后端博客:PaddleOCR with Transformers Backend (https://huggingface.co/blog/PaddlePaddle/paddleocr-transformers)
- PaddleOCR 文档:PP-OCRv6 文档 (https://www.paddleocr.ai/latest/version3.x/algorithm/PP-OCRv6/PP-OCRv6.html)
- PaddleOCR 官方网站:https://www.paddleocr.com/
您可以通过在线演示评估 PP-OCRv6,浏览模型合集中的可用模型资源,并使用与您的 OCR 工作流相匹配的推理后端。
相似文章
🚀PP-OCRv6 正式发布!
PaddleOCR 发布 PP-OCRv6,全新的 OCR 模型系列,参数量从 1.5M 到 34.5M,提供更高的精度和更快的推理速度,支持 50 种语言以及 PCB、CAD 图纸等新场景,采用 Apache 2.0 开源许可证。
@AdinaYakup: 百度 @PaddlePaddle 发布 PP-OCRv6:tiny 1.5M / small 7.7M / medium 34.5M,支持 48+ 种语言,支持手写/……
百度 PaddlePaddle 发布了 PP-OCRv6,一款支持 48+ 种语言的 OCR 模型,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三种尺寸,针对边缘部署进行了优化,可处理手写、印刷、工业、屏幕和卡片文字。
@PaddlePaddle: PP-OCRv6技术深度解析第一集:在大模型时代,轻量级OCR为何仍具有不可替代的价值?——PP…
PP-OCRv6是一个轻量级OCR模型(3450万参数),凭借其MetaFormer架构挑战大型VLM,在多种部署场景下提供高效的文本检测与识别能力。
@TeksEdge: 需要OCR文档吗?PP-OCRv6已发布——目前你可以下载的最佳开源OCR模型 ◆︎ 完全开源…
PP-OCRv6是百度PaddleOCR新推出的开源OCR模型系列,提供Tiny/Small/Medium三种尺寸,精度和速度优秀,优于多个商业模型。
PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
PaddleOCR 3.5 新增了 Transformers 推理后端,使 PP-OCRv5 和 PaddleOCR-VL 1.5 等 OCR 及文档解析模型能够无缝运行于 Hugging Face 生态系统之中。