PaddleOCR-VL-1.6:通过欠优化区域精炼与渐进式后训练拓展文档解析前沿
摘要
PaddleOCR-VL-1.6 通过识别并精炼欠优化区域,结合针对性的数据优化与渐进式后训练,提升了文档解析性能,在 OmniDocBench v1.6 上达到 96.33% 的最新最优水平。
查看缓存全文
缓存时间: 2026/06/03 07:36
论文页面 - PaddleOCR-VL-1.6:利用欠优化区域细化和渐进式后训练拓展文档解析前沿
来源:https://huggingface.co/papers/2606.03264 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
PaddleOCR-VL-1.6 通过针对性数据优化和渐进式后训练技术增强了文档解析性能,在 OmniDocBench v1.6 上取得了最先进的结果。
我们介绍了 PaddleOCR-VL-1.6,一个在 PaddleOCR-VL-1.5 基础上构建的升级版紧凑文档解析 (https://huggingface.co/papers?q=document%20parsing) 模型。尽管 PaddleOCR-VL-1.5 建立了强大的 0.9B 基线,但其剩余错误集中在欠优化区域——这些区域中模型行为不稳定、数据覆盖稀疏或监督信号不可靠。PaddleOCR-VL-1.6 没有无差别地扩展训练语料,而是引入了一个区域感知数据优化 (https://huggingface.co/papers?q=data%20optimization) 框架,该框架从先前模型中识别薄弱区域,对这些区域进行针对性增强,并提高监督信号的可靠性。它还采用了基于精心数据选择和强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 的渐进式后训练 (https://huggingface.co/papers?q=post-training) 方案,通过分阶段优化将模型性能推向更高水平。PaddleOCR-VL-1.6 在 OmniDocBench (https://huggingface.co/papers?q=OmniDocBench) v1.6 上取得了新的最先进分数 96.33%,展现出与顶级 VLM (https://huggingface.co/papers?q=VLMs) 的强大竞争力,并为 PaddleOCR-VL 系列提供了一套实用的后训练 (https://huggingface.co/papers?q=post-training) 方案。
查看 arXiv 页面 (https://arxiv.org/abs/2606.03264)查看 PDF (https://arxiv.org/pdf/2606.03264)项目页面 (https://www.paddleocr.com/)GitHub79.4k (https://github.com/PaddlePaddle/PaddleOCR)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03264)
在您的智能体中获取此论文:
hf papers read 2606\.03264
没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型2
PaddlePaddle/PaddleOCR-VL-1.6 图像-文本-到-文本• 1.0B• 更新于约1小时前 • 4k • 196 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6)
PaddlePaddle/PaddleOCR-VL-1.6-GGUF 0.5B• 更新于约1小时前 • 2.05k • 9 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6-GGUF)
引用此论文的数据集0
没有数据集链接此论文
在数据集 README.md 中引用 arxiv.org/abs/2606.03264 以从此页面链接。
引用此论文的空间1
包含此论文的收藏0
没有收藏包含此论文
将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。
相似文章
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
PaddleOCR 3.5 新增了 Transformers 推理后端,使 PP-OCRv5 和 PaddleOCR-VL 1.5 等 OCR 及文档解析模型能够无缝运行于 Hugging Face 生态系统之中。
PaddlePaddle/PaddleOCR
PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。
@AdinaYakup: 百度 @PaddlePaddle 发布 PP-OCRv6:tiny 1.5M / small 7.7M / medium 34.5M,支持 48+ 种语言,支持手写/……
百度 PaddlePaddle 发布了 PP-OCRv6,一款支持 48+ 种语言的 OCR 模型,提供 tiny(1.5M)、small(7.7M)和 medium(34.5M)三种尺寸,针对边缘部署进行了优化,可处理手写、印刷、工业、屏幕和卡片文字。
🚀PP-OCRv6 正式发布!
PaddleOCR 发布 PP-OCRv6,全新的 OCR 模型系列,参数量从 1.5M 到 34.5M,提供更高的精度和更快的推理速度,支持 50 种语言以及 PCB、CAD 图纸等新场景,采用 Apache 2.0 开源许可证。