PaddleOCR-VL-1.6:通过欠优化区域精炼与渐进式后训练拓展文档解析前沿

Hugging Face Daily Papers 论文

摘要

PaddleOCR-VL-1.6 通过识别并精炼欠优化区域,结合针对性的数据优化与渐进式后训练,提升了文档解析性能,在 OmniDocBench v1.6 上达到 96.33% 的最新最优水平。

我们介绍了 PaddleOCR-VL-1.6,这是基于 PaddleOCR-VL-1.5 升级的紧凑型文档解析模型。尽管 PaddleOCR-VL-1.5 建立了强大的 0.9B 基线,但其剩余错误集中在模型行为不稳定、数据覆盖稀疏或监督信号不可靠的欠优化区域。PaddleOCR-VL-1.6 并非无差别地扩大训练语料,而是引入了一个区域感知数据优化框架,从先前模型中识别薄弱区域,对这些区域进行针对性增强,并提升监督信号的可靠性。该模型进一步采用基于精选数据选择和强化学习的渐进式后训练方案,通过分阶段优化将模型性能推向更高水平。PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上取得了 96.33% 的最新最优分数,展现出与顶级视觉语言模型(VLMs)的强劲竞争力,并为 PaddleOCR-VL 系列提供了实用的后训练方案。
查看原文
查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - PaddleOCR-VL-1.6:利用欠优化区域细化和渐进式后训练拓展文档解析前沿

来源:https://huggingface.co/papers/2606.03264 作者:

,

,

,

,

,

,

,

,

,

,

,

,

,

摘要

PaddleOCR-VL-1.6 通过针对性数据优化和渐进式后训练技术增强了文档解析性能,在 OmniDocBench v1.6 上取得了最先进的结果。

我们介绍了 PaddleOCR-VL-1.6,一个在 PaddleOCR-VL-1.5 基础上构建的升级版紧凑文档解析 (https://huggingface.co/papers?q=document%20parsing) 模型。尽管 PaddleOCR-VL-1.5 建立了强大的 0.9B 基线,但其剩余错误集中在欠优化区域——这些区域中模型行为不稳定、数据覆盖稀疏或监督信号不可靠。PaddleOCR-VL-1.6 没有无差别地扩展训练语料,而是引入了一个区域感知数据优化 (https://huggingface.co/papers?q=data%20optimization) 框架,该框架从先前模型中识别薄弱区域,对这些区域进行针对性增强,并提高监督信号的可靠性。它还采用了基于精心数据选择和强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 的渐进式后训练 (https://huggingface.co/papers?q=post-training) 方案,通过分阶段优化将模型性能推向更高水平。PaddleOCR-VL-1.6 在 OmniDocBench (https://huggingface.co/papers?q=OmniDocBench) v1.6 上取得了新的最先进分数 96.33%,展现出与顶级 VLM (https://huggingface.co/papers?q=VLMs) 的强大竞争力,并为 PaddleOCR-VL 系列提供了一套实用的后训练 (https://huggingface.co/papers?q=post-training) 方案。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03264)查看 PDF (https://arxiv.org/pdf/2606.03264)项目页面 (https://www.paddleocr.com/)GitHub79.4k (https://github.com/PaddlePaddle/PaddleOCR)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03264)

在您的智能体中获取此论文:

hf papers read 2606\.03264

没有最新 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型2

PaddlePaddle/PaddleOCR-VL-1.6 图像-文本-到-文本• 1.0B• 更新于约1小时前 • 4k • 196 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6)

PaddlePaddle/PaddleOCR-VL-1.6-GGUF 0.5B• 更新于约1小时前 • 2.05k • 9 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6-GGUF)

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.03264 以从此页面链接。

引用此论文的空间1

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

相似文章

PaddlePaddle/PaddleOCR

GitHub Trending (daily)

PaddleOCR是一个功能强大、轻量级的OCR工具包,可将PDF和图像转换为结构化数据,适用于AI应用,支持100多种语言,旨在连接文档与大语言模型。

🚀PP-OCRv6 正式发布!

Reddit r/LocalLLaMA

PaddleOCR 发布 PP-OCRv6,全新的 OCR 模型系列,参数量从 1.5M 到 34.5M,提供更高的精度和更快的推理速度,支持 50 种语言以及 PCB、CAD 图纸等新场景,采用 Apache 2.0 开源许可证。