PaddleOCR-VL-1.6：通过欠优化区域精炼与渐进式后训练拓展文档解析前沿

Hugging Face Daily Papers 2026/06/02 00:00 论文

摘要

PaddleOCR-VL-1.6 通过识别并精炼欠优化区域，结合针对性的数据优化与渐进式后训练，提升了文档解析性能，在 OmniDocBench v1.6 上达到 96.33% 的最新最优水平。

我们介绍了 PaddleOCR-VL-1.6，这是基于 PaddleOCR-VL-1.5 升级的紧凑型文档解析模型。尽管 PaddleOCR-VL-1.5 建立了强大的 0.9B 基线，但其剩余错误集中在模型行为不稳定、数据覆盖稀疏或监督信号不可靠的欠优化区域。PaddleOCR-VL-1.6 并非无差别地扩大训练语料，而是引入了一个区域感知数据优化框架，从先前模型中识别薄弱区域，对这些区域进行针对性增强，并提升监督信号的可靠性。该模型进一步采用基于精选数据选择和强化学习的渐进式后训练方案，通过分阶段优化将模型性能推向更高水平。PaddleOCR-VL-1.6 在 OmniDocBench v1.6 上取得了 96.33% 的最新最优分数，展现出与顶级视觉语言模型（VLMs）的强劲竞争力，并为 PaddleOCR-VL 系列提供了实用的后训练方案。

查看原文

查看缓存全文

缓存时间: 2026/06/03 07:36

论文页面 - PaddleOCR-VL-1.6：利用欠优化区域细化和渐进式后训练拓展文档解析前沿

来源：https://huggingface.co/papers/2606.03264 作者：

摘要

PaddleOCR-VL-1.6 通过针对性数据优化和渐进式后训练技术增强了文档解析性能，在 OmniDocBench v1.6 上取得了最先进的结果。

我们介绍了 PaddleOCR-VL-1.6，一个在 PaddleOCR-VL-1.5 基础上构建的升级版紧凑文档解析 (https://huggingface.co/papers?q=document%20parsing) 模型。尽管 PaddleOCR-VL-1.5 建立了强大的 0.9B 基线，但其剩余错误集中在欠优化区域——这些区域中模型行为不稳定、数据覆盖稀疏或监督信号不可靠。PaddleOCR-VL-1.6 没有无差别地扩展训练语料，而是引入了一个区域感知数据优化 (https://huggingface.co/papers?q=data%20optimization) 框架，该框架从先前模型中识别薄弱区域，对这些区域进行针对性增强，并提高监督信号的可靠性。它还采用了基于精心数据选择和强化学习 (https://huggingface.co/papers?q=reinforcement%20learning) 的渐进式后训练 (https://huggingface.co/papers?q=post-training) 方案，通过分阶段优化将模型性能推向更高水平。PaddleOCR-VL-1.6 在 OmniDocBench (https://huggingface.co/papers?q=OmniDocBench) v1.6 上取得了新的最先进分数 96.33%，展现出与顶级 VLM (https://huggingface.co/papers?q=VLMs) 的强大竞争力，并为 PaddleOCR-VL 系列提供了一套实用的后训练 (https://huggingface.co/papers?q=post-training) 方案。

查看 arXiv 页面 (https://arxiv.org/abs/2606.03264)查看 PDF (https://arxiv.org/pdf/2606.03264)项目页面 (https://www.paddleocr.com/)GitHub79.4k (https://github.com/PaddlePaddle/PaddleOCR)添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2606.03264)

在您的智能体中获取此论文：

hf papers read 2606\.03264

没有最新 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型2

PaddlePaddle/PaddleOCR-VL-1.6 图像-文本-到-文本• 1.0B• 更新于约1小时前 • 4k • 196 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6)

PaddlePaddle/PaddleOCR-VL-1.6-GGUF 0.5B• 更新于约1小时前 • 2.05k • 9 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6-GGUF)

引用此论文的数据集0

没有数据集链接此论文

在数据集 README.md 中引用 arxiv.org/abs/2606.03264 以从此页面链接。

引用此论文的空间1

包含此论文的收藏0

没有收藏包含此论文

将此论文添加到收藏 (https://huggingface.co/new-collection) 以从此页面链接。

PaddleOCR-VL-1.6：通过欠优化区域精炼与渐进式后训练拓展文档解析前沿

论文页面 - PaddleOCR-VL-1.6：利用欠优化区域细化和渐进式后训练拓展文档解析前沿

摘要

引用此论文的模型2

PaddlePaddle/PaddleOCR-VL-1.6 图像-文本-到-文本• 1.0B• 更新于约1小时前 • 4k • 196 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6)

PaddlePaddle/PaddleOCR-VL-1.6-GGUF 0.5B• 更新于约1小时前 • 2.05k • 9 (https://huggingface.co/PaddlePaddle/PaddleOCR-VL-1.6-GGUF)

引用此论文的数据集0

引用此论文的空间1

包含此论文的收藏0

相似文章

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

PaddleOCR 3.5：使用 Transformers 后端运行 OCR 与文档解析任务

PaddlePaddle/PaddleOCR

@AdinaYakup: 百度 @PaddlePaddle 发布 PP-OCRv6：tiny 1.5M / small 7.7M / medium 34.5M，支持 48+ 种语言，支持手写/……

🚀PP-OCRv6 正式发布！

提交意见反馈