PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
摘要
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
查看缓存全文
缓存时间: 2026/05/08 08:42
论文页面 - PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
来源:https://huggingface.co/papers/2510.14528
摘要
PaddleOCR-VL 是一款结合 NaViT 风格动态分辨率与 ERNIE 的视觉语言模型,在保持高效率的同时,在文档解析和元素识别方面取得了最先进(SOTA)的性能。
在本报告中,我们提出了 PaddleOCR-VL,这是一种专为文档解析设计的资源高效型最先进模型。其核心组件是 PaddleOCR-VL-0.9B,这是一款紧凑而强大的视觉语言模型 (VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合,以实现精确的元素识别。这种创新的模型能够高效支持 109 种语言,在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过对广泛使用的公共基准测试和内部基准测试的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了最先进性能。它显著优于现有解决方案,在与顶级 VLM 的竞争中展现出强劲的实力,并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。代码可在 https://github.com/PaddlePaddle/PaddleOCR 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2510.14528) | 查看 PDF (https://arxiv.org/pdf/2510.14528) | GitHub 77.3k (https://github.com/PaddlePaddle/PaddleOCR) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2510.14528)
在你的 Agent 中获取这篇论文:
hf papers read 2510.14528
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 17
PaddlePaddle/PaddleOCR-VL 图像-文本到文本 • 1.0B • 8 天前更新 • 10.1k • 1.6k (https://huggingface.co/PaddlePaddle/PaddleOCR-VL)
PaddlePaddle/PP-DocLayoutV2 目标检测 • 更新于 1 月 29 日 • 10.5k • 29 (https://huggingface.co/PaddlePaddle/PP-DocLayoutV2)
unsloth/PaddleOCR-VL 图像-文本到文本 • 1.0B • 2025 年 12 月 9 日更新 • 147 • 17 (https://huggingface.co/unsloth/PaddleOCR-VL)
lvyufeng/PaddleOCR-VL-0.9B 图像-文本到文本 • 1.0B • 2025 年 10 月 21 日更新 • 120 • 4 (https://huggingface.co/lvyufeng/PaddleOCR-VL-0.9B)
浏览引用此论文的 17 个模型 (https://huggingface.co/models?other=arxiv:2510.14528)
引用此论文的数据集 1
proxectonos/corpus_dominio_cientifico 预览 • 16 天前更新 • 61 (https://huggingface.co/datasets/proxectonos/corpus_dominio_cientifico)
引用此论文的 Spaces 17
包含此论文的合集 31
浏览包含此论文的 31 个合集 (https://huggingface.co/collections?paper=2510.14528)
相似文章
PaddleOCR-VL-1.6:通过欠优化区域精炼与渐进式后训练拓展文档解析前沿
PaddleOCR-VL-1.6 通过识别并精炼欠优化区域,结合针对性的数据优化与渐进式后训练,提升了文档解析性能,在 OmniDocBench v1.6 上达到 96.33% 的最新最优水平。
PaddleOCR 3.5:使用 Transformers 后端运行 OCR 与文档解析任务
PaddleOCR 3.5 新增了 Transformers 推理后端,使 PP-OCRv5 和 PaddleOCR-VL 1.5 等 OCR 及文档解析模型能够无缝运行于 Hugging Face 生态系统之中。
MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
dots.ocr:单个视觉语言模型中的多语言文档布局解析
本文介绍了 dots.ocr,一个统一的视觉语言模型,它联合学习布局检测、文本识别和关系理解,用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果,并引入了覆盖 126 种语言的 XDocParse 基准。