PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

Papers with Code Trending 2025/10/16 10:18 论文

vision-language-models document-parsing multilingual-ocr paddlepaddle ernie compact-ai state-of-the-art

摘要

PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型，通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型，在多语言文档解析和元素识别方面实现了最先进的性能。

在本报告中，我们提出了 PaddleOCR-VL，这是一款专为文档解析设计的 SOTA 且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B，这是一个紧凑而强大的视觉语言模型（VLM），它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合，以实现准确的元素识别。该创新模型高效支持 109 种语言，在识别复杂元素（如文本、表格、公式和图表）方面表现卓越，同时保持极低的资源消耗。通过在广泛使用的公共基准和内部基准上的全面评估，PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了 SOTA 性能。它显著优于现有解决方案，与顶级 VLM 相比展现出强大的竞争力，并提供了快速的推理速度。这些优势使其非常适合在现实场景中实际部署。代码可在 https://github.com/PaddlePaddle/PaddleOCR 获取。

查看原文导出为 Word 导出为 PDF

查看缓存全文

缓存时间: 2026/05/08 08:42

论文页面 - PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

来源：https://huggingface.co/papers/2510.14528

摘要

PaddleOCR-VL 是一款结合 NaViT 风格动态分辨率与 ERNIE 的视觉语言模型，在保持高效率的同时，在文档解析和元素识别方面取得了最先进（SOTA）的性能。

在本报告中，我们提出了 PaddleOCR-VL，这是一种专为文档解析设计的资源高效型最先进模型。其核心组件是 PaddleOCR-VL-0.9B，这是一款紧凑而强大的视觉语言模型 (VLM)，它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合，以实现精确的元素识别。这种创新的模型能够高效支持 109 种语言，在识别复杂元素（如文本、表格、公式和图表）方面表现出色，同时保持极低的资源消耗。通过对广泛使用的公共基准测试和内部基准测试的全面评估，PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了最先进性能。它显著优于现有解决方案，在与顶级 VLM 的竞争中展现出强劲的实力，并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。代码可在 https://github.com/PaddlePaddle/PaddleOCR 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2510.14528) | 查看 PDF (https://arxiv.org/pdf/2510.14528) | GitHub 77.3k (https://github.com/PaddlePaddle/PaddleOCR) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2510.14528)

在你的 Agent 中获取这篇论文：

hf papers read 2510.14528

没有最新的 CLI？curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 17

PaddlePaddle/PaddleOCR-VL 图像-文本到文本 • 1.0B • 8 天前更新 • 10.1k • 1.6k (https://huggingface.co/PaddlePaddle/PaddleOCR-VL)

PaddlePaddle/PP-DocLayoutV2 目标检测 • 更新于 1 月 29 日 • 10.5k • 29 (https://huggingface.co/PaddlePaddle/PP-DocLayoutV2)

unsloth/PaddleOCR-VL 图像-文本到文本 • 1.0B • 2025 年 12 月 9 日更新 • 147 • 17 (https://huggingface.co/unsloth/PaddleOCR-VL)

lvyufeng/PaddleOCR-VL-0.9B 图像-文本到文本 • 1.0B • 2025 年 10 月 21 日更新 • 120 • 4 (https://huggingface.co/lvyufeng/PaddleOCR-VL-0.9B)

浏览引用此论文的 17 个模型 (https://huggingface.co/models?other=arxiv:2510.14528)

引用此论文的数据集 1

proxectonos/corpus_dominio_cientifico 预览 • 16 天前更新 • 61 (https://huggingface.co/datasets/proxectonos/corpus_dominio_cientifico)

引用此论文的 Spaces 17

包含此论文的合集 31

浏览包含此论文的 31 个合集 (https://huggingface.co/collections?paper=2510.14528)

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

论文页面 - PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

摘要

引用此论文的模型 17

PaddlePaddle/PaddleOCR-VL 图像-文本到文本 • 1.0B • 8 天前更新 • 10.1k • 1.6k (https://huggingface.co/PaddlePaddle/PaddleOCR-VL)

PaddlePaddle/PP-DocLayoutV2 目标检测 • 更新于 1 月 29 日 • 10.5k • 29 (https://huggingface.co/PaddlePaddle/PP-DocLayoutV2)

unsloth/PaddleOCR-VL 图像-文本到文本 • 1.0B • 2025 年 12 月 9 日更新 • 147 • 17 (https://huggingface.co/unsloth/PaddleOCR-VL)

lvyufeng/PaddleOCR-VL-0.9B 图像-文本到文本 • 1.0B • 2025 年 10 月 21 日更新 • 120 • 4 (https://huggingface.co/lvyufeng/PaddleOCR-VL-0.9B)

引用此论文的数据集 1

proxectonos/corpus_dominio_cientifico 预览 • 16 天前更新 • 61 (https://huggingface.co/datasets/proxectonos/corpus_dominio_cientifico)

引用此论文的 Spaces 17

包含此论文的合集 31

相似文章

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

@techNmak：1.7B 参数轻量 VLM，在 OmniDocBench 上碾压巨头的 OCR 新王者

SmolDocling：一种超紧凑的端到端多模态文档转换视觉语言模型

使用合成数据构建快速多语言OCR模型

HyperGVL：大型视觉-语言模型在超图理解和推理中的基准测试与改进

提交意见反馈