PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

Papers with Code Trending 论文

摘要

PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。

在本报告中,我们提出了 PaddleOCR-VL,这是一款专为文档解析设计的 SOTA 且资源高效的模型。其核心组件是 PaddleOCR-VL-0.9B,这是一个紧凑而强大的视觉语言模型(VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合,以实现准确的元素识别。该创新模型高效支持 109 种语言,在识别复杂元素(如文本、表格、公式和图表)方面表现卓越,同时保持极低的资源消耗。通过在广泛使用的公共基准和内部基准上的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了 SOTA 性能。它显著优于现有解决方案,与顶级 VLM 相比展现出强大的竞争力,并提供了快速的推理速度。这些优势使其非常适合在现实场景中实际部署。代码可在 https://github.com/PaddlePaddle/PaddleOCR 获取。
查看原文 导出为 Word 导出为 PDF
查看缓存全文

缓存时间: 2026/05/08 08:42

论文页面 - PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

来源:https://huggingface.co/papers/2510.14528

摘要

PaddleOCR-VL 是一款结合 NaViT 风格动态分辨率与 ERNIE 的视觉语言模型,在保持高效率的同时,在文档解析和元素识别方面取得了最先进(SOTA)的性能。

在本报告中,我们提出了 PaddleOCR-VL,这是一种专为文档解析设计的资源高效型最先进模型。其核心组件是 PaddleOCR-VL-0.9B,这是一款紧凑而强大的视觉语言模型 (VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合,以实现精确的元素识别。这种创新的模型能够高效支持 109 种语言,在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过对广泛使用的公共基准测试和内部基准测试的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了最先进性能。它显著优于现有解决方案,在与顶级 VLM 的竞争中展现出强劲的实力,并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。代码可在 https://github.com/PaddlePaddle/PaddleOCR 获取。

查看 arXiv 页面 (https://arxiv.org/abs/2510.14528) | 查看 PDF (https://arxiv.org/pdf/2510.14528) | GitHub 77.3k (https://github.com/PaddlePaddle/PaddleOCR) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2510.14528)

在你的 Agent 中获取这篇论文:

hf papers read 2510.14528

没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash

引用此论文的模型 17

PaddlePaddle/PaddleOCR-VL 图像-文本到文本 • 1.0B • 8 天前更新 • 10.1k • 1.6k (https://huggingface.co/PaddlePaddle/PaddleOCR-VL)

PaddlePaddle/PP-DocLayoutV2 目标检测 • 更新于 1 月 29 日 • 10.5k • 29 (https://huggingface.co/PaddlePaddle/PP-DocLayoutV2)

unsloth/PaddleOCR-VL 图像-文本到文本 • 1.0B • 2025 年 12 月 9 日更新 • 147 • 17 (https://huggingface.co/unsloth/PaddleOCR-VL)

lvyufeng/PaddleOCR-VL-0.9B 图像-文本到文本 • 1.0B • 2025 年 10 月 21 日更新 • 120 • 4 (https://huggingface.co/lvyufeng/PaddleOCR-VL-0.9B)

浏览引用此论文的 17 个模型 (https://huggingface.co/models?other=arxiv:2510.14528)

引用此论文的数据集 1

proxectonos/corpus_dominio_cientifico 预览 • 16 天前更新 • 61 (https://huggingface.co/datasets/proxectonos/corpus_dominio_cientifico)

引用此论文的 Spaces 17

包含此论文的合集 31

浏览包含此论文的 31 个合集 (https://huggingface.co/collections?paper=2510.14528)

相似文章

使用合成数据构建快速多语言OCR模型

Hugging Face Blog

NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。