PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
摘要
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
查看缓存全文
缓存时间: 2026/05/08 08:42
论文页面 - PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
来源:https://huggingface.co/papers/2510.14528
摘要
PaddleOCR-VL 是一款结合 NaViT 风格动态分辨率与 ERNIE 的视觉语言模型,在保持高效率的同时,在文档解析和元素识别方面取得了最先进(SOTA)的性能。
在本报告中,我们提出了 PaddleOCR-VL,这是一种专为文档解析设计的资源高效型最先进模型。其核心组件是 PaddleOCR-VL-0.9B,这是一款紧凑而强大的视觉语言模型 (VLM),它将 NaViT 风格的动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型相结合,以实现精确的元素识别。这种创新的模型能够高效支持 109 种语言,在识别复杂元素(如文本、表格、公式和图表)方面表现出色,同时保持极低的资源消耗。通过对广泛使用的公共基准测试和内部基准测试的全面评估,PaddleOCR-VL 在页面级文档解析和元素级识别方面均取得了最先进性能。它显著优于现有解决方案,在与顶级 VLM 的竞争中展现出强劲的实力,并提供快速的推理速度。这些优势使其非常适合在实际场景中部署。代码可在 https://github.com/PaddlePaddle/PaddleOCR 获取。
查看 arXiv 页面 (https://arxiv.org/abs/2510.14528) | 查看 PDF (https://arxiv.org/pdf/2510.14528) | GitHub 77.3k (https://github.com/PaddlePaddle/PaddleOCR) | 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2510.14528)
在你的 Agent 中获取这篇论文:
hf papers read 2510.14528
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 17
PaddlePaddle/PaddleOCR-VL 图像-文本到文本 • 1.0B • 8 天前更新 • 10.1k • 1.6k (https://huggingface.co/PaddlePaddle/PaddleOCR-VL)
PaddlePaddle/PP-DocLayoutV2 目标检测 • 更新于 1 月 29 日 • 10.5k • 29 (https://huggingface.co/PaddlePaddle/PP-DocLayoutV2)
unsloth/PaddleOCR-VL 图像-文本到文本 • 1.0B • 2025 年 12 月 9 日更新 • 147 • 17 (https://huggingface.co/unsloth/PaddleOCR-VL)
lvyufeng/PaddleOCR-VL-0.9B 图像-文本到文本 • 1.0B • 2025 年 10 月 21 日更新 • 120 • 4 (https://huggingface.co/lvyufeng/PaddleOCR-VL-0.9B)
浏览引用此论文的 17 个模型 (https://huggingface.co/models?other=arxiv:2510.14528)
引用此论文的数据集 1
proxectonos/corpus_dominio_cientifico 预览 • 16 天前更新 • 61 (https://huggingface.co/datasets/proxectonos/corpus_dominio_cientifico)
引用此论文的 Spaces 17
包含此论文的合集 31
浏览包含此论文的 31 个合集 (https://huggingface.co/collections?paper=2510.14528)
相似文章
MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
SmolDocling:一种超紧凑的端到端多模态文档转换视觉语言模型
SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型,专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式,用于捕获带有位置信息的页面元素,其表现可与体积大 27 倍的模型相媲美。
使用合成数据构建快速多语言OCR模型
NVIDIA推出Nemotron OCR v2,一个使用合成数据生成技术构建的快速多语言OCR模型。该模型通过采用统一的基于FOTS的架构,在检测、识别和关系组件之间实现特征复用,在单个A100 GPU上达到34.7页/秒的性能。
HyperGVL:大型视觉-语言模型在超图理解和推理中的基准测试与改进
HyperGVL 推出首个评估大型视觉-语言模型超图理解和推理能力的基准,包含 84,000 个问答样本和 12 项任务及实际应用。论文还提出了 WiseHyGR,一个可泛化的路由器,通过自适应超图表示改进 LVLM 性能。