MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

Papers with Code Trending 2025/09/26 10:45 论文

document-parsing vision-language-model open-source layout-analysis ocr computer-vision

摘要

MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型，通过采用由粗到细的解析策略，在保持高计算效率的同时实现了最先进的文档解析准确率。

我们推出了 MinerU2.5，这是一个拥有 12 亿参数的文档解析视觉-语言模型，在保持卓越计算效率的同时实现了最先进的识别准确率。我们的方法采用了一种由粗到细的两阶段解析策略，将全局布局分析与局部内容识别解耦。在第一阶段，模型对下采样后的图像进行高效的布局分析以识别结构元素，从而避免了处理高分辨率输入带来的计算开销。在第二阶段，在全局布局的指导下，模型对从原始图像中提取的原始分辨率裁剪区域进行针对性的内容识别，保留了密集文本、复杂公式和表格中的细粒度细节。为了支持这一策略，我们开发了一个全面的数据引擎，为预训练和微调生成了多样化、大规模的语料库。最终，MinerU2.5 展现出了强大的文档解析能力，在多个基准测试中取得了最先进的性能，在各种识别任务上均超越了通用模型和特定领域模型，同时显著降低了计算开销。

查看原文

查看缓存全文

缓存时间: 2026/05/08 08:38

论文页面 - MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉语言模型

来源：https://huggingface.co/papers/2509.22186 发布于 2025 年 9 月 26 日

由 https://huggingface.co/taesiri 提交

taesiri (https://huggingface.co/taesiri) 于 2025 年 9 月 29 日

#2 每日最佳论文 (https://huggingface.co/papers/date/2025-09-29) 作者：

，

摘要

MinerU2.5 是一个拥有 12 亿参数的文档解析视觉语言模型，通过由粗到细的解析策略，在保持计算效率的同时实现了最先进的识别准确率。

我们介绍了 MinerU2.5，这是一个拥有 12 亿参数的文档解析 (https://huggingface.co/papers?q=document%20parsing) 视觉语言模型，它在保持卓越计算效率的同时实现了最先进的识别准确率。我们的方法采用了一种由粗到细 (https://huggingface.co/papers?q=coarse-to-fine)、两阶段解析 (https://huggingface.co/papers?q=two-stage%20parsing) 策略，将全局布局分析 (https://huggingface.co/papers?q=layout%20analysis) 与局部内容识别 (https://huggingface.co/papers?q=content%20recognition) 解耦。在第一阶段，模型在降采样图像 (https://huggingface.co/papers?q=downsampled%20images) 上执行高效的布局分析以识别结构元素，从而避免处理高分辨率输入带来的计算开销 (https://huggingface.co/papers?q=computational%20overhead)。在第二阶段，在全局布局的指导下，它对从原始图像中提取的原分辨率裁剪块 (https://huggingface.co/papers?q=native-resolution%20crops) 执行有针对性的内容识别 (https://huggingface.co/papers?q=content%20recognition)，保留了密集文本、复杂公式和表格中的细粒度细节。为了支持这一策略，我们开发了一个综合数据引擎 (https://huggingface.co/papers?q=data%20engine)，为预训练 (https://huggingface.co/papers?q=pretraining) 和微调 (https://huggingface.co/papers?q=fine-tuning) 生成多样化、大规模的训练语料库。最终，MinerU2.5 展示了强大的文档解析 (https://huggingface.co/papers?q=document%20parsing) 能力，在多个基准测试中实现了最先进的性能 (https://huggingface.co/papers?q=state-of-the-art%20performance)，在各种识别任务中超越了通用模型和领域专用模型，同时保持了显著较低的计算开销 (https://huggingface.co/papers?q=computational%20overhead)。

查看 arXiv 页面 (https://arxiv.org/abs/2509.22186) 查看 PDF (https://arxiv.org/pdf/2509.22186) 项目页面 (https://opendatalab.github.io/MinerU/) GitHub 62.3k (https://github.com/opendatalab/MinerU) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2509.22186)

在你的代理中获取这篇论文：

hf papers read 2509\.22186

没有最新的 CLI？curl \-LsSf https://hf\.co/cli/install\.sh \| bash

引用此论文的模型 6

opendatalab/MinerU2.5-2509-1.2B 图像-文本到文本 • 10 亿 • 更新于 29 天前 • 1.49M • 356 (https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B)

opendatalab/MinerU-Diffusion-V1-0320-2.5B 图像到文本 • 30 亿 • 更新于 3 月 25 日 • 29.5k • 22 (https://huggingface.co/opendatalab/MinerU-Diffusion-V1-0320-2.5B)

freakynit/MinerU2.5-2509-1.2B 图像-文本到文本 • 10 亿 • 更新于 2025 年 10 月 15 日 • 7 (https://huggingface.co/freakynit/MinerU2.5-2509-1.2B)

Mungert/MinerU2.5-2509-1.2B-GGUF 图像-文本到文本 • 5 亿 • 更新于 2025 年 10 月 20 日 • 1.91k (https://huggingface.co/Mungert/MinerU2.5-2509-1.2B-GGUF)

浏览 6 个引用此论文的模型 (https://huggingface.co/models?other=arxiv:2509.22186) ## 引用此论文的数据集 0

没有链接此论文的数据集

在数据集的 README.md 中引用 arxiv.org/abs/2509.22186 即可从此页面进行链接。

引用此论文的 Spaces 13

包含此论文的合集 22

浏览 22 个包含此论文的合集 (https://huggingface.co/collections?paper=2509.22186)

MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉-语言模型

论文页面 - MinerU2.5：一种用于高效高分辨率文档解析的解耦视觉语言模型

摘要

引用此论文的模型 6

opendatalab/MinerU2.5-2509-1.2B 图像-文本到文本 • 10 亿 • 更新于 29 天前 • 1.49M • 356 (https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B)

opendatalab/MinerU-Diffusion-V1-0320-2.5B 图像到文本 • 30 亿 • 更新于 3 月 25 日 • 29.5k • 22 (https://huggingface.co/opendatalab/MinerU-Diffusion-V1-0320-2.5B)

freakynit/MinerU2.5-2509-1.2B 图像-文本到文本 • 10 亿 • 更新于 2025 年 10 月 15 日 • 7 (https://huggingface.co/freakynit/MinerU2.5-2509-1.2B)

Mungert/MinerU2.5-2509-1.2B-GGUF 图像-文本到文本 • 5 亿 • 更新于 2025 年 10 月 20 日 • 1.91k (https://huggingface.co/Mungert/MinerU2.5-2509-1.2B-GGUF)

引用此论文的 Spaces 13

包含此论文的合集 22

相似文章

PaddleOCR-VL：通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力

opendatalab/MinerU

SmolDocling：一种超紧凑的端到端多模态文档转换视觉语言模型

baidu/Unlimited-OCR

@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档，它就是 dots-ocr。一个处理文本、表格等的系统。

提交意见反馈