MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
摘要
MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。
查看缓存全文
缓存时间: 2026/05/08 08:38
论文页面 - MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉语言模型
来源:https://huggingface.co/papers/2509.22186 发布于 2025 年 9 月 26 日
·
由 https://huggingface.co/taesiri 提交
taesiri (https://huggingface.co/taesiri) 于 2025 年 9 月 29 日
#2 每日最佳论文 (https://huggingface.co/papers/date/2025-09-29) 作者:
,
,
,
,
,
,
,
,
,
,
,
,
,
摘要
MinerU2.5 是一个拥有 12 亿参数的文档解析视觉语言模型,通过由粗到细的解析策略,在保持计算效率的同时实现了最先进的识别准确率。
我们介绍了 MinerU2.5,这是一个拥有 12 亿参数的文档解析 (https://huggingface.co/papers?q=document%20parsing) 视觉语言模型,它在保持卓越计算效率的同时实现了最先进的识别准确率。我们的方法采用了一种由粗到细 (https://huggingface.co/papers?q=coarse-to-fine)、两阶段解析 (https://huggingface.co/papers?q=two-stage%20parsing) 策略,将全局布局分析 (https://huggingface.co/papers?q=layout%20analysis) 与局部内容识别 (https://huggingface.co/papers?q=content%20recognition) 解耦。在第一阶段,模型在降采样图像 (https://huggingface.co/papers?q=downsampled%20images) 上执行高效的布局分析以识别结构元素,从而避免处理高分辨率输入带来的计算开销 (https://huggingface.co/papers?q=computational%20overhead)。在第二阶段,在全局布局的指导下,它对从原始图像中提取的原分辨率裁剪块 (https://huggingface.co/papers?q=native-resolution%20crops) 执行有针对性的内容识别 (https://huggingface.co/papers?q=content%20recognition),保留了密集文本、复杂公式和表格中的细粒度细节。为了支持这一策略,我们开发了一个综合数据引擎 (https://huggingface.co/papers?q=data%20engine),为预训练 (https://huggingface.co/papers?q=pretraining) 和微调 (https://huggingface.co/papers?q=fine-tuning) 生成多样化、大规模的训练语料库。最终,MinerU2.5 展示了强大的文档解析 (https://huggingface.co/papers?q=document%20parsing) 能力,在多个基准测试中实现了最先进的性能 (https://huggingface.co/papers?q=state-of-the-art%20performance),在各种识别任务中超越了通用模型和领域专用模型,同时保持了显著较低的计算开销 (https://huggingface.co/papers?q=computational%20overhead)。
查看 arXiv 页面 (https://arxiv.org/abs/2509.22186) 查看 PDF (https://arxiv.org/pdf/2509.22186) 项目页面 (https://opendatalab.github.io/MinerU/) GitHub 62.3k (https://github.com/opendatalab/MinerU) 添加到收藏 (https://huggingface.co/login?next=%2Fpapers%2F2509.22186)
在你的代理中获取这篇论文:
hf papers read 2509\.22186
没有最新的 CLI?curl \-LsSf https://hf\.co/cli/install\.sh \| bash
引用此论文的模型 6
opendatalab/MinerU2.5-2509-1.2B 图像-文本到文本 • 10 亿 • 更新于 29 天前 • 1.49M • 356 (https://huggingface.co/opendatalab/MinerU2.5-2509-1.2B)
opendatalab/MinerU-Diffusion-V1-0320-2.5B 图像到文本 • 30 亿 • 更新于 3 月 25 日 • 29.5k • 22 (https://huggingface.co/opendatalab/MinerU-Diffusion-V1-0320-2.5B)
freakynit/MinerU2.5-2509-1.2B 图像-文本到文本 • 10 亿 • 更新于 2025 年 10 月 15 日 • 7 (https://huggingface.co/freakynit/MinerU2.5-2509-1.2B)
Mungert/MinerU2.5-2509-1.2B-GGUF 图像-文本到文本 • 5 亿 • 更新于 2025 年 10 月 20 日 • 1.91k (https://huggingface.co/Mungert/MinerU2.5-2509-1.2B-GGUF)
浏览 6 个引用此论文的模型 (https://huggingface.co/models?other=arxiv:2509.22186) ## 引用此论文的数据集 0
没有链接此论文的数据集
在数据集的 README.md 中引用 arxiv.org/abs/2509.22186 即可从此页面进行链接。
引用此论文的 Spaces 13
包含此论文的合集 22
浏览 22 个包含此论文的合集 (https://huggingface.co/collections?paper=2509.22186)
相似文章
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
opendatalab/MinerU
MinerU 是 OpenDataLab 开发的一款开源工具,用于从 PDF 和文档中提取数据。
SmolDocling:一种超紧凑的端到端多模态文档转换视觉语言模型
SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型,专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式,用于捕获带有位置信息的页面元素,其表现可与体积大 27 倍的模型相媲美。
baidu/Unlimited-OCR
百度发布了Unlimited-OCR,一种用于一次性长程文档解析的新模型,基于Deepseek-OCR构建。它支持通过Hugging Face Transformers和SGLang进行单图像和多页/PDF解析。
@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。
本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。