SmolDocling:一种超紧凑的端到端多模态文档转换视觉语言模型
摘要
SmolDocling 是一款紧凑型 2.56 亿参数视觉语言模型,专为端到端多模态文档转换设计。它引入了一种名为 DocTags 的新型通用标记格式,用于捕获带有位置信息的页面元素,其表现可与体积大 27 倍的模型相媲美。
查看缓存全文
缓存时间: 2026/05/08 08:43
论文页面 - SmolDocling:用于端到端多模态文档转换的超紧凑型视觉-语言模型
来源:https://huggingface.co/papers/2503.11576
摘要
SmolDocling 是一款紧凑型视觉-语言模型,仅使用 2.56 亿参数和一种新的标记格式,即可在多种文档类型上实现具有鲁棒性能的端到端文档转换。
我们介绍了 SmolDocling,一款超紧凑型视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model),旨在实现端到端的文档转换 (https://huggingface.co/papers?q=end-to-end%20document%20conversion)。我们的模型通过生成 DocTags (https://huggingface.co/papers?q=DocTags)——一种新的通用标记格式 (https://huggingface.co/papers?q=universal%20markup%20format)——来全面处理整页内容,该格式能够在全局上下文和位置信息中捕捉所有页面元素 (https://huggingface.co/papers?q=page%20elements)。与依赖大型基础模型 (https://huggingface.co/papers?q=large%20foundational%20models) 或依赖由多个专用模型 (https://huggingface.co/papers?q=specialized%20models) 组成的手工定制管道集成方案 (https://huggingface.co/papers?q=ensemble%20solutions) 的现有方法不同,SmolDocling 提供了一种端到端的转换方案,能够在仅含 2.56 亿参数的视觉-语言模型 (https://huggingface.co/papers?q=vision-language%20model) 中准确捕捉文档元素的内容、结构和空间位置。SmolDocling 在正确重现文档特征方面表现出强大的性能,包括代码片段 (https://huggingface.co/papers?q=code%20listings)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations)、图表 (https://huggingface.co/papers?q=charts)、列表 (https://huggingface.co/papers?q=lists) 等,适用于各种文档类型,包括商务文档、学术论文、技术报告、专利和表格——这极大地超出了通常侧重于科学论文的关注范围。此外,我们贡献了用于图表 (https://huggingface.co/papers?q=charts)、表格 (https://huggingface.co/papers?q=tables)、公式 (https://huggingface.co/papers?q=equations) 和代码识别的全新公开数据集 (https://huggingface.co/papers?q=publicly%20sourced%20datasets)。实验结果表明,SmolDocling 能够与体积大至其 27 倍的其他视觉语言模型 (https://huggingface.co/papers?q=Vision%20Language%20Models) 相竞争,同时大幅降低了计算需求 (https://huggingface.co/papers?q=computational%20requirements)。该模型目前已可用,数据集将于不久后公开。
查看 arXiv 页面 (https://arxiv.org/abs/2503.11576) 查看 PDF (https://arxiv.org/pdf/2503.11576) 项目页面 (https://huggingface.co/ds4sd/SmolDocling-256M-preview) GitHub 59.4k 自动 (https://github.com/docling-project/docling) 添加到收藏集 (https://huggingface.co/login?next=%2Fpapers%2F2503.11576)
在你的代理中获取此论文:
hf papers read 2503.11576
没有最新的 CLI?curl -LsSf https://hf.co/cli/install.sh | bash
引用此论文的模型 16
docling-project/SmolDocling-256M-preview 图像-文本到文本 • 更新于 2025 年 9 月 17 日 • 29.8k • 1.61k (https://huggingface.co/docling-project/SmolDocling-256M-preview)
ibm-granite/granite-docling-258M 图像-文本到文本 • 0.3B • 更新于 2025 年 9 月 23 日 • 283k • 1.17k (https://huggingface.co/ibm-granite/granite-docling-258M)
docling-project/CodeFormulaV2 0.3B • 更新于 2025 年 8 月 11 日 • 68.4k • 4 (https://huggingface.co/docling-project/CodeFormulaV2)
prithivMLmods/granite-docling-258M-f32-GGUF 图像-文本到文本 • 0.2B • 更新于 2025 年 11 月 12 日 • 184 • 3 (https://huggingface.co/prithivMLmods/granite-docling-258M-f32-GGUF)
浏览引用此论文的 16 个模型 (https://huggingface.co/models?other=arxiv:2503.11576)
引用此论文的数据集 7
mnezama/SynthCodeNet 查看器 • 更新于 1 月 28 日 • 9.33M • 5.04k (https://huggingface.co/datasets/mnezama/SynthCodeNet)
docling-project/SynthCodeNet 查看器 • 更新于 2025 年 7 月 16 日 • 9.33M • 3.45k • 13 (https://huggingface.co/datasets/docling-project/SynthCodeNet)
HuggingFaceM4/DoclingMatix 查看器 • 更新于 2025 年 7 月 31 日 • 1.27M • 1.15k • 51 (https://huggingface.co/datasets/HuggingFaceM4/DoclingMatix)
docling-project/SynthFormulaNet 查看器 • 更新于 2025 年 7 月 31 日 • 6.45M • 967 • 17 (https://huggingface.co/datasets/docling-project/SynthFormulaNet)
浏览引用此论文的 7 个数据集 (https://huggingface.co/datasets?other=arxiv:2503.11576)
引用此论文的 Space 24
包含此论文的收藏集 45
浏览包含此论文的 45 个收藏集 (https://huggingface.co/collections?paper=2503.11576)
相似文章
dots.ocr:单个视觉语言模型中的多语言文档布局解析
本文介绍了 dots.ocr,一个统一的视觉语言模型,它联合学习布局检测、文本识别和关系理解,用于多语言文档布局解析。它在 OmniDocBench 上取得了最先进的结果,并引入了覆盖 126 种语言的 XDocParse 基准。
@techNmak:1.7B 参数轻量 VLM,在 OmniDocBench 上碾压巨头的 OCR 新王者
仅 1.7B 参数的多语言文档解析器 dots.ocr,用轻量体积实现 SOTA,证明文档理解无需巨无霸模型。
PaddleOCR-VL:通过 0.9B 超紧凑视觉语言模型提升多语言文档解析能力
PaddleOCR-VL 是一个紧凑的 0.9B 视觉语言模型,通过集成 NaViT 风格的动态分辨率与 ERNIE 语言模型,在多语言文档解析和元素识别方面实现了最先进的性能。
MinerU2.5:一种用于高效高分辨率文档解析的解耦视觉-语言模型
MinerU2.5 是一个拥有 12 亿参数的视觉-语言模型,通过采用由粗到细的解析策略,在保持高计算效率的同时实现了最先进的文档解析准确率。
@oliviscusAI: 您现在可以用一个 17 亿参数的模型解析任何文档,它就是 dots-ocr。一个处理文本、表格等的系统。
本文介绍了 dots-ocr,这是一个拥有 17 亿参数的模型,能够在超过 100 种语言中解析文档中的文本、表格、公式和图像,而无需单独的 OCR 处理流程。